嗯......這本書真的叫這個名字,中文跟英文都是。不得不承認我原本因為這個名字不想買它,感覺就很雷XD。不過,簡略翻過之後還是買了,看完之後評價算是中等偏上。
整本書的主軸圍繞著所謂的「巨量資料」,顧名思義就是非常大量的資料,內容主要就是以實例來講述我們如何以跟以往不同的思維跟方式來運用巨量資料。其中的例子,我看Google跟Amazon就佔了一半吧XD比較多人知道且運用巨量資料的例子大概是reCAPTCHA了,把驗證碼跟古籍數位化連接起來,整個就是很有創意跟遠見的想法。
而所謂處理巨量資料的思維講穿了也就兩點:
1. 樣本即為主體 → 克服了過去資料收集不易的統計盲點。
2. 相關性 >> 因果關係 → 能解決問題勝過費時費力找到原因。
這並不是說因果關係得被捨棄,而是在巨量資料的前提下,找出相關性遠比找出因果關係來的有效率。
最後引用書中一段話作結:
「雖然因果關係常常難以判定,甚至可能造成誤導,但人們一向習慣試著找出各種事物的原因。但在巨量資料的世界中,我們不一定要堅守著因果關係;相反的,是要從資料中找出事物的模式,以及彼此的相關性,再從中取得創新而寶貴的見解。從事物彼此的相關性當中,我們可能無法了解某件事『為何如此』,但卻能知道事情『正是如此』。」
沒有留言:
張貼留言