2012年4月15日 星期日

從五百萬本書學到的事 - Google的Ngram瀏覽器

Google實驗室有很多奇招怪想,有些成為正式產品(如 Gmail 等),更多是無疾而終。自從Google 集中心力整合 Google+後,Google實驗室就關閉了不少嘗試,但有一個 Ngram瀏覽器 至今還在運行,可能是有遠景,花費的資源也不多。
Ngram瀏覽器是一款吸引人的工具,能讓你從跨世紀以來五百萬本書的資料庫中搜尋字詞和想法。Erez Lieberman Aiden和Jean-Baptiste Michel將為我們展示這款工具如何運作,以及一些我們能從這五千億字中學到的一些驚喜發現。


TED - 從五百萬本書學到的事


圖表的 X軸為西元年,Y軸為關鍵字在書中佔所有關鍵字的比例,每張圖表最多可顯示5個關鍵字的曲線。
 我試著先用 Apple、Microsoft、Google、IBM和Amazon來測試。Apple 公司是於 1976 成立的,所以在1976以前所佔的0.0002%應該是真正的水果-Apple,之後增加的才是有關Apple 公司訊息。Amazon 於1995年成立,由圖表可知其曲線由真正的亞馬遜河貢獻的不多,在 1999 年後大爆發,目前更超越了大部分公司,這應該和 Amazon 本身就是出版業的領域有關。所以這些曲線僅供參考,還需從中解讀分析。


在古典音樂的領域, 1950年代可能因黑膠唱片的盛行,眾多指揮大師在此黃金時期錄音浩繁,使作曲大師被提及的比例攀升。1960年後可能其他現代關鍵字詞增多了,稀釋了眾大師的比例。值得觀察的是,在近代, Bach 被重視的程度凌駕貝多芬。


Ngram 也可用簡體中文作為搜尋字詞。由下圖中可以知道孔子在那些年代較被關心尊重。1910-1920 因為全盤西化的思潮,知識分子不屑稱『孔子』其名。『老子』的數據在其中到底多少是真正的思想家老子,『你老子我』很難推測。『墨子』不在關鍵字詞的範圍。

 下圖是中國各大城市的曲線,又要如何解讀呢?

延伸閱讀:

沒有留言:

張貼留言