Ngram瀏覽器是一款吸引人的工具,能讓你從跨世紀以來五百萬本書的資料庫中搜尋字詞和想法。Erez Lieberman Aiden和Jean-Baptiste Michel將為我們展示這款工具如何運作,以及一些我們能從這五千億字中學到的一些驚喜發現。
TED - 從五百萬本書學到的事
圖表的 X軸為西元年,Y軸為關鍵字在書中佔所有關鍵字的比例,每張圖表最多可顯示5個關鍵字的曲線。
我試著先用 Apple、Microsoft、Google、IBM和Amazon來測試。Apple 公司是於 1976 成立的,所以在1976以前所佔的0.0002%應該是真正的水果-Apple,之後增加的才是有關Apple 公司訊息。Amazon 於1995年成立,由圖表可知其曲線由真正的亞馬遜河貢獻的不多,在 1999 年後大爆發,目前更超越了大部分公司,這應該和 Amazon 本身就是出版業的領域有關。所以這些曲線僅供參考,還需從中解讀分析。
在古典音樂的領域, 1950年代可能因黑膠唱片的盛行,眾多指揮大師在此黃金時期錄音浩繁,使作曲大師被提及的比例攀升。1960年後可能其他現代關鍵字詞增多了,稀釋了眾大師的比例。值得觀察的是,在近代, Bach 被重視的程度凌駕貝多芬。
Ngram 也可用簡體中文作為搜尋字詞。由下圖中可以知道孔子在那些年代較被關心尊重。1910-1920 因為全盤西化的思潮,知識分子不屑稱『孔子』其名。『老子』的數據在其中到底多少是真正的思想家老子,『你老子我』很難推測。『墨子』不在關鍵字詞的範圍。
下圖是中國各大城市的曲線,又要如何解讀呢?
延伸閱讀:
沒有留言:
張貼留言