
吉姆·霍恩萨尔:探索你的基因
毫无疑问,我们如今淹没在一片网络信息的海洋中。
谷歌总裁埃里克·施密特(Eric Schmidt)说:“从远古时代到2003年,人类活动总共产生了5艾字节(相当于500亿亿字节)的信息。而现在,我们每两天就要产出这个数量。”
根据Facebook数据,每月通过该网站被分享的网络内容超过300亿条。
Twitter上每天发布超过9,500万条微博。
YouTube用户每分钟上传的视频就够播放超过24小时,每天有超过1亿人次观看。
那么在如此海量的数据面前,要如何来发掘出其中的真知灼见呢?怎么才能调高网络内容的信噪比,获取其中有用的见解和知识呢?
搜索还是发现
只要我们知道要找的是什么,而且正确答案只有一个,那么使用现有的搜索方法就很好办。好比你要搜索1968年棒球世界冠军老虎队的二垒手是谁,答案很清楚:迪克·麦考利夫(Dick McAuliffe)。
但发现比搜索难得多。在你希望发现新内容的时候,你不知道你要找的是什么,而且可能还不止一个“正确”答案。要使用现有的网络搜索工具来寻求有价值的发现,就好比大海捞针,结果将令人非常沮丧。
一个可替代的搜索选择是建立一套具有模式识别功能的系统。该系统将借助专家对某个学科领域深厚翔实的知识功底来进行信息的挖掘。
在这些专家系统的外表之下,隐藏着一个组织信息的结构核心(本体);在核心之上的是属性和资源的命名(相关性分类);基于这些分类再发展出一套稳健的公式或算法,用以从数据中攫取有用的知识和见解。