理论的终结:数据洪流淘汰了科学方法
1
三十年前统计学家乔治·博克斯(George Box)就已宣布了理论的终结,他是对的。但我们曾选择了什么?我们选择了模型(models),从宇宙学方程到人类行为理论,尽管它们不甚完美,却似乎能够完整地解释我们周遭的世界。直到今天,像谷歌这样在大数据时代成长起来的公司,不必再勉为其难地使用错误的模型。事实上,他们根本不需要模型。
六十年前,数字计算机使信息变得可读(readable)。二十年前,互联网让信息变得触手可及。十年前,搜索引擎爬虫(search engine crawlers,按照一定的规则,自动抓取万维网信息的程序或者脚本)把信息变成了一个数据库。现在,谷歌和与之理念相仿的公司正在检视这个历史上最为数字化的时代,将这个庞大的语料库视为人类状况的实验室。它们是PB时代(千万亿字节时代)的孩子。
PB时代是与众不同的,因为“多即不同”【1】。千字节(Kilobytes)存储在软盘上,兆字节(Megabytes)存储在硬盘上,兆兆字节(Terabytes)存储在磁盘阵列中,千兆兆字节(Petabytes)存储在云中。沿着这个序列递进,我们从以文件夹作喻体,到以文件柜作喻体,到以图书馆作喻体——可在PB时代,我们却没有可用的喻体。
在PB级,信息不再限于三维和四维中简单的分类和排序问题,在维度上它是不可统计的。这呼唤一种全然不同的方法,这种方法要求我们放开对于数据的束缚,以使其在整体上变得直观。它要求我们先以数学的方式看待数据,再为它建立一个文本语境。例如,谷歌就用应用数学征服了广告界。它没有假装知道任何有关广告的文化和惯例——它只是假设更好的数据和更好的分析工具将会赢得胜利。是的,谷歌是对的。
谷歌的基础理念是,我们不知道为什么这个网页比那个网页更好。但如果传入链接的统计数字表明说它是好的,那么它就是。整个过程并不需要语义分析或因果分析的介入。这是谷歌可以在不真正“知道”输入语言的情况下进行翻译的原因。(在语料库数据“相同”的情况下,谷歌可以将克林贡语翻译成波斯语,就像将法语翻译成德语一样简单。)这也是它能够在没有前期知识和假设的情况下将广告与内容匹配的原因。
在去年3月举行的欧莱礼新兴技术大会(O’Reilly Emerging Technology Conference)上,谷歌的研究主管彼得·诺维德(Peter Norvig)更新了乔治·博克斯(George Box)的格言,“所有模型都是错误的,丢掉模型,你可以更好地成功。”
2
在这个世界,海量的数据和应用数学取代了其它可用的工具。从语言学到社会学的每一个人类行为理论都已失效。忘记分类学(taxonomy),本体论(ontology)和心理学(psychology)。谁知道人们为什么做他们做的事?关键在于他们就这样做,并且我们可以用前所未有的保真度(fidelity)来追踪和测量它。有了足够的数据,这些数字就足以说明问题。
然而,大目标不是广告,是科学。科学方法建立在可测试的假设之上,而模型大部分是科学家们所思考的。这些关于世界如何运作的理论模型会接受检测,通过实验被证实或证伪。数百年来,科学如此运作着。
科学家被训练去认识相关性不等同于因果关系,不应仅仅根据X和Y的相关性(可能只是巧合)得出结论。相反地,必须了解连接这两者的潜在机制。一旦你拥有了一个模型,你可以放心地放入一整套的数据。没有模型的数据是无意义的噪音。
但面对海量数据,“假设,建立模型,检测”的一系列科学方法正在变得过时。在物理学中,牛顿的模型提供了一个粗略的近似真理(在原子范畴上错误,但仍有用)。一百年前,量子力学提供了一个更好的图景,但量子力学同样是一个模型,因此也是一种对更复杂的现实的刻画。在过去的几十年中,物理学渐渐滑向N维大统一模型的理论猜测(一个缺乏数据的 “美丽故事”),其原因是无从就证伪假设做实验——能量太高,加速器太贵,等等。
生物学的方向也大致如此。孟德尔的“显性”和“隐性”基因模型,比牛顿定律更加简化。但基因—蛋白质相互作用的发现和表观遗传学(epigenetics)的其它研究已经挑战了“基因决定命运”的观点。我们甚至有了环境可以影响可遗传特征的证据,而这曾经被认为是不可能的。
总之,我们对生物学的了解越多,我们就能更深入地在一个成功的模型中理解自己。
3
现在有一个更好的方法。PB允许我们说:“相关性就足够了。”我们可以停止寻找模型。我们可以在不经假设的前提下对数据进行分析。我们可以将数据投入尽可能大的计算集群中,并让统计算法找到科学未能寻找到的模式。
最好的实例是J·克雷格·文特尔(J. Craig Venter)的“鸟枪法”基因测序(shotgun gene sequencing)。通过高速测序仪和超级计算机对统计数据进行统计分析,文特尔先是对单个有机体进行测序,接着对整个生态系统进行测序。2003年,跟随着库克船长的航程,他开始对大量海域进行测序。而在2005年,他开始对空气进行测序。在整个过程中,他发现了数千种以前未知的细菌和其他生命形式。
如果“发现一个新物种”这个词让你想起达尔文和雀鸟素描,那么你或许已经陷入传统的科学方式。文特尔几乎不能告知你关于他所发现的物种的任何事实。他不知道他们的外貌,他们的生活方式,以及关于他们的形态的任何其他方面。他甚至没有他们的完整的基因组。他所拥有的只是一个统计信息——一个独特的序列,与数据库中的任何其他序列不同,这意味着,它必须代表一个新物种。
这些新发现的序列,会与一些我们更了解的物种的序列有相似之处。通过这种方式,文特尔可以对这些生物做出一些猜测——他们以特定的方式将阳光转化为能量,或者他们是一个共同的祖先的后代。然而除此之外,这个“模型”并比谷歌关于你的MySpace主页的模型更好。这只是数据。通过可与谷歌媲美的计算资源进行分析,文特尔对于生物学的贡献远超当代任何人。
这种想法有望成为主流。2008年2月,美国国家科学基金会宣布了Cluster Exploratory(简称CluE)计划,该计划为谷歌和IBM与六所试点大学共同开发的大规模分布式计算平台上运行的研究项目提供资金。该集群将包含1600个处理器,数TB的内存和数百TB的存储空间以及软件,包括IBM的Tivoli和开放源码版本的Google文件系统和 MapReduce 。早期的CluE项目将包括大脑和神经系统的仿真以及介于“湿件”(wetware)【2】和软件之间的其它生物学研究。
学习使用这种规模的“计算机”可能具有挑战性。但是机会是巨大的:海量的数据和统计学工具为理解世界提供了一种全新的方式。相关性取代了因果关系;即使没有自洽的模型、统一的理论或真正的机械论的解释,科学也会进步。
我们没有理由固守过去的理念。是时候提出这个问题了:科学能从谷歌学到什么?
作者: 克里斯·安德森,作家和企业家。前《连线》杂志主编。他先后在乔治华盛顿大学和加州大学伯克利分校学习物理学和新闻学。
注解:
【1】语出著名凝聚态物理学家Philip Anderson1972年的论文 More is Different。这篇论文总结了还原论思想在物理研究中的局限性,认为在不同尺度上的物理定律存在根本的不同, 对此后的凝聚态物理研究提出了全新的见解。
【2】指人的中枢神经系统中和计算机系统中的硬件、软件对应的结构。赛博朋克文化使这个词汇被广泛使用。