摘自《科学美国人》中文版2003.7
网络有随机网络和无尺度网络,许多网络包括因特网"人类社会和人体细胞代谢网络等,都是无尺度网络。研究无尺度网络,对于防备黑客攻击、防治流行病和开发新药等,都具有重要的意义。
(原文:Scale-Free Networks, pp50-59, May2003) 撰文/Albert-Laszlo Barabasi, Eeic Bonabeau
作者介绍 Albert-Laszlo Barabasi和Eric Bonabeau研究了从因特网到昆虫群落等一系列复杂系统的行为和特性。Barabasi是美国圣母大学的霍夫曼物理学教授。并在校内指导对复杂网络的研究,他著有《连结:网络新科学》一书。Bonabeau为美国麻省剑桥咨询公司"伊可系统"的首席科学家,专门运用复杂科学方面的工具来开发商业机会。他与别人合作撰写了《虫群智慧:从自然系统到人工系统》一书。这是他在本刊上第二次发表文章。
|
如图所示,因特网是一个无尺度网络,其中某些站点似乎与无数的其他站点相连结 (参见右图的星爆形结构细节)。本图绘制于2003年2月6日,描绘了从某一测试站点到其他约10万个站点的最短连结路径。图中以相同的颜色来表示相类似的站点。
大脑,是由轴突相连结的神经细胞网络,而细胞本身,又是由生化反应相连结的分子网络。社会也是一个网络,它由友情、家庭和职业关系彼此连结。在更大的尺度上,食物链和生态系统可以看作由物种所构成的网络。科技领域的网络更是随处可见:因特网、电力网和运输系统都是实例。就连在文章中我们用以向你传递思想的语言,也是一种藉由语法相互串连在一起的文字网络。
尽管网络是如此重要和普遍,但科学家对它的结构和属性却知之不多。在复杂的基因网络中,故障节点是如何相互作用而引发癌症的?在特定的社会和通信系统中,疾病和电脑病毒如何快速传播而导致流行?某些网络即便大部分节点失效,还能维持运行,原因何在?最近的研究开始找到这些问题的答案。过去的几年中,不同领域的研究者发现,很多网络都是由少数一些具有众多连结的节点所支配的,包括万维网、细胞代谢系统,以及好莱坞的演员网络在内。包含这种重要节点(或称集散节点)的网络,我们通常称之为"无尺度"(scale free)网络。在无尺度网络中,有些集散节点甚至具有数不清的连结,而且不存在代表性的节点。这种网络还具有可预期的行为特性:例如对意外故障具有惊人的承受力,但面对协同式攻击时则很脆弱。
这些发现极大地改变了我们对复杂外部世界的认识。集散节点的存在,让我们认识到了以前的网络理论尚未涉及的问题:各种复杂系统具有相同的严格结构,都受制于某些基本的法则,这些法则似乎可同等地适用于细胞、计算机、语言和社会。更进一步,认识这些法则,会帮助我们解决一系列重要问题,包括开发更好的药物、防止黑客侵人互联网、阻止致命流行病的传播,等等。
概述 /无尺度网络的特性 · 很多复杂系统拥有共同的重要特性:大部分节点只有少数几个连结,而某些节点却拥有与其他节点的大量连结。这些具有大量连结的节点称为“集散节点”,所拥有的连结可能高达数百、数千甚至数百万。由此看来,这一特性似乎能说明网络是无尺度的。 · 无尺度网络具有某些重要特性。例如它们都可以承受意外的故障,但面对协同式攻击却很脆弱。 · 了解这些特性,可能导致许多领域出现新的应用。例如,电脑科学家可能据此设计出更有效的策略,以保护因特网免受电脑病毒的侵害。
|
无尺度网络
在过去40多年里,科学家惯于将所有复杂网络看作是随机网络。这一思想源于两位匈牙利数学家的研究,他们是卓越的Erdos以及他的密切合作者Renyi。1959年,为了描述通信和生命科学中的网络,Erdos和Renyi提出,通过在网络节点间随机地布置连结,就可以有效地模拟出这类系统。这种方法及相关定理的简明扼要,导致了图论的复兴,数学界也因此出现了研究随机网络的新领域。
随机网络理论有一项重要预测:尽管连结是随机安置的,但由此形成的网络却是高度民主的,也就是说,绝大部分节点的连结数目会大致相同。实际上,随机网络中节点的分布方式将遵循钟形的泊松分布。连接数目比平均数高许多或低许多的节点,都十分罕见。有时随机网络也称作指数网络,因为一个节点连接k个其他节点的概率,会随着k值的增大而呈指数递减。 因此当1998年,我们与美国圣母大学的郑夏雄及Albert合作,开展一个描绘万维网的项目时,我们满以为会发现一个随机网络。原因如下:人们会根据自己的兴趣,来决定将网络文件连结到哪些网站,而个人兴趣是多种多样的,可选择的网页数量也极其庞大,因而最终的连结模式将呈现出相当随机的结果。 然而,实测结果却推翻了这个预测。在这个项目中,我们设计了一个软件,可从一个网页跳转到另一个,尽可能地收集网上的所有连结。虽然这个虚拟机器人仅仅探索了整个万维网的极小一部分,但它组合出来的图景。却揭示了令人惊异的事实:基本上,万维网是由少数高连结性的页面串连起来的,80%以上页面的连结数不到4个。然而只占节点总数不到万分之一的极少数节点,却有1000个以上的连结(一项后续的网络调查显示,有一份文件已经被超过200万的其他网页所连结!)。 我们在计算恰好拥有k个连结的万维网页面的数目时,发现网页的连结分布遵循所谓的"幂次定律":任何节点与其他k个节点相连结的概率,与l/k成正比。对于流入的连结而言,n值接近于2,这也就是说,流入连接数只有某站点一半的站点,在网中的数量却有该站点的4倍之多。幂次定律和表征随机网络的钟形分布大相径庭。具体来说,幂次定律不像钟形曲线那样具有一个峰值,而是由连续递减的函数来描述。如果用双对数坐标系来描述幂次定律,得到的是一条直线[见下图随机网络vs无尺度网络]。与随机网络中连结的民主分布不同,幂次定律所描述的,是由少数集散节点(如Yahoo和Google)所主控的系统。
随机网络中绝对不可能出现集散节点。当我们开始描绘万维网时,原本预期节点会像人类的身高一样遵循钟形分布,但结果却发现有些节点不能如此解释。我们就像突然发现了很多身高百尺的巨人一样,大吃了一惊。因此,我们想出了"无尺度"这样的用语。
无尺度网络哪里?
过去几年中,研究者在很多不同的系统中都发现了无尺度结构。我们研究万维网的目标是以超连结彼此串连的虚拟网页网络。相比之下,美国加州大学河滨分校的Faloutsos、加拿大多伦多大学的Faloutsos以及美国卡耐基梅隆大学的Faloutsos则是分析因特网的物理结构。这三位电脑科学家兄弟研究了以光纤或其他通信线路连接的路由器,他们发现,这个实体网络的拓扑结构也是无尺性的。
研究人员还发现,某些社会网络也是无尺度的。例如,美国波士顿大学和瑞典斯德哥尔摩大学的科学家的共同研究显示,瑞典民众的性关系网络也遵循幂次定律:尽管大部分人终其一生只有少数几个性伴侣,但有少数人(集散节点)的性伴侣多达数百人。德国基尔大学的Bornholdt领导的一项研究表明,电子邮件所连结的人际网络,也可能是无尺度的。渡士顿大学的Redner则证实,由科学论文之间引用关系所连结的网络,同样也遵循幂次定律。美国密歇根大学安娜堡分校的Newman研究了包括物理和计算机等一些学科内科学家之间的合作关系网络,他发现这些网络同样也是无尺度的,这也印证了我们针对数学家和神经科学家所做的研究。(有趣的是,在数学界,Erdos本人就是最大的集散节点之一,他写的论文超过1400篇,其中共同作者不下500人。) 无尺度网络同样也出现在商业领域。美国斯坦福大学的W·Powell、加州大学lrvine分校的R·White、亚利桑那大学的W·Koput以及密歇根大学的Smith,共同研究了美国生物技术产业联盟网络的形成。发现存在特定的集散节点:Gerlzyme、Chiron和Genentech等公司,与其他公司相比,拥有的合作关系数量就多得不成比例。意大利的研究者对这种类型的网络进行了更深入的研究。利用意大利锡耶纳大学的"制药工业数据库"所提供的数据(该数据库目前包括超过7200个组织之间所签定的约20100个研发协议),研究人员发现,Powell等人所发现的那些集散节点,实际上也属于某个无尺度网络。 就连好莱坞演员网络也是无尺度的。这个网络因"六度凯文贝肯"的游戏而变得众所皆知。游戏玩家通过共同出演的电影,尽量让特定的演员与凯文贝肯产生关联。定量分析显示,这个网络也是由某些集散节点所支配的。具体来说,就是大部分演员只与为数不多的其他几个人相连结,而少数演员所拥有的连结数却高达数千个,其申包括Rod Steiger和Donald Pleasence。顺便说一下,在演员连结数的排行榜上,凯文贝肯自己只排在第876位。 重新回到严肃的话题,无尺度网络也出现在生物学领城。我们与美国西北大学的细胞生物学家Oltvai一道,发现古菌域、细菌域和真核生物三大生物领域的43种不同生物里,都存在无尺度的细胞代谢网络结构。在这些网络里,细胞通过分解复杂分子来燃烧食物并释放能量。每个特定的分子就是一个节点,而节点之间的连结则是生化反应。我们发现,大部分的分子只参加一种或两种反应,但是有少数分子(集散节点)会参与大部分的反应,比如水和三磷酸腺苷。 我们还发现,细胞中蛋白质的交互网络也是无尺度的。在这种网络中,如果两种蛋白质能相互反应,就认为是彼此"连结"的。我们在研究酵母这种最简单的真核细胞时,在它的数千个蛋白质之间找到了一种无尺度的网络拓扑结构:大部分蛋白质只与其他一、两种蛋白质发生相互作用,但有几种蛋白质分子却能与大量的其他蛋白质相结合。我们在另一种与酵母迥然不同的简单细菌——幽门螺杆菌中,也发现了类似的蛋白质交互作用网络。 事实上。科学家研究的网络越多,发现的无尺度结构也越多。这些发现引发了一个重要的问题:为什么像细胞和因特网这样本质上不同的系统,却具有相同的结构并遵从相同的规律?这些不同的网络不仅都是无尺度的,而且还有着一个有趣的共同点:由于某些未知的原因,幂次定律中kn项中的n值,通常介于2-3之间。
无尺度网络的例子:
网络 |
节点 |
连接 |
组织代谢 |
参与消化食物以释放能量的分子 |
参与相同的生化反应 |
好莱坞 |
演员 |
出演同一部电影 |
因特网 |
路由器 |
光纤及其它物理连接 |
蛋白质调控网络 |
协助调控细胞活动的蛋白质 |
蛋白质之间的相互作用 |
研究合作 |
科学家 |
合作撰写论文 |
性关系 |
人 |
性接触 |
万维网 |
网页 |
连接地址 |
集散节点的马太效应
一个更为基本的问题也许是,为什么随机网络理论不能解释集散节点的存在?我们进一步考察了Erdos和Renyi的研究,发现这里面存在两个原因。
在建立模型的时候,Erdos和Renyi曾假设,他们在安置连结之前能够得到所有节点的清单。而事实上,万维网的页面数量绝对不是恒定的。1990年整个万维网只有一个网页,而到今天它的网页数已经超过了30亿。大部分网络也都具有类似的发展过程。1890年好莱坞只有屈指可数的几位演员,但随着越来越多的人加入这个行业,新人与之演员建立联系,如今这个网络已经超过了50万人。大约30年前,整个因特网只有几个路由器,随着新的路由器与网络原有的路由器相连结,如今路由器的数量已经高达百万。由于现实中的网络具有不断成长的本性,所以老节点获得连结的机会就比较高。
我与阿Albert一道,进行了计算机模拟和计算,结果显示,具有优先连接的特性并且持续成长的网络,确实会发展成无尺度网络,并且节点的分布也遵循幂次定律,虽然这个理论模型过于简化,且需要根据具体情况加以调整,但还是对现实世界中无尺度网络的普遍存在提供了解释。
成长性和优先连接还能够解释生物系统中为什么会出现无尺度网络。例如,美国墨西哥大学的Wagner和英国牛津布鲁克斯大学的A·Fell就发现,大肠杆菌代谢网络中连结性较高的几种分子,一般具有更为久远的进化史:有些甚至被认为是所谓的RNA世界(DNA出现之前的进化阶段)的遗物,还有的则是最古老的代谢路径的一部分, 令人感兴趣的是,优先连结的机制常常是线性的。换句话说,如果一个现存节点的连结数是其相邻节点连结数的两倍,那么新节点与它连结的可能性,也是与邻近节点连结可能性的两倍。美国波士顿大学的Render及同事研究了不同类型的优先连结,他们发现。如果这种机制运行得比线性更快(例如,一个节点的连结数是另一个的两倍,而新节点连接到前者的可能性却是后者的4倍),那就容易出现一个攫取最多连结的集散节点,在这种"赢者通吃"的情况下,网络最终演变为拥有一个中心集散节点的星型拓扑结构。无尺度网络的 "软肋"
人们对电力网络和通信网络的依赖程度日益增高,凸现了一个广受关注的问题:这些网络到底有多可靠?好消息是复杂网络对意外故障具有很强的承受能力。实际上虽然每时每刻网络上都有数百个路由器失效,但因特网却很少因此受到大的影响。生命系统同样也具有这种强韧性:虽然细抱内存在诸如突变和蛋白质出错等数以千计的错误,但人体却极少因此发生严重的后果,这种强韧性的来源是什么呢?
直觉告诉我们,如果大部分节点发生瘫痪,将不可避免地导致网络的分裂。对随机网络而言,这是绝对正确的:随机网络中若有较大部分的节点被去除。网络必然溃散成彼此无法通讯的小型孤岛:不过无尺度网络的模拟结果,则展现了全然不同的情况:即使从因特网路由器中随机选择的失效节点比例高达80%,剩余的路由器还是能组成一个完整的集群并保证任意两个节点间存在通路。要扰乱细抱内的蛋白质交互网络也同样困难:我们的测量显示,即使在细胞内随机制造较高比例的突变,那些没有改变的蛋白质还是会正常地继续合作。 总的来说,无尺度网络对意外故障具有惊人的强韧性,这一特性本质上源于这些网络的非同质拓扑结构。随机去除的方式所破坏的主要是那些不重要的节点,因为它们的数目远大于集散节点。与那些几乎连结所有节点的集散节点相此。那些不重要的节点只拥有少量的连结。因而去除它们不会对网络拓扑结构产生重大的影响。但是,对集散节点的依赖,也带来了一个严重问题:面对蓄意攻击时,网络可能不堪一击。通过一系列的模拟,我们发现,只要去除少数几个主要集散节点,就可导致因特网溃散成孤立无援的小群路由器。类似地,对酵母的实验也显示,去除那些高连结性的蛋白质,比去除其他节点更容易导致酵母菌死亡。这些集散节点是决定性的,一旦发生使它们无法运作的突变,极有可能会导致整个细胞死亡。 对集散节点的依赖,视系统的不同,既有利也有弊。对因恃网和细胞而言,能够应付随机出现的意外故障,当然是个大优点。此外,细胞对集散节点的依赖,也给药物研究者提供了新的方法:有可能找到这样的药物,能针对性地攻击细胞或者细菌的集散节点,以便杀死它们而又不会影响健康的组织。不利的情况也有:少数消息灵通的黑客只要攻击一些集散节点,就足以搞垮整个通信基础网络,这正是人们关心的焦点。 无尺度网络的这一致命缺陷,引发了这样一个问题:到底有多少集散节点是必不可少的?最近的研究表明,总的来说,只要有5-10%的集散节点同时失效,就足以搞垮系统。我们对因特网的实验显示,一次有组织的协同攻击,只要去除掉若干个集散节点(先去除最大的,再去除次大的,依次类推),就足以造成重大破坏。因此,为了避免因恶意攻击带来网络的大规模破坏,最有效的办法就是保护好集散节点。不过,要想知道特定的网络系统到底有多容易被破坏掉,还有待进一步的研究。例如,如果Genzyme和Genentech这样的集散节点一起失去作用,是不是美国的生物产业会因此而崩溃呢?
"无尺度"流行病
对无尺度网络的认识,也可用于理解电脑病毒、疾病和时尚的传播。过去数十年间,无论是流行病学家还是市场营销专家,都在大力研究扩散理论。研究结果指出,一种传染病要在人群中传播开来,必须要跨越某一临界值。任何病毒、疾病或时尚的感染力一旦低于这个临界值,将不可避免地自行消亡;而一旦超过临界值,就会呈指数增长,最终传遍整个系统。
然而,西班牙巴塞罗那加泰罗尼亚理工大学的Pastor-satorras和意大利特里雅斯特国际理论物理研究中心的Vespigniani,最近却得出了一个令人不安的结论。他们发现,在无尺度网络里,不存在上面所说的临界值。这就意味着,所有病毒都可在网络中传播和长期存在,即便是那些传染力很低的病毒也是如此。这一结论解释了"爱虫"现象,(爱虫是有史以来最具破坏力的电脑病毒,2000年导致了英国议会电子邮件系统的瘫痪),这个病毒原本理当绝迹的,但过了一年之后,却仍然是最普遍的病毒之一。 因为集散节点会连结到很多其他节点、所以任何一个遭受病毒入侵的节点,都将连带感染至少一个集散节点。而一旦有集散节点被感染,它就会把病毒传播给众多的其他节点,当中也包括其他的集散节点,这就导致了病毒在整个网络里的传播。 社会网络在许多情况下也是无尺度的。生物病毒在社会网络里传播的现象,提醒科学家要再好好研究一下那些探讨网络拓扑结构和流行病之间互动关系的文献。特别是对于无尺度网络而言,公共卫生中传统的随机接种疫苗的方式可能很容易失效,因为它极有可能遗漏了某些集散节点。事实上,为了保证集散节点不被遗漏,几乎人人都得接种疫苗。例如,90%的人口都必须接种麻疹疫苗,才能够有效防疫。 如果医生放弃随机接种疫苗的方法,而把目标转向集散节点,也即那些最易感染的个人,情况会如何呢?对无尺度网络的研究指出,只要其中包含集散节点,即使接种疫苗的人口只占一小部分,这种方法仍有可能会奏效。 然而,要找出社会网络中的集散节点,比其他系统要难得多。尽管如此,以色列巴伊兰大学的Cohen和HavIin,以及美国克拉克森大学的ben-Avraham已提出了一个聪明的解决办法:任意选择一群人,请他们随机指定一位相识者,然后对这一小部分被指定的人接种疫苗。这一程序很可能会把集散节点圈入其中,理由是,集散节点与许多人都有连结,而连结性高的人更容易被指定。不过这一方法也存在一些道德上的困境。例如,即使识别出了集散节点,是否他们就有优先接种疫苗和接受治疗的权力呢?尽管存在这些问题,但对于那些无力照顾到全民的国家和地区而言,在分配艾滋病或天花疫苗时,这可能是最实用的办法。 出于各种商业目的,有时人们需要引发流行而不是遏制流行。例如所谓的病毒式行销,通常试图把集散节点当做行销的目标,以加快产品为用户所接受的速度。显然,这种策略已不是什么新鲜事了。早在1950年代,一项由制药业巨头辉瑞公司出资进行的研究发现,医生圈子中开始采用新药的速度,与集散节点有很大的关系。实际上,市场推广人员早就凭直觉知道,某些特定的消费者在促进新产品或新时尚方面,就是比其他的消费者管用得多。新近的无尺度网络研究,只是为更严谨地探讨这些现象,提供了一个科学的框架和数学工具。从理论到应用之路
虽然无尺度网络很普遍,但仍有许多明显的例外。例如,美国的高速公路系统和电力网络就不是无尺度网络。材料科学中的大部分网络也不是。以晶格为例,各原子部和同样数目的邻近原子相连结。对于其他的一些网络,我们还难以得出定论。如反映捕食者与猎物关系的食物链网络,由于网络规模太小,科学家还难以断定它的型态。此外,由于缺乏大规模的人脑内部连结图,科学家也无法得知这一重要网络的本质。
确定某一网络是否无尺度,对了解该网络的行为特性是相当重要的,但是其他的重要指标也值得注意。其中参数之一就是网络的直径,或称为 "路径长度"。它指的是从一节点到另外的任意节点所需经过的最大的中间段数 [见下框文]。
这毕竟是一个小世界
|
|
1967年,美国哈佛大学的社会心理学家Milgram寄出了数百封信给内布拉斯加州的公众,并请求他们把信转交给某位相识的人,条件是对方必须是最有可能把信再转给波士顿一位股票经纪人手里的人。为了跟踪每一条不同的传送路径,Milgram请求参与者在转寄信件的同时,也给他寄一张明信片。结果,Milgram发现,信件到达最终收信人之前平均要经过6个人之手。人与人之间存在所谓 "六度分离"的说法就来源于这个实验。
|
|
|
上面我们的简单计算有个前提,那就是你的熟人都是彼此不相识的。但是在实际生活中,他们中有许多人是互相认识的。事实上,人类社会可以区分为一个个具有相似特质(例如收入或者兴趣)的小集群。自从1970年代Granovetter在哈佛大学读研究生时首开对此问题的研究之后,已有大量的社会心理学文献对这种社会特质进行了探讨。集群现象在其他多种网络中也曾遍存在。1998年。美国康奈尔大学的Watts和Strogatz发现,在多种不同类型的系统中,都存在相当明显的集群现象,其中包括美国电力网和线虫的神经网络等。
|
最后,具备网络一般拓扑结构的知识,只能了解系统行为与全面特性的一部分。例如,在美国高速公路网这样的系统中,为其一指定节点添加一条连结的成本是极其昂贵的,这就阻止了它向无尺度方向发展。在食物链中,某些猎物比其他猎物更容易被猎取,这对整个生态系统具有深刻的影响。在社会网络中,家庭成员之间的关系比点头之交者要密切得多,因而疾病 (和信息)就更容易在这种连结中散播。对于运输、传送和通信系统 (如因恃网)而言,主要的问题是某些特定连结的拥堵:其一特定连结的流量过大,将导致该连结中断,而其他连结接手处理过剩流量,也可能会跟着失效。而且节点本身可能不具有同质性,如某些网页可能很有吸引力,那它就会严重影响优先连结的机制。
由于上述的种种原因,科学家可以说才刚开始了解无尺度网络的行为。例如,仅仅对集散节点免疫,也许并不足以阻止疾病的蔓延;更好的办法是,不仅仅考虑某人的连结数目,还要考虑这些连结的频度和接触时间。 基本上,我们在开始研究复杂网络时,会先忽略个别连结和节点的细节。通过远离这些细节,我们才能找出这些看似无法理解的系统背后的组织原则。我们的一些研究成果,至少已让研究者重新审视许多基本的假设。例如,研究者过去都把因特网视作随机网络,用来测试新的路由协议对系统塞车现象的影响。现在我们知道,因特网其实是一个无尺度网络,它的行为特性与随机网络有天壤之别。因此,像W·Byers和他在波士顿大学的同事们这样的研究者,正在修改因特网的电脑模拟模型。了解无尺度网络的特性,对其他许多领域都是有价值的,特别是当我们超越网络拓扑结构,进一步探讨复杂系统内部深奥得难以理解的动力学的时候。 无尺度网络的潜在意义
运算 · 具有无尺度结构的计算机网络,例如万维网,对意外故障具有极强的承受能力,但面对蓄意的攻击和破坏却可能不堪一击。 · 要想在因特网上彻底清除病毒,即使是已知的病毒,也是不可能的。 医学 · 对天花等严重疾病的疫苗接种,如果能针对集散节点(即那些与很多人具有连结关系的人)进行,也许可以达到最大的效果,但要找出属于集散节点的人非常困难。 · 弄清人体细胞内的网络结构,将有助于研究者发现和控制药物的副作用。此外,若能识别出那些与特定疾病有关的集散点分子,就可开发只针对这些集散节点作用的新药物。 商业 · 了解公司、产业与经济之间的连结方式,有助于研究人员监控和预防大规模的经济衰退。 · 研究流行病在无尺度网络中的传播现象,为市场人员传播他们的新产品提供了新方法。 |
[何毓嵩/译 曾少立/校]