[观点] 张江:流网络——研究复杂系统的新视角

来源:作者:张江 发布时间:2014-10-30 浏览次数:549

        2014年10月15日,以“阿里与复杂·前沿与应用”为主题的第一届阿里巴巴复杂科学前沿论坛在杭州阿里巴巴西溪园区隆重开幕。以下是北京师范大学系统科学学院副教授张江的发言。
 
        大家下午好,今天我讲的是流网络。主要涉及到以下几个方面,首先我介绍一下什么叫做流网络;第二个我将展示在流网络之中存在的模式;第三我们做一个简单展望,希望通过流网络数据能透视出来一些更加普适的规律。
 
        早期的复杂性研究一直关注系统的开放性。著名的物理学家薛定鄂在1943年的时候就曾经写了一本书:《什么是生命》,提出生命的本质一方面是为了自我复制传递信息,另一方面就是通过新陈代谢不断地吸收负熵流来维持自己的有序性。著名的物理学家普利高津也曾经提出耗散结构论。现实中的很多复杂系统相当于是流质,因此都可以用流网络模型来描述:系统仿佛一个水缸,水源源不断地流进来流出去形成了新陈代谢,与此同时水也会驻留在水缸内部形成质量。通常我们认为这个水缸处于稳衡态,也就是它的流入基本等于流出。这样我们可以关注两个量,一个是流入量F,还有一个是总存量M。进一步如果我们透视这样一个水缸的话,它的内部可以表示成这样一个流网络。这种流网络是一种加权有向网,而且有源还有汇。
 
        让我们看一些实际流网络的例子,首先河流网络是一个流网络,这个是美国亚马逊流域的流网络;其次我们人体中的血液网络也是流网络,它输送着营养物质;同样道理,植物中的茎脉、细胞中的微管网络、城市的交通流,都是流网络。前面的这些流网络都是嵌入到一个欧式空间中的,但是还有很多的流网络不存在这种空间,比如说食物网,这里面的节点相当于一个物种,物种之间捕食关系构成能量的流动。再比如说经济社会系统里面,货币起到了类似于能量流的作用。很有意思的是,著名的经济学家菲利普斯(Philips,因发现了失业率与通货膨胀率的菲利普斯曲线而得名)曾在上大学的时候制造过一个好玩的机器:Moniac,他希望利用水流来模拟货币在社会各个部门之间的流动。
 
        另外还有一种流动非常普遍,这就是常说的信息流,然而信息流和我刚才讲的能量流、物质流、货币流最大的不同在于信息是不断地增殖的,你每次转发一条信息就是一次增殖。这个时候,我们可以提出来一个新的视角去看待信息系统。传统的信息流网络把人看成是结点,信息传递看成流动,实际上我们可以把它倒过来,我们把每个信息,比如说一个网页、微博看成一个节点,于是一个人连续的访问网页或微博就构成了流动,于是人就成为了网络上的粒子。这个流网络便与能量流、物质流一样,也近似具有守恒性,我们把这种网络称为点击流网络。
 
        这样,我们可以把大量不同的流系统抽象成统一的流网络,那么我们能够得到哪些更有意思的信息呢?首先我们看到这些流网络有一些共性,比如说它的守恒性:任意一个节点的总流入都等于总流出。另外一个性质就是所有这些流网络都具有一个非常大的耗散比例,耗散就是从每个结点到汇的流动。在很多系统里面都有耗散流,比如说食物网,物种大量的死亡,这就是一种耗散;点击流网络中一个用户从一个网站或者微博退出网络也是耗散,通过比较不同的流网络,我们可以发现耗散占每个节点的总流量的比例是相当大的,基本上80%90%以上。
 
        除此之外流网络还有一些定量的普适规律。生物学家Kleiber对各个生物体的新陈代谢做了研究,发现对于空间流网络,比如说二维空间中的河流网以及三维空间中的血液流网络,存在着普适的Kleiber定律:系统的总流入与总存量存在着d/(d+1)的幂律关系,其中d为空间维数。我们感兴趣的是没有嵌入空间的流网络是否也存在着流入与存量之间的Kleiber定律? 我们从点击流入手验证这个事实,研究了三百万个百度贴吧的点击流网络。我们把一个贴吧看作一个流网络,其中的每一个帖子看作一个节点,大量用户在上面的点击跳转看作流动。这样的话,单位时间内访问这个论坛的人数就是入流F,而一个小时内这些用户所产生的点击就是流网络的存储M。我们考察不同小时MF的关系。在图中,每条线就是一个贴吧,我们可以拟合得到一个指数。不同的贴吧的指数有很大的不同,我们认为这个指数可以刻画每个贴吧的黏性程度。指数越大,那么当访客数越大的时候,他们产生的总点击就会增长得越快,每个客户在这个贴吧停留的页面数就越多。对于这30万个贴吧做统计,我们发现那些自组织类型的、吸引人的贴吧指数比较大,所以这个指数很好的刻画了贴吧的黏性。
 
        我们还发现一个很有意思的规律就是耗散定律。让我们比较图中所示的两个流网络,对于第一个网络来说,我们发现大流量节点的耗散率比较大;第二个网络与第一个网络的结构是一样的,但耗散模式不一样:反而是小流量的节点耗散率比较大。通过简单的计算,我们发现,第一个网络的黏性要比第二个网络小。所以,我们发现了一个非常有意思的规律:贴吧的耗散指数和它的黏性存在着负相关关系。这个规律对于其它的点击流网络和更普遍的流网络来说也是存在的。
 
        最后,让我们对流网络的研究做一些展望:如果把网络比喻成河道,流比喻成水:那么河道决定了水的流动;反过来水流又会冲刷河道,二者耦合演化,非常复杂。我们下一个问题就是这样的耦合演化是否存在普适的规律?工程师Bejan曾提出一个猜想:他认为所有的流系统都会朝向使得通过系统的流更加顺畅的模式演化。我们如何通过各种流网络演化的实证数据来验证这一假设呢?
 
        大家知道我们现在进入了一个大数据时代,同时也已经在大数据中发现了一些普适的模式,例如Kleiber定律和耗散律。这就好像当年的开普勒,他通过总结他老师第谷搜集的大量数据而提出了开普勒行星定律。接下来,历史上出现了牛顿,站在了开普勒的肩上创立了牛顿力学。那么,回到现在,复杂系统研究中的牛顿是谁呢?有可能就是在座的某一位。谢谢大家,我的报告到此结束。
 
        关于点击流的详细内容,请参看:http://www.jianshu.com/p/ddc347b0518c