发布者认证信息(营业执照和身份证)未完善,请登录后完善信息登录
终于清楚中国人民大学杜小勇:改变思维方式顺应大数据时代_机械电子_资讯_客集网
终于清楚中国人民大学杜小勇:改变思维方式顺应大数据时代

终于清楚中国人民大学杜小勇:改变思维方式顺应大数据时代

作者:kjnews7   2023-01-23 18:55:44  点击:12

详情

中国人民大学信息学院院长、教育部数据工程与知识工程重点实验室主任杜小勇

【报道】7月25日消息,今日,由腾讯互联网与社会研究院主办的“大数据连接的未来”高峰论坛在北京召开。中国人民大学信息学院院长,教育部数据工程与知识工程重点实验室主任杜小勇上台发表题为《大数据思维》的主题演讲。他认为,未来大数据一定会深刻影响我们的生活,但实践方式很难预测。不过,面对互联网大数据,应该主动去改变我们的思维方式,以顺应大数据的到来。(安东)

以下是杜小勇演讲全文:

刚才有一位记者小姑娘问我,这两天BAT企业扎堆搞活动,是不是意味着未来大数据将会深刻影响我们人们的生活,或者以什么样的方式影响。我说影响是一定的,至于实践方式很难预测,不过我说面对着互联网的大数据,面对着我们需要去解决的问题,改变一下我们的思维方式,以顺应大数据的到来,我倒是觉得是切切实实的,刚才几位嘉宾报告也反映了这一点,所以很荣幸今天有机会跟大家分享一下这方面的思考和体会。

一般人用四个V描绘什么是大数据,这是我的理解,大数据是信息获准技术带来的信息爆炸现象,对我们现在的信息的数据、处理、管理带来巨大的挑战,这里面我们特别需要有新的理念、技术、方法对企业进行管理。我们需要什么样的理念来应对我们的大数据?在我们思考问题解决问题的方法上有什么新的特点?我来表达一下我的观点。

我从一个例子开始说起,这是一个航线网络图,我们在旅行的时候,就会在想,我从起点到终点,我选什么样的航班?实际上我们身处北京就会感觉到非常便利,基本上北京到各个城市都有直飞的,但是我们很多在其他地方的朋友就会发现很不方便,要不断选择航线、选择时间,这里面有很多的需求,这个问题怎么应对?我们看如果是传统的模型,我们会把这个问题转换成一个图,起点到终点,这里面可能会有转机,是按代价最优呢,还是按距离最优呢,还是等待时间最优,等等,不管怎么说,都可以用一个图的方式或者规划的方式来代替。

但是这个问题规模很小的时候,当然我们可以用很好的数据解决。但是当这个问题变得规模非常大的时候,比方说我们刚才说的顶点是3K或者5K的时候,我们现有的方法就难以解决了,那么怎么办呢?你可能会想我用更大的机器或者我把这个问题分解,用一些分布式的算法解决它,这个是不是大数据的方法呢?它肯定是大数据的问题,需要用大数据解决,我个人觉得这个不能叫做大数据的方法,如果是大数据的方法,我认为肯定是这样的:我们每一天都在选择航线,这都是人的智慧,他反映到具体的一些航程中来,就像我们有这样一些数据记录下来。这个当然是大数据了。那么我们有没有可能从这些原始的记录里面,我们来获得对于一些航程的设计方案呢?显然是可能的,这种方法我认为就是大数据的方法。

所以我们说,确确实实,我们面对大数据的时候,我们需要新的思维模式,我们可以归纳成很多的方面,因为时间关系,我今天只想对其中的三个方面来展开,第一个我说就是数据的思维,大数据思维第一点就是数据思维,什么是数据思维呢?我们说一切皆数据,数据是对我们客观事物的性质和状态的一种描述,腾讯的QQ数据就反映了我们人在虚拟空间中,实际上也包括了现实空间的一些记录。

比方说脑科学的研究,有很多的数据来支持我们的研究,到底我们是研究机理呢,还是先把这个数据收集起来进行研究呢,显然研究方法是不一样的。《科学》杂志,大家知道,2011年曾经发了一个专刊,其中提了一个口号式的命题,就是数据就是科学,科学就是数据,我认为科学等于数据的观念实际上深刻推动着我们科学研究方法的变化。人文社会科学也是一样的,马克思说人的本质不是单个所固有的抽象物,在其现实性上,是一切社会关系的总和。所以我们只要有记录人的各种社会关系,我们就可以来进行社会科学的研究。

我们看这个Jim Gray博士,他做的几件事情就反映了这样一个方法的变化,其中一个就是数字巡天,这样的话天文爱好者就可以在数据上进行研究,实际上在以前这只是传统上学术团体内部的研究,有了数据以后就发生了很大的变化。他曾经出过一本书,叫做《第四研究范式》,他把这种科学方法作为继科学实验、理论推导和反侦计算的第四种科学研究范式,这里面使得数据本身的价值越来越被我们所认可,所以我们在面对一个社会问题,比方说刚才的马司长说了,我们要科学立法,我们就要想,我们的数据到底在哪里,比方说脑科学的研究,我们是想去部署一些原理性的题目呢,还是先想想清楚,我们如何能够获得脑科学的数据,在这样数据平台上,我们再开展研究。这个我想是非常重要的一件事情。关于第四范式我就不展开说了。

因此第一个方面总结一下的话,就是要拿数据说话,科学等于数据,所以我们在面对我们所要解决的问题时,我们要首先想清楚,我们的数据如何搜集,它在什么地方,我们的飞行工具,我们数据的工具是不是具备了?然后我们再去展开这样范围的一个工作,也许是我们需要改变思维的第一个方面。这是第一个。

第二个方面,把它归纳为互联网思维,大数据不仅仅是互联网,我们有科学的大数据,但是我们都知道,实际上和我们的命题紧密相关的恰恰是互联网所带来的大数据,既然如此,我们都知道,互联网发展从一直到了,很迅速,我们在处理大数据的时候,就应该有互联网的天然基因在这里。

所以我们要想互联网的精髓是什么?我们在思考解决问题的时候,是不是应该更多考虑互联网的精髓?我的理解就是互联网的精髓有这几个方面:开放性,我们需要有开放的思维;关联性,思维之间都存在各种关联,我们需要挖掘其中的数字键的关联;去中心化,它不存在人为的中心,我们需要有平等的思维对待它;尊重个性。这些方面,实际上我们看有的时候我们解决问题的方案,是不是符合互联网精神,我觉得也是我们面向大数据很重要的一个角度。

比方说我们现在高校都以提升人才培养质量为中心的综合教育改革,这里面我们就面临着怎么去解决这样的问题,怎么样利用大数据来解决这样的问题,比方说我负责文科所有学科计算机的基础课程的教学,传统的方法都是采用精品课程,比方说专家主导的方法,什么意思呢?还有是我们选择一些比较好的,把它作为精品课程、或者精品教材,然后组织一些专家去点评,传统上都是这么做的,但是在互联网时代我们是不是有更好的办法呢?我们现在也在探索,比如互动的社区,我们把一线的教师和同学都吸引到这个社区上来,在这里贡献大家的智慧,我们应该教什么,我们应该怎么教,都在这个里面去逐渐形成一些好的方案,也许是我们利用大数据来解决我们问题的很好的角度和思路。这是第二个方面,至于具体的细节,在此就不特别展开。

关联思维呢,我特别要说的有一点,人们现在可能有一种误解,认为基于大数据,因果关系不重要,仅仅是关联关系最重要,我想说这是一种误解,因果关系仍然非常重要,如果说我们发现其中的因果关系,实际上我们可以对大数据做大大的压缩,实际上一样可以获得价值。

但是面对大数据,有时候我们可能并不能获得因果关系,是不是没有因果关系我们就无能为力了?不是的,实际上大数据一些关联信息也可以帮助我们去理解我们研究的对象,这个我想是我们强调的一个方面。

那么这里有很多例子,这都是媒体报道的例子,比方说我们一个大学的女生,她收到学校的一条短信,尽管这是一个误判,但是也反映了一种个性化、人性化的关怀,所以检测、预测都是我们大数据的重要应用。比方说这是我们学校一位老师做的基于谷歌搜索数据预测失业率的一个方法,可以看出来它和实际的已经非常接近了。

去中心化呢,我们可以看一个例子,就是我们的媒体演变,从传统的媒体,完全是中心化的,到博客,一直到今天的微信,我想这个过程恰恰也是反映了互联网思维的变化,因为传统媒体我们只能听到一个声音,博客呢,每个人都可以发表观点,但是你要形成中心的,还依赖于你的编辑,是不是把你精选了,但是微博没有这样的控制,大家觉得你的观点吸引大家了,就自然形成了中心,我想这样一种去中心化的思路,是不是在处理大数据的时候,或者说基于大数据解决问题的时候,我们应该去考虑的。

还有一个是个性化或者以客户为中心,刚才我们腾讯的老总也就谈到这个了,我就不再多说了。

总结一下,特别是对互联网大数据,我们需要开放性思维,我们需要关联性思维,我们需要去中心化的思维,我们需要个性化的思维。

最后我想用一点时间讲一下计算思维、计算思维的概念,当然是因为前些年计算机专业不再那么获得青睐而提出的,为了拯救计算机学科而特别提出的概念,但是在今天它已经远远超出了原来的目的。现在,特别是在大数据里面,我们不可能离开计算,因此计算思维对我们思考问题,一样具有非常重要的意义。

当然,计算思维简单说,就是像计算科学家一样思考问题,解决问题,这里面当然有传统的一些内容,比如说计算机不能做什么,计算机能做什么,我们都要想清楚,你不能提出一些问题让计算机解决它根本不可能解决的问题。第二对计算的难度也需要有一个基本的认识。

我今天这里想说的不是这样一个更学术性的问题,而是说其中的一两点,计算,我们说就是问题的求解,从问题的求解来说,自动化很抽象,是我们计算思维的核心,比方说我们不可能在大数据上用人工的办法解决,我们一定需要的是自动化的手段。这里我特别想强调的是一种平台化的思维,我们都知道,实际上在整个计算世界,平台是非常非常重要的,实际上我们腾讯就是一个平台,我们传统的操作系统、数据库都是一个平台,我们在这个行业里面都知道,平台的构建和把握,实际上是我们解决问题里面及其重要的一个思路。当然平台有从底到上的各个方面,技术方面是这样,业务方面也是这样。比方说在我们的电商企业里面,也许供应链平台的构建,对我们整个电商企业的发展具有极其重要的作用。

因此我想计算思维对我们的启发在于,我们在基于大数据来解决问题的时候,要想清楚,我们构建在什么样的平台上。scale out和scale up的讨论,我觉得不一定是唯一的答案,但是一定是一个重要的问题,我们在考虑的时候不要忽略了这一点,如果忽略的话我们以后就要为此付出代价。

小结一下,这种计算思维是我们适应信息社会必要的技能,它的内容很丰富,包括现有的自动化、平台化等等。时间只有20分钟,我就这三个方面跟大家交流一下,我刚才说了大数据思维更为广泛、更为丰富,总结一点,当我们面临大数据的时候,当我们希望基于大数据解决问题的时候,我们需要从这样几个角度重新思考一下,谢谢大家!

相关分类
请在电脑上注册登陆 网址: https://cn.kaijikj.com/