转载自 《大数据时代的历史机遇》,赵国栋 麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The nextfrontier for innovation, competition,and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。 国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。 亚马逊(全球最大的电子商务公司)的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。 维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯” 大数据是一个宽泛的概念,见仁见智。上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。笔者在调研多个行业后,给出了自己的定义:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。 发现规律,预测未来 任何行为,皆有前兆。但在现实世界中,缺少实时记录的工具,许多行为看起来是“人似秋鸿有来信,事如春梦了无痕”。在互联网世界则完全不同,是“处处行迹处处痕”。要买商品,必先浏览、对比、询价;要搞活动,必先征集、讨论、策划。互联网的“请求”加“响应”机制恰恰在服务器上保留了人们大量的前兆性的行为数据,把这些数据搜集起来,进一步分析挖掘,就可以发现隐藏在大量细节背后的规律,依据规律,预测未来。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,就是大数据技术的力所在。 1993 年,《纽约客》刊登了一副漫画,标题是“互联网上,没有人知道你是一条狗”,如图1-10 所示。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5 万美元。彼时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。譬如,同性恋和恋童癖可能会借助互联网而大行其道。 查看原图20 年后,互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实,每个人在互联网进入到大数据时代都将是透明性存在的。 事实上,对于未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让人们看到解决未来预测问题的一丝曙光。通过利用大数据技术,可以预测预测自然、天气的变化,预测个体未来的行为,甚至预测某些社会事件的发生。它会让我们的生活更为从容,让决策不再盲目,让社会更加高效的运转。这就是大数据技术带给我们的好处。全球复杂网络权威巴拉巴西认为,人类行为93%是可以预测的。我的确不知道这位老先生是怎么计算出来93%这个数字的,但大数据可以预测未来是显而易见的,这是首个使人类具备了预测短期未来的技术。 听起来似乎很玄妙,大数据不就是算命先生么? 其实,或多或少,人们都具备预测的能力。譬如,儿子跟小伙伴们疯玩,我知道他肯定在7 点之前会回家,因为他饿了。再如,家乡流传的很多谚语,其中一句“八月十五云遮月,正月十五雪打灯”,说明大自然就有许多规律性的东西。估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系,但是几千年的观察和积累,却发现了它。自然、社会、商业无不服从某些规律,大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据,无法去计算其中的因果关系。这些规律要么被神秘化,要么被庸俗化。 任何事情的发生,都会有蛛丝马迹的前兆表露出来。如果我们不去关注一支股票的行情走势,就不会去买卖这支股票;如果我们从不去询问某件商品的价格,也很难产生购买行为;如果事先没有联络沟通,人们就很难聚在一起;如果没有闷热的天气,似乎就没有透心凉的大雨。关于地震前种种异象,更是被许多书籍、文章大肆渲染。 假定有一种技术可以记录下所有这些先兆,人们就获得了未卜先知的能力。利用大数据技术,能够广泛采集各种各样的数据类型,进行统计分析,从而预测未来。大数据影响之深远,波及之广泛,远非一般的信息技术可比。 “过去我认为我的工作就是追捕罪犯,而现在对这项工作有了全新的认识,我们分析犯罪数据,识别犯罪模式,并部署警力,帮助美国部分城市重大犯罪率降低了30%。终结犯罪,在案发之前。”这是IBM 公司的一则广告,宣传利用大数据构建智慧的地球。 “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货出去以后再获得数据,而我们提前半年时间从询盘上就推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会维持一个相对的比例。统计历史上所有买家、卖家的询价和成交数据,可以形成询盘指数和成交指数,这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。所以,当马云观察到询盘指数异乎寻常的下降后,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。 中国建设银行 的电子商务金融平台——“善融商务于2012 年6 月28 日正式开业。官方的宣传是“善融商务”是建设银行顺应电子商务发展潮流,结合传统金融服务优势和新兴电子商务服务应用而搭建的全流程、综合性的电子商务服务平台。”据说建行内部推进电子商务的力度非常大,分行考核严厉,甚至亏本也要把小商家搬到网上。银行建立电子商务交易平台,听起来像不务正业,其实是醉翁之意不在酒。银行需要那些小商家的经营数据,来预测商家的贷款需求和还款能力,从而大幅降低小额借贷风险。建行此举,不论成功与否,都足以证明建行高层深刻地理解了大数据的重要性和其惊人的预测能力。这种能力,对建行而言,就意味着低风险,高收益,是每家金融机构都梦寐以求的境界。常常说富贵险中求,传统经营一般是高风险,高收益;不料有了大数据在手,就能低风险,高收益,难怪金融机构趋之若鹜。如果金融机构再不重视大数据的潜在价值,行将成为21 世纪的恐龙,不复往日的荣光。 |