大数据技术应用发展

概念

“大数据”是指以多元形式，自许多来源搜集而来的庞大数据组，往往具有实时性。在企业对企业销售的情况下，这些数据可能得自社交网络、电子商务网站、顾客来访纪录，还有许多其他来源。这些数据，并非公司顾客关系管理数据库的常态数据组。[13]

从技术上看，大数据[1]与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代[4]》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法）大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

早在1980年，著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过，大约从2009年开始，“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出，互联网上的数据每年将增长50%，每两年便将翻一番，而目前世界上90%以上的数据是最近几年才产生的。此外，数据又并非单纯指人们在互联网上发布的信息，全世界的工业设备、汽车、电表上有着无数的数码传感器，随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化，也产生了海量的数据信息。[3]

大数据的意义是由人类日益普及的网络行为所伴生的，受到相关部门、企业采集的，蕴含数据生产者真实意图、喜好的，非传统结构和意义的数据。2013年5月10日，阿里巴巴集团董事局主席马云在淘宝十周年晚会上，将卸任阿里集团CEO的职位，并在晚会上做卸任前的演讲，马云说，大家还没搞清PC时代的时候，移动互联网来了，还没搞清移动互联网的时候，大数据时代来了。

借着大数据时代的热潮，微软公司生产了一款数据驱动的软件，主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看，从微软团队致力于研究开始，可以看他们的目标不仅是为了节约了能源，更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据，捕捉如何杜绝能源浪费。“给我提供一些数据，我就能做一些改变。如果给我提供所有数据，我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

从海量数据中“提纯”出有用的信息，这对网络架构和数据处理能力而言也是巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后，大数据终于迎来了属于它的时代。2012年3月22日，奥巴马政府宣布投资2亿美元拉动大数据相关产业发展，将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。

大数据时代已经来临，它将在众多领域掀起变革的巨浪。但我们要冷静的看到，大数据的核心在于为客户挖掘数据中蕴藏的价值，而不是软硬件的堆砌。因此，针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信，在国家的统筹规划与支持下，通过各地方政府因地制宜制定大数据产业发展策略，通过国内外IT龙头企业以及众多创新企业的积极参与，大数据产业未来发展前景十分广阔。[2]

大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。[1]

折叠编辑本段意义

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到，未来的时代将不是IT时代，而是DT的时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是成为赢得竞争的关键。

大数据的价值体现在以下几个方面：

1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销

2) 做小而美模式的中长尾企业可以利用大数据做服务转型[15]

3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

不过，“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考，科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过：“就今日言，有很多人忙碌于资料之无益累积，以致对问题之说明与解决，丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。

在这个快速发展的智能硬件时代，困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如，通过结合大数据和高性能的分析，下面这些对企业有益的情况都可能会发生:

1）及时解析故障、问题和缺陷的根源，每年可能为企业节省数十亿美元。

2）为成千上万的快递车辆规划实时交通路线，躲避拥堵。

3）分析所有SKU，以利润最大化为目标来定价和清理库存。

4）根据客户的购买习惯，为其推送他可能感兴趣的优惠信息。

5）从大量客户中快速识别出金牌客户。

6）使用点击流分析和数据挖掘来规避欺诈行为。

折叠编辑本段介绍

大数据时代的中国涂料行随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。《著云台》的分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。

大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。

物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

折叠编辑本段领域的应用

在时下商界的流行语中，很难找出一个比“大数据”更吸引眼球的术语了。大数据的颠覆和创新作用几乎在每个行业都有体现，风电行业也不例外。

上世纪90年代末，美国航空航天局的研究人员创造了大数据一词，自诞生以来，它一直是一个模糊而诱人的概念，直到最近几年，才跃升为一个主流词汇。但是，人们对它的态度却仍占据了光谱的两端，一些人对它抱有近乎宗教崇拜的热情，认为大数据时代将释放出巨大的价值，是通往未来的必然之途。在一些观察者眼中，大数据已成为劳动力和资本之外的第三生产力。而怀疑者称，大数据会威胁到知识产权，威胁到隐私保护，无法形成气候。[10]

产业洞察研究院表示无论如何，大数据在风电领域已有所建树。

首先，结合了大数据分析和天气建模技术的能源电力系统能够提高风电的可靠性。以往对风资源的预测不够精准，在风能无法贡献预期功力时，火电就要作为后备电力。这样，电网对风电的依赖程度越高，需要建设后备电站的成本就越高。另外，启用火电站的就等于向环境中释放碳排。然而，在大数据分析的帮助下，温度、气压、湿度、降雨量、风向和风力等变量都得到充分考虑，对风电的预测更加精准。电网调度人员可以提前做好调度安排，也有助于电网消纳更多风电。

除了做到更精准的预测，检测和采集风机的运转数据、风场的运营数据还有利于风机制造商更好地改善风机的性能，风电场业主在追求风场效益最大化时也离不开大数据。

大数据在风电领域的应用前景看起来很美，但当前存在的问题是，将风机、风场的数据汇集起来并非易事。这些数据分散在风机制造商、风场业主、系统运营商和运维服务商等多个环节手中，他们能从这些数据中得到利益却无法做到合理分配，所以，有些利益相关方宁愿不分享这些数据。

知识产权问题也是大数据影响风电进程的一个拦路虎。试想，如果多家风机制造商都公开风机的设计数据，那将是整个行业的幸事，通过交流和分享，风机的设计会有所改善性，性能会提高。但出于商业竞争考虑，风机制造商往往将这些数据视为商业机密、竞争利器，不愿公开。同理，风场业主收集和保存的风电运行数据不但有助于他们做出更好的业务决策，也有利于第三方运维企业提供更好的服务，但在实际情况下，运维商却很难得到这些数据。

风电行业的意义在于向终端消费者提供更稳定、更清洁、更廉价的电力，这是行业存在合理性的根据，也是业界努力的方向。共建并分享运营数据，进而激发这些数据的全部潜力才是风电行业迎接大数据时代的应有姿态。

折叠编辑本段说明

例子包括网络日志，RFID，传感器网络，社会网络，社会数据（由于数据革命的社会），互联网文本和文件;互联网搜索索引;呼叫详细记录，天文学，大气科学，基因组学，生物地球化学，生物，和其他复杂和/或跨学科的科研，军事侦察，医疗记录;摄影档案馆视频档案;和大规模的电子商务。篮球比赛当中利用大数据对球员的个人在比赛场上的数据分析，可以帮助比赛变得更加精彩。[7]

折叠编辑本段价值

大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言，大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。[9]

折叠编辑本段优势

在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。

一、Hadoop

[5]Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对Hadoop失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

二、HPCC

HPCC，High Performance Computing and Communications(高性能计算与通信)的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成：

1、高性能计算机系统(HPCS)，内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

2、先进软件技术与算法(ASTA)，内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

3、国家科研与教育网格(NREN)，内容有中接站及10亿位级传输的研究与开发;

4、基本研究与人类资源(BRHR)，内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动;

5、信息基础结构技术和应用(IITA )，目的在于保证美国在先进信息技术开发方面的领先地位。

三、Storm

Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。 Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载)等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。

四、Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。

五、RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

功能和特点

免费提供数据挖掘技术和库

100%用Java代码(可运行在操作系统)

数据挖掘过程简单，强大和直观

内部XML保证了标准化的格式来表示交换数据挖掘过程

可以用简单脚本语言自动进行大规模进程

多层次的数据视图，确保有效和透明的数据

图形用户界面的互动原型

命令行(批处理模式)自动大规模应用

Java API(应用编程接口)

简单的插件和推广机制

强大的可视化引擎，许多尖端的高维数据的可视化建模

400多个数据挖掘运营商支持

耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。

六、 Pentaho BI

Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行，主要以Pentaho SDK的形式进行。

Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。

折叠编辑本段特殊技术

大的数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统

一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载，监控，备份和优化大型数据表的使用在RDBMS的。

折叠编辑本段管理大数据

我们需要的是以数据为中心的SOA还是以SOA为中心的数据？答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中，将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。

SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后，架构模型描述了数据、数据管理服务和SOA组件之间的关系。

折叠SOA和数据企业的例子

也许以极限情况为开始是理解SOA数据问题的最好方式：一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件（查询即服务，或QaaS）上。这种设计理念五年前或者更早之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上；而是通过一个单一的架构—— RDBMS（关系型数据库管理系统）。数据去重和完整性便于管理单一的架构。

通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事，由于数据有多个来源和形式因此很少按序存储，并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时，关键是要定义三种模型中的最后一种模型，SOA数据关系中的架构模型。有两种选择：水平方向和垂直方向。

折叠SOA和各类数据模型

在水平集成数据模型中，数据收集隐蔽于一套抽象的数据服务器，该服务器有一个或多个接口连接到应用程序上，也提供所有的完整性和数据管理功能。组件虽不能直接访问数据，但作为一种即服务形式，就像他们在简单情况下的企业，其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型，但是它至少复制了我们上面提到的简单的RDBMS模型。

垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上，该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离，这种分离直接涉及到数据基础设施。在某些情况下，这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理，管理服务器可以作为SOA组件来操作各种数据库系统，以数据库特定的方式执行常见的任务，如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA即服务原则，也可能产生数据管理的一致性问题。

折叠SOA和水平数据模型

毫无疑问水平模型更符合SOA原则，因为它更彻底地从SOA组件中抽象出了数据服务。不过，为了使其有效，有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce，可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据，然后集中查询这一分布式信息的相关结果。实际上，SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。

折叠效率问题

效率问题较为复杂。因为水平数据库模型可能是通过类似大多数SOA流程的信息服务总线来完成的，一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销，但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件，很容易被忽略与延迟和数据传输量相关的问题，特别地，如果数据库是云分布的，那么使用他们就会产生可变的网络延迟。

上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘，而是一组相互连接的高速缓存点，其存储于本地内存中，也可能转向固态硬盘，然后到本地磁盘，最后到云存储。缓存算法处理这些缓存点之间的活动，从而来平衡存储成本（同时也是平衡同步地更新成本）和性能。

对于大数据，它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这中方法可以产生大量的数据，但是如果汇总数据最后一分钟还存储在内存中，最后一小时存储在闪存中，最后一天存在磁盘上，那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。

SOA都是抽象的，但当抽象隐藏了底层影响性能和响应时间的复杂性时，这种抽象的危险程度会提高。数据访问也是这样的，因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系，并为其特定的业务需求优化它。

折叠编辑本段特点

第一，数据体量巨大。从TB级别，跃升到PB级别。

第二，数据类型繁多，如前文提到的网络日志、视频、图片、地理位置信息，等等。

第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。

第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

折叠编辑本段最新动态

十多位院士建议进行顶层设计，两部委启动示范工程

中国报告网调查员最新获悉，最近，十多位院士向高层建议，我国应制定大数据国家战略，并在发展目标、发展原则、关键技术等方面作出顶层设计。与此同时，国家发改委与中科院正在启动“基础研究大数据服务平台应用示范项目”。权威人士透露，有关部门正在积极研究，大数据国家战略或将提上议程。

多位中国科学院院士和中国工程院院士表示，在我国国家战略层面的文件中，对大数据提得不多，希望国家制定大数据国家战略。

多位院士的建议方案认为，所要制定的大数据国家战略是国家层面的顶层规划。其主要内容包括：构建大数据研究平台，整合创新资源，实施“专项计划”，突破关键技术；构建大数据良性生态环境，制定支持政策，形成行业联盟，制定行业标准；构建大数据产业链，促进创新链与产业链有效嫁接。

一位中国工程院院士在一份《关于实施大数据国家战略研究》的报告中表示：“虽然我们意识到大数据的重要性，却并未在真正意义上将其提升到国家战略高度来考量，我们迫切需要从国家层面上制定大数据发展规划，将大数据上升为国家战略。”

这份研究报告指出，要“通过国家层面的战略规划明确大数据产业的发展重点、空间布局和保障措施，推动和改善与大数据相关的收集、储存和分析工具及技术，并在公共服务领域如安防、医疗、卫生、教育等开展大数据应用示范，提高应急处置能力和安全防范能力，提升服务能力和运作效率。”

调查员从国家发改委了解到，最近，国家发改委和中科院正在推进国家高技术服务业研发与产业化专项“基础研究大数据服务平台应用示范”项目。

国家发改委高技术产业司有关人士表示：“我们将依靠新的方式、新的理念、新的技术对大数据进行挖掘应用，帮助科技、经济、社会发展；希望结合有关国家研究机构的优势与特色，能够探索大数据的潜在发展前景与效益，支持相关领域内的融合创新与思想碰撞。”

中国科学院科学数据中心主任黎建辉研究员则表示“目前我们正在对基础

		记住	找回密码
密码			立即注册

概念