在IT产业发展中,包括CPU、操作系统在内的基础软硬件地位独特,不但让美国赢得了产业发展的先机,成就了产业巨头,而且因为技术、标准和生态形成的壁垒,主宰了整个产业的发展。错失这几十年的发展机遇,对于企业和国家都是痛心的。
当大数据迎面而来,并有望成就一个巨大的应用和产业机会时,企业和国家都虎视眈眈,不想错再失这一难得的机遇。与传统的IT产业一样,大数据除了应用的巨大市场机会以外,依然需要基础软硬件技术,来存储、处理、分析和利用这些数据。
那么,在大数据基础软件领域,中国处于什么位置?2017年全球的大数据基础软件有哪些看点?中国企业的表现又如何呢?接受中国软件网采访的中国Hadoop大数据厂商红象云腾的CEO童小军,向我们总结了2017年大数据基础软件方面的亮点、看点,让记者打开眼界,大家也确实不容错过。
红象云腾CEO童小军
大数据基础软件发展进入相对平稳阶段
目前,大数据产业还处于起步阶段,核心因素是数据没有被发现、整理和利用,大数据的价值还没有被充分的发掘。在国内,政府大数据的开放正在积极推进中,大数据交易的规则正在建立中,企业大数据的成功案例在逐渐增多。
相对于大数据产业,大数据基础软件经过10年特别是近几年的发展,已经渡过了起步阶段,进入相对平稳的发展阶段,在技术上已经可以满足大数据产业对数据存储、处理、分析、分发等的需求,正在朝更高性能、更高效率发展。
在市场格局上,国内的以Hadoop开源技术为核心的大数据基础软件领域,出现华为、星环、红象云腾三强鼎立的格局。三家公司的Hadoop技术和产品,让大数据从非常技术,很难商业化,发展到2017年Hadoop在互联网公司、政府部门、国防等领域规模部署,帮助企业与组织实现高效率的数据变现,并带动各种各样的大数据创业公司井喷式发展。
而在国外也出现了Hadoop 商业化的三驾马车Hortonworks、Cloudera和MapR,其中,Hortonwork和Cloudera先后上市,市值冲天,MapR也加快了上市步伐。近日,该公司完成了最后一轮融资,金额5600万美元,并已经将目光锁定在未来的IPO上。
童小军认为,资本青睐基于Hadoop 的大数据基础软件公司,国外这样,国内也不例外。目前资本投入还处于快速增长阶段。
五大技术与大数据结合,应用范围不断扩大
2017年大数据基础软件的五大技术与产品突破,进一步扩大了大数据基础软件的应用范围,具有非常积极的作用。
第一,在数据库方面,针对“流式处理”、“事件数据”以及“实时”等需求,出现了一家独立流式数据平台公司Confluent,并推出了业界第一个基于流式数据库平台Apache Kafka的企业级流计算平台。童小军认为,这为大数据基础软件发展指明了一个专业化发展的方向。
和大多数开发人员相同,你可能将自己系统的大部分数据保存在各种数据库中:关系型数据库(Oracle、MySQL和Postgres)或者新兴的分布式数据库(MongoDB、Cassandra和Couchbase),这些数据可能不容易理解为事件或者事件流。数据库中存放的是数据的当前状态,当前状态是过去的某些动作(action)的结果,这些动作就是事件。当谈论大数据时,这些事件流所表示的业务逻辑是传统的数据库没有反应出来的一面。
Apache Kafka是专门处理流式数据的分布式系统,具备良好的容错性、高吞吐量、支持横向扩展,并允许地理位置分布的流式数据处理。其流式数据平台有两个主要应用:首先是数据整合:流式数据平台搜集事件流或者数据变更信息,并将这些变更输送到其他数据系统,如关系型数据库、key-value存储系统、Hadoop或者其他数据仓库。
其次是流式处理:对流式数据进行持续、实时的处理和转化,并将结果在整个系统内开放。
第二,在物联网方面,Eclipse IOT推出的技术,让通过开源Hadoop技术和产品重新定义工业4.0成为可能。 Eclipse IOT可能不是第一个去研究物联网的开源组织,但是远在IoT家喻户晓之前,该基金会在 2001年左右就开始支持开源软件发展商业化。
Eclipse IOT的贡献是提供满足任何物联网解决方案的核心基础技术,通过使用开源技术,每个人都可以使用,从而可以获得更好的适配性。Eclipse IOT将物联网视为包括三层互联的软件栈。从更高的层面上看,这些软件栈(按照大家常见的说法)将物联网描述为跨越三个层面的网络。特定的实现方式可能含有更多的层,但是它们一般都可以映射到这个三层模型的功能上:一种可以装载设备如设备、终端、微控制器、传感器用软件的堆栈;将不同的传感器采集到的数据信息聚合起来并传输到网上的一类网关,这一层也可能会针对传感器数据检测做出实时反应;物联网平台后端的一个软件栈。这个后端云存储数据并能根据采集的数据比如历史趋势、预测分析提供服务。
童小军认为,物联网与大数据融合,为大数据在工业云领域的应用,打下基础,前景非常广阔。
第三,在数据仓库方面,新技术和产品不断涌现。其中,俄罗斯的“百度”——Yandex公司开源了一款高性能的分布式数据库ClickHouse,采用列式存储、多核并行化处理和向量化,它相比MySQL快数百倍,比Hive快200倍以上,比Vertica快5倍,支持实时数据写入,能够支持万亿级别的数据量。
同样,2017年8月,中国的“Yandex”——百度公司开源了分布式数据分析数据库Palo,该产品已经服务百度内部数十个项目。它基于列式存储、向量化执行、MVCC的实现,并且结合了谷歌mesa以及Impala的优势,号称比大部分数据库有5 到 10 倍的性能提升。
第四,在人工智能领域,虽然深度学习随着大数据的红利消耗殆尽,其局限性尤其体现在依赖大规模标注数据和难以有效利用先验知识等方面,其天花板日益迫近。
童小军认为,因为 AI 本身就是一种大数据的应用。特别是在对于 AI 的系统进行训练的时候,使用的数据越多,AI 系统就越先进。 Hadoop 和 AI 是非常适合、非常匹配的一项技术。人工智能逐渐回归焦点位置,主要原因可以归结为四点:数据、算法、计算力、平台。2017年,基于Hadoop大数据能力的人工智能平台呈现快速发展格局,AI开发平台开始提供易用的半自动化开发工具,方便数据与算法的结合,以提高效率。
如MapR宣布推出了一款名为Quick Start Solution(QSS)的新解决方案,专注于深度学习应用。MapR强调,QSS是一款分布式深度学习产品和服务,能够大规模训练复杂的深度学习算法。