大数据痛点:政府部门不会轻易放开掌握的数据
在政府和市场的双重催动下,那些原本封存在服务器里的陈年数据,成为一座座蕴藏丰富的“金矿”。然而,能真正做深度挖掘的企业并不多,这一领域正在等待着“杀手级”应用的出现 大数据痛点 □本刊记者 贺涛 孙爱民 肖辉龙/文 3月5日,国务院总理李克强在十二届全国人大四次会议上作2016年政府工作报告时提到,当前中国发展正处于这样一个关键时期,必须培育壮大新动能,加快发展新经济。 这是政府工作报告中首次出现“新经济”概念。报告进一步说明,要推动新技术、新产业、新业态加快成长。其中,在“十三五”时期主要目标任务和重大举措中,李克强提出,促进大数据、云计算、物联网广泛应用。 去年9月国务院印发《促进大数据发展行动纲要》称,国家政府数据统一开放平台将在2018年底前建成,率先在气象、环境、信用、交通、医疗、卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。今年的政府工作报告亦指出,加强政府自身建设,提高施政能力和服务水平。重任千钧惟担当。 不仅中国,大数据被各国政府都提到了前所未有的高度,公共数据开放也纷纷提上日程。 在政府和市场的双重催动下,那些原本封存在服务器里的陈年数据,成为一座座蕴藏丰富的“金矿”,兴奋的企业和研究人员一边着手搜寻数据,一边将有价值数据按需筛选出来重构。然而,能真正做深度挖掘的企业并不多,这一领域正在等待着“杀手级”应用的出现,助推金融、医疗健康、零售业、制造业等各行业产生根本性的变革。 ——编者按 国务院总理李克强在作2016年政府工作报告时提到,促进大数据、云计算、物联网广泛应用。其实自去年“两会”起关注大数据的提案就不少,今年“两会”的代表和委员们又开始提交新一轮为大数据鼓劲的提案。 全国政协委员刘慧、荣建勋、刘汉元等分别建议,构建大数据平台,遏制互联网金融乱象、发展科技保险、让农业更有规划。全国人大代表邵志清则提出议案,呼吁制定“大数据法”,规范政务数据的共享开放和市场数据的交易流通。 广东人大常委会已经建立了一个代表履职支撑平台,运用大数据为代表履职提供支撑。人大代表可通过“人大百科、履职资讯定制、议案建议、履职活动、履职沟通交流、联系群众辅助”等六个前台服务子系统,获取和发布信息。 你,每一秒都可能产生或者使用一个不起眼的数据:打车的路线、网上的交易、计步的APP、去医院挂号、一张交通罚单、一次饭局等,这些痕迹都被有心的公司收集起来,再通过计算、重构,变成一个得心应手的应用,出售给你,或者让你免费使用,同时提供新的数据作为回馈。 大数据不仅是一种海量的数据状态和相应的数据处理技术,也是一种思维方式、一项重要的基础设施。2011年以来,大数据概念在中国火热,传道者和求学者涌现,穿梭于众多的大数据会议和论坛,以创新为己任的科技公司,都在踅摸着跟大数据产生关联。 在刚刚结束的人机围棋巅峰对决中,谷歌人工智能围棋程序AlphaGo以4:1击败了人类选手李世石。人工智能界一片欢呼,这是深度学习+大数据的胜利。细想大数据被行业关注已5年了,实际能投入实用的大数据应用并不多,让人惊叹的“杀手级”的应用更是寥寥,反倒是深度学习,通过与大数据的结合,获得迅速发展。 国内大数据领域的一些学者和业界人士抱怨:政府所掌握的公共大数据存在重重壁垒,难以共享,从源头上有碍于创新。这一观点有其合理之处,但并不全面。因为它难以解释,为何已经手握海量数据的BAT(百度、阿里巴巴和腾讯)等国内互联网巨头,也尚未用大数据技术挖掘出扛鼎之作。 事实上,这个令人兴奋的新事物,仍处于摸索研究阶段,大数据产业有必要重新审视自身的痛点,寻找解决之道。 实战低于预期 在高德信息技术有限公司(下称高德)北京办公室里,星罗棋布的办公桌间竖立着一面LED显示屏,上面是密密麻麻的红点与曲线。 一名技术人员选定了城市与时间参数,并选取长安街上一段长约300米的路段,屏幕上立即显示出该路段实时通过的车辆,这些车辆的实时位置一目了然,系统还给出未来几分钟,甚至几个小时内的车流量预判。 这是高德智能出行业务的一部分,也是大数据应用的一个实景。大数据,或称巨量资料,不仅描述了大量的数据,还涵盖了处理数据的速度。 大数据应用已带来可见的果实。高德公司估算,使用高德地图躲避拥堵功能,平均每月为全部用户节省时间达700年,节油高达1840万升、价值1.3亿元。 谷歌的AlphaGo也是一个突出的例子。一般来说,大数据的应用场景是通过大数据分析获得洞察,并基于这些洞察进行预测,根据预测结果做出行动。而深度学习擅长传统大数据分析中难以使用的语音、图像等,它可以教授计算机逐级往下处理数据,并能根据不同层级的数据做出修正,思考过程逐渐从简单到复杂。这种接近人脑的学习方式,可以通过训练之后自行掌握概念,而且输出结果会随着数据处理量的增大而更加准确。包括谷歌、IBM、微软、Facebook等在内的科技巨头,在深度学习和大数据结合方面的投入越来越高。 虽然数据还没有被列入企业的资产负债表,但大数据领袖、牛津大学教授维克托·舍恩伯格预测,这只是时间问题。数据资源将和土地、劳动力、资本等生产要素一样,成为政府管理与企业盈利的战略资源。 精准营销、医疗和金融这三大领域,目前被视为大数据最具前景的应用领域。在大数据概念提出前,大型电商、医疗行业和金融企业,基本应用随机抽样分析。理论上,大数据分析的结果更精准,因为它将原来的小样本变成全样本。按维克托·舍恩伯格的说法,所谓大数据分析方法,就是不用抽样调查这样的捷径,而采用所有数据的分析方法。 在分析自家电子商务平台的客户信用及行为数据后,阿里巴巴创生了蚂蚁小贷、花呗、借呗等产品;腾讯数据,则充分、完整记录了人们在互联网上的行为轨迹和社会属性,可以从中挖掘、分辨出用户的行为模式、兴趣偏好等;由于搜索功能的精准性,百度掌握了更多用户的真实需求。 全球在大数据研究的投入已不少,2016年会更多。美国信息技术研究和分析公司Gartner预测,2016年全球在大数据方面的总花费将达到2320亿美元。 这一庞大的投入与实际产出,目前并不匹配。现有的数据搜集和处理能力,常使电商看上去很不着调,当客户从一个电商平台购买一部手机后,下次再登录时,电商可能简单粗暴地又推送手机广告;微信朋友圈的广告推送,一直是网民取笑的槽点。 很多企业还是坚持用传统的随机抽样方法,这样可以较低的成本、较少的数据,进行一定精确度的分析,比大数据分析要经济实惠。 聚合数据云计算事业部总监商渭清在一次业内论坛上表示,线上广告投放,一般命中率是1.0%,做得好的能到1.3%。精准营销的命中率,应该在3%或5%以上。 美国加州大学伯克利分校计算机科学和统计系教授迈克·乔丹(Michael Jordan)认为,目前的大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程还没学好就开始造桥,结果可想而知。 窘境源自技术层面的缺失。一是业界对于大数据分析的价值逻辑缺乏足够深刻的洞察,以致搭建的模型偏差较大;二是大数据分析中的某些重大要件或技术还不成熟。 美国对医疗大数据情有独钟,基础建设整得不错,相关研究开展也早,但是,“要形成好的应用效果,美国估计还要等5年至10年”。清华大学统计学研究中心主任、哈佛大学统计系教授刘军对《财经》记者分析。 尽管在过去的五年里,全球大数据计算性能实现了超过20倍的增长,100TB数据排序时间由8274秒缩短到377秒。而实际上,很多业内人士对大数据,仍缺乏深刻的认识。 信息技术研究和分析公司Gartner在2013年做的一项调查显示,64%的企业表示正在投资或计划投资大数据。然而,当问及企业面临的“大数据的挑战”时,约56%的企业声称是“确定如何从大数据获得价值”,41%是要“定义我们的大数据战略”,另有23%的企业是为了“了解什么是大数据”。 美国杜克大学行为经济学教授丹·艾瑞里(Dan Ariely)曾将大数据技术比作未成年人的性行为,“每个人都谈论它,但没人知道怎么做,每个人都以为其他人在做,所以每个人都宣称他们在做。” 科大讯飞(27.93, 0.00, 0.00%)股份有限公司(下称科大讯飞,002230.SZ)高级副总裁陈涛告诉《财经》记者,热炒大数据的背后,有IT行业在推动,为了出售服务器、存储、服务,过分渲染了大数据使用的急迫性。 谁握大数据 当把不同来源、不同维度的数据关联在一起,交叉挖掘分析,就有可能发生“化学反应”,大数据因共享而增值。 高德的交通数据来源主要有两个,一是众包数据,5亿高德用户在使用交通导航服务时,既是信息使用者,又是信息的分享者。高德副总裁、首席交通数据分析师董振宁告诉《财经》记者,“通过众包,每月从用户那里收到超过60亿公里检测(数据),高德再用这些完善地图数据。” 第二个来源,全国几十万辆出租车,及几百万辆物流车辆的数据,这些数据经交通后台汇总、处理后,可实时计算出路况信息,反馈在用户终端上。 据美国国际数据集团(IDC)的数字世界研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB(1ZB等于10万亿亿字节)。而到2020年,数据量将增长10倍,达到44ZB。 国内除了高德这样以数据为生的企业,BAT通过网民的网购、理财、搜索,以及社交网络等,也坐拥海量数据。百度大数据,基于用户在百度上的所有行为、检索词;腾讯掌握了海量的社交数据;阿里巴巴拥有用户的交易数据。此外,一批提供数据权益服务的数据公司也应运而生。 这些数据公司利用爬虫技术,抓取海量网页上的数据,按类将这些数据进行整合梳理,再接入许多第三方数据。“像火车票购买数据和房屋买卖数据,数据量不大,但是价值很高。”Sensors Data的创始人兼CEO桑文锋告诉《财经》记者,几大电信运营商也掌握了较多的用户数据。 在移动互联时代,由于每台终端设备都“绑定”一个用户,一旦将数据分享,合作者也就长期拥有了这些用户,这导致整个业界的心态放不开,害怕用户流失。 其实,不像煤炭、石油等资源,用过之后不可再生,因而很难实现共享,数据资源可以重复使用,在共享中不断产生新的价值。 为获得更多资源,企业之间打破惯有忌讳,正在形成合作氛围,一个个数据生态圈逐渐生长。 … Continue reading “大数据痛点:政府部门不会轻易放开掌握的数据”
阅读更多