【WAW年度大会嘉宾专访】网易大数据专家带你了解数据驱动

2016年7月9日,WAW网站分析星期三2016年度最重要大会“数据驱动的未来”将于上海新落成的万科虹桥云举办。网易、小米、携程、一号店、虎扑、饿了么、车享网等互联网大中型企业负责云计算、产品设计、精准营销、大数据和人工智能的专家将汇聚一堂,分享工作中总结的实战经验及对今后三到五年数据产业的趋势判断。

今天,我们就邀请网易杭州研究院商业智能部门总监、大数据技术专家沈琦先生和我们一起分享他的“独家秘笈”。

1. 嘉宾职能简介
沈琦,网易杭州研究院商业智能部门总监、大数据技术专家自2007年毕业以来,一直在网易杭研院从事大数据技术的相关工作,管理杭研院和考拉两个商业智能团队,在大数据技术和部门管理方面都具有丰富的经验。

网易杭州研究院商业智能部门总监-沈琦

主要负责研发和建设网易大数据分析平台,规范数据的采集提高数据质量,优化数据的存储确保数据的可管理,简化数据的呈现提高数据价值转化效率。

同时,组建网易大数据分析团队,优化数据团队与产品业务团队的协作流程,为易信、云音乐和考拉等业务提供高质量的数据分析服务,提高业务团队的决策效率,以数据来驱动业务的高速增长。

2. 您可以和我们来谈谈您对“数据驱动”的理解么?
数据驱动指通过获取、处理、分析和使用数据来迭代开发产品、优化运营方案、提高决策效率为企业创造企业效益。不管是凯文凯利说的未来所有生意都是数据生意还是马云说的未来是DT时代,我们都可以看到数据在未来商业中的重要性。每一家企业的发展都有他的核心驱动因素在推动他不断成长,过去有资源驱动、技术驱动、业务驱动等因素,而未来驱动企业发展的最重要因素毫无疑问将是数据。

3. 您觉得如今的 “数据分析”含义有什么新内涵?
进入互联网时代以后,数据量极具增加、数据类型丰富同时对数据处理速度的要求越来越高。数据驱动时代的数据分析与传统的数据分析有主要区别是传统的分析都是基于结构化数据,分析的样本比较小,通常是取一个很小的数据集来对整个数据的特性进行预测,分析结论完全决定于所采集的样本,一旦样本参杂噪音预测出来的结果就会出现很大偏差。
而在互联网时代,分析的理念发生了很大变化,往往是通过对整个数据集进行存储、管理和分析获得更加可靠的数据特性,而且分析的数据不只是局限于结构化数据,还包括文本、图像、视频等非结构化数据。

4. 能具体解析一个网易的数据平台吗?
网易的大数据分析平台大致经历了4个阶段:
第一阶段是采用BIEE之类的报表系统底。层的数据计算框架也比较简单,由于当时的数据量还不太大,一开始采用单机计算,后来自己实现了一套简单的分布式计算框架,随着数据量的增加,效率越来越低无法满足业务发展的需要。

第二阶段引入hadoop对产品业务日志数据做统计分析。每个业务的日志格式都不一样,数据质量很差,充斥着大量重复工作。

第三阶段针对移动、PC和广告监测建设通用的数据产品,统一数据采集方式。规范数据格式提高数据质量,极大地提高了数据分析的效率,但不同业务的数据需求千差万别,灵活性还不够高。

第四阶段是整合数据同时提供更加灵活的数据分析工具,在haoop基础上搭建了猛犸系统解决任务调度和集群管理中的难点,在整合的数据基础上提供Hermes降低数据查询的门槛,同时提供快速报表系统和有数提高报表制作和多维数据分析的能力。
 
5. 您对“数据驱动”的发展有什么看法吗?
网易的业务范围非常广泛,从PC时代的门户、邮箱、端游,到移动时代的新闻、手游、社交、教育、音乐、电商以及互联网金融等,几乎覆盖了互联网热点的所有领域。网易的所有用户有10亿左右,每天由用户产生P级别的数据量,而且这些数据涉及的业务非常广泛、数据形态差异很大,如何有效地分析和利用数据为用户提供更加优质的服务,是我们面临的巨大挑战。虽然过去几年我们已经建立了自己的数据分析平台,但是在数据的全面整合、管理和使用上尚处于初级阶段,未来我们会进一步全面整合数据,提高数据在产品、业务决策方面的价值,以迎接数据驱动时代的到来。