重庆水产养殖基地交流组

背后的故事:京东大数据平台演变历程

只看楼主 收藏 回复
  • - -
楼主

大数据,时下已成为人们讨论最多的热词之一。同样,在京东,大数据也受到越来越多的关注。


使命所在

2013年年初,在京东制定的下一个10年发展规划中明确提出,大数据战略将成为公司重点战略方向之一。从此,大数据正式冠以战略高度登上京东舞台。其实早在这一战略计划宣布之前,京东大数据的应用价值已经体现在公司业务的各个方面。如:用户消费行为深度挖掘、EDM精准营销策略实施、销量预测与库房自动补货、搜索推荐系统的持续优化、广告精准投放技术等,这一系列对公司运营至关重要的项目背后,都是对大数据创新应用的不断探索与研究。伴随着京东业务的调整与发展,高价值的业务数据积累与大数据技术的演进,京东大数据创新应用与产品化进程不断取得新突破。大数据挖掘平台、实时大数据解决方案、推荐搜索系统、电子商务全链条企业级数据仓库,大数据在京东发展的道路上背负起更加重要的使命。


在行政归属上,京东大数据平台直接隶属于京东集团,作为基础数据技术平台,面向京东商城、拍拍、京东金融及海外事业部提供数据服务,并承担部分对外数据服务的职能。平台致力于电子商务海量数据处理技术研发与应用,打造高性能、高稳定性、高安全性的数据治理、数据分析、数据挖掘基础平台,为京东及电子商务行业挖掘大数据价值提供全过程解决方案及技术保证。自主设计研发的企业级数据仓库历经618、双11等高并发的数据生产性能考验,支撑着京东的决策数据分析与高附加值的数据应用产品。


平台之路

京东大数据平台从无到有,从集中式到如今的分布式,从Oracle数据仓库到JDW2.0,4年期间经过复杂的演变。Tiger,作为京东大数据平台负责人,也是大数据平台的总架构师,伴随着京东数据仓库发展,他一直在思索两个问题:如何建设电商特有的复杂业务的数据仓库?如何在保障安全的情况下降低使用数据的成本?打造一个“人人皆可成为大数据专家”的“自助式商业智能(BI)平台”似乎是唯一出路。但如何实现呢?

事情还要追溯到2009年12月的一天,当邢捕头和其他3位同事在苏州街的会议室里参加数据部成立准备会的时候,做为新部门的第一位经理,他不无惆怅的想,采销扔过来那么多数据需求,就他这几个人可怎么办!但他几乎没有任何时间感叹了,公司订单增长这么快,放眼望去,各部门的同事都像打仗一样从早到晚忙个不停,采销“讨账”的同事马上就要上门了。过去几个月来,对数据各方面需求的暴涨让技术研发体系的老大老李意识到了数据的重要性,支持业务部门数据需求的同时也有必要为将来做规划,于是便准备成立这样一个部门。半年后Tiger作为数据部总监加入京东,数据部正式宣布成立。


2014年8月一个晴朗的早晨,当邢捕头作为特邀讲师站在清华大学电商总裁特训班的讲台上时,早已惆怅不再,但激动依旧。因为他有足够的底气面对台下几十名电商从业精英论道电商大数据。作为京东大数据平台数据创新部的高级经理,他所负责的团队几经变换之后已经扩大了近10倍,大部分成员为高级数据挖掘工程和高级数据分析师,肩负京东大数据创新应用的重要职责。而Tiger带领整个大数据平台此时已经达到200人的规模,除了邢捕头的数据创新部外,还包括数据架构部、数据产品部、平台运营管理等多个部门。


匆匆那年

光明的前途往往都要经过曲折的道路才能抵达,今天的数据部也同样经历了不少的曲折发展历程。2010年下半年,数据部依据服务职能对象的不同拆分为两个部门。Tiger团队主要面向采销、市场等部门提供数据支持,另一个数据团队主要面向仓储、物流等部门提供服务。


Tiger团队当时的工作重点是数据分析与数据报表,但在没有数据仓库的年代里,分析师们只能依靠DBA提供的两台查询机排队写SQL提数,然后再拿回来做分析。遇到业务需求方描述不清或口径不明确时,往往要花大量时间沟通调研,反复提取数据,这个过程耗时费力不说,还会被需求方不断催促。不能自主的数据提取过程让数据分析与使用的效率非常低下,尽管分析师没日没夜的加班,但还是不能满足采销业务的需求。当然业务人员也无法理解分析师们的难处,有次甚至因为大量明细数据未能及时提取把当时的分析师玉兰姑娘逼哭了。高速成长的京东,对身处其中的每一个人也都是一场难忘的历练,偶尔大家凑在一起聊天,不无自嘲的感叹:在京东,女人被当男人使,男人被当牲口使。哈哈一笑之后,大家也都在心中庆幸能有这样的机会快速成长,不仅在工作方面学到很多,更重要的是成长的收获。


数据服务不能自主的困境,Tiger看在眼里,急在心里。同时,京东业务一直在高速发展,订单量及交易额屡创新高,商品品类在不断丰富,新开仓库在全国各地陆续启用,以前简单粗暴的数据提取与分析很快会成为瓶颈。因此,长远来看,自建数据仓库是做到自主数据服务的必由之路。不仅如此,Tiger做了更长远的打算:数据服务不仅要自主,而且要做到数据需求方自助服务!自建数据仓库的同时,自主开发配套的数据调度生产、数据分析提取、数据知识管理、数据报表呈现及数据质量监控的产品体系,并建设相应的数据集市联合推广使用,这,其实就是今天京东的大数据平台。


与此同时,另一个数据团队几乎也遇到了同样的问题,自建数据仓库也成为了他们的不二法门。但与Tiger团队最大的不同在于,从电信等行业加盟的决策者认为借鉴传统行业数据仓库的成熟经验,购买Oracle等服务商提供的商业产品会更快更有保障。短期来看,确实如此,两台OracleRAC小型机部署之后,数据处理效率明显提高。造价不菲的OracleBIEE商业智能平台在数据处理与展现方面显示出强大的威力。而Tiger团队自建数据仓库的初始版本基于开源关系型数据库管理系统MySQL,采用集群(Cluster)应用架构,支持大规模数据存储与计算应用。数据提取与报表展现产品同样采用开源技术自主研发,后台Java程序,前端采用Ajax框架Extjs。这种轻量级的数据产品在稳定性及服务能力上与BIEE相比虽然有一定差距,但支持快速迭代及无与伦比的灵活性这些优点也是成熟商业产品所无法替代的。正是自主研发、快速迭代和灵活应用这些适用于互联网企业的特点,使得一系列产品和技术方案在快速成长的京东很好的支持了各种场景的数据需求,也成就了今天的京东大数据平台。这对于其他成长中的互联网企业也具有重要的借鉴意义,电信、银行等传统企业的数据仓库解决方案以其稳定性著称,但前提是这些传统行业的业务体系也较为固定,数据库、表结构不会轻易发生变化。而互联网企业业务变化频繁,不但要支持横向扩展,甚至在整体业务结构层面都面临着平均每半年一次的调整。因此,随着时间的推移,撇去成本不谈,成熟商业产品的使用局限性也越来越明显。


2012年年初,京东研发体系再次调整,数据部又重归于一体,之后的大数据平台部由Tiger统一负责。此时的Tiger团队已开始着手进行分布式数据仓库的建设工作,今天的京东企业级数据仓库JDW便是在当初设计的版本上演变而来。与此同时,打造一个“人人皆可成为大数据专家”的“自助式商业智能(BI)平台”的蓝图也逐渐清晰。通过数据分析工具,一个不懂数据仓库的数据分析师也可以完全根据自己的需求,随时随地获取数据、分析数据,为业务运营的提供决策支持。


黎明之光

基于Hadoop,以Mapreduce作为计算引擎的的分布式数据仓库可以说是大数据处理的“标配”,2012年8月,由40台机器搭建的第一版集群上线,相较于Oracle小型机,性能明显提升,让我们第一次体会到分布式的威力。2012年12月,集群服务器数量增加到110台,但由于带宽限制,性能遇到瓶颈,于是在2013年3月升级万兆带宽,同时服务器数量增加到200台。3个月后的2013年6月,MySQL数据仓库完成迁移,正式退出京东主数据仓库,集群服务器数量达到310台。2013年11月,京东全业务线数据接入集群,可满足公司各体系业务,服务器数量达到440台。2013年12月,老葛、彦明带领一众BI兄弟连续奋战三个月之后,终于完成Oracle数据仓库迁移,相关任务全部下线,Oracle正式退出京东数据仓库。2014年3月,集群服务器数量达到800台,仓库模型全面升级到JDW2.0。调度平台功能逐渐完善,生产模式也由原来的单节点调度升级到分布式调度。数据开发、元数据管理、数据质量监控、数据展现及统一权限管理产品全面推广应用。基础数据经过数据仓库加工后通过数据集市的方式面向公司各体系开放服务,同时,面向集市用户的产品运营与认证培训工作建立标准体系,至此,京东大数据平台逐步走向成熟。


2014年年中的时候,公司整体组织架构有所调整,研发部门纳入相应业务体系垂直化管理,大数据平台依旧归属京东集团,面向京东商城、京东金融集团、拍拍及海外事业部提供大数据应用与技术服务。新的起点,新的期待,部门组织了一次集体出游,在苍茫辽阔的大草原展现团队恢弘气势,为更高更远的目标凝聚力量。


转载来自36大数据


举报 | 1楼 回复

友情链接