快捷搜索:

你对于大数据的了解够吗

不停想写一篇关于数据中台正面文章,现在有闲时做些总结,想充分诠释一下DT内部人若何看待数据中台。

数据中台的观点是最早由阿里巴巴首次提出,是为了应对内部浩繁营业部门千变万化的数据需乞降高速时效性的要求而生长起来的,它既要满意营业部门日常性的多个营业前台的数据需求,又要满意像双十一,六一八这样的营业高峰、应对大年夜规模数据的线性可扩展问题、应对繁杂活动场景营业系统的解耦问题,而在技巧、组织架构等方面采取的一些厘革。

数据中台的定义

阿里巴巴数据中台是阿里云上实现数据智能的最佳实践,它是由数据中台措施论+组织+对象所组成,数据中台措施论采纳实现企业数据的全局筹划设计,经由过程前期的设计形成统一的数据标准、谋略口径,统一保障数据质量,面向数据阐发场景构建数据模型,让通用谋略和数据能沉淀并能复用,提升谋略效能;数据中台的扶植实施必须有能与之共同的组织,不仅仅响应岗位的职员要配备齐备,而且组织架构扶植也必要对应,有一个数据技巧部门统筹企业的数字化转型,数据赋能营业中形成营业模式,在推进数字化转型中实今世价;数据中台由一系列的对象和产品组成,阿里云数据中台以智能数据构建与治理Dataphin产品、商业智能QuickBI对象和企业参谋产品为主体等一系列对象组成。

阿里云在以前几年中颠末数十个实际项目沉淀形成实施标准化流程和措施论。阿里云OneData数据中台办理规划基于大年夜数据存储和谋略平台为载体,以OneModel统一数据构建及治理措施论为主干,OneID核心商业要素资产化为核心,实现全域链接、标签萃取、立体画像,以数据资产治理为皮,数据利用办事为枝叶的松耦性整体办理规划。其数据办事理念根植于心,强调营业模式,在推进数字化转型中实今世价。

数据中台的观点来自于阿里巴巴“大年夜中台,小前台”营业计谋下的数据化实践,它是关于“数据代价化和数据资产化”的一整套办理规划,内容包括数据中台措施论,组织,数据产品三个方面。

数据中台扶植成果主要体现在两方面:一个是数据的技巧能力,另一个是数据的资产。本日阿里的各个营业都在共享同一套数据技巧和资产。阿里内部为这个统一化的数据体系命名为“OneData”。Onedata体系包括OneModel,OneID,OneService3个方面,在OneData体系之下,赓续扩大年夜的营业疆土内的各类营业数据,都将按统一的要领接入中台系统,之后经由过程统一化的数据办事反哺营业。

如下图所示:

数据中台顶层设计

数据中台定位于谋略后台和营业前台之间,其关键本能机能与核心代价是大年夜数据以营业视角而非纯技巧视角启程,智能化构建数据、治理数据资产与供给数据调用、数据监控、数据阐发与数据展现等多种办事。承技巧启营业,是扶植智能数据和催生数据智能的引擎;而以数据中台内核代价为中段的数据中台营业模式不是纯数据、不是纯技巧、也不是纯营业,它同时关注着与大年夜数据能力相关的高低游,以大年夜数据为中轴线,基于技巧而又深入营业,它以数据产品+数据技巧+措施论+场景实现的综合性输出,同时为智能化数据、技巧极致提升和数据智能化营业认真。

一方面专注于从营业视角,扶植标准统一、意会贯通、资产化、办事化、闭环自优化的数据中台智能数据体系,同时极致化追求技巧上的降本提效。另一方面,致力于智能数据与营业场景深度交融的营业数据化与数据营业化中的种种智能化代价立异。

数据中台与传统数据仓库差异

数据仓库已经经历了40多年的成长,广泛利用于大年夜型商业企业,赞助营业职员和高层职员做阐发和决策,它起源于决策支持系统(decision support system),其展现形式更多以报表要领实现。是以数据仓库是一个面向主题的、集成的、非易掉性的,随光阴变更的用来支持治理职员决策的数据聚拢。

传统的企业级数仓照样以TD,Oracle,IBM/DB2等传统数据库为主, 因为受限于数据的处置惩罚能力,很少有EDW的数据容量跨越1TB,是以不能对根基数据进行跨域的处置惩罚(缘故原由是RMDBS对大年夜数据量的关联join处置惩罚耗时异常长),是以要对新的指标阐发的时刻必要从根基数据从新天生汇总表,耗时耗力,应用措施上无法实现跨数据集或数据域的处置惩罚。新一代的数据仓库采纳散播式架构,一样平常基于MPP数据库或大年夜数据平台实现数据阐发,是以传统的数据仓库具有以下几个特征:

营业主题性:传统的数仓要求办理办事问题,比如对一个临盆型企业来说公司的主题域是产品、订单、贩卖商、材料等,要办理利用问题可能是库存、贩卖、贩卖商等。其有营业是面向主题的。

系统集成性:在传统数据仓库中,集成是最紧张的,因为谋略和存储的资源缘故原由,其数据必要从不合的数据源抽取过来并集中,其数据的冗余度必要尽可能的低落,是以数据进入数据仓库中必要进行转化、款式化、从新排列和汇总等操作,其所稀有据具有单一物理特点,都是布局化要领存在。在系统架构方面,也因此集中式存储和谋略要领存在,新一代的数仓采纳散播式谋略,但软件产品采纳集中支配要领存在。

非易掉性:数仓系统会记录所有记录,与营业系统比拟,它不会对记录进行变更操作(update和delete),它会保留所有记录的变更,但受限于资源和谋略能力斟酌,数仓不会记录全量明细数据,分外这天志数据,是以大年夜部分数仓平台的数据容量在TB级别。

光阴变更性:数据仓库中每个数据单元只是在某一光阴是准确的,是以数据单元的准确性与光阴相关,数据仓库中的数据光阴范围5-10年。

系统一体化: 传统数仓以系统整体设计为特点,软件平台环抱着数据库或谋略平台以整套办事为主,结合度周到,对外办事也较单一。传统的数仓采纳集

中式数据库作为数据和谋略平台,近10年来,新兴企业采纳散播式数据库和大年夜数据技巧实现OLAP类数仓扶植,但其本色照样基于一个整体来斟酌的。

在系统和办事上数据中台与传数仓有很多显着的差别,首先表现在办事工具方面,传统的数仓只是满意引导数据决策的必要,是以更多的体现在报表输出,应用者以小部分的营业职员和决策层为主,新需求的开拓周期以月以致到年为计。而数据中台因为发迹于互联网企业,其应用工具扩大年夜到一线办事职员和商家企业,其营业需求更复杂,很难用一套报表系统满意需求,是以催生出一个生态的数据办事。

其次是体系架构上,数据中台是由多系统组成,除了谋略平台外,其规划由多个散播式办事系统供给,满意不合营业需乞降高并发和系统自动扩容需求,除了大年夜数据存储和谋略平台外,还包孕数仓扶植、事情台开拓IDE、义务调整、数据同步办事、对外统一数据办事、资产治理系统、实时流谋略平台和开拓平台、oneID谋略和查询模块,敏捷BI报表开拓等多个组件,经由过程多个维度组件组成一整套规划。

再则,在办事体现形式上数据中台表现的更多样化,数据中台不仅能供给报表根基办事功能,而且为了满意各个营业部门不合需求,会供给引导决策系统、行业阐发、营业洞察、营业重塑,自助查询等多个功能,满意从引导层、PD、营业职员、开拓职员等各个层级的需求。

在承袭性方面,数据中台采纳传统的数仓Kimball维度建模法,按照事实表,维表来构建数据中台的数据模型。

数据中台与数据湖差别

业界近3年对datalake说的对照多,是结合近10年来大年夜数据理念兴起的,首次由Dan Woods在2011年7月福布斯上的“Big Data Requires a Big, New Architecture”中提出,它提出CIO们应该斟酌数据湖(“Data lake”)这个思维要领来替代数据仓库(“data warehouse”)的思维,它的架构和理念是把本来不存储的根基数据也存储起来,汇总各个数据源的数据方便今后的数据阐发和查询,是以数据湖是数据的凑集、加工为目的数据资本池,然则数据湖只是办理了凑集问题,在数据加工方面因为弗成节制的需求变得非常繁重,因为数据的复杂和纷乱引入数据管理让数据的加工更是举步维艰。

传统上数据湖中的数据会存储原始数据,量大年夜并且非布局化和半布局化的数据较多,必要有一个低成本分布式存储和谋略架构来承载这些数据,属于ODS层,短缺数据主题和加工能力,是以近期对数据湖上的数据管理项目和利用越来越多。

数据湖搜集了原始ODS数据,办理了传统数仓根基数据短缺的问题,作为企业数仓平台的弥补,有其紧张的意义,但数据湖的感化在于搜集企业的各个数据源,有一个寄放和阐发之地,在筹划中没有一个整体的数据资产筹划和治理本能机能,这会导致其功能懦弱性,不能承担整体的数据处置惩罚和治理之重,现其实一些大年夜型企业,应用数据湖其数据陷阱就会顿时呈现,营业职员的需求必要DBA或IT职员颠末复杂的处置惩罚步骤才能实现达到营业职员的数据阐发目的,其会消费开拓职员的光阴耗以周计,缘故原由之一是数据湖没有一个数据构建和治理平台去治理和谋略这些数据,是以不讲管理的七零八落的数据看似能提升数据获取,数据阐发的效率,实际上并不能承担企业智能化的任务。

企业数据智能必要办理企业数据智能所面临的诸多问题,企业数据智能必要办理数据的快速谋略和结果产出;必要对企业数据资产有整体筹划和掌控;必要有一个好的措施论处置惩罚营业逻辑复杂的统计;必要有一个好的构建和治理平台面向营业应用方和开拓应用方。..这些都是数据湖所不能办理的问题。

数据中台是由阿里巴巴在2015年在内部技巧演进和组织优化中提出中台计谋中提到的,数据湖本身的缺陷恰是数据中台强项,二者可以起到规划弥补的感化,在现有技巧框架中数据中台可以基于Hadoop数据湖平台作为数据存储和谋略载体,实现数据的加工和处置惩罚,数据中台更多实现数据的治理,强调使用数据的能力,强调数据开拓和高效的应用,数据中台的数据资产治理可以对数据湖中的数据按照数据域要领进行治理并结合营业的逻辑实现全部数据模型的加工和开拓。

数据中台与数据域比拟,数据中台强调措施论,组织和对象的扶植。异常强调数据赋能营业,衍生出很多的数据营业产品。比如在阿里面向商家的买卖参谋,面向人物属性的标签办事、面向行业小二的行业洞察…这些都极大年夜的扩展了数据代价,其次数据中台按阐发的原子指标和派生指标要领做谋略并存储在Maxcompute平台上,如有及时查询要求会同步阐发结果数据给MPP或其他DB。这块在数据顶层设计,全域资产、统一技巧、产品营业上与Datalke及EDW是不合的。

现有大年夜数据平台厂商和云办事厂商推重数据湖有其商业目的,AWS觉得“云数据湖代表未来,能从数据中掘客出更多代价”。AWS对数据湖的理解是基于同一存储、对接种种引擎进行阐发查询事情,是以推重Amazon S3来构建数据湖;微软推重“Azure Data lake”基于HDinsight(本来Hortonworks公司产品,现是Cloudera产品)上层应用hive,spark,U-SQL谋略引擎实现谋略和查询;华为保举DAYU数据湖运营平台,强调统一治理和功能的富厚性。这些办理规划异常强调存储办事和想配套的硬件贩卖。

着末说到底都是企业供给数据谋略、存储和利用的平台,终极各类平台的目的都是要更好地办事于营业。

数据中台所面临的寻衅

跟着数据中台理念的遍及,各行各业慢慢吸收了这个观点,很多厂商经由过程招投标采购、自身投入等各类要领扶植了数据中台,但在扶植和详细运营中发清楚明了很多问题,诸如数据运营是否能孕育发生效益,对营业是否有推动代价,取数是否快速敏捷等问题…

数据中台扶植是一个循规蹈矩的扶植历程,数据积累和阐发维度都有一个数据和常识积累,认知的历程,和营业系统的“交钥匙”工程有本色不合,营销,市场和供应链的数据是在赓续变更中,营销活动,产品也在赓续成长和更新中,是以,数据中台扶植是一个不绝迭代和成长的历程,必要持续投入是数据中台运营部门所面临的最大年夜的寻衅。

营业数据的阐发需求会有很大年夜变更,回首互联网或传统财产的成长过程,在2007年iPhone智妙手机以一个全新的形式推向市场前,传统的数据阐发需求照样停顿在PC或线下数据的阐发,而本日,险些所有的阐发维度险些都是来自线上终端(手机)需求或由线上数据来推动线下运营的需求。而本日跟着5GAI技巧的成长,越来越多的IOT设备孕育发生的数据开始支撑着数据阐发场景,比如墟市、饭铺已经开始应用摄像优等传感器来网络旅客对商品或办事的喜爱,这些都触动对数据中台的阐发需求,这2个小小例子阐明数据中台的阐发需求是在赓续变更中,是以数据中台扶植也必要持续迭代和成长,而不是自我运行的,这必要开拓职员在赓续迭代中找到事物成长的规律,总结形成数据办事利用,满意普遍化的营业需求。在GPS传感器集成得手机中前,人们无法获知运动中的人位置,经由过程定位传感器衍生出位置办事,比如大年夜众点评中的餐饮家政等生活圈的办事,这些数据会催生出人新的位置标签,生活圈等指标数据,这些对营业运营有异常大年夜的赞助,由于有了这个信息,你不会再给一个有时由于差旅去商家破费的顾客再发送匆匆销信息,也不会给有时破费的人有匆匆销广告,这会赞助你的营销更有针对性,更精准。

传统企业在数仓扶植都有一个阐发平台,固化了很多阐发指标,这些阐发指标天天发生一些变更,为决策层供给了决策支撑,但指标的更替和变更确以月和年计,这导致对新营业和事物的营业反馈不敷及时,是以面对这一寻衅必要有一个机动的数据中台加工机制来满意这些需求。这首先必要有一个组织来支撑这个运营目标,使得运营和开拓团队为这个目标杀青这个目标,在阿里巴巴内部数据技巧及产品部门便是这个组织的范例代表,经由过程组织机制来推动运营,满意营业部门不间断的数据需求,同时基于需求创始了一套措施论并开拓了一系列的对象赞助营业部门杀青这一营业目标。这必要数据中台的开拓团队开拓一套方便,便捷的自助取数对象来满意营业部门的需求。

诚然,在数据扶植中还会碰着一些其他潜在问题,诸如需求不明确,阐发场景设计分歧理,数据指标和阐发思路不敷能办理用户痛点等环境,但这些都可以经由过程增添投入,分外是加强咨询和调研的力度来办理这些问题。

尾声

数据中台是很多传统企业做数字化转型的重点投入,这必要从计谋、措施论、对象、履行和组织层面做体系筹划、有序履行,阿里以前多年经历了内部多年的扶植沉淀出多个对象和数据产品,颠末央视网、海底捞、飞鹤、联华商超、南航等多个传统行业落地项目的淬炼得出实施的措施论,这些转型先锋为中国企业的数字化转型具有借鉴意义。

阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业扶植自己的数据中台,进而合营实现新期间下的智能商业!

阿里巴巴数据中台办理规划,核心产品:

Dataphin,以阿里巴巴大年夜数据核心措施论OneData为内核驱动,供给一站式数据构建与治理能力;

Quick BI,集阿里巴巴数据阐发履历沉淀,供给一站式数据阐发与展现能力;

Quick Audience,集阿里巴巴破费者洞察及营销履历,供给一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。

滥觞:云栖社区

您可能还会对下面的文章感兴趣: