背景
数据湖(Data Lake)湖仓一体(Data Lakehouse)俨然已经成为了大数据领域最为火热的流行词,在接受这些流行词洗礼的时候,身为技术人员我们往往会发出这样的疑问,这是一种新的技术吗,还是仅仅只是概念上的翻新(新瓶装旧酒)呢?它到底解决了什么问题,拥有什么样新的特性呢?它的现状是什么,还存在什么问题呢?
带着这些问题,今天就从笔者的理解,为大家揭开 Data Lakehouse 的神秘面纱,来探一探其技术的本质到底是什么?
Data Lakehouse具备什么特性?
一直以来,我们都在使用两种数据存储方式来架构数据:
•数据仓库:数仓这样的一种数据存储架构,它主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。•数据湖:数据湖这样的一种数据存储结构,它可以存储任何类型的数据,包括像图片、文档这样的非结构化数据。数据湖通常更大,其存储成本也更为廉价。存储其中的数据不需要满足特定的schema,数据湖也不会尝试去将特定的schema施行其上。相反的是,数据的拥有者通常会在读取数据的时候解析schema(schema-on-read)当处理相应的数据时,将转换施加其上。
现在许多的公司往往同时会搭建数仓、数据湖这两种存储架构,一个大的数仓和多个小的数据湖。这样,数据在这两种存储中就会有一定的冗余。
Data Lakehouse的出现试图去融合数仓和数据湖这两者之间的差异,通过将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时lakehouse能够有效地提升数据质量,减小数据冗余。在lakehouse的构建中,ETL起了非常重要的作用,它能够将未经规整的数据湖层数据转换成数仓层结构化的数据。Data Lakehouse概念是由Databricks在 此文 【1】中提出的,在提出概念的同时,也列出了如下一些特性:
Lakehouse的概念最早是由Databricks所提出的,而其他的类似的产品有Azure Synapse Analytics。Lakehouse技术仍然在发展中,因此上面所述的这些特性也会被不断的修订和改进。
Data lakehouse解决了什么问题
那说完了Data Lakehouse的特性,它到底解决了什么问题呢?
这些年来,在许多的公司里,数仓和数据湖一直并存且各自发展着,也没有遇到过太过严重的问题。但是仍有一些领域有值得进步的空间,比如:
•数据重复性:如果一个组织同时维护了一个数据湖和多个数仓,这无疑会带来数据冗余。在最好的情况下,这仅仅只会带来数据处理的不高效,但是在最差的情况下,它会导致数据不一致的情况出现。Data Lakehouse统一了一切,它去除了数据的重复性,真正做到了Single Version of Truth。•高存储成本:数仓和数据湖都是为了降低数据存储的成本。数仓往往是通过降低冗余,以及整合异构的数据源来做到降低成本。而数据湖则往往使用大数据文件(譬如Hadoop HDFS)和Spark在廉价的硬件上存储计算数据。而最为廉价的方式是结合这些技术来降低成本,这就是现在Lakehouse架构的目标。•报表和分析应用之间的差异:报表分析师们通常倾向于使用整合后的数据,比如数仓或是数据集市。而数据科学家则更倾向于同数据湖打交道,使用各种分析技术来处理未经加工的数据。在一个组织内,往往这两个团队之间没有太多的交集,但实际上他们之间的工作又有一定的重复和矛盾。而当使用Data Lakehouse后,两个团队可以在同一数据架构上进行工作,避免不必要的重复。•数据停滞(Data stagnation):在数据湖中,数据停滞是一个最为严重的问题,如果数据一直无人治理,那将很快变为数据沼泽。我们往往轻易的将数据丢入湖中,但缺乏有效的治理,长此以往,数据的时效性变得越来越难追溯。Lakehouse的引入,对于海量数据进行catalog,能够更有效地帮助提升分析数据的时效性。•潜在不兼容性带来的风险:数据分析仍是一门兴起的技术,新的工具和技术每年仍在不停地出现中。一些技术可能只和数据湖兼容,而另一些则又可能只和数仓兼容。Lakehouse灵活的架构意味着公司可以为未来做两方面的准备。
Data Lakehouse存在的问题 现有的Lakehouse架构仍存在着一些问题,其中最为显著的是:
•大一统的架构:Lakehouse大一统的架构有许多的优点,但也会引入一些问题。通常,大一统的架构缺乏灵活性,难于维护,同时难以满足所有用户的需求,架构师通常更倾向于使用多模的架构,为不同的场景定制不同的范式。•并非现有架构上本质的改进:现在对于Lakehouse是否真的能够带来额外的价值仍存在疑问。同时,也有不同的意见 - 将现有的数仓、数据湖结构与合适的工具结合 - 是否会带来类似的效率呢?•技术尚未成熟:Lakehouse技术当前尚未成熟,在达到上文所提的能力之前仍有较长的路要走。
本文相关词条概念解析:
数据
数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据(Data)是载荷或记录信息的按一定规则排列组合的物理符号。
经过长达三个月的紧密交流,2020年12月24日,爱思益在杭州与杭州阿里巴巴GDT项目组(Alibaba Global Digital Talent Program)达成正式合作协议,正式将项目组“数
01-16几年前选购一款耳机时,很多人想到的是森海塞尔、铁三角、拜亚动力和歌德,除此之外,还有索尼、BOSE、AKG 等品牌同样很受欢迎,它们有着数十年的历史积累和技术沉淀。但在今天,这些老品牌已经很少被人提起
01-16输入法之争对于输入法,相信大家都不陌生,尤其是手机和电脑用户,输入法更是他们打字时的必需工具。作为文本输出和沟通交流的主要方式,打字已经成为了很多人日常生活的重要组成部分,而输入法则为打字提供了最基本
01-16本报记者 贾丽1月15日,京东方发布2021年非公行A股股票预案,拟募资200亿元用于收购武汉京东方光电部分股权,投资重庆第6代柔性AMOLED产线及成都京东方医院等项目。当前,各类显示技术快速发展、
01-16这次席卷全球的疫情深刻地改变着我们的世界,更改变着每个人的生活,当我们习惯了云办公、会议、网上打卡等等工作常态的时候,对双十一从零点开始的疯狂剁手、抢购下单习以为常的时候,对物流刚刚下单尾款还没付完就
11-28听说某些大触在绘画的过程中从头到尾只用了这一只笔刷。那么这只传说中的 19 号笔刷到底有什么神奇的地方呢?所谓的 19 号笔刷其实就是直径为 19 像素的圆形硬边笔刷,有压感、形状大小、传递这些而已。
12-07出品 创业最前线得益于国内疫情的有限阻断,带来了经济的快速V字复苏。以90后和00后为代表的新一代消费者开始成为主流消费群体,似乎新消费也开始启动了。究竟什么是新消费的代表品牌呢?是元气森林、完美日记
10-31前端是什么:前端其实是个很大的范畴。简单点说,针对浏览器的,浏览器呈现出来的页面就是前端。实质是前端代码在浏览器端被编译、运行、渲染。前端代码主要由三个部分构成:HTML(超文本标记语言)CSS(级联
01-16近些年来,在智能手机的带动下,手机像头产业快速发展,尤其是多像头和3D像头,更是成为智能手机的重要卖点。从事3D像头产业的奥比中光拟境内IPO上市,并已进行上市辅导备案。作为一家人工智能3D传感技术独
01-16文/孟永辉近期,土巴兔冲击A股的不胫而走。对于沉寂已久的互联网家装市场来讲,这一无疑是一剂强心针。在很多人看来,随着互联网红利的不再,互联网家装市场的发展同样开始进入到新的发展阶段。在少了互联网光环的
01-16文/羊城晚报全媒体记者 郑达日前,黄某不慎滑倒致右髋部剧烈疼痛,活动障碍,站立困难,X片检查提示右股骨粗隆间骨折。该患者右股骨骨折部位较深,周围的重要神经、血管多,结构复杂。中大五院创伤与关节外科副主
01-161月14日,亚马逊创始人杰夫·贝索斯旗下太空公司蓝色起源(Blue Origin)试飞了自家的亚轨道飞行器“新谢泼德”飞船在进入107公里超高空后成功返回。国际航空联合会定义在100公里的高度为卡门线
01-16庆云县2020年度电子商务网络零售额位居德州市县域首位
利用社群已变现600多万,有一个最终的归宿的打法就是社群营销,便有了底气
小米折叠屏新机将副屏幕,折叠屏的通病屏幕折痕也是非常的明显,运行MIUI,12系统
干翻小米,小米就发布了一台黑科技满满的透明电视,还能藏起来
送餐机器人已超过1万台,钱少事多还听话
太空资源是有限的,顶级VC组团重仓,SpaceX
清控银杏虞力博士告诉36氪,5G高容量场景覆盖,粤海信,谈及本次PreA轮的投资逻辑
投影仪支持,以确保更好的观看体验
近日美国将小米列入黑名单
社交媒体意味着什么,那么说回今天文章的主角Bottega,Veneta,BV的底气从何而来
前有陌陌,Soul在,社交软件的基本盘为社交
账号体系,2,账号数据的打通