第 1 期:加,还是减?基于 HexaDB 构建『库仓一体』数据系统的工程实践

HexaDB-H 库仓一体 最佳实践
发布于2023-12-21

近日,HexaDB 在客户通天云计算有限公司用于构建“库仓一体”数据系统的实践,获评工信部信通院颁发的数据库星河优秀案例。

上图为通天云计算 CTO 王泽与数翊科技高级副总裁李兆伟的颁奖合影上图为通天云计算 CTO 王泽与数翊科技高级副总裁李兆伟的颁奖合影

通天的业务与 IT 系统在中等规模企业群体中,有很强的代表性,通过 HexaDB 实现 IT 复杂度的减法,实现数字化效率的加法,值得推广。小六借此机会聊聊为中等规模企业构建数字化转型基础设施的心得。

企业以降本增效或者拓展新业务模式为目标的数字化转型是个持续而漫长的探索式升级的过程。数字化转型的基础是企业的业务数据以及周边相关数据能高效流转,最好能形成业务应用—业务数据—数据分析—智能决策—业务应用的实时闭环,才能实现从“报表服务于老板”到“数据赋能一线业务”的转型。数据库和数据仓库则是支撑数据实时闭环的基础软件。

几乎所有的企业都有自己的基础软件——林林总总的数据库系统和形态各异的数据仓库体系,实现了数据高效流转的企业确实凤毛麟角。常见的业务现状是:数据流不动、流得慢、数据时常断流、数据好不容易汇聚到一起了但技术人员深陷数据治理泥潭难以自拔、数据质量不可控导致业务模型的计算结果不可信。与此同时,“加法式”数字化转型使得 IT 系统越来越臃肿而笨重,不论是服务器硬性成本,还是技术运维升级的软性成本,甚至整个 IT 体系的稳定性、安全性风险,都只增不减,IT 性价比不增反降。本来支撑数字化转型的数据技术反而成为了数字化转型的障碍。

问题出在哪里?世界上绝大多数企业的信息化系统体量、IT 投入并不适应诞生于超大企业的超大型数字化转型工程;他们的 IT 基础设施需要量身精简,需要提升“核心力量”,而不是持续增加时髦的外衣与装饰

小六简单回顾了一些似曾相识的情景:大多数企业数据库是由 ISV 本着“低成本、最好是免费、开发者学习成本足够低”的原则而选型的,这有它的合理性,无可厚非。久而久之,各种异构数据库、各种 DDL 规范与 DML 规范(或者说没有规范)盘根错节。数据库越多,数据越难流通、难管理、难分辨。想改,换汤不换药;不改,技术包袱越来越重。这时候,听说有个做法叫“建个数据仓库,或者是湖仓分离,或者是湖仓一体”,把数据都汇聚到一个地方,之后就畅想着“打通各种孤岛”。现实却是:各数据库里数据是变化而非静止的,间歇性入仓的数据已然不“新鲜”;海量的 ETL 工作没有尽头,甚至使得数据质量进一步恶化;一群小孤岛没有打通,又造了个大孤岛,于是在小孤岛和大孤岛之间的数据通路上再打补丁。这也是很多数据中台烂尾的内在原因。对于大多数企业,一套既不治标也不治本的组合拳下来,已经不堪重负,经不起“加码式”折腾了。企业数字化转型首先得让数据技术从加法向减法转型。

如何能治标又治本呢?如果能减少小孤岛,减少用于数据搬迁与治理的 ETL 工作,缩短数据流转的链路,减少冗余性 IT 成本,就能从根上解决问题。如果同时能提升数据库/数据仓库的可用性、性能、安全性,则是相当可观的附加价值。

HexaDB 正是在简化数据基础设施 IT 架构、打掉繁重的数据中间加工环节、提高数据流转的时效性、降低数据使用门槛的理念下诞生的新型 HTAP 型数据库。对于大多数企业而言,使用 HexaDB 构建一套库仓一体的基础设施即可解决上述问题。

咱们再看回本次的主角,通天集团,这是一家云服务厂商,服务各行各业上百万企业客户。随着业务的逐渐壮大,已经形成以核心交易系统、客户管理系统、销售与客服系统、财务系统、大数据分析系统与工具集为核心的 IT 体系。在数字化转型的大战略之下,数据流转不畅、数据库与大数据系统迭代升级难、IT 投入见效周期长等问题,都逐步暴露出来。比如,日常投入固定的工程师团队,只能产生基于一天前的历史数据所产生的报表,不足以支持一线销售、产品、服务团队的日常工作。几十人的数据团队大部分时间花在缝合数据本身,而不是直接响应业务数据诉求。

通天需要一套能将“新鲜”数据实时流转起来、能保证数据质量、供业务模型实时计算、供业务系统交互式查询、高可用、强安全、应用开发者能轻松使用和维护的数据库基础设施。

经过数月的 PoC 测试对比,通天集团最终选择了 HexaDB,构建了数据库和数据仓库一体化系统,并正式于生产系统上线。

通过下面两个图,可以清楚对比通天原有的数据基础软件与基于 HexaDB 的数据基础软件的区别。

图 1. 通天云计算公司原有数据基础设施架构图 1. 通天云计算公司原有数据基础设施架构

图 2. 通天云计算公司基于 HexaDB HTAP 能力构建的分布式库仓一体架构图 2. 通天云计算公司基于 HexaDB HTAP 能力构建的分布式库仓一体架构

通天将业务系统数据库逐渐迁移割接到 HexaDB 上,并直接在 HexaDB 中建立数仓。

  • TP 表与 AP 表在一套数据库系统中管理。直接打掉了从 TP 库到 AP 库的 ETL 工作,相当于传统数仓建设过程中的 STG 层的表以及用来生成 STG 表的 ETL 都省了。HexaDB 强大的主数据管理能力,使得大量的基于 STG 治理生成 ODS 表的工作也省了。HexaDB 的事件触发能力,使得从 TP 表到 AP 表的数据模型任务计算,无需等待时钟调度,数据进库即可触发通往 AP 表的计算任务。

  • TP 负载和 AP 负载也在一套数据库系统中并行运行。HexaDB 的分布式 HTAP 架构能充分利用服务器资源,同时能很好地隔离 TP 与 AP 负载,并确保当产生资源争抢时,优先保证高优先级 TP 负载的计算性能。

数据库基础能力方面,HexaDB 与 MySQL、PostgreSQL、Oracle、SQL Server 有很好的兼容性,在实际生产环境割接案例中,兼容度达到 99%以上。 在保障数据强一致的前提下,基于行列混存的 HexaDB 向用户提供优秀的实时读写和复杂查询性能,确保业务系统数据库和数据仓库服务的性能相比割接前只增不减,并且这些都是构建在一套统一的数据库系统之上的。

此外,HexaDB 配套的数据开发治理软件和数据库运维监控软件,能充分降低工程师使用门槛,无需掌握特定的大数据存算引擎技术,会用常见的关系型数据库即可玩转 HexaDB。

通天的 CTO 王泽说道:“与 HexaDB 合作后,通天实现了数据‘产生即分析’,能实时反馈到业务系统,实现了信息化与数字化的数据实时闭环。‘SQL 即大数据’,大数据工程师得以从繁重的‘数据搬砖’工作中解脱出来,专注于业务数据模型开发。数据库可用性提升了一个数量级的同时,IT 综合成本下降了近 50%”。

未来,HexaDB 会持续聚焦 HTAP 新一代数据库技术,以简化数据基础设施 IT 架构、提高数据流转时效性、降低数据使用门槛为理念,积极助力企业数字化转型进程。让小六带你见证世界一流的全栈式 HTAP 数据库!