数据治理是一种数据管理的概念,确保组织能在数据的全生命周期中具有高质量的数据质量能力,并且实现对数据的完全管理,以支持业务的目标。
实际生产中数据治理流程链路中涉及到的方方面面,在平台侧火山引擎DataLeap是如何解决每个流程中对应的问题呢?整体从思路上,划分为三个维度:
一站式
在建立一站式解决方案里,我们细分了三层。
第一层:视图层。这个视图层就是来满足我们能够知道,我们有哪些资产,我们有什么,我们的目标是什么,该怎么制定,这个我们称之为治理全景层。
第二层:方案层。也就是真正实施去推动这个治理过程的这一层。在这一层里面我们提出了两种治理的路径,一种是主动式的规划路径,另二种是系统发现式的路径。
●系统规划式路径:契合于从上而下的视角来去满足于治理的目标,针对它做一些规划,做了一些规划之后对相应的资产进行诊断。
●系统发现式路径:这个是基于我们平台里面的一些全局规则来定义,通过系统来去订阅,定期在系统里面去进行运行扫描,发现一些资产的问题,通过一些消息的方式推送到这些资产的责任人,进行一些比如说根因的登记,问题的登记,事故的复盘,最后进行一些总结和经验的共享等等;
第三层:工具能力层。即为了满足于上面的视图层和方案层,我们在工具侧提供的一些能力,包括一些垂直的治理场景和质量,安全成本,稳定性,报警起夜等等方面。还有一些基础服务来支撑这些我们工具的建设。比如我们会抽出一些消息的中心,云数据的中心,规则引擎或者数据服务等等。
全链路
全链路是指我们希望治理能够达到一个闭环的状态。
在整个链路里面,可能针对于不同的角色,会有一些不同的使用方式,或者是一些运行方式。在整个的路径里面会有从资产的视图来看我们有哪些东西。在这些资产视图基础之上去定一些目标和规划。比如说有些外部驱动的指标,业务驱动的一些指标或者是一些合规或者是政策类的指标等等,来制定我们治理的目标。
针对这些目标,我们去做一些方案的制定。
举个例子,比如去做一些存储资产的降低,可能通过一些规则来去圈选出来资产有问题的部分。之后推进这个治理的实施,可能在一些治理决策者或者一些团队的负责人方面,他可能会去进行一些拉群的督办,或者是一些定时的订阅提醒等等。在推进治理方案过程中,还希望资产的责任人,也就是治理的实施者在我们这个平台工具里面能够具体去实施治理的动作,如一些基于SLA的申报、参数的优化、存储规则的设置、规则的调优等等。
进行了一系列治理之后,我们肯定要有一个验收的环节,可能会是一个整体指标的验收,业务是否达标了,指标是否合理,最后进行一些经验的总结,这个是全链路的部分。
当然在全链路里面也包括了刚才所说的这种系统式、扫描式的路径。这个也是通过一些规则的制定,在系统里面去发起规则的定义和订阅。通过系统的扫描去发现一些问题,发现问题之后经过一些实施的治理,可能再反哺到我们具体的一些规则的制定上面去。比如说更进一步配置一些监控规则,来预防治理的一些问题。
全规则
全规则目标是提供比较完备的治理规则能力,能够服务于刚才所说的这种规划式资产组合与响应式资产扫描。这个是在平台的能力完备性方面的一些考虑。目前我们提供了存储计算、质量报警等四个维度,现在有数十个这种治理的规则可供任意的圈选和组合。其中包括一些全局的规则和自定义的规则。
比如全局规则,比如近7天的产出为空的任务,是否有暴力扫描的任务。或者是一些定义,比如生命周期可以任意选择一个时间段来去进行扫描或者近xxx天任务为空,把这些任务圈选出来,这些是自定义的部分。
同时还有一些统计类和挖掘类。统计类就是基于数据建设对元数据的应用和加工。举个例子,比如近90天无访问表,或者是数据倾斜任务的圈选。挖掘类其实是在元数据的基础上进行一些更深层次的挖掘,去找到一些数据的问题,比如相似的库表,相似的任务等。