免费注册

低代码系统快速开发定制

会用表格工具,就能用低代码开发系统
数据治理包括哪几个方面

数据治理包括哪几个方面

作者: 低代码架构师Kaiwen
阅读数:2570
更新时间:2024-02-23 12:34:50
浏览次数:2746次
数据治理包括哪几个方面
p class="p1">数据治理核心工作包括4个方面,分别是:元数据管理平台、数据血缘、数据质量、和数据ROI。接下来我们将逐步讲解。

 

什么是数据治理

 

根据AZure的定义,数据治理是流程、策略、角色、指标和标准的集合,可确保有效和高效地使用信息。这还有助于建立数据管理过程,在整个数据生命周期内保持数据安全、私密、准确且可用。

对于使用数据推动业务增长、改进决策并确保在竞争激烈的市场中获得成功的任何组织而言,可靠的数据治理策略至关重要。在收集大量内部和外部数据时,需要制定一种策略来有效管理风险、降低成本和执行业务目标。

根据GoogleCloud的定义,数据治理是指为确保数据安全、私有、准确、可用和易用所执行的所有操作。它包括人们必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。数据治理意味着设置适用于收集、存储、处理和处置数据的内部标准,即数据策略。它规定了谁可以访问哪些数据以及哪些数据应受治理。数据治理还涉及遵循行业协会、政府机构和其他利益相关者设定的外部标准。 

 

收据治理的五个方面之一:元数据管理平台

 

元数据,又称为MetaData,是很多数据平台、软件系统的核心。如果你熟悉Mysql,那么Mysql中的库、表、字段等信息,都可以认为是元数据。在大数据领域,元数据往往代表各个平台中类似Mysql中库、表、字段的信息,往往是通过SQL、Thrift、ProtoBuffer等格式进行定义,并通过相应的平台进行管理,这个平台就是元数据管理平台,有的公司会给这个平台起一个名字,叫数据工厂。许多数据库、数据平台中都有相应的元数据管理模块,比如Hive、Es、Doris等等。

在小米大数据团队分享的资料中(原文在https://blog.csdn.net/rlnlo2pnefx9c/article/details/121528248),我们可以看到元数据的另一种分类:从抽象来看,包括分为实体、实体的属性以及实体与实体之间的关系三个方面来进行分类。实体主要指表元数据和作业元数据,来自于工程师在ETL的实际工作中所涉及到的系统。如:Hive、Doras、Kudu、MQ、ES、Iceberg,即传统的数仓及上下游。

比如:实体包含了技术元数据和生产元数据。其中技术元数据用于支撑数据资产管理的资产地图;生产元数据,主要是作业的一些调度信息和运行信息,用于支撑数据资产管理的数据质量和成本治理的服务。

实体的属性,包含业务元数据和衍生元数据。

业务元数据包括数仓分层、数据分类、指标关联、应用信息、隐私分级等内容。内容来源于建模规范、业务、指标系统、BI看板、数据报表,以及来自于业务的隐私分级定义等。业务元数据用于支撑资产管理的资产价值、安全治理以及规范治理。

衍生元数据包含元数据的存储计量和访问计量。存储计量是服务于存储层面的成本治理;访问计量用于描述数据的使用情况,从技术角度去衡量资产的价值。衍生元数据来源于ETL工作中涉及的HDFS-Image、Doris、Kudu、MQ、ES以及HDFS-Log、SQL-Log。

描述实体的关系,包括血缘元数据,用于描述元数据之间的关联关系,用于支撑数据资产管理中的影响分析和资产地图服务。

关于元数据平台和相应技术架构,我们后续再单独讲解

 

 

收据治理的五个方面之二:数据血缘

数据血缘,有时候又叫数据全景,解决的是数据之间依赖关系的收集、存储和查询、分析的问题。说一个常见的场景,某业务发现自己的表里有个字段要下线,但是不知道有哪些业务、哪些下游数据依赖这个字段,那么通过数据血缘一般就能回答这个问题。

依托数据血缘模块,往往还可以发现数据元数据的搜索、上下游依赖关系的确认以及数据变更的全链路追踪等功能。

 

收据治理的五个方面之三:数据质量

 

数据质量,在大数据领域是一个大问题。典型的场景例如,命名数据生产的POI在北京,但是实际存储后发现数据的POI点到了成都,这对数据后期的使用,尤其是一些基于LBS的广告业务来说是完全无法忍受的。

数据质量治理就是要解决这个问题。往往通过几个方面进行:

组建专业的数据质量保障团队

提出、发布数据规范,通过基础SDK、数据流平台准入等多种基础架构平台的管理和技术手段确保规范的落地

基于数据血缘等既有元数据平台,打造数据质量自动回归测试平台

 

收据治理的五个方面之四:数据ROI

最后一部分是数据ROI。众所周知,大数据海量数据的采集存储分析计算等工作,需要大量的人力算力。举个小例子,有些日志平台,每天产生几百上千T日志数据,供业务方检索分析,往往需要耗费上百台服务器来搭建ES集群才能支撑,加上数据平台多副本存储等技术需求,一个需求,就要花费每个月上百万的服务器成本。但是这些日志如果只拿来分析技术故障、定位技术问题,显然ROI就有点低了。

中大型企业中往往有大量的这类场景。这个时候,结合元数据,准确评估每份数据的需求、生产采集存储计算成本、产生的价值,甚至是在不同的数据项目之间,合并同类项,就显得非常必要。数据ROI解决的就是这类问题。

 

总结

最后,数据治理往往不是一帆风顺的,往往要触动很多技术部门和业务部门的既有利益和做法,需要有很强的资源协调能力,且无法一蹴而就。低代码平台打破了传统的软件开发模式,一切开发从元数据建模开始,具有原生数据治理、原生数据血缘等诸多优势,如有需要基于低代码平台开展数字化业务,欢迎联系我们

 

 

 

 

发表评论

评论列表

暂时没有评论,有什么想聊的?

低代码系统快速开发定制

低代码系统快速开发定制

会用表格工具,就能用低代码开发系统

热推产品-园区经济监测

区域经济运行与监测平台

企业分析发展监测,具备企业图谱、图像分析、指标健康和全要素数据库四大功能


推荐阅读
设备稼动率表格模板
2024-04-25 19:50:08
设备稼动率表格模板
2024-04-25 19:48:09
excel表格怎么加密
2024-04-25 19:45:46
excel表格求和
2024-04-25 19:44:26
excel表格里面怎么换行
2024-04-25 19:44:18
excel表格怎么自动排序123
2024-04-25 19:44:03
excel表格乘法计算公式
2024-04-25 19:43:41
excel表格怎么加密
2024-04-25 19:43:33
excel表格求和
2024-04-25 19:42:27
excel表格里面怎么换行
2024-04-25 19:42:11

数据治理包括哪几个方面最新资讯

分享关于大数据最新动态,数据分析模板分享,如何使用低代码构建大数据管理平台和低代码平台开发软件

园区管理可视化平台定制开发:如何满足企业个性化需求?

# 园区管理可视化平台定制开发:如何满足企业个性化需求? ## 园区管理可视化平台定制开发的概述 ### 理解企业个性化需求的重要性 #### 个性化需求与企业发展的关系 在当今

...
2024-04-25 10:53:20
共享换电柜使用指南:如何快速便捷地更换电池?

# 共享换电柜使用指南:如何快速便捷地更换电池? ## 一、共享换电柜概述与使用准备 ### 1.1 共享换电柜的基本介绍 #### 1.1.1 共享换电柜的定义与功能 共享换电柜是一种专

...
2024-04-24 01:49:03
工业运行指数监测平台定制开发:如何满足企业个性化需求?

# 工业运行指数监测平台定制开发:如何满足企业个性化需求?制作提纲 ## 一、工业运行指数监测平台定制开发的概述 ### 1.1 平台定制开发的必要性 #### 1.1.1 企业运营管理

...
2024-04-25 10:52:54

速优云

让监测“简单一点”

数据治理包括哪几个方面相关解决方案

数据治理包括哪几个方面推荐产品列表

×

欢迎访问速优云官网!

咨询电话:17190186096

扫码加顾问微信 -->

速优云PerfCloud官方微信