【精选】数据治理项目实施(合集)06——数据标准在数据治理中的落地实践

导读

本文对数据标准管理进行了深入探讨。重点介绍了数据标准的定义,实施路线和具体标准定义的内容,并总结了企业开展数据标准管理面临的常见问题,由于编写的水平和时间有限, 难免有所纸漏, 欢迎大家批评指正。

        在现实生活中,标准与我们生活息息相关,食品需要满足标准才能实用,汽车需要满足安全标准才能上路行驶,电子产品需要满足标准才能互联互通。那么在 数据治理领域,标准同样很重要,我们数据治理的一个目标就是将各类不同来源的数据进行标准化管理,从而提升数据资产的使用和价值。这篇文章将从数据标准的定义、执行步骤、活动内容等方面阐述数据标准的实践方式。

01 什么是数据标准

        数据标准是什么,到底包括哪些内容,这个从概念角度而言有好几个出处:

    数据标准data standard:数据的命名、定义、结构和取值的规则。——GB\T 36073-2018 数据管理能力成熟度评估模型。

    数据标准 (Data Standards) :是保障数据的内外部使用和交换的一致性和准确性的规范性约束。——大数据技术标准委员会《数据标准管理实践白皮书1.0》数据标准:并非是一个专有名词,而是一系列“规范性约束”的抽象。但是,    数据标准的具体形态通常是一个或多个数据元的集合,即数据元是数据标准的基本单元。——大数据技术标准委员会《数据资产管理实践白皮书6.0》

    数据标准管理的目标是通过制定和发布由数据利益相关方确认的数据标准,结合制度约束、过程管控、技术工具等手段,推动数据的标准化,进一步提升数据质量。——大数据技术标准委员会《数据资产管理实践白皮书6.0》

    标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、 技术属性和 管理属性的统一定义。业务属性包括中文名称、业务定义、业务规则等,技术属性包括数据类型、数据格式等,管理属性包括数据定义者、数据管理者等。——JR/T0105-2014银行数据标准定义规范。

   那么数据标准的实质内容是什么,我们具体要对哪些活动做标准,可以看下面这张图:

        这里可以看出,国标对数据标准的定义包含业务术语、主数据、参考数据、数据元和指标数据。在DAMA体系当中,没有将数据标准作为一个独立的活动来管理,这其实就意味着,数据标准普遍存在于我们数据治理的各项活动当中,是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,通过对活动、流程、定义来统一规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。比如下面这张图,从数据要素角度定义的数据标准又是另外一个维度,所以标准没有边界,但凡涉及到治理的活动、流程、内容,都需要依赖标准来约束。

 当然,也并不是所有的内容都需要定标准,应为标准的范围实在是太大了,这就取决于怎么来判断标准的范围,落标的程度。所以在做数据标注之前有三个问题需要考虑:

  •     问题1. 什么数据需要制定哪些标准?

    并非所有基础类数据都要建立标准,纳入标准的数据项需要满足共享性、重要性和可行性的准入原则。如:基础通用型数据(国家标准、行业标准、企业标准)、主数据类数据、类型和维度数据(分类码、维度码)、报送类(指标、标签)

  •     问题2.什么系统落什么标准?

    核心业务系统、重点业务系统,通过试点逐步推进标准建设,也可反推源头标准化改造。

  •     问题3.什么人与什么时间执行?

    可以参考下面这个表格

02 数据标准的实施路线图

    数据标准同样也是需要做到规划先行,总体执行步骤分六个阶段:

标准规划阶段:对当前的数据标准进行调研,了解各厂家、各来源数据的标准情况,收集诸如数据字典、模型设计等信息。同时了解当前业务领域,国家、行业、的相关权威标准,定义出数据标准框架和实施路线图,以及数据标准的整理表格。

    数据标准制定阶段:标准制定是指在完成标准分类规划的基础上,定义数据标准及相关规则。数据标准的定义主要指数据元及其属性的确定。随着企业业务和标准需求的不断发展延伸,需要科学合理地开展数据标准定义工作,确保数据标准的可持续性发展。

    标准发布阶段:数据标准的评审发布工作是保证数据标准可用性、 易用性的关键环节。在数据标准定义工作初步完成后,数据标准定义需要征询数据管理部门 、 数据标准部门以及相关业务部门的意见,在完成意见分析和标准修订后,进行标准发布。标准评审发布主要流程包括意见征询、 数据标准审议、 数据标准发布等三个过程。

    数据标准维护阶段:数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果而不断更新和完善。

    数据标准化评估阶段:数据标准化评估是为了验证各类标准的落标情况,对落标的效果进行评估,从而能够看出标准的执行效果,并发现新的落标内容。

03 数据标准规划需要做的事儿

数据标准规划包括数据标准调研、数据标准梳理、数据标准框架定义、数据标准模板定义。

【数据标准调研】

    数据标准调研应从业务运行和管理层面、国家和行业相关数据标准规定层面、信息和业务系统数据现状三个方面开展,同时需要考虑现有定义、使用习惯、问题梳理、现状分析、参考文档等。可以通过调查问卷、安排现场访谈、收集文档资料等手段,针对不同的业务系统选用合适的调研方式,对现有定义、使用习惯、数据分布、数据流向、业务规则、服务部门等开展相关调研工作。调研内容包括现有的数据业务含义、数据标准分类、数据元定义、数据项属性规则以及相关国际标准、国家标准、地方标准和行业数据标准等。

    这里顺便补充一下常用的标准查询网址:

【数据标准梳理】

    数据标准梳理是将前期调研的数据标准以及当前数据内容进行梳理,整理出数据标准清单。数据标准的数量可以引用BOR法进行,依据所要构建的数据标准覆盖的业务范围,梳理这些活动中涉及到的全部Objects(主体或对象),以及Objects之间的关联关系。构建数据标准的过程,就是定义Objects和Bussinse的组成要素(政府叫数据元,有些叫信息项,在技术层面统称为元数据)。根据每个业务活动,比如说销售的活动,那就会提炼出销售业务相关的数据对象;比如说客户、销售的产品、销售订单,这些都是相应的实体数据。实体的数据都有相应的属性信息,需要把它的每一项属性信息从三个角度,业务角度、技术角度、管理角度,进行统一的梳理,最后归纳出来与实体之间的关系,形成数据的整体模型。

        首先构建数据标准的主题域,厘清数据主题域之间的逻辑关系;再逐级分解,定义各个主题域下的重要实体和实体间关系;最后定义每个实体中的标准信息项,包括业务含义、质量规则、安全级别、值域范围、代码集等内容。

(数据标准梳理清单)

【数据标准框架定义】

    数据标准框架一般分为基础数据标准和指标数据标准。

    基础类数据标准:为了统一企业所有业务活动相关数据的一致性和准确性解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准。

(1)业务标准

业务标准规范,一般包括业务的定义,标准的名称,标准的分类等。对于业务人员而言,数据标准化建设,可以提升业务的规范性,提升自己的工作效率;同时,保障了数据含义的一致性,降低了沟通成本,给业务的数据分析,挖掘,信息共享提供了便利。

(2)技术标准

技术标准规范,是从技术角度,看待数据标准包括了数据的类型,长度,格式,编码规则等。对于技术人员来说,有了数据标准规范,工作效率可以大幅度提升,降低系统的出错率,有助于提升数据质量。

(3)管理标准

管理标准规范,是从管理角度,看待数据标准。比如数据标准的管理者是谁,如何增添,如何删减,访问标准条件等,都是一个数据规范要求。对于管理人员来说,数据标准建设,保证了数据的完整,准确,为数据安全,经营决策都提供了支持和保障。

  指标类数据标准:1、基础指标具有特定业务和经济含义,且仅能通过基础类数据加工获得。2、计算指标通常由两个以上基础指标计算得出。并非所有基础类数据和指标类数据都应纳入数据标准的管辖范围。

【数据标准实施模板定义】

        数据标准实施模板主要是为了辅助数据标准实施定义的一系列流程模板,其中包括数据标准工作详细计划、调研规范、分析报告、参考物清单、标准评审报告、数据字典清单、业务术语清单等文档,能够贯穿标准从规划到执行评价整体工序的文档。

04 数据标准制定的内容

数据标准制定是指在完成标准分类规划的基础上,定义数据标准及相关规则。数据标准的定义主要包括模型数据标准、主数据和参考数据标准、业务术语表及数据元的确定,随着业务和标准需求的不断延伸,需要合理规划标准定义工作,确保数据标准的可持续发展。

【数据模型标准】

     模型数据标准是为了统一业务活动相关数据的一致性和准确性,解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准,模型数据标准也是元数据管理的主要内容之一。

        在定义模型数据标准的时候,需要通过规范表名称、字段名称及数据类型来指导数据架构设计,形成数据治理的延续。使用同-规范巩固和形成持续的数据治理机制。

【主数据和参考数据标准】

    主数据和参考数据是对数据标准要求最严格的活动,涉及到标准定义的主要有两部分,一是主数据自身的标准定义,也就是主数据包含的元数据信息,包括数据格式、同义词约定、字段名称、值域范围等内容。

        另外一个就是关于参考数据的标准定义,主数据统一各数据对象的定义肯定会涉及到多源数据标准的整合,如参考数据,到底引用哪个源头的字典进行定义是需要后期多方进行评审的,在这个背景下,如果有国标、行标的前提,可以进行优先引用。参考数据标准如下图所示:

【数据元标准】

    数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。也就是说数据标准最小粒度也就是数据源标准的定义,数据元是基础类数据标准的具象化体现,也是数据标准管理的核心。

    完整的数据元应当由三部分组成,对象类、特性及表示只有当对象类及其特性绑定了表示时,才能由数据元概念转变为真正的数据元。

    对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;,如:车、人、订单等;

    特性类:对象类的所有个体所共有的某种性质,如颜色、性别、年龄、价格等;

    表示类:值域、数据类型的组合,必要时也包括度量单位或字符集,如:格式、值域、长度等;

    在理解了数据元的含义后,如何去制定数据元呢?我们可参考GB/T18391标准的第1~6部分,有兴趣的朋友可以去了解下。对于数据元的规范,国家和行业都有很多标准,所以在定义数据元标准的时候,需要更多的去关注这些标准,在制定数据元时,可以从6个方面描述数据元的基本属性:标识类属性、定义类属性、关系类属性、表示类属性、管理类属性、附加类属性。

(数据元标准样例)

【业务术语标准】

    业务术语是数据在多方应用场景的统一语言表达,同样业务数据内容也是需要在前期调研环节收集的内容,并结合官方的权威定义对业务术语进行标准化定义和完善,业务术语的目标主要有以下几点:

    1)对核心业务概念和术语有共同的理解。

    2)降低由于对业务概念理解不一致而导致数据误用风险。

    3)改进技术资产(包括技术命名规范)与业务组织之间的一致性。

    4)最大限度地提高搜索能力,并能够获得记录在案的组织知识。

【指标标准】

   指标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标具有特定业务和经济含义,且仅能通过基础类数据加工获得,计算指标通常由两个以上基础指标计算得出。

05 数据标准的发布

        数据标准的评审发布工作是保证数据标准可用性、易用性的关键环节。在数据标准定义工作初步完成后,数据标准定义需要征询数据管理部门、数据标准部门以及相关业务部门的意见,在完成意见分析和标准修订后,进行标准发布。标准评审发布主要流程包括意见征询、数据标准审议、数据标准发布等三个过程。

06 数据标准执行和检查(贯标)

        数据标准执行主要分两部分,第一部分是正在进行数据治理的各个阶段进行应用,第二部分是新建系统和历史存在的业务系统的应用。新建系统的贯标必须严格按照发布的标准进行设计,通过使用平台提供的模型设计产品进行管控。正在运行系统的标准可以通过探查、智能识别的手段建立映射关系,包括模型的引用,字典的引用,或者通过数据清洗转换进行映射处理。

         在数据标准执行的过程当中,为了检查标准的执行情况,我们也可以依靠各类数据质量规则、数据安全规则进行相关标准的检测工作,来验证标准的执行情况。

07 数据标准的维护

        数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果而不断更新和完善。

    在数据标准维护的初期,首先需要完成需求收集 、 需求评审、 变更评审、发布等多项工作, 并对所有的修订进行版本管理, 以使数据标准 “有迹可循 ”,便于数据标准体系和框架维护的一致性。其次, 应制定数据标准运营 维护路线图,遵循数据标准管理工作的组织结构与策略流程,各部门共同配合实现数据标准的运营维护。

    在数据标准维护的中期, 主要完成数据标准日常维护工作与数据标准定期维护工作。日常维护是指根据业务的变化,常态化开展数据标准维护工作,比如当企业拓展新业务时,应及时增加相应数据标准;当企业业务范围或规则发生变化时,应及时变更相应数据标准;当数据标准无应用对象时,应废止相应数据标准。定期维护是指对已定义发布的数据标准定期进行标准审查,以确保数据标准的持续实用性。通常来说,定期维护的周期一般为 一年或两年。

    在数据标准维护的后期,应重新制定数据标准在各业务部门 、 各系统的落地方案,并制定相应的落地计划。在数据标准体系下,由于增加或更改数据标准分类而使数据标准体系发生变化的,或在同一数据标准分类下,因业务拓展而新增加的数据标准,应遵循数据标准编制、 审核 、 发布的相关规定。

08 数据标准执行的常见问题

        这里举几个比较典型的数据标准执行的常见问题:

1、存量数据标准落标

  •     存量系统先管理好数据模型和字典,这作为未来统一数据标准的基础。

  •     摸清模型存量系统不符标准的情况,如标准代码,编码规则,存储格式等严重影响数据指标和拉通汇集的情况。

  •     根据非标问题的影响程度,制定未来的落标计划,选择合适的时机进行逐项的落标。

  •     未落标前,可以先落标ODS层或ADS层,这样可以纠正后期应用的标准化问题。

2、多套标准并行的场景

  • 对标准进行有效范围的定义,以明确每套标准的用途,比如原系统的标准作为地方标准,数仓的作为国家标准。

  • 建立标准之间的映射管理,做好数据拉通的依据解决。这样设计标准的维护和变更就可以重点选择哪里进行新增,以及如何进行统一等。

3、其他问题举例


 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

———— 数据治理行业资料及实施模板获取请加入获取————

———— 星球资料部分内容————

 数据治理实施交付物合集


 

 

  数据治理行业合集


 

 

   数据治理方案合集


 

 

           ———— 更多资讯请添加公众号————

  ———— 欢迎加入社区讨论数据治理————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/753164.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

填报高考志愿时,学校、专业和城市怎么选择呢?

我的观点是: 专业>城市>学校 专业是兴趣导向,符合自己的价值观,失去了这种驱动力的专业学习,会变得非常艰难的,而且没有竞争力,所以我的排序第一位是专业。 其次是城市,最好是一线城市&…

OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!

目录 01 基于GPT-4,改进GPT-4 02 CriticGPT取得了哪些成果呢? 03 RLHF的上限不再是人类 近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。 CriticGPT能够在代码挑错中找到超过75%…

golang生成RSA公钥和密钥

目录 场景 场景一:加密、解密 场景二:微信退款 场景三:SSL证书 为什么是.key和.pem格式的文件 生成密钥、公钥 密钥、公钥保存到文件中 第一个:保存密钥到文件里 第二个:保存公钥到文件里 场景 场景一&#…

ForkJoinPool浅析

一,概述 相比传统的线程池ExecuteService,ForkJoinPool的优势在于能采用分治算法、工作窃取算法高效利用CPU资源,如下图 Fork即拆分,Join即合并, 通过将大任务拆分成多个小任务,在多个线程中执行后,合并结果即可得到大任务的结果,经典的例子有归并排序、超大数组求和…

如何保护应用?可快速部署的WAF服务器分享

Web应用攻击是安全事件和数据泄露的主要原因。相关统计表明,超过四分之三的网络犯罪直指应用及其漏洞。为保护数量日益增长的应用安全,Web应用防火墙(WAF)因此而生。本文则聚焦于WAF服务器,了解它的性能与具体的实践应用。   新加坡网络安全…

Linux应急响应靶机 2

一、靶机介绍 应急响应靶机-Linux2 前景需要:看监控的时候发现webshell告警,领导让你上机检查你可以救救安服仔吗!! 1,提交攻击者IP 2,提交攻击者修改的管理员密码(明文) 3,提交第一次Webshell的连接URL(http://xxx.xxx.xxx.…

变“回锅肉”专场的《歌手2024》,是不是高开低走了?

《歌手2024》播出已经过半,似乎出现了高开低走的不妙趋势。 6月26日,《歌手》节目组官宣第八期节目的补位歌手为谭维维,曾主动“请战”的她再次回到了《歌手》舞台,实力歌手加入节目按理说是件好事,却意外并未受到观众…

每天写java到期末考试--复习集合与泛型--6.28

1、定义一个Student类,具有name、sex、age属性,具有getName、setName、getSex、setSex、 getAge、setAge方法和三个参数的构造方法 2、编写一个类,名字为ListDemo,在main方法中做以下工作: 定义一个可以保存Student类型对象的List类型对象list1,然后向list1中放入2个学生:new S…

Web渗透:php反序列化漏洞

反序列化漏洞(Deserialization Vulnerability)是一种在应用程序处理数据的过程中,因不安全的反序列化操作引发的安全漏洞;反序列化是指将序列化的数据(通常是字节流或字符串)转换回对象的过程,如…

松下的台灯值得入手吗?书客、飞利浦真实横评大分享!

我们都知道,无论是学习还是工作,都需要一个良好的照明环境,而台灯就是我们日常生活中非常重要的照明工具。它不仅能够提供额外的光线,还能减少眼睛疲劳,提高我们的工作和学习效率。 所以,选购一款合适的台…

240622_昇思学习打卡-Day4-ResNet50迁移学习

240622_昇思学习打卡-Day4-ResNet50迁移学习 我们对事物的认知都是一点一点积累出来的,往往借助已经认识过的东西,可以更好地理解和认识新的有关联的东西。比如一个人会骑自行车,我们让他去骑摩托车他也很快就能学会,比如已经学会…

电脑提醒事项怎么显示在桌面

在繁忙的工作节奏中,我们经常会面临多项任务同时进行的情况。为了确保不遗漏任何重要事务,设置电脑提醒事项就显得尤为重要。想象一下,当你正忙于一个项目时,电脑屏幕突然弹出一个提醒,告诉你接下来的会议时间&#xf…

梦想CAD二次开发

1.mxdraw简介 mxdraw是一个HTML5 Canvas JavaScript框架,它在THREE.js的基础上扩展开发,为用户提供了一套在前端绘图更为方便,快捷,高效率的解决方案,mxdraw的实质为一个前端二维绘图平台。你可以使用mxdraw在画布上绘…

实力认可!安全狗受聘成为福建省网信系统2024年度网络安全技术支撑单位

6月6日,福建省委网信办组织召开福建省网信系统2024年度网络安全技术支撑单位座谈会。 作为国内云原生安全领导厂商,安全狗也受邀出席此次活动。 省委宣传部副部长、省委网信办主任、省互联网信息办公室主任张远出席会议并颁发支撑单位证书。安全狗凭借出…

如何用Vue3和Plotly.js绘制动态3D图表?

本文由ScriptEcho平台提供技术支持 项目地址:传送门 Plotly.js: 使用Vue.js动态加载数据并绘制图表 应用场景 在数据可视化应用中,需要将数据动态加载到图表中并进行实时更新。本文将展示如何使用Plotly.js和Vue.js实现这一功能,从加载外…

java基于ssm+jsp 电子商城系统

1管理员功能模块 管理员登录,通过填写用户名、密码进行登录,如图1所示。 图1管理员登录界面图 管理员登录进入电子商城系统可以查看个人中心、用户管理、医生管理、药品信息管理、线上诊疗管理、医生信息管理、管理员管理、论坛管理、系统管理、订单管…

snowflake 不再是个数据仓库公司了

标题先上结论,为啥这么认为,且听接下来道来。 snowflake 非常成功,开创了云数仓先河,至今在数仓架构上也是相对比较先进的,国内一堆模仿的公司,传统上我们会认为 snowflake 肯定是一家数据仓库公司。不过最…

智能工业网络,需要何种工业以太网交换机作为支撑?

随着工业企业数字化及信息化的进一步深化升级,工业领域相关控制及信息系统的业务类型不断增加、复杂性不断提升,工业控制网络与工业信息网络也呈现融合趋势,具备支持多业务、多协议、多厂商设备和数据的互联互通、共网承载以及高质量传输能力…

vue-router的学习

vue-router 基于Vue做单页面应用时,vue-router可以帮我们将url地址和组件绑定,在我们切换路由组件时,url改变,页面无需从服务端重新加载,即不用刷新,打个比方,我们用美团外卖点外卖时&#xff…

一文带你彻底搞懂设计模式之单例模式!!由浅入深,图文并茂,超超超详细的单例模式讲解!!

一文带你彻底搞懂设计模式之单例模式! 一、什么是单例模式?单例模式分类饿汉式创建单例对象懒汉式创建单例对象 多问一个为什么? 二、为什么要有单例模式?使用单例模式的原因单例模式的应用场景 三、多线程下的单例模式饿汉式懒汉…