数据模型与数据治理(二)|在企业级数据建模中治理数据
长亮动态
2024.03.18

导语:


随着越来越多的企业认识到数据作为生产要素的价值,加快了企业数字化转型,把完善企业级的数据治理体系作为企业数字化转型的一个目标。长亮科技在大数据领域始终保持足够的技术敏锐度,并积累了丰富的经验与资产。为此,我们组织了一个系列专文,分期发表,与您一起探索更适合当下行业发展的数据观,欢迎大家持续关注。



作者|长亮科技大数据研究院

内容|本篇共4010字,预计阅读时间15分钟


创建企业数据模型的过程与最终结果同样重要。正是因为数据建模的缺失,更迫切需要治理数据。即使一个小的业务处理系统的关系数据建模,也可以避免或减少数据质量问题的产生,有效降低未来数据管理和运营的成本和风险。一些企业的数据治理仅仅是为了满足监管要求而进行的被动行为,在IT建设过程中,没有通过企业级数据建模进行顶层设计和统筹规划,随着监管科技的发展,监管日益精细化,处罚力度不断加强,仅仅完成“规定动作”而没有通过体系化设计、未能得到根本解决的各类数据问题逐渐暴露出来并带来了越来越多的负面影响。反之,借助数字化转型,在内部推动企业级数据模型规划和落地,并通过数据治理有效清理积弊,提升数据资产质量的企业,则在数据资产化、要素化的浪潮中获得了领先的竞争优势。



01


关系数据建模方法

仍是企业级数据建模的唯一选择


DAMA-DMBOK2总结了用于表示数据的六个最常见的模式是:关系、维度、面向对象、基于事实、基于时间和NoSQL,其中最常用的是关系、维度、面向对象的UML,每种建模模式都使用特定的表示法-图表符号进行表达,良好的设计模式提供丰富的可扩展建模语言,便于提炼专家知识的原型,降低建模难度。


关系数据库管理系统的强大能力与Peter Chen的原始ER实体关系模型的概念密不可分,即逻辑数据模型。将数据与流程(与业务流程和系统流程)分开的核心思想,打破了面向流程的系统开发模式,同时实现更新(操作运营)和访问(决策支持)的目的,逻辑数据模型从业务角度实现了这种分离,而物理数据模型从数据库角度实现了这种分离。关系数据模型的实体完整性、参照完整性、用户定义的完整性约束为高质量数据的实现提供了保障,四十多年来,关系数据建模一直是理解复杂业务与数据,设计和部署具有高质量数据的关系数据库与支持应用开发的敏捷的、正确的、可靠的最佳方法。银行业务交易系统数据仍以关系数据为主,并适度降范,可以与企业关系数据模型便捷映射。


对象建模与面向对象的程序设计方法配合主要用于交易系统数据模型设计,对象中可以包含对象,冗余设计不可避免地造成数据的不一致,很难提供一个准确的定义来说明目标建设的数据,数据可移植性差,维护困难。维度建模是应用需求驱动的设计,即使设计企业一致的维度(也必须经历范式与抽象的思维逻辑过程),也存在数据冗余。对象建模与维度建模这两种方法的初衷都不是为了用一种稳定而客观的方式描述事实,以提供高质量数据并保证数据的连续性,因而这两种方式的建模过程不但无助于发现数据问题,反而可能产生更多的问题,不适合用于企业级的数据建模。


数据质量的度量管理与评价体系核心仍是基于关系数据模型建立的。DAMA-DMBOK2归纳了8个具有普遍一致性的数据质量维度:准确性、完备性、一致性、参考完整性、合理性、及时性、唯一性、有效性。ISO/IEC 25012数据质量模型把数据质量特性分为不排它的固有的数据质量与依赖系统的数据质量,排除依赖系统的数据质量特性后,固有的数据质量特性都可以用关系数据库管理系统来管理。


一表通监管数据采集接口标准把明细类数据划分为机构、客户、关系、财务、产品、协议、交易、状态、资源、参数等10个主题,把关系、状态单列主题,分别管理关系与历史变化,关系模型设计模式的监管要求比过去更加模型化,可以更加完整、体系化评价数据,对数据质量的要求越来越高。一表通接口标准存在一定的冗余,需要在支撑一表通的底层实现上提供一致的数据。





02


企业级数据建模

如何有效帮助治理数据?


数据是业务与信息的最后载体,企业级数据建模应自上而下参考企业业务架构与应用架构,自下而上结合数据需求和数据现状。从数据现状出发,整体上可以划分为信息探索、模型设计两个大的阶段。



1.信息探索阶段


了解企业数据现状及其元数据是企业级数据建模实质行为必不可少的一步。信息探索是对企业现有数据与文档进行调研分析,识别其数据结构、业务含义、数据关系、数据流, 从源数据中探索出信息的过程。可以说信息探索的每一步,都可能发现需要治理的问题,数据模型师作为数据考古学家必须耗费大量时间深入穿透纷乱复杂的数据表象,反复提出假设,验证或推翻。


剖析、分析数据,理解现状数据结构,探索、揭露不同数据元素的含义及其之间的联系。数据生产者很少能提供文档来解释自己设计的数据含义与关系,缺少业务元数据,需要数据治理部门的支持并借助领域专家的经验。对每张表深度分析,可能发现大量主键、外键、值域等数据完整性问题,以及违背业务规则的数据。


可视化业务源数据模型。由于业务系统很少提供源模型,反向工程还原源数据模型是企业数据建模人员应该尝试完成的一项工作,通过与数据生产者以及业务人员的交互,更好地理解与验证数据,确认业务规则,更容易发现与确认数据质量问题。源数据建模还有助于将数据与真实业务世界本体进行比较,发现差异。


探索跨业务系统的数据关系与数据流。理想情况下,企业应具备应用架构、数据架构来说明不同业务源系统之间的数据交互关系,业务系统应提供详细的设计说明。把数据集中到一起进行跨系统深入探索验证,还可以进一步发现不同系统之间的业务不一致、账务不一致以及业务与账务不一致问题,使各种问题充分暴露。


形成企业数据CRUD分布图,识别出有用的关键数据,进一步确定黄金数据源。发现与确定什么是以及为什么是关键数据,数据治理的主要目的之一是保护、管理与共享重用这些关键数据。如果不知道要管理的数据是什么、数据的含义以及为什么对组织重要,就不可能很好地保护和管理数据。识别出冗余数据,区别垃圾数据,确定企业数据分布与集成的问题。许多数据问题是因为不科学的CRUD造成的,企业建模思维很容易发现应用架构、数据架构在主数据、数据交互与集成等方面存在的问题,如同一主数据多个系统创建与修改。


发起数据资产评估,盘点数据资产现状是数据治理早期关键活动。企业级数据建模过程中的信息探索,从数据到信息,找到有价值数据,发现需要治理的问题,应是数据治理实质工作的重点内容。



2.模型设计阶段


数据模型是本体模型,数据建模是一项专业设计任务,在数据建模过程中融入数据管理思维,经过专业负责的深思熟虑与验证,精准设计与定义模型本体——每个概念业务实体、逻辑数据实体及其固有属性。模型设计包括主题模型设计、概念数据模型设计与逻辑数据模型设计,企业级数据仓库模型是企业级的分析数据模型,还包括物理数据模型的设计。在定义数据模型本体过程中,可以发现更多数据问题。


建立数据标准。发起数据标准是数据治理前期高优先级工作之一,数据标准从何而来?除了国家标准、行业标准之外,信息探索阶段的产出应该作为定义数据标准的重要输入参考。如果制定的数据标准脱离本企业实际现状,落标时将产生大量不必要的改造工作。


对企业关键概念业务实体与逻辑数据实体进行定义与分类,建立关系,构建可管理的、稳定的数据架构。设计企业级数据模型,即使有成熟的行业数据模型可以参考,也不应该忽略概念模型的设计,各干系人对企业关键概念的理解达成一致共识,是沟通、管理与使用数据的前提。


采用范式与适度抽象设计思想与通用数据模型设计模式,设计稳定的数据模型,使模型收敛而不发散,改善业务一致性。严格按照第3范式要求设计逻辑模型,必然会发现源系统很多因冗余设计造成的不一致性问题(虽然业务系统一般采用范式设计模式,但没有达到第3范式要求),在物理模型设计中考虑适度降范。


数据模型师与业务领域专家、数据管家等一起定义数据模型。捕获业务如何描述和使用数据,创建和集成统一、共享的业务元数据。在定义过程中及时记录各种数据问题,加速数据治理工作。


可视化数据模型,为业务与技术提供交互的接口,为数据使用提供元数据,验证与提升数据模型设计的准确性、一致性与完整性。


部署准确的高质量数据源。根据信息探索的结果,确定准确权威的数据源映射模型,执行完整的数据模型设计任务,确保数据完整性。在集成的数据环境中,基于数据模型进行全维度质量检查,把问题提交给治理团队安排治理,推动上游业务系统治理,在源头产生高质量的数据。


控制整个企业中数据的设计和部署使用,管理数据生命周期。控制并确保权威数据在下游得到全面使用,确保从安全、合规到商务智能应用可回溯到源数据。



03


良好的数据治理,

提升数据建模效率


数据建模和数据治理都是数据全生命周期管理的关键职能领域,二者相辅相成,对提升数据的可用性、发挥数据价值具有重要的意义。


数据治理是对数据资产管理行使权威与控制,数据治理组织发起企业数据建模,可以将数据建模视为对数据定义的权威与控制的执行和实施。企业数据建模的原则(在“正确的”时间,由“正确的”人员为组织定义“正确的”数据,确保唯一正确的数据放在唯一正确的地方),必须要有规范或准则来确保数据设计符合需要,这些规范由数据治理委员会委托相关职能团队设计并批准发布。


数据管理职责描述数据管理岗位管理数据和流程的职责和责任, 确保有效控制和使用数据资产。数据管理专员职责的主要活动包括创建和管理核心元数据、记录规则和标准、管理数据质量问题、执行数据治理运营活动,需要把这些管理职责与活动嵌入到企业数据建模活动中,在整个数据生态系统中的人员、流程和系统中定义和开发“正确的”数据行为。


企业数据建模各阶段必然会遇到许多问题,需要业务职能领域和 IT 组织协同,与数据建模人员一起工作,协助数据建模,需要数据治理组织为数据的集成与整合提供推动与决策支持。在正式的数据治理组织建立之前,企业级数据仓库的模型建设主要由IT部门发起,业务仅是作为数据应用的需求方参与,项目中发现的数据问题没有相应的“司法”解决途径。


END


仅治理数据而不建模数据,治理成果得不到巩固,不能应用于新的设计中避免或减少类似问题的发生,各种问题循环反复。与单独进行不同的工作相比,企业数据治理与数据建模联合起来更好,嵌入数据治理可以更有效开发和维护企业数据模型,企业数据建模使数据治理工作更有效,全面提升数据生产质量,给数据消费者提供高质量数据。


让中国金融科技 具有世界影响力
长亮科技更懂如何为您的数字化转型赋能