搜索 | 会员  
数据管理中的数据架构
来源: 大飞谈技术   作者:常大飞  日期:2023/11/16  类别:大数据  主题:实践应用  编辑:lovey
在说数据架构之前,我们有必要理解一下什么是“架构”?架构这个词,在我们的工作中经常碰到,比如我们会给新接触项目的同事介绍整个系统的架构,学习业界主流的开源系统的架构,领导要做个业务

一、架构的概念

在说数据架构之前,我们有必要理解一下什么是“架构”?架构这个词,在我们的工作中经常碰到,比如我们会给新接触项目的同事介绍整个系统的架构,学习业界主流的开源系统的架构,领导要做个业务系统,先让我们把架构图画出来等等,到处都是架构的影子。那到底什么是架构呢?

架构是指系统的组件以及组件之间的关系。

这句话中,出现了一个词,“系统”,我们解释一下。

在维基百科中,系统的定义如下:系统泛指由一群有关联的个体组成,根据某种规则运作,能完成个别元件不能单独完成的工作的群体。

(1)关联:系统是由一群有关联的个体组成的,没有关联的个体放在一起是不能成为一个系统的。例如,汽车是把发动机、底盘、轮胎、车架等组合起来才能成为一台汽车,你把发动机和一台油烟机放在一起,就不能成为一个系统。

(2)规则:系统内的个体需要按照指定的规则运转,而不是单个个体各自为政。规则规定了系统内各个个体分工和协作的方式。例如:汽车发动机负责输出动力,然后通过变速箱和传动轴,将动力输出到车轮上,从而驱动汽车前进。

通过上面的介绍,我们知道架构需要明确系统包括哪些“个体”,以及这些“个体”需要根据某种规则运作的关系。

二、数据架构的概念

数据架构是企业架构的一个重要组成部分。而提到企业架构,它是起源于IBM公司系统杂志的一篇文章“A framework for information systems architecture”,这篇文章的作者是John Zachman。Zachman老先生的企业架构思想源自于“建筑学”,简单理解,建筑学就是研究如何将一堆砖头、水泥、钢筋等建筑材料按照一定的结构搭建起来,形成满足人们生活、工作所需的各式建筑物,企业架构思想和建筑学的架构思想一样,其本质的原理都是从现状向目标迁移的过程。因此,企业架构包含了当前架构、目标架构、迁移计划和IT路线图。

数据架构是个管理概念,不同的组织有不同的定义和理解。

1、DAMA中的数据架构

在DAMA的DMBOK2中对数据架构的定义是:“识别企业的数据需求(无论数据结构如何),并设计和维护总蓝图以满足这些需求。使用总蓝图来指导数据集成、控制数据资产,并使数据投资与业务战略保持一致”。

根据DAMA对数据架构的定义,其把数据架构分为企业级数据模型和数据流设计。

  • 企业级数据模型:企业数据模型是一个整体的、企业级的、独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图。企业数据模型包括数据实体(如业务概念),数据实体间的关系、关键业务规则和一些关键属性,它为所有数据和数据相关的项目奠定了基础。

  • 数据流设计:定义数据库、应用、平台和网络(组件)之间的需求和主蓝图。这些数据流展示了数据在业务流程、不同存储位置、业务角色和技术组件间的流动。

这里注意一点的是,企业级数据模型包括概念数据模型和逻辑数据模型,而不包括物理数据模型。

2、DCMM中的数据架构

在国标《数据管理能力成熟度评估模型(DCMM)》中,数据架构是DCMM的8大领域之一,它对数据架构的定义是:“通过组织数据模型定义数据需求,指导数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范”。

image.png

DCMM中将数据架构分为4个部分:数据模型、数据分布、数据集成与共享和元数据管理。

  • 数据模型:使用结构化的语言将收集到的组织业务经营、管理和决策中使用的数据需求进行综合分析,按照模型设计规范将需求重新组织。数据模型包括:主题域模型、概念模型、逻辑模型和物理模型。

  • 数据分布:针对组织级数据模型中的数据定义,明确数据在系统、组织和流程等方面的分布关系,定义数据类型,明确权威数据源,为数据相关工作提供参考和规范。

  • 数据集成与共享:建立组织内各应用系统、各部门之间的集成共享机制,通过组织内部数据集成共享相关制度、标准、技术等方面的管理,促进组织内部数据的互联互通。

  • 元数据管理:主要是关于元数据的创建、存储、整合与控制等一整套流程的集合。

3、华为认为的数据架构

在《华为数据之道》一书以及华为很多公开材料中,并没有明确给出数据架构,而是给出了信息架构的概念:“是指以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。”下图为华为信息架构的组成图。

image.png

华为信息架构包括4个部分,分别是:数据资产目录、数据标准、数据模型和数据分布。

  • 数据资产目录:通过分层结构的表达,实现对数据的分类和定义,建立数据模型的输入,形成完善的企业资产地图,也在一定程度上为企业数据治理、业务变革提供了指引。基于数据资产目录可以识别数据管理责任,解决数据问题争议,帮助企业更好地对业务变革进行规划设计,避免重复建设。

  • 数据标准:数据标准定义公司层面需共同遵守的属性级数据含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。

  • 数据模型:是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系。

  • 数据分布:定义了数据产生的源头及在各流程和IT系统间的流动情况。

结合以上三个组织对数据架构的不同理解,我们发现数据架构中都包含企业级的数据模型和数据流图(在DCMM和华为中,数据流图对应数据分布)。如果领导让我们把企业内的数据架构整理一下,那我们就整理好企业级的数据模型和数据分布就可以了。


德仔网尊重行业规范,每篇文章都注明有明确的作者和来源;德仔网的原创文章,请转载时务必注明文章作者和来源:德仔网;
头条那些事
大家在关注
广告那些事
我们的推荐
也许感兴趣的
干货