数据血缘和数据治理的关系


数据血缘,这个已经不是什么很新鲜的概念了。


数据的血缘关系,其实可以类比人的血缘关系。

每个人都有长辈,比如爸爸和爷爷,我们大部分人都知道自己的爸爸和爷爷是谁。

因为他们和我们距离很近,包括时间上的和空间上的距离。

但是爷爷的爷爷是谁,估计知道的人就不多了。

如果想知道,估计就得看族谱或者问长辈了。


数据血缘也是一样,随着业务复杂度的增长,数据被加工的流程越来越长。

数据之间的距离越来越远,分支越来越多。

想知道末端数据的来源,变得原来越困难。


举个例子,

当末端分支出现两个名字一样或相近,

但值不一样的数据时,

场面就很尴尬,数据的使用者就会感到很迷茫。

为了弄清楚它们的区别,要花上大量的时间。


这时,就需要专门的人对数据进行管理。

形成数据血缘关系,也就是数据的族谱。


建立起数据血缘关系,属于数据治理的一项重要工作内容。









2020-04-06 22:25:25 | 张良 | 技术 & 提问 | 阅读361次

回 复 :