您的位置:365bet体育在线手机版 > 教育 > 国内外数据治理研究进展:内涵、要素、模型与

国内外数据治理研究进展:内涵、要素、模型与

发布时间:2019-07-09 10:27编辑:教育浏览(189)

      国外数据治理研究主要集中在理论探索、模型框架以及实践应用三个方面;国内研究侧重于理论分析,尚且缺乏模型与框架等应用研究。结合已有研究,从数据治理的内涵、要素、模型与框架出发,分析已有数据治理模型的类型、特点、问题、挑战与机遇,提出开展数据治理活动的对策建议。

      作者简介:刘桂锋,ORCID:-3862,江苏大学科技信息研究所副研究馆员,硕士生导师,博士,E-mail:;钱锦琳,ORCID:-6289,江苏大学科技信息研究所硕士研究生;卢章平,ORCID:-271X,江苏大学科技信息研究所教授,博士生导师。镇江 212013

      内容提要:[目的/意义]深入探析国外数据治理内涵、要素、模型与框架等,为我国数据治理的全面发展提供更为具体的建议和更为明晰的规划。[方法/过程]采用文献调研和网络调查相结合的方法,全面梳理国内外数据治理的研究现状。[结果/结论]国外数据治理研究主要集中在理论探索、模型框架以及实践应用三个方面;国内研究侧重于理论分析,尚且缺乏模型与框架等应用研究。结合已有研究,从数据治理的内涵、要素、模型与框架出发,分析已有数据治理模型的类型、特点、问题、挑战与机遇,提出开展数据治理活动的对策建议。

      标题注释:本文系国家社科基金一般项目“开放科学理念下的科研数据治理研究”(项目编号:17BTQ025)的研究成果之一。

      2002年科技部提出的我国科学数据共享工程,拉开了我国科学数据开放与管理的大幕。在十八届三中全会首次提出国家治理体系和治理能力现代化之后,我国“数据开放、共享、管理(治理)”的实践探索与学术研究,呈现出欣欣向荣的局面。在大数据时代,数据成为最为宝贵的资产之一已成为不争的事实。然而,目前的数据状态与数据管理水平并不匹配,普遍存在着“重创造轻管理、重数量轻质量、重利用轻增值利用”的现象,在服务创新、数据质量、开放共享、安全合规以及隐私保护等方面面临着越来越严峻的挑战。数据管理中出现的问题,究其根源是由于在更深的层面——数据治理中出现混乱或缺失。国内学者[1]采用文献调研法对数据治理的概念、体系、内容和应用的相关研究进行述评,并指出“框架体系”“模型设计”是未来重点研究领域。笔者采用文献调研和网络调查的方法,系统梳理国内外数据治理的基本现状,总结国内外数据治理的成功案例,分析已有数据治理模型的类型、特点、问题、挑战与机遇,并结合我国开展数据治理的现实环境,着重对高校科研数据治理提出新的思考,以期为相关研究提供借鉴与参考。

      通过文献调研和网络调查方法,梳理数据治理研究成果及动态。在Web of Science、Google Scholar、中国知网等数据库或搜索引擎中进行相关检索。与此同时,对国外数据治理相关网站进行调研,代表性的有数据治理协会(The Data Governance Institute,DGI)官网、国际数据管理协会(The Data Management Association,DAMA)官网等,通过相关网站重点考察数据治理的概念、目标、原则、相关的衍生概念,以及数据治理和数据管理之间的关系。

      通过检索相关文献,跟踪学术动态得知,国外学界关于“数据治理”的认识始于2004年,H.Watson[2]探讨了“数据仓库治理”在Blue Cross和Blue Shield of North Carolina两家公司的最佳实践,由此拉开了“数据治理”在企业管理中的大幕。2005年之后,陆续有学者对“数据治理”展开研究,比较代表性的有J.Griffin[3]、L.Cheong[4]、D.Power[5],讨论数据治理环境下企业、政府、医院的职能角色、模型、框架、因素与机制等。

      近年来,国外学界在“治理”思维引领下,围绕企业、政府、医院和高校的数据治理展开了大量理论研究和实践探索。笔者将代表性的理论研究整理如表1所示。

      数据治理因其在组织内部和外部管理数据使用上的重要性和优势而受到越来越多的关注,在许多重要会议上都有被显著提及,例如数据仓库机构会议(The Data Warehouse Institute,TDWI)、数据管理协会国际研讨会(The Data Management Association,DAMA)、数据治理年度会议(Data Governance,DG)和主数据管理峰会(Master Data Management,MDM)[16]。根据国外学者的研究可知,数据治理内容丰富,虽涉及的领域较多,如商业、医疗、电信等,但其根本都是指对相应职责、决策权以及角色的分配。此外,研究人员已开发出部分数据治理框架和模型,并概括出治理要素,从而指导治理框架的构建。

      与国外“数据治理”首先在企业领域取得成功不同,国内学界对“数据治理”的研究是从国家治理、大数据治理[17]的探索开始的,之后出现了学术争鸣与大胆探索的新局面。主要成果表现为:①制定《数据治理白皮书》国际标准。我国于2015年5月提出了《数据治理白皮书》[18]国际标准研究报告,在报告中提出了数据治理模型和框架,模型由三个框架组成:原则框架、范围框架、实施和评估框架。②大数据时代数据治理的新范式。朱琳等[9]指出大数据时代数据治理的新范式全局数据,具有场景化、开放性、可度量、及时性、价值化的特点,通过全局数据有助于实现治理决策科学化、智能化、协同化和治理目标精准化。③政府数据治理:精简、精准与智慧。陈琳[20]指出数据治理是政府治理方式变革的必然趋势。通过精简、精准和智慧的数据治理,使得政府的公共事务流程、社会管理方式以及实践探索都得到提升。④数据治理是高等教育治理的重要组成部分。许晓东等[21]研究发现数据治理是提高高校教育质量、决策科学性以及管理效率的关键因素,数据治理作为高等教育治理的一部分,为决策系统提供了重要支持。⑤数据治理为图书馆事业发展带来机遇。顾立平[22]指出,图书馆可以通过开设课程或培训班来推行数据治理。与此同时,图书馆可为数据治理制定长期可持续的管理和保存计划,与利益相关者合作,建立良好的数据治理生态体系。⑥高校图书馆数据治理框架。包冬梅等[23]提出我国高校图书馆数据治理框架——CALib框架,该框架由促成因素、范围和实施评估三个子框架构成,并对每个子框架进行详细阐述。

      综上所述,产生于企业领域的“数据治理”理念已在银行、保险、电信等以数据为核心业务的行业中得到了高度的重视,国内外都展开了深入的研究。相比于国内,国外的研究更加深入和多元化,不仅从理论层面展开研究,还对框架模型以及实践要素等展开了探讨。国内研究大多集中在理论探索方面,实践应用研究尚有不足。

      不难发现,过去10年,组织对数据的重视程度发生了显著的改变[6]。过去,数据被视为组织运行的必需品,如今大多数的领导者认为数据是重要的战略资源,可用于提高销售和盈利能力。但对于大多数组织来说,数据的可用性、完整性和可获取性阻碍了企业利用其总体价值的能力。管理数据变得越来越困难和昂贵,数据量呈指数级增长,而组织必须收集和分析的数据种类也在增长。非结构化数据正变得与结构化数据一样有意义,因此,数据的妥善使用和恰当管理变得异常重要。DGI指出,数据管理是指对数据集进行管理,包括管理不在组织范围内的数据集。衍生出的数据管理员,可能代表着整个组织的需求,也可能是一个业务团体、部门或数据本身的代表。因此,数据管理员是数据利益相关者的代表,他们负责对数据的处理做出决定,确保应用于数据的规则和控制是适当的。DGI从职能角度出发,认为数据管理[24]是确保通过数据治理制定的政策和实践能有效地帮助数据相关工作的开展的一系列活动。P.Brous[25]指出制定和执行关于数据管理的政策对于有效的数据治理实践至关重要。国际标准化组织ISO于2008年对数据治理和数据管理(ISO/IEC 2008)提出差异化概念。ISO指出,数据治理履行数据管理的主要职能,即数据治理规定在管理的过程中哪些决策应被制定,以及决策者为谁,而数据管理确保这些决策的制定与执行。

      因此,数据管理主要侧重数据内容本身被动式的管理,而数据治理既包括对数据也包括对相关利益主体主动式的管理,管理范围更广,体系更完善,效果更显著。

      数据质量是数据管理中的重要问题之一。J.Juran[26]提出如果数据符合其在运行、决策制定和计划中的预期用途,则该数据是高质量的数据。数据质量即指数据与其预期用途相关,具有高度的准确性和完整性,数据之间的来源是具有相关性的,并以适当的方式呈现。值得注意的是,数据质量和信息质量不一样。数据质量是确保数据符合其在运营、决策和规划中的预期用途。但信息质量是描述信息系统内容的质量,确保所提供数据的价值性。简而言之,信息是数据含有的意义或者是基于其上下文的数据解释。

      数据质量是数据质量管理(DQM)的结果。数据库系统[27]的主要目的是支持大量数据的创建、维护和使用,并关注数据的数量。然而,现实生活中的数据质量往往是参差不齐的。数据库中的恶劣数据通常会产生误导或有失偏颇的分析结果和决策,这就需要数据质量管理。数据质量管理可追溯到1991年麻省理工学院发起的全面数据质量管理计划(TDQM)[28]。TDQM的目标是向用户提供高质量的信息产品,因此数据质量的定义、测量、分析和改进都包括在TDQM周期中。该计划旨在从长远的角度建立数据质量管理的新范例,并形成严格的理论基础。

      数据质量管理的功能包括数据质量持续改进和数据应用、收集、分析和仓储。美国健康信息管理协会(AHIMA)提出了数据质量管理模型[29]。AHIMA数据质量管理模型从4个角度定义数据质量:收集、仓储、分析、应用,并提出数据质量的特征。在该模型中,数据质量被认为是一个多方面的构造,包括需要用户评估的数据质量属性(称之为数据质量维度),例如:准确性、完整性、一致性、相关性和及时性等。

      K.Weber[10]等人将数据质量管理定义为,以质量为导向的数据资产管理,即计划、规定、组织、使用和处理支持决策和运营业务流程的数据,从而持续性地提高数据质量。提高数据质量是防止不合格数据进入数据库的一个重要步骤。AHIMA指出,与数据质量管理不同,数据校正被视为一次性的活动。由于数据可以因为一个错误程序而产生新的缺陷,所以在落实改进数据质量过程的同时,需要进行数据校正。

      数据质量管理的重要性不言而喻,有研究表明[30],由于数据质量问题,企业每年损失的金额多达数十亿美元。并且在一个传统企业中,15%~20%的数据是错误或不可用的。因此有学者指出[31],数据质量对于制定决策和规划至关重要。形成数据仓储的目的是拥有一个完整独立且是高质量的数据源,该数据源可以帮助解决已存在的问题,并减少新问题出现的概率。由于数据大多来自不同的系统,因此在将数据存入数据库之前确保数据的质量等很有必要。

      B.Otto[13]指出,数据治理是指在企业中,数据管理的相应职责和决策权的分配。H.Dutta[32]研究发现数据治理是数据管理中最重要的支柱之一,紧密把控数据质量。大量来自不同资源系统的数据,融入数据湖(data lake)中。在当下,对数据湖中的数据进行治理,对于企业而言,是查阅、创造、维护和存储数据的一种高效和安全的方式。数据治理包括数据发现和分析,其目的都是发现隐藏的数据质量问题。

      V.Khatri等[33]研究发现,研究人员就数据治理达成了若干共识,即在数据治理过程中,必须回答以下三个问题:①从全局出发,该做什么样的决策;②决策制定过程中,涉及哪些角色;③这些角色是如何发挥作用的。关于第一个问题,研究人员提出,数据治理制定的决策是关于数据质量的要求和测量、元数据管理、数据获取要求管理以及数据生命周期管理等一些数据管理的基本原则。在第二个问题中,V.Khatri[33]等指出数据治理过程中包含的角色大多分为数据管理人员、数据拥有者和数据委员会。第三个问题,数据治理涉及权力与职责的分配。在分配时,基本原则的统一是很有必要的,基于此,许多学者使用RACI概念图设计数据治理的功能图。在阐述三者关系时,研究人员指出,数据管理引领数据治理,并且数据质量管理是数据管理的子功能之一。数据集作为三者共有的对象,在治理、管理和质量管理的作用下,将数据价值升值到最大化,同时数据质量也得以提升。

      笔者根据已有的研究成果,将三者的关系整理如图1所示,并分别用A-G标注各区域,如表2所示,将各区域的特征描述如下。

      X.Fu[16]指出,数据治理补充了数据管理,但并不能取代数据管理。总体而言,数据管理与组织所做的决策有关,包括如何实施这些决策。数据治理关注的问题是哪些决策需要被谁制定从而确保有效的管理,并为这一过程提供框架。换句话说,治理不仅包括决策域,还包括决策的责任。以数据质量为例,数据治理提供了一种结构,用于确定组织中谁拥有决定数据质量标准的决策权,包括数据质量的覆盖面和如何确保达到这些标准。除此之外,数据管理还涉及数据质量的实际度量标准。Y.Man[38]根据电信运营商BSS和OSS的数据特点,提出数据管理中心的整体结构图,并指出数据质量管理是数据管理的关键之处。

      B.Otto[13]认为数据治理旨在将数据的价值放大到最大化。数据质量是数据质量管理的结果,而数据质量的最大化有利于数据价值达到最大化。综上,三者的关系相辅相成,缺一不可,其共同最终目的都是使数据增值。

      数据治理不应被视为“以一应万”的万能方法,数据治理应制度化。同时,数据治理还应确保数据符合业务需求,包括确保数据符合必要的质量要求,以及在整个组织中定义、监控和执行数据策略从而确保一致性。A.Haider[39]指出,数据治理是IT治理的一个子集,很多模型和方法都是通用的,但显著区别在于,数据治理的要素和关键点都围绕着数据展开。研究人员指出,数据治理在理论研究和实践操作中都处于缺乏的状态,由于数据是系统交互操作、业务规则和流程以及应用设计的基础,所以数据治理应被给予足够的重视,同时治理要素应围绕着提高数据整体质量展开。P.Brous[25]将数据治理的关键要素概括为:组织数据管理、确保满足业务需求、确保合规性和对数据的理解,并分析指出,许多公共机构定期存储大量的数据,这些数据的存储和分析能够提高组织的决策能力,从而使社会受益。大众通常认为,这些组织机构有能力处理数据,但正如N.Thompson等[40]指出,事实并非如此,现有的机构尚且缺乏处理数据的能力,这不是由现有的业务规则或技术本身引起的,而是数据治理不充分导致的。但是,建立健全一个数据治理流程需要大量的前期准备以及后期跟进,因此N.Thompson[40]强调牢牢把握住数据治理的要素对于明晰数据治理的目标和达到治理的预期效果很有帮助。

      根据P.Sonia[6]的研究,可总结出数据治理的6个关键要素,即强劲启动、快速制胜、领导支持、设置资助、效果度量以及坚持不懈P.Sonia[6]指出,对于大多数组织而言,数据治理是一个舶来词。因此,在开始数据治理之前,对数据利益相关者进行与数据相关的教育很有必要,同时应当确定运作模式和范围,并交流期望。此外,研究还强调,通过解决实际问题来向大众展示数据治理的价值,这会让大众更加信服治理的重要性和必要性。

      研究人员发现,数据治理模型具有特殊性,通用模型往往忽略了每个公司需要适合公司自身条件的,并且能够应对公司一些突发状况的数据治理模型这一事实。K.Weber[10]等人提出了一个由角色、决策域和责任组成的灵活的数据治理模型,并概述了数据治理的权变方法,证明了权变模型与公司的特殊性之间的配合关系。同时,数据治理模型可以帮助公司构建和记录其数据质量责任。

      K.Weber[10]提出的数据治理权变模型,解释了哪些权变量会影响公司数据治理模型与数据质量管理之间的合适性,以及这些权变量是如何产生影响的。权变理论认为,组织的一些特征与组织的有效性之间的关系是由偶然性决定的。组织规模、组织策略等权变因素与组织的结构(如层次结构或功能结构)相适应,会对组织的效率、盈利能力或创新率产生积极影响。7个权变量为:绩效战略、组织结构、竞争战略、多元化广度、过程协调、市场调节和决策风格。前6个权变量影响设计参数“DQM活动的组织布局”和有成效的DQM之间的关系,最后一个权变量(决策风格)影响了“决策活动协调”参数和DQM之间的关系。数据治理权变模型由DQM决策域、角色与责任组成,即将角色分配到决策域和主要活动中。DQM决策域、角色和责任排列成矩阵。在该模型中,决策域和主要活动位于矩阵的行中,而列表示DQM中的角色。矩阵的单元格表示交互的责任,即它们指定角色和决策领域之间的权限级别。公司通过定义数据质量角色、决策域和责任,以及随后将这三者安排在模型中来设计其各自的数据治理格局,这时的数据治理格局对于每个公司而言都是独一无二的。数据治理权变模型,将数据治理的过程具体化,用7个权变量展示数据质量管理的影响因素。同时,该模型还将每个公司的行业特征考虑其中,使得权变模型具有独特性。

      A.Haider[39]构建了针对资产管理的数据治理模型,该模型通过不同视角之间的联系将诸如数据质量、集成度、标准化、互操作性和风险管理等方面嵌入其中。A.Haider[39]提出的数据治理模型既指明了数据治理职能如何实施,又可以评估现有数据治理的成熟度。

      数据治理模型可以帮助组织厘清复杂或模糊的概念,指导组织开展高效的数据治理工作。同时,模型的设置可以为实施数据治理举措制定指导方针,并且提供适当的评估机制,即当组织的治理期望与实际状态不符时,该评估机制可以提供差距分析。此外,模型的设置还有利于数据利益相关者从中获取信息,进而做出正确的决策。

      数据治理既是科学又是艺术。H.Dutta[32]指出数据治理是人们观察信息交互、如何处理及弄清其缘由的过程,并对这些数据资产承担责任。而创建一个数据治理框架,可以确保数据质量的完整性和保密性。因此,国内外的研究机构在各自研究成果的基础上,提出了一些数据治理框架,这些数据治理框架为各机构的数据治理工作提供了一个多角度、多层次的服务指南和价值评价体系。

      笔者着重分析了国外较为认可的DGI框架和DAMA框架,以及国内高校图书馆数据治理框架——CALib框架(见表3)。

      DAMA框架以数据管理为主导,数据管理的核心是数据治理。因此,该框架的构建理念是用数据治理解决数据管理中的10个功能(如元数据管理、数据质量管理等)与7个要素(如角色与职责等)之间的问题。因此,DAMA框架的优点在于充分考虑到功能与环境要素对数据本身的影响,并建立对应关系。然而该框架的缺点也在此,功能子框架总结的数据管理10个功能,并不能全面概括数据管理功能。随着时代的发展,大数据热愈演愈烈,其功能也越来越多样化,而DAMA框架却囿于这10个功能,显然不能满足数据管理和治理的未来需求。

      与DAMA提出的数据治理框架不同,DGI认为数据治理和数据管理是两个独立的概念,从DGI给出的数据治理定义可知,数据治理包括组织整体、规则、决策权、职责、监控或者其他强制性办法。DGI框架完全从数据治理的角度出发,为组织机构提供了一个直观、逻辑明了的数据治理框架。然而,需要注意的是DGI和DAMA框架虽通用,但各组织机构的特殊性和唯一性不容忽视,通用框架无法满足这一点。我国学者在基于DAMA和DGI框架的基础上,结合高校图书馆的行业特征和数据特点,创造性地提出了符合我国高校图书馆数据治理的框架——CALib框架。该框架从三个维度出发,分别描述数据治理的成功要素、决策范围、具体实施方法以及绩效评估方法,并初步探讨了数据治理成熟度评估的意义。

      对于数据治理,不同组织的关注点各有不同。显然,由于不同的背景、动机和期望,所提出的数据治理框架也各有不同。例如,V.Khatri[33]提出的框架侧重于IT治理,P.Weill[45]提出的框架侧重于数据原则和数据生命周期,而G.Thomas[46]的研究中涉及的框架更多的关注数据仓库和商业智能(business intelligence)。尽管侧重点各有不同,但在决策域上仍有共同点,例如数据质量、数据可获取性和数据隐私。数据治理通用框架为日后每个组织机构制定各自的数据治理框架指明了方向,提供了制定思路。各组织机构可根据所处行业的特点,个性化定制治理框架,使得组织机构的特点和数据治理紧密结合,更好地把控数据质量,实现数据价值。

      回顾国外数据治理的研究历程,大量的研究成果主要集中在数据治理的理论探索、框架模型的建立以及实践应用。在借鉴国外研究成果的基础上,国内研究逐渐从理论探索转向实证研究方向。从国家层面看,成果主要表现为2015年《数据治理白皮书》国际标准研究报告的提出;从政府层面看,数据治理成为政府治理方式变革的必然趋势;从教育层面看,数据治理是高等教育治理的重要组成部分,并且为图书馆事业的发展带来机遇。国内学者包冬梅等人[23]在前人研究的基础上,提出了我国高校图书馆数据治理框架——CALib框架,为我国高校数据治理奠定了基础。数据治理的重要性可见一斑。

      数据治理补充了数据管理和数据质量管理的职能,但不能取代二者,因为数据管理和数据质量管理是数据治理的子功能和展开治理工作的前提。数据管理是对整个数据生命周期的管理,包括收集、组织、描述、共享和保存数据。数据管理在方法上和技术上提供支持,使得数据的有用性达到最大化,从而提高数据质量,增加其价值。而数据质量管理确保了治理对象的质量,侧重于高质量数据的计划、组织和使用。通过数据治理,组织能够承担数据责任,解决技术问题,从而进一步提高数据管理和数据质量管理的能力。因此,这三者相辅相成,三者的全面协调能够确保决策者遵守组织战略和治理规则。

      国内外学者已经提出了不少具有代表性的数据治理框架或模型,但不可否认的是,数据治理没有“一劳永逸”的框架模型,不同领域适合不同的治理框架。建立数据治理框架并非易事,数据的特点、甚至是数据本身,都有可能与组织产生矛盾,因此建立一个独特的框架来评估和管理数据是一件难事。此外,数据治理需要将来自不同部门的不同期望和专家结合在一起,以完成公认的、一致的、透明的和可重复的治理流程,从而更好地实现与数据相关的决策。把握数据治理要素可以为建立模型框架提供思路、简化步骤,模型框架的设立为数据治理工作的开展提供了保障。组织的决策者可以通过治理框架,获取决策需要的信息,同时还可以及时发现治理过程中的问题所在,进而及早地改正问题。在把握治理要素的基础上,数据治理人员可以将云计算、数据整合、物联网等技术手段嵌入治理的框架之中,从而贯穿于数据治理的全过程,充分发挥数据治理效能。

      在信息化、数字化和网络化时代,在数据的包围中,借助于数据治理从而深入探讨数据的价值和解决实际问题,具有广泛的前景和现实意义。数据治理起源于企业管理领域,随后在医疗、政府等领域引入此概念并展开研究。在企业中,数据治理被用于解决企业管控问题,是提升数据资产管理和应用水平的关键所在。在电信领域中,数据治理体系被定位为集数据、技术、组织和应用于一体的信息化架构中至关重要的一步。华为手机公司在2016分析师大会上表达了数据治理的愿景,并提出数据治理帮助企业重塑数据的价值。在高校中,图书馆通过提供数据服务,使科研数据产生更多的价值。有效的科研数据治理,能够将数据价值更好地回馈给科研人员,最终形成科研成果不断出现和科研数据全面共享的新局面。

      [17]梁芷铭.大数据治理:国家治理能力现代化的应有之义[J].吉首大学学报(社会科学版),2015(2):34-41.

      [18]张明英,潘蓉.《数据治理白皮书》国际标准研究报告要点解读[J].信息技术与标准化,2015(6):54-57.

      [19]朱琳,赵涵菁,王永坤,等.全局数据:大数据时代数据治理的新范式[J].电子政务,2016(1):34-42.

      [20]陈琳.精简、精准与智慧政府数据治理的三个重要内涵[J].国家治理,2016(27):28-39.

      [21]许晓东,王锦华,卞良,等.高等教育的数据治理研究[J].高等工程教育研究,2015(5):25-30.

      [22]顾立平.数据治理——图书馆事业的发展机遇[J].中国图书馆学报,2016(9):29-45.

      [23]包冬梅,范颖捷,李鸣.高校图书馆数据治理及其框架[J].图书情报工作,2015,59(18):134-141.

    转载请注明来源:国内外数据治理研究进展:内涵、要素、模型与