计量科学大数据分级分类

时间:2023/2/21来源:本站原创 作者:佚名 点击: 61 次
文员求职招聘微信群 https://m.39.net/pf/a_7282164.html

计量科学大数据分级分类

智峰,田锋,赵若凡

中国计量科学研究院国家计量科学数据中心,北京

摘要:基于我国数据共享开放的发展趋势以及科研数据安全管理的相关政策,对我国计量行业数据分级分类的现存方案进行研究。对国内0个国家级数据共享平台以及美国的相关数据分级分类方法展开调研,讨论了我国计量科研数据分级分类方法的不足,并从数据安全以及数据管理的角度提出了计量数据安全等级划分模型以及计量数据分级分类编码方法。

关键词:计量学;分级分类;数据安全;开放共享;数据管理

论文引用格式:

智峰,田锋,赵若凡.计量科学大数据分级分类[J].大数据,0,8(1):60-7.

ZHIF,TIANF,ZHAORF.Classificationofbigdatainmetrology[J].BigDataResearch,0,8(1):60-7.

0引言

随着信息技术的发展,数字化的发展模式几乎遍布各行各业,由此也带来了数据管理以及数据安全等相关问题。00年4月9日,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,该意见将数据要素与土地要素、劳动力要素、资本要素等传统生产要素一并列为完善要素市场化配置的关键因素。该意见所倡导的“推进政府数据开放共享”与“加强数据资源整合和安全保护”揭示了数据开放共享与数据安全对推动数字化发展的重要性。《中华人民共和国数据安全法》于01年9月1日起施行,其进一步强调了数据安全对国家安全与经济发展的重要性。该法案第二十一条提出的“建立数据分类分级保护制度”,指出了开展数据分级分类对维护数据安全的必要性,为未来各行各业的信息安全工作提出了宝贵的指导意见。

对于科学研究和创新发展而言,科学数据是一种基础性的战略资源。而科学数据的分级分类则是维护数据安全、实现数据开放共享的必要方法。在计量领域,随着计量单位制的量子化和量值传递扁平化的变革,以及随之而来的计量基准、标准和标准物质的数字化等变革,以设备数字图谱、电子原始记录、数字证书为基础的扁平化量传体系,以及以区块链为主要技术的法制计量大数据联盟链机制将成为未来计量行业的发展趋势。计量行业数字化的发展趋势将会导致数据产出量和积累量迅速上升。同时,由于计量学涉及的领域十分广泛且数据量庞大,对计量数据进行合理的分级分类对于实现计量数据的收集、存储、分析、共享以及安全维护是十分必要的。

1国内关于数据分类的相关政策

科学数据主要指在自然科学、工程技术等领域通过基础研究、应用研究、试验开发产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并可用于科学研究活动的原始数据及其衍生数据。随着信息技术的发展,科学数据对科研工作的推进作用愈发重要,科学数据已然成为一种重要的科学基础资源。针对这一发展趋势,自1世纪以来,我国陆续发布多条相关政策,以加强对科学数据的管理,并逐步形成以行业机构、领域数据中心和国家层面的科学数据中心为主体的科学数据政策体系。

年,国务院印发《促进大数据发展行动纲要》,明确部署了与发展科学大数据、知识服务大数据应用有关的战略决策,提出了“构建科学大数据国家重大基础设施,实现对国家重要科技数据的权威汇集、长期保存、集成管理和全面共享”以及“对各领域知识进行大规模整合,搭建层次清晰、覆盖全面、内容准确的知识资源库群,建立国家知识服务平台与知识资源服务中心,形成以国家平台为枢纽、行业平台为支撑,覆盖国民经济主要领域,分布合理、互联互通的国家知识服务体系,为生产生活提供精准、高水平的知识服务”等主要任务。

年,国务院办公厅发布的《科学数据管理办法》成为我国首个国家层面的科学数据管理办法。该办法进一步针对目前我国科学数据管理中的工作人员职责,数据的采集、汇交与保存,数据的共享与利用以及数据的保密与安全等工作进行系统部署。其中第二十条明确要求“法人单位要对科学数据进行分级分类,明确科学数据的密级和保密期限、开放条件、开放对象和审核程序等,按要求公布科学数据开放目录,通过在线下载、离线共享或定制服务等方式向社会开放共享”。该办法首次将数据分级分类作为保障数据安全的主要手段,旨在在保障数据安全的前提下,实现以“开放为常态、不开放为例外”为原则的数据管理环境。

01年6月10日,第十三届全国人民代表大会常务委员会第二十九次会议通过《中华人民共和国数据安全法》,该法案将数据安全提升至国家安全层面。除了在数据安全与发展、数据安全保护义务、政务数据安全与开放以及数据安全的相关法律责任方面做出详细规定,该法案第三章“数据安全制度”的首条规定特别强调了数据分级分类保护制度对维护国家核心数据安全的重要性。其中,第二十一条指出“各地区、各部门应当按照数据分类分级保护制度,确定本地区、本部门以及相关行业、领域的重要数据具体目录,对列入目录的数据进行重点保护”。该条款明确指出,以数据分级分类为主要方法的数据安全管理是各行各业有关单位必须重视的核心工作,同时也是数据安全建设得以实施的基础。

从近几年我国有关科学数据分级分类的管理办法以及《中华人民共和国数据安全法》中不难看出,在以大数据为技术基础的数字化发展背景下,数据安全方面的治理刻不容缓。在“开放为常态、不开放为例外”的原则下,数据安全是实现数据安全共享的前提。由于不同行业领域中数据的类型及特点具有一定差异,针对计量学制定的数据分级分类方法则需要依据计量学的特点进行研究。

计量科学大数据的分级分类

.1计量数据分级分类的必要性

计量学涉及的领域十分广泛且数据分类方法多种多样,制定统一而合理的数据分类规则是实现计量数据资源有效利用的基础。根据《通用计量术语及定义》(JJF—),计量学是“测量及其应用的科学”,这样的定义意味着计量学涵盖了各个学科领域中与测量的理论和应用有关的各个方面。按社会服务功能划分,计量学可分为法制计量、科学计量和工业计量。按专业领域划分,可分为几何量计量、热学计量、电磁学计量等十大类。而在国家计量科学数据中心的数据共享平台,计量学则被分为标准参数数据、计量科研数据、计量基标准数据、计量检测数据和计量信息数据五大类。由此可见,计量数据根据分类视角的不同会产生不同的分类方法,而目前国内计量科学领域对元数据的分类标准尚未统一。同时,移动互联时代的大数据与PC时代数据的本质区别在于其量大、多维且格式多样。在没有充分挖掘之前,大量孤立的原始计量数据价值不高,而经过采集、加工后形成的衍生数据以及数据挖掘产出的分析结果则会价值倍增。随着数据利用率的提高,对计量科学数据依照统一且合理的规则进行分类,更有利于科研工作者从种类繁多、分散在各个研究机构且数量庞大的原始计量数据中选取有效数据进行分析,为之后的数据挖掘工作提供便利。

安全的数据环境是保证数据交换和数据挖掘的基础,而数据的分级分类则是维护数据安全的有效方法。计量学与国家法律法规以及行政管理有着紧密的联系,这在其他学科是少有的。计量学的特性使得计量科学数据多数被国家和地方的计量研究院所掌控且部分数据关乎某些个人或组织的合法权益,重要数据的泄露甚至会危害国家安全以及公共利益。与此同时,在数字化的发展背景下,计量数据的开放共享是必然的趋势,它对推动计量学的进步也是至关重要的。在这样的发展趋势下,要求计量数据的管理者能兼顾数据的安全性和开放性。由此可见,数据管理和保护能力是开展计量科学研究工作的基础。而只有做好数据分级分类,才能将需要保护的重要数据分离出来,将可以共享的数据分享到大数据平台,以供各行各业充分利用。

由此可见,对于存储着重要计量数据的各研究机构而言,以数据分级分类为核心内容的数据安全管理是各单位必须重视的核心工作。

.我国计量数据分级分类的现状

正如前文提到的,对于计量科研数据而言,无论是按照社会服务功能将数据分为法制计量、科学计量和工业计量这三大类,按照专业将其分为几何量计量等十大类,还是如国家计量科学数据中心的数据共享平台将数据分为标准参数数据、计量科研数据、计量基标准数据、计量检测数据和计量信息数据,目前的分类方法都是从不同的角度根据数据种类进行划分的,且分类方法缺乏统一性。这样缺乏统一性的分类方法会给科研工作者以及其他行业中对计量数据有使用需求的工作人员带来不便。而在全国范围内施行统一的数据分类标准则会大大提高计量数据的共享及利用效率,减少相关工作人员在数据检索时的负担。

《中华人民共和国数据安全法》第二十一条明确指出,为了加强对重要数据的保护,有关机构应依据数据的重要程度以及出现意外事件后其后果的严重程度,通过分级分类的方法对数据进行保护。对于涉及多个领域且关乎众多行业发展的计量学,其科研相关数据中很大一部分属于“关系国家安全、国民经济命脉、重要民生、重大公共利益”的国家核心数据,按规定应受到更高程度的重视。在数据驱动发展的背景下,数据的共享开放是必然的趋势,而数据安全则是保证发展可持续性的前提。由此可见,为了维护数据安全,推进计量数据共享开放,计量行业需要尽快针对数据的安全性制定统一的分级分类标准。

虽然在全国范围内并未实现计量数据分类标准的统一,但作为国家级的计量数据中心——国家计量科学数据中心在《中华人民共和国数据安全法》正式实施以前就制定了比较详细的数据分级分类方案。在00年11月发布的《国家计量科学数据中心数据分级分类管理办法》(以下简称《计量分类》)中,国家计量科学数据中心根据数据的内容和形式,按照层次分类法将计量科学数据分为两级并对其编码,具体见表1。

同时,国家计量科学数据中心基于数据安全和利用价值将数据分为公开数据、内部数据、受保护数据3类,并对其采取不同的保存策略和共享方式,具体见表。

同时,国家计量科学数据中心也公布了各类数据的界定标准,具体如下。

●完全开放共享数据:提供给国家计量科学数据中心且无附加共享利用条件约束的科学数据资源。

●协议共享数据:按约定的协议条件共享利用的科学数据资源。

●不予共享数据:不宜共享利用的科学数据资源。

从国家计量科学数据中心制定的分级分类标准可以看出,当前国家计量科学数据中心施行的分级分类方法既依据数据类型对数据进行了分类编码,也从数据的安全性角度考虑将数据分为三大类以对特定数据进行分级保护,其分级分类标准已经初见雏形并形成系统。为了进一步改善现有的分级分类标准,本文将参考国内外其他领域的数据分级分类方法,择其善者而从之,其不善者而改之。

3国内其他领域数据分级分类的现状

从年发布的《科学数据管理办法》第十九条中提到的“开放为常态、不开放为例外”的原则,以及持续推进国家数据交换平台建设的发展趋势中不难看出,近年来我国越来越重视科学数据共享。自年科学技术部启动国家科技基础条件平台建设工作到年首批3个国家科技基础条件平台获批并公布,我国在科研领域的数字化发展一直没有停止前进的脚步。为了响应《科学数据管理办法》和《国家科技资源共享服务平台管理办法》,除了在计量领域于年成立了国家计量科学数据中心,在农业科学、地球科学和气象科学等19个领域也成立了相应的国家科学数据中心。通过对19个其他领域数据中心的数据分级分类方法进行调研,可以为计量领域的数据分级分类提供参考。笔者在调研后发现了如下现象。

(1)计量行业缺乏详细的元数据分类标准

在对其他数据中心进行调研的过程中,笔者发现部分中心制定的数据分级分类方法更详细具体,值得计量行业效仿。例如在国家林业和草原科学数据中心发布的《林业科学数据分类与编码(V1.0)》中,林业科学数据依据数据性质被分为三大门类。在每个门类中,数据根据其学科领域以及其子学科的数据内容被分为一级分类和二级分类。其中,一级分类共36项,二级分类共项。相比之下,国家计量科学数据中心制定的分级分类方法并没有针对具体学科领域以及相应子学科对元数据进行分类。对于涉及较多学科领域的计量学,制定更详细的元数据分类标准不仅有利于数据的汇交和管理,更有利于提高数据搜索效率。

()计量数据安全分类缺乏量化的分类标准

随着对数据安全需求的提高,国内已经有学者以ISO体系为基础提出了数据资产分级模型。ISO体系将数据安全性拆分为保密性(confidentiality)、完整性(integrity)、可用性(availability)(简称CIA)。陈驰等人以CIA为基础,建立了数学模型:

其中,V代表数据资产价值;Conf、Int、Ava分别代表数据在保密性、完整性、可用性3个方面具有的资产价值;A代表保密性的权值,B代表完整性的权值,C代表可用性的权值,具体数值可依据其应用的行业特征进行调整。此表达式通过对CIA三方面的资产价值进行幂运算,并乘以相应权值之后再进行对数运算(lb代表以为底的对数),最终得出数据资产价值的估值,Round1表示保留1位小数。该表达式反映了数据的业务价值,进而可以结合数据的涉密性完成对数据保密等级的划分,数字资产价值与数据资产保密等级的关系见表3。

数据资产分级模型与表的计量科学数据安全分级方法均依据数据安全等级对数据进行分级划分。相比之下,数据资产分级模型通过数学模型量化了数据资产的价值,并依据量化结果对数据的安全等级进行划分。相比《计量分类》中描述性的分级标准,数据资产分级模型对安全等级的评估更为明确且精准,而且便于数据工作人员操作。计量数据分级也可以参照数据资产模型,根据不同计量领域的学科特点制定公式化的分级标准,以提高分级的精确性。

(3)部分数据平台的数据组织规范性不足

部分平台存在同一平台出现多种分类方式的现象,容易降低数据搜索效率。例如国家气象科学数据中心

------分隔线----------------------------
  • 网站首页
  • 网站地图
  • 发布优势
  • 广告合作
  • 版权申明
  • 服务条款
  • Copyright (c) @2012 - 2020

    电话: 地址:

    提醒您:本站信息仅供参考 不能做为诊断及医疗的依据 本站如有转载或引用文章涉及版权问题 请速与我们联系