主办单位:中国物品编码中心 | 中国自动识别技术协会 | 《中国自动识别技术》杂志社

设为首页 | 加入收藏 | 关于我们

  物联网  正文

数据资源体系在大数据中的应用

发布时间:2021年04月09日 来源:中国自动识别网 作者:赵京鹤 童辉 卫芳芳

随着互联网、大数据、人工智能等先进技术的发展,信息数据呈现几何增长。这些数据已经渗透到当今社会的各行各业,为政府和企业进行科学决策、开展各类研究、规划未来发展方向等方面提供了充分的科学依据,成为政府和企业发展中不可或缺的战略资源。
随着政府和企业智能化、信息化的转型升级,存量数据形成规模,数据质量和可用性均不高等问题逐渐暴露出来,数据资源的利用率长期处于低位,导致政府和企业在进行决策过程中缺乏有效数据进行支撑的窘境,这也是数据资源没有发挥出其真正效应的根本原因。数据资源体系则成为解决此类问题的一剂良药。
 
数据资源体系构建方式
为确保数据资源体系建设工作的顺利推进,依托数据资源建立便于任务推进、促进协调沟通、符合实际需要的数据治理工作组织,包括成立数据采集席位、数据治理席位、数据分析席位、数据运维席位、数据管理席位,共同构成数据资源体系建设的组织架构,并根据组织架构层级确定角色和职责,建立多层次、相互衔接的运行机制,如图1所示。
数据管理席位
数据管理席位由数据架构工程师组成。负责数据资源体系的架构设计、关键数据治理技术突破和技术咨询、数据实施开展的指导培训以及数据资源共享交换的权限审批。
数据分析席位
数据分析席位由数据挖掘工程师组成。负责业务场景的数据分析、算法建模和模型部署以及数据共享交换服务的注册发布,解决数据价值挖掘和数据决策支撑的痛点需求。
数据治理席位
数据治理席位由数据ETL工程师组成。负责结构化数据的抽取、转换和加载,开展数据标准区、数据主题区和数据专题区的建设工作,提升数据资产化价值。
数据采集席位
数据采集席位由数据爬虫工程师和数据开发工程师组成。负责数据需求调研,实现对网页数据、数据库在线、物联网传感数据和离线文件四种场景的数据采集,进行流程开发和运维管理。
数据运维席位
数据运维席位由大数据运维工程师组成。负责平台应用的部署、运维和管理,大数据集群和数据仓库服务器的运维调优工作。
 
数据资源体系实施过程
在数据资源体系建设的具体实施过程中,可分为数据需求调研,数据体系规划,数据标准化建设,数据资产建设四个环节;而这四个环节的执行过程都需要数据质量稽查和数据安全管理这两个模块的支撑。
数据需求调研
在进行数据需求调研时,分两个阶段开展工作:首要工作是对现有数据资源进行盘点和统计,其次是对数据应用进行需求调研及规划设计。数据资源盘点对数据项目是否能成功落地起决定性的作用:数据湖里若是连“水”都没有,讨论数据应用的需求就是“空中楼阁”,应用设计得再好,也无落地的可能。数据资源盘点完成后,需要针对实际情况,进行数据的需求分析和规划设计,使数据资源的建设方向有的放矢。
对数据资源进行盘点,具体包括以下步骤:
一是从最易接入的数据类型入手,获取数据库中的数据。通过已有的数据库,获取数据字典(若无则需要与业务人员进行字段意义的逐一确认),最终理解每个数据库的部门归属、用途和意义,进行元数据记录及数据量统计。
二是盘点服务器数据,例如系统日志和数据库日志等,最终掌握每个日志的部门归属、用途和意义,进行元数据记录及数据量统计。
三是盘点IoT数据,需要整理每种IoT数据所需的解析协议,进行元数据记录及数据量统计;盘点非结构化数据,整理公司云盘、SVN等文件存储器下的电子文档及多媒体文件等,形成清单列表,表名属性、分类、用途及归属等信息。
数据应用的需求分析,从业务的实际痛点出发,过程中需要与一线作业人员充分沟通,探求如何优化业务人员的工作流程,提高实际业绩。例如,为销售人员提供公司客户群体画像,为售前人员提供能预测潜在客户购买概率的AI模型等。数据应用需求分析完毕后,要对项目周期内的应用进行规划,即合理的应用交付范围,后续的数据资源建设方向都以此为目标。
数据体系规划
把握整体数据和应用情况后,即可对数据体系进行设计和规划。
对于原始区数据引接问题
•原始数据区需引接领域与类型;
•原始数据区未来采用全量同步或增量同步的引接方式;
•非结构化数据引接前对于数据的处理及解析方式;
•历史数据的引接范围时间周期。
标准数据区对引接的原始数据处理方式问题
•需要进行数据清洗和转化的方式及操作过程;
•对于字典标准、业务标准等标准集的抽取和制作方式;
•数据标准化的完成路径。
主题区设计问题
•主题区基于业务的主题库设计;
•主题库内的字段选择;
•基于业务的主题库内容更新方式。
专题区设计问题
•专题区基于业务和管理的专题库设计;
•主题库至专题库的映射关系设计;
•专题数据服务提供时效;
•数据应用与数据服务接口的交互方式。
一般来说,在这个阶段,需要制定数据库模型设计的规范、制定数据开发规范;二是进行数据库模型构建,并提交评审讨论。
数据标准化建设
数据标准是保障数据内外部使用和交换一致性、准确性的规范性约束,是进行数据标准化、消除数据业务歧义的主要参考和依据。数据标准管理是指数据标准的制定和实施等一系列活动,目标是通过统一的数据标准制定和发布,结合相关约束、系统控制等手段,实现数据平台上数据的完整性、有效性、一致性、规范性、开放性和共享性管理。
数据标准管理主要内容包括标准规划、标准制定、标准发布、标准执行和标准维护五个阶段。一般来说,通过将数据与标准集进行关联匹配来达成数据标准化的目的。需要注意的是,关联匹配的前提是业务表与标准集之间存在可关联字段,这就需要在标准构建阶段,甄选出业务价值最高需要进行标准化建设的字段。
数据资产建设
数据资产建设是数据资源体系建设前期投入最大、最困难也最难看到显著成效的模块。但是所有数据化建设的最后,都要以数据资产为基础,围绕资产去实现实际的数据应用,因此数据资产建设阶段的成果质量好坏至关重要。
数据资产建设主要分为:
数据库选型  这个阶段需要为不同的数据区选择合适的数据库产品(原始数据区采用HDFS文件系统,使用HIVE进行数据清洗转换及查询;专题区可以用MySQL进行数据存储,提供快速的查询反馈)。
平台选型  数据处理管道(pipeline)的开发需要平台工具的支持,这些平台工具能完成不同数据源的协议适配与数据引接,并能开发工作流实现数据的处理和流转。
数据区建设  这一步进行实际的数据开发工作,根据前序已经确立的方向及开发规范,引接真实数据,进行数据清洗,建设原始区、标准区、主题区及专题区,并创建自动化工作流,使数据得以定时化、自动化更新。
数据资产建设完成后,即可按需开发数据接口,为上层应用提供数据服务。
数据质量稽查
数据质量稽查需贯穿整个数据资产建设的过程,是数据质量的重要保障,是数据应用正确指导业务活动的前提。通过数据质量稽查,要求数据在提供给数据应用前,要满足准确性、完整性、一致性、有效性、唯一性、及时性、稳定性。
目前,业内较为通用的校验规则如下:
单字段校验  通过单一字段的约束条件进行校验,包含不为空、比较运算、包含、不包含、取值范围(区间)、取值范围(枚举)、字段长度、字段类型、正则表达式等规则,可用于校验数据的准确性、完整性等;
唯一性校验  针对单一字段或者多个字段组合后做唯一性约束校验,通过重复记录行或其他违反唯一性约束属性值进行校验;
关联性校验  针对字段的关联关系校验,通过引入其他关联字段验证字段的存在和缺失进行校验;
记录行统计型校验  针对某个字段的记录行总数做校验,通过统计记录行数量与合理阈值范围比较来进行校验;
多源对比校验  针对多个数据源进行对比校验,通过关联字段和对比字段的对比,以校验通过率高或匹配率高的数据知晓哪个数据源的数据质量高。
数据安全管理
数据治理流程中主要涉及数据采集安全和数据处理安全两方面:数据采集安全包括数据分级分类、数据标签、数据采集身份管理、数据源鉴别、记录和数据质量管理;数据处理安全包括数据脱敏、数据分析安全、数据,使用安全、数据导入导出安全和数据处理环境安全。
随着数据资产的不断积累,政府机关及企事业单位对于数据价值挖掘的需求逐渐显现。数据价值挖掘的过程,不仅是使用数据分析挖掘工具进行数据处理的过程,更是以数据规划设计为起点,通过构建数据资源体系进行系统化的数据资源管理的过程,也是为数据支撑业务打好最结实的基础,最终让数据资产发挥其应有的价值。
 
(作者单位:赵京鹤/中电科大数据研究院有限公司;童辉/明略科技集团; 卫芳芳/中国电子系统技术有限公司)
《中国自动识别技术》2021年第1期总第88期

延伸阅读:

声明:

    凡本网注明“来源:中国自动识别网、《中国自动识别技术》、《条码与信息系统》”的所有作品,版权均属于中国自动识别网、《中国自动识别技术》、《条码与信息系统》, 未经本网授权不得转载、摘编或利用其他方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:中国自动识别网、《中国自动识别技术》或《条码与信息系统》”。违反上述声明者,本网将追究其相关法律责任。
    凡本网注明“来源:XXX(非中国自动识别网、《中国自动识别技术》、《条码与信息系统》)”的作品,均转载自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。文章内容仅供参考。 如因作品内容、版权和其他问题需要同本网联系的,请将内容传真至010-84295675,以便本网尽快处理。

高端访谈 更多>>
商品二维码 全球商品通用...
王毅 研究员、中国物品编码中心技术部副主任兼二维码研究室主任,国际自动识别与数据采集技术分委会(ISO/IEC JTC 1/...
物品身份及其编码的本质
张成海 中国物品编码中心主任、中国ECR委员会联合主席、国际物品编码组织(GS1)管理委员会委员及顾问委员会委员、全...
推进我国二维码标准化应...
王毅,中国物品编码中心二维码研究室主任,技术部副主任,研究员,国际自动识别与数据采集技术分委会(ISO/IEC JTC1/S...
AVEVA剑维软件: 信息和智...
数据是数字化转型的关键因素,是企业的重要资产。
杂志专区 更多>>

《2024第1期》

《2024第1期》