主办单位:中国物品编码中心 | 中国自动识别技术协会 | 《中国自动识别技术》杂志社

设为首页 | 加入收藏 | 关于我们

  行业应用  正文

基于人工智能的实时舆情监管 系统设计与研究

发布时间:2024年03月26日 来源:中国自动识别网 作者:谢红韬 曹扬 严增勇/文

 流批一体的计算框架为实时舆情监管系统提供了高效处理实时数据流的能力,而先进的人工智能审核算法则赋予系统更为智能的舆情分析能力。

随着互联网的普及和社交媒体的兴起,舆情监管成为社会治理中一项极为重要的任务。舆情的传播渠道之多、速度之快、影响之深,使得监管工作变得更为复杂和迫切。为了应对上述需求及挑战,舆情监管系统的设计和研究成为大数据领域的一大热点。传统的舆情监管研究方法存在评估方式表浅和获取信息滞后等缺陷,由于部分待监管媒体并不会对监管机构开放数据,因此,在数据方面,越来越多的系统基于爬虫技术实现对媒体数据的获取。同时,为了追求更加准确且深层次的媒体监管评估,基于指标体系计算的量化评估研判体系成为当前舆情评估的主流。
本文提出的实时舆情监管系统的设计理念是通过建立全面的指标体系,对媒体信息进行综合评估。流批一体的计算框架为系统提供了高效处理实时数据流的能力,而先进的人工智能(AI)审核算法则赋予系统更为智能的舆情分析能力。这一系统在提高监管效率的同时,也注重降低人工审核的工作负担,为监管部门提供了一种更为先进、精准的手段。实时舆情监管系统的设计和研究过程包括流批一体计算框架下指标实时计算的实现、指标体系的建立以及人工智能审核算法的整合。通过在贵州某监管部门的实际应用,该系统在舆情管理、信息采集和实时评估方面的显著优势得以证明,为舆情监管领域的进一步研究和实践提供有价值的参考。
 
平台设计
系统架构设计
系统由媒体管理、数据采集、消息中间件、实时计算、AI平台、指标评估六大模块构成,该系统架构,如图1所示。
图1  系统架构图
各个服务模块具备如下功能:
媒体管理
媒体管理服务分为媒体基本信息管理和媒体渠道信息管理,媒体基本信息后续用于支撑预警信息的推送,媒体渠道信息用于支撑分布式大数据采集平台的采集数据源获取。
数据采集
分布式舆情大数据采集平台依据媒体管理中的媒体基本信息,自动生成数据采集任务,采集媒体发布的新闻数据。
实时计算
Kafka新闻消息中间件作为采集平台与实时计算平台的数据桥梁,由采集平台实时发布采集到的新闻数据,由计算平台实时消费新闻数据进行计算。
算法人员在AI平台上部署错别字识别、“标题党”识别、违禁词识别、内容审核、情感倾向分析等算法,并以API方式对外提供服务。
基于Flink的流批一体实时计算平台作为整个系统的计算基座,在其之上开发通用算法算子,接入AI算法API进行实时计算,得出每篇文章的审核结果。再由指标评估算子对审核结果与指标扣分项进行加权计算,得到媒体的评估扣分值。
指标评估
指标评估模块主要用于指标管理及计算结果的展示及推送,包含指标和扣分项的管理、违规内容的展示、危险预警消息推送。
数据流向设计
系统的主要输入内容为大数据平台采集的海量媒体新闻数据,将其存放至消息中间件后,经过实时计算平台处理后输出为指标模型的评估结果。
·由大数据采集平台将从媒体官方网站、公众号、头条号、微博、数据库、API接口等渠道收集的新闻数据发布到Kafka消息中间件里面。
·由Flink实时计算平台消费采集的媒体数据,对于每个指标项,Flink调用通用算法算子所对应的指标算法进行识别,并将识别结果再次发布到Kafka消息中间件里面。
·由Flink实时计算平台消费算法识别结果数据,调用指标评估算子将识别结果与指标扣分数进行加权计算,得到评估结果。
系统功能设计
实时舆情评估系统以“简易配置、实时计算、智能识别、危险预警”为指导思想,构建满足指标计算、智能审核的实时舆情监管系统建设需要。系统分为媒体信息管理、数据采集、算法接口管理、指标管理和违规管理五部分。
媒体信息管理 
媒体信息包含了媒体基本信息和媒体渠道信息,是数据采集和监管预警的信息来源,支撑数据自动采集和预警信息同步推送。媒体信息管理功能项,见表1。
表1
数据采集
由分布式大数据采集平台作为采集底座,系统根据媒体渠道信息自动生成官网、微博、公众号、APP的采集任务,支持任务调度添加和采集日志查看。数据采集功能项,见表2。
表2
算法接口管理
用于管理由AI平台提供的各类算法API接口,提供给Flink算法算子调用,接口内容包含请求类型、请求头、请求参数、请求体、返回参数。算法接口管理功能项,见表3。
表3
 
指标管理
指标模型是整个系统的核心,是对媒体进行扣分及评估的依据,包括但不仅限于在报道中不能出现错别字、遵循《新华社新闻信息报道中的禁用词和慎用词》规范、不能出现“标题党”现象、不能出现政治类差错等。指标管理模块提供了对指标模型及其扣分值的新增、删除、修改、查询功能;同时,基于指标模型的新闻文稿评估需要借助AI算法来实现,指标管理与算法管理联动,提供选取与指标项对应的评估算法。指标管理功能项,见表4。
表4
 
违规管理
对于经过指标项计算判定违规的新闻文稿、媒体排名,违规管理中会集中展示,支持按媒体、指标和核查结果模糊查询新闻违规结果。可视化大屏能展示媒体、指标、新闻、地域、采集数据等要素,便于更直观地呈现舆情现状。违规管理功能项,见表5。
表5
系统应用
实时舆情监管系统现已在贵州省某媒体监管机构应用并取得了一定的成效。
首先,该系统在该监管机构得到了全面而深入的部署。监管机构的工作人员使用该系统配置了媒体信息,确保系统能够覆盖并监测各类媒体。这一步骤的灵活性使得系统可以根据监管机构的需求进行个性化设置,适应不同的监管任务。
其次,该系统通过自动采集媒体数据的方式,实现对广泛信息源的全面监测。这包括对新闻、社交媒体、论坛等多种形式的媒体内容进行即时的搜集和整合。自动采集不仅能够减轻工作人员的负担,也可以确保对于大规模信息的快速响应。
实时计算框架与AI审核算法紧密合作,按照预先设定的指标对媒体进行实时评估。这一过程通过深度学习和智能算法的应用,能有效提高评估的准确性和效率。系统不仅能够精准地计算评估分值,还能迅速识别分值较低的媒体,实现对可能引发舆情危机的媒体进行实时监测。
通过实际应用,该系统成功实现了实时预警功能。当系统检测到评估分值较低的媒体时,会立即发出预警信号,使监管机构能够在舆情问题进一步扩大之前采取适当的措施,有效遏制潜在风险。
总体而言,实时舆情监管系统在某监管机构的应用取得显著成果,为媒体管理和监管工作提供了强有力的支持。该系统实现了媒体数据的实时采集,减少了审核工作量及数据遗漏的情况,提高了工作效率。其成功经验为舆情监管系统的未来发展指明方向,也为其他监管机构提供有价值的借鉴。系统开发的下一步工作是在AI审核算法及指标模型方向深入研究,提高算法识别精准度及指标覆盖率,使媒体违规感知率及感知速度得到提高。
 
谢红韬 曹扬 严增勇
作者单位:中电科大数据研究院有限公司
 
 
参考文献
[1]张明杰,王妮,李怡. 基于网络爬虫的舆情情感分析系统设计与实现[J]. 电脑编程技巧与维护,2023,(03):171-173.
[2]杨洋洋. 多维度视角下政府网络舆情治理研究[D].北京邮电大学, 2022.
[3]张霁阳,张鹏,李思佳,刘静,窦云莲,兰月新. 基于实时社会网络分析的突发舆情事件动态意见领袖识别方法研究[J]. 情报杂志,2023,42(09):109-116,126.
[4]雍龙泉,贾伟,张建科. 基于爬虫技术与智能算法的网络舆情监测[J]. 智能计算机与应用,2021,11(04):35-38.
[5]唐艳华. 构建大规模群体性事件网络舆情监测指标体系刍议[J]. 西部学刊,2023,(17):135-139.
《中国自动识别技术》2024年第1期总第106期

延伸阅读:

声明:

    凡本网注明“来源:中国自动识别网、《中国自动识别技术》、《条码与信息系统》”的所有作品,版权均属于中国自动识别网、《中国自动识别技术》、《条码与信息系统》, 未经本网授权不得转载、摘编或利用其他方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:中国自动识别网、《中国自动识别技术》或《条码与信息系统》”。违反上述声明者,本网将追究其相关法律责任。
    凡本网注明“来源:XXX(非中国自动识别网、《中国自动识别技术》、《条码与信息系统》)”的作品,均转载自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。文章内容仅供参考。 如因作品内容、版权和其他问题需要同本网联系的,请将内容传真至010-84295675,以便本网尽快处理。

高端访谈 更多>>
商品二维码 全球商品通用...
王毅 研究员、中国物品编码中心技术部副主任兼二维码研究室主任,国际自动识别与数据采集技术分委会(ISO/IEC JTC 1/...
物品身份及其编码的本质
张成海 中国物品编码中心主任、中国ECR委员会联合主席、国际物品编码组织(GS1)管理委员会委员及顾问委员会委员、全...
推进我国二维码标准化应...
王毅,中国物品编码中心二维码研究室主任,技术部副主任,研究员,国际自动识别与数据采集技术分委会(ISO/IEC JTC1/S...
AVEVA剑维软件: 信息和智...
数据是数字化转型的关键因素,是企业的重要资产。
杂志专区 更多>>

《2024第1期》

《2024第1期》