基于语义内容识别的网络舆情监测分析系统框架

基于语义内容识别的网络舆情监测分析系统框架
2019年8月26日 No Comments 行业新闻 admin

基于语义内容识别的网络舆情监测与分析系统框架程贤毅,朱玲玲,朱倩,王进基于语义内容识别的网络舆情监测与分析系统框架下载全文程贤毅,王莹,Cheng An-Yi,WANG Ying 1,2,朱玲玲1,朱倩2,王进1 1.南通大学计算机科学与技术学院,南通2.江苏大学计算机科学与通信工程学院,镇江,中国E-MIAL: doi:/jcit.vol5。 issue10.7摘要网络已成为公众表达意见,讨论公共事务,参与经济社会和政治生活的重要公共平台。 网络舆论的几何级数增长的传播,有必要监督和分析网络舆论,为政府管理舆论,及时发现热点,正确引导舆论趋势。 因此,网络舆情监测和分析已成为近年来的热点问题。 现在主要的成熟技术是基于关键词的统计分析。 但是,仍有很大的空间来提高其有效性。 本文描述了一个基于语义内容识别的网络舆情监测与分析系统框架,解决了舆论的一些关键问题。

1.引言关键词:网络舆论,自然语言过程,语义近年来,随着互联网的发展和网民的数量不断增加,一些人通过论坛,IM等方式披露和传播敏感与不良,其中威胁社会稳定和人民的生命财产。 一方面,国家立法和法规应该更加注重舆论的重点,更好地服务于公众; 另一方面,政府应该承担起重要责任,正确监督敏感舆论,指导保护网络用户免受恶劣侵害,构建社会主义和谐国家。 根据互联网中心的初步统计数据,自1996年以来出现了直接和间接的巨大损失,我们可以从图1中看到。因此,网络舆情监测和分析已成为一个迫切而重要的问题[1]。 Y轴表示国家损失(单位为百万美元)图1.通过传播网络舆论对社会造成的危害统计关于网络舆论分析的最重要技术包括文本过滤,文本分类,聚类,观点倾向性识别,跟踪主题,自动

2、融合信息技术期刊第5卷,第10期2010年12月总结等等,长期以来一直受到国内外工人的关注。 为了更有效地控制,本文描述了一个基于语义内容识别的网络舆情监测与分析系统框架。 2.研究情况来自DARPA CMU马萨诸塞大学和Dragon Systems公司的研究人员已开始定义主题检测和跟踪研究并开发TDT。 该项目的重要技术是内容分类,解决了实时监控的处理速度与安全监控之间的矛盾,使其可行。 国外有一些关于它的研究,例如W3C的PICS已经成为WWW的分类标准。 有两种国际通用分类标准:SACi和Safesurf,它们都符合PICS。 一方面,分类技术用于网页分类和过滤; 另一方面,由于种种原因,外交政策和标准并不完全适合中国的国情。 在中国,创始人智思舆论警告DSS [2]由研究院方正设计成功。 该系统已成功实现对大量舆论的自动实时监控和分析。 政府监督公共选择比传统的手工模式更有效。也有一些加强对互联网的监管,对网络突发公共事件起到一定作用。本DSS提供全文检索等功能。自动分类,自动聚类,主题检查/跟踪,相关推荐和消失重,连接和趋势分析,自动摘要和关键词提取,雷电分析,生成统计等。 Goonie网络公共舆论和监控系统结合了互联网搜索技术; 智能化过程技术和知识管理方法。 它通过自动收集,自动分类组合,主题收集,重点专题实现网络舆情监测和专题新闻跟踪简报,报告等。 因此,Goonie可以掌握民意,做出正确的共识并提供报告分析[3]。 在文献[4]的基础上,设计了基于人机组合的内容安全监控系统框架。 框架是一个层次结构,有三个层次:数据采集层,内容分析,输出层。 它的功能主要是通过内容分析检查基于内容并识别不良; 同时,它可以通过有效的审计分析记录来源和内容并对其进行跟踪,为不良用途提供电子证据。 虽然有很多单位从事国内互联网内容过滤方向的研究,但试图达到净化网络环境的目的。 但是这些技术还处于萌芽状态,“语义过滤”还存在一些不足之处.3。系统框架系统的目的是通过测试,获取,主题实现网络舆情的大规模网络环境监测报告。 ,热门话题和事件跟踪,实验监控等,可以形成分析结果的多种表示模式,如简要,报告,图表等。因此,系统可以掌握民意,做出正确的共识,并提供报告分析。 网络监控系统Public Opinion模块功能框图如图2所示。有五个阶段,包括资源发现,选择,模式发现,提取,舆情处理

3、基于语义内容识别的网络舆情监测分析系统框架程贤毅1,朱玲玲,朱倩,王进主题管理结构知识预警过滤器计数器监控决策舆论处理客户端非结构文本结构文本主题搜索趋势分析抽象报告事件搜索提取文本分析审计主题模式倾向性分析事件模式语义索引模式发现文本净化服务器过滤器光泽表达提取主题过滤噪声选择(数字集合格式转换数据导入/导出)文本WEB聊天室电子邮件博客BBS资源发现图2.网络舆情监测系统功能模块的逻辑结构图3是系统工作流程。 该系统包括以下五个数据库:1)舆论策划数据库:收集舆论需求,包括在线新闻,BBS,RSS,聊天室,博客,聚合新闻(RSS)等.2)舆情分析数据库:通过分类和聚类,关键字提取,删除复制和过滤,命名实体识别,语义计算等收集存储数据,构建数据库。 3)舆论数据库:与舆情分析报告,调查报告,经验总结及相关的存储产品。 4)语义词典:本体知识等5)HNC知识:466句句知识等[6]。 公众情感资源发现公众意见数据库编程选择提取公众意见分析模式发现流行情感处理舆论产品HNC知识语义词典图3.网络舆情监测系统工作流程

4、图4是客户端工作流程Journal of Convergence Information Technology第5卷,第10期。2010年12月用户显示主题列表修改主题? 否主题选择是主题管理服务器端处理继续提取流行感受处理退出主题事件检索检索摘要主题检索公众意见公开报告警告过滤器计数器次要决策图4.客户端工作流程图5是系统的数据流程图。 各个模块之间的交互是不同的:数据交互基于资源发现模块和选择模块之间的文件; 选择模块处理从文本到向量或本体; 使用GATE标记在模式发现模块中命名实体,并确定实体之间的关系,然后发现事件模式或主题模式; 信息抽取模块主要进行语义计算,将模式转换为模板,使非结构化结构化; 舆论处理模块需要根据用户进行查询并以适当的表现方式将这些结果发送给用户。 同时,模块接收用户的建立和查询请求。 网络资源发现提取流行的感受处理非结构化文本的分析向量,本体结构化结果数据库用户请求结果显示选择模式发现服务器客户端图5.系统的数据流程图

5、基于语义内容识别的网络舆情监测与分析系统框架程贤毅1,朱玲玲,朱倩,王进图6是一个完整的系统网络拓扑结构。 该系统可以是很多用户; 每个用户都可以连接到服务器。 服务器可以通过网络共享数据并相互交换,网络连接方案可以是P2P或客户端 – 服务器。 未来将不断修改和优化网络媒体管理外联网网络通信办公室4.工作流程执法特殊内容管理图6.网络拓扑4.1。 基于潜在语义分析的资源发现资源发现(其检索必要的网络资源)是通过不同网络模式整合合并映射数据的过程。 资源之间有不同的检索工具和策略。 BBS,聊天室,简短随意。 首先,使用DTS导入/导出文档,然后基于潜在语义分析的主题消除忽略环境和同义词误判的算法问题,同时使用SVD实现过滤和噪声去除目的。 我们可以根据文档相似度计算和聚类分析的内容,找到有效,及时的主题漂移,更好地满足公共监督的要求。选择选择是通过自动选择和预处理实现网络专业化。首先,过滤噪声识别命名实体,提取主题和事件;其次,分类光泽根据主题或事件过滤文本; 最后,区分文本。 1)基于半监督学习的文本分类舆论的独特特征是短文本,应该处理大量数据。 传统的文本分类算法是一种监督学习,它通过已定位的类别标签来学习校准样本,并根据文本语义内容确定其类别。 它需要一个大型标签样本列车到一个好的分类器。 很容易访问大量未标记的数据但成本高且标记数据不切实际,这将在传统文本分类处理大量数据时产生瓶颈。 我们使用基于半监督学习的文本分类来克服短文本的稀疏性,提高短文本分类算法的准确性。 并且为了增加算法的鲁棒性,最好避免陷入局部最优解; 将Bagging算法集成到半监督学习中。 2)检测不好

6、收敛信息技术期刊第5卷第10期2010年12月错误检测是网站内容监控系统的关键因素之一。 它仅基于网络上的关键字来识别和过滤传统的网络检测系统。 如果你想掩盖一些邪教场所,那些批评邪教组织的人将被过滤掉。 因此,我们提出了一种基于HNC测试不良内容的方法(图7),这种方法不是通过匹配关键字来判断文本过滤需要根据句子的含义进行模式发现模式发现将实现热门话题检测和基于来自选择模块的数据,通过数据挖掘和语义计算来关注事件跟踪和方向分析。 该模块是系统的核心。 模式发现如下:1)首先,我们利用中国科学院计算机软件研究的ICTCLAS获得四个表格来实现分词和POS标记:主题表(ID,标题,文本,作者,时间,矢量)评论表(ID,主题,标题ID,文本,作者,时间,倾向性值)主题表(ID,关键词组,参与者数量,时间,极性,观点对立,注释)主题 – 主题地图表(主题) ID,主题ID)插入数据库时​​主题ID将是渐进式分发,我们将在保存注释时通过主题ID保持注释和主题之间的对应关系。 而且,第三表包含基本聚类; 第四个表包含每个集群的主题,这是主题的主题。 文章Pretreat Sentence语义结构框架文本元素短期记忆句子分析语境生成位置判断语义HNC概念知识库词语知识库HNC判断语义库网络地图对象位置红黑检查红黑对象图书馆文字性质:1个绝对黑色,2个绝对红色,3个黑色,4个可疑III,5个可疑II,6个可疑1,7中立图7.不良检测算法图2)趋势分析首先我们为趋势词典做好准备字典基于标记极性并在How-Net中通过人工标记方法加强,然后手动添加一些常用词。 我们应该使用Java语言提供的哈希表来建立一个好的趋势字典,因为需要快速检查倾向

7、基于语义内容识别的网络舆情监测与分析系统框架程贤毅1,朱玲玲,朱倩,王进接下来,阅读文本,逐句处理,删除停用词每个句子,逐字查询倾向词典,计算其语境极性和词的极性强度。 然后,将所有极性分量相加,接收句子密度情况除以评论数的平方根最后,根据分布情况划分评论趋势和等级表示具有趋势值。 3)流行感受关键点分析:根据主题 – 主题地图表查询数据库中的评论,并对热点进行排序。 通过主题观点的反对意见结合其评论来计算事件关注点。 在一个时间单位(例如:天)上选择基于基本累积单位的初始点,然后由反对计算主题视图的时间点,仅计算时间点之前的评论,后者,意见通过将时间点的值减去前一时间值来获得对此时间的附加值的反对。可以获得事件的趋势4.4。 提取该模块主要获取结构数据并获取多个数据库进行分析,确认或预测采样的模式。 我们可以使用GATE [6]:实体识别,实体关系识别,事件识别,摘要生成等流行情感处理1)舆论警示模块收集网络; 发现问题(事情)和反馈。 警告在给定时间段显示,主题相关事件是趋势主题。 2)过滤过滤太糟糕了。 网络管理通过随时监控消除负面新闻。 收集不同字段的敏感短语,并为每个短语设置权重值,并使用智能软件根据权重查找敏感短语匹配。 将被屏蔽超过确定的某个阈值。 3)计数器首先,获取其IP,然后将其锁定。 我们可以使用各种有效的攻击方法对Hub网站的不安全进行定点攻击传播(例如渗透技术,病毒技术,先进的黑客攻击技术等)。可以防止不安全的传播和反击。 4)监控系统在进入监控开始时间后列出有关主题的所有事件或主题,用户选择可疑事件或主题,监控模块将持续监控。 监测和预警不同,前者是被动监测,预警是积极的。 5)决策通常不可能完成决策,而是一个迭代过程。 在这个过程中,决策者可以在不同选项和备选方案的参数中使用人机交互。 5.结论传统的机器学习方法存在繁重的工作量,需要手动标记列车分类器的网民。 本文应用基于语义的内容识别技术来设计一个分析和监控网络的框架,舆论系统的评论是相对较短和广泛的情感词汇。 下一步我们将通过实验表明系统可以获得更满意的结果

8、趋同信息技术期刊第5卷第10期。12月参考文献[1]李永好。 网络热点快速筛选算法的仿真分析。 北京交通大学计算机通信实验室内部通信文件[2]方正科技研究院。 舆论对科学技术意味着支持网络监测和意外事件的分析 – 方正智思舆论警告DSS。 信息化。 2005:50-52 [3] [4]李艳玲。 安全监控系统框架及其BBS内容关键技术。 中国电子科学研究院。 2007,2(4):[5]金耀红。 HNC语言理解技术及其应用[M]。 北京:科学出版社[6]

About The Author

Leave a reply

电子邮件地址不会被公开。 必填项已用*标注