投稿指南
来稿应自觉遵守国家有关著作权法律法规,不得侵犯他人版权或其他权利,如果出现问题作者文责自负,而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件,作者必须保证本刊的独立发表权。 一、投稿方式: 1、 请从 我刊官网 直接投稿 。 2、 请 从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。 二、稿件著作权: 1、 投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我刊所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我刊所投之作品不得同时向第三方投送,即不允许一稿多投。 5、 投稿人授予我刊享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 第5条所述之网络是指通过我刊官网。 7、 投稿人委托我刊声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

文本挖掘下的话语认知与构建以人工智能和领域

来源:智库时代 【在线投稿】 栏目:期刊导读 时间:2021-06-24
作者:网站采编
关键词:
摘要:1 引言 官方新闻是指权威机构所发布的新闻,所发布的内容能够代表其机构的意志。政府新闻文本是国家展现执政理念、国家战略、政策体系等描述政府工作方针、内容和计划的表现形

1 引言

官方新闻是指权威机构所发布的新闻,所发布的内容能够代表其机构的意志。政府新闻文本是国家展现执政理念、国家战略、政策体系等描述政府工作方针、内容和计划的表现形式之一。白宫作为美国总统官邸,其发表的新闻文本具有即时性、广泛性以及权威性等特点,可以更好的引领、影响舆情。“智慧洞察,前瞻储备”为当今中国特色新型智库体系功能要求,研究分析政府新闻文本对情报分析、决策制定等方面具有重要引导作用[1]。

一直以来,推理法、内容分析法与量表法是各国研究人员对政府新闻文本态度识别研究中广泛使用的方法,研究人员在历史事件与政策方针的基础上进行逻辑推理,从而分析政府态度与变化情况;内容分析法,借鉴评价理论对新闻文本中的态度资源进行编码,进而识别新闻报道等文本数据中蕴含的政府态度;量表法,使用特定的态度量表进行针对性测评,以分析政府态度[1,2]。本文以传统新闻传播学的主要研究方法内容分析为参照,在样本、方法等方面与文本挖掘进行了对比:①在样本容量方面,内容分析法为小样本,文本挖掘法为大样本;②在抽取方法方面,内容分析法为随机抽样,文本挖掘法为方便抽样或者随机抽样;③在内容方面,内容分析法为态度,文本挖掘法为态度和行为;④在分析单位方面,内容分析法为文章,文本挖掘法为符号和词句;⑤在编码方法方面,内容分析法为人工操作,文本挖掘法为人工和机器学习方法。对比发现,相比于内容分析法,文本挖掘法在对于大数据的处理方面更加有优势且适当增加了分析内容的宽度,对于结构化的分析来说文本挖掘法更加有效。

近年来,随着科技的发展,大数据在数据分析的广泛应用以及人工智能的普及,用传统的方式对海量数据文本进行处理时困难增加了许多,且速度较慢、准确率较低,越来越不适用。研究人员开始利用数据挖掘技术对文本进行挖掘分析,利用文本挖掘技术,可以更快速、更直接的获取所需核心信息,达到智能化的分析与决策,增加其科学性与实效性。本文利用成熟算法加持,将其扩展至新闻文本获取分析上,应用创新于智库文本研究,为智库研究学者扩展新的思路方法。

2 理论研究

2.1 文本挖掘理论依据

在常用的文本挖掘方法中,基于词典的文本分析使用较为广泛,基于词典的文本分析在前期需要学者规划一些用于划分类的词语,建立词典并用算法进行匹配以达到分类的目的。CONWAY 等利用此方法研究了2012 年在美国总统竞选中媒体之间的议程设置,比较了报纸和Twitter 文本的相互关联[3]。对于关键词的提取,目前分为两大块,有监督的和无监督的。有监督的方法为利用标注好的训练集进行训练,但由于需要人工预处理导致效率较低,所以无监督的方法使用较为广泛。无监督的关键词提取主要分为基于TF-IDF模型、基于LDA 模型以及基于词图模型3 种方法。TF-IDF 是基于词频的模型,并没有结合词性本身[4];LDA 模型依据矩阵对关键词进行抽取,抽取效果和训练集的主题息息相关[4];词图模型是将对文本的处理转化为网络图的连接分析,该方法相比前两种无需批量训练数据集,简单且效果较好,例如对文本内的词语关系分析的TextRank 算法等[5]。

而新闻文本,作为一种新闻报道的存在形式,其文本形式相对单一,结构简单,直入主题且表达明确。政府新闻文本,作为新闻文本其中的特殊一类,其特殊性在于政府利用直观、简洁、多层次以及“模糊语”来表达其政策性的文本[6]。政府新闻文本可看作一种特殊的政治语言,其模糊语能有效的缓和问题双方的矛盾[7]。新闻文本主题多而杂,一篇带有强烈感情色彩的文本通常会包含着大大小小数10 个主题,采用传统的内容分析法已然不适用。本文利用文本挖掘法提取文本关键句,在新闻文本分析中,通过文本挖掘技术,可以更加智能化的洞悉政府的态度倾向,为研究学者扩展了新思路。本文结合成熟算法TextRank,将算法应用于新闻文本数据获取方面,进一步展现该领域的应用创新,简要介绍算法如下。

2.2 TextRank 算法简要介绍

TextRank 算法是一种文本排序算法,其是由PageRank 演变而来。随着科技的进步,在20 世纪90年代末,由LARRY 和SERGEY 提出的PageRank 算法诞生[8]。PageRank 最初是为解决网页与网页之间的关系而提出的一种计算网页权重的算法,它的思想核心为模拟使用者进行上网,随机点开网页浏览并且随机跳转任何网页,若某网页被很多网页连接到,那么其跳转到的概率会很大,该网页PR 值也相对较高[8,9]。PageRank 算法核心公式如(1):

文章来源:《智库时代》 网址: http://www.zksdbjb.cn/qikandaodu/2021/0624/1312.html



上一篇:专家把脉中国演艺装备科技蓝皮书中国演艺装备
下一篇:中国老科协智库圆桌会暨未来教育关键问题与对

智库时代投稿 | 智库时代编辑部| 智库时代版面费 | 智库时代论文发表 | 智库时代最新目录
Copyright © 2018 《智库时代》杂志社 版权所有
投稿电话: 投稿邮箱: