投稿指南
一、来稿必须是作者独立取得的原创性学术研究成果,来稿的文字复制比(相似度或重复率)必须低于用稿标准,引用部分文字的要在参考文献中注明;署名和作者单位无误,未曾以任何形式用任何文种在国内外公开发表过;未一稿多投。 二、来稿除文中特别加以标注和致谢之外,不侵犯任何版权或损害第三方的任何其他权利。如果20天后未收到本刊的录用通知,可自行处理(双方另有约定的除外)。 三、来稿经审阅通过,编辑部会将修改意见反馈给您,您应在收到通知7天内提交修改稿。作者享有引用和复制该文的权利及著作权法的其它权利。 四、一般来说,4500字(电脑WORD统计,图表另计)以下的文章,不能说清问题,很难保证学术质量,本刊恕不受理。 五、论文格式及要素:标题、作者、工作单位全称(院系处室)、摘要、关键词、正文、注释、参考文献(遵从国家标准:GB\T7714-2005,点击查看参考文献格式示例)、作者简介(100字内)、联系方式(通信地址、邮编、电话、电子信箱)。 六、处理流程:(1) 通过电子邮件将稿件发到我刊唯一投稿信箱(2)我刊初审周期为2-3个工作日,请在投稿3天后查看您的邮箱,收阅我们的审稿回复或用稿通知;若30天内没有收到我们的回复,稿件可自行处理。(3)按用稿通知上的要求办理相关手续后,稿件将进入出版程序。(4) 杂志出刊后,我们会按照您提供的地址免费奉寄样刊。 七、凡向文教资料杂志社投稿者均被视为接受如下声明:(1)稿件必须是作者本人独立完成的,属原创作品(包括翻译),杜绝抄袭行为,严禁学术腐败现象,严格学术不端检测,如发现系抄袭作品并由此引起的一切责任均由作者本人承担,本刊不承担任何民事连带责任。(2)本刊发表的所有文章,除另有说明外,只代表作者本人的观点,不代表本刊观点。由此引发的任何纠纷和争议本刊不受任何牵连。(3)本刊拥有自主编辑权,但仅限于不违背作者原意的技术性调整。如必须进行重大改动的,编辑部有义务告知作者,或由作者授权编辑修改,或提出意见由作者自己修改。(4)作品在《文教资料》发表后,作者同意其电子版同时发布在文教资料杂志社官方网上。(5)作者同意将其拥有的对其论文的汇编权、翻译权、印刷版和电子版的复制权、网络传播权、发行权等权利在世界范围内无限期转让给《文教资料》杂志社。本刊在与国内外文献数据库或检索系统进行交流合作时,不再征询作者意见,并且不再支付稿酬。 九、特别欢迎用电子文档投稿,或邮寄编辑部,勿邮寄私人,以免延误稿件处理时间。

基于主题模型的中外期刊文献挖掘对比研究

来源:环渤海经济瞭望 【在线投稿】 栏目:期刊导读 时间:2020-11-16
作者:网站采编
关键词:
摘要:学术期刊是科教事业发展过程中的关注焦点之一,对学术期刊文献进行统计分析,有助于直观地分析我国的科学创新和技术创新水平。如何从大量的期刊文本数据中发现有价值的信息,

学术期刊是科教事业发展过程中的关注焦点之一,对学术期刊文献进行统计分析,有助于直观地分析我国的科学创新和技术创新水平。如何从大量的期刊文本数据中发现有价值的信息,变得尤为重要。本文选取经济类的国内期刊《经济研究》和国外期刊《美国经济评论》为代表,对其进行WEB文本挖掘,然后对内容作描述性分析和词频趋势分析,以及文本挖掘模型的对比化分析。通过中外期刊对比,能够发现国内和国外相应领域目前的研究现状及关注热点的发展趋势,并且可以发现中文与英文分词方法的不同,同时为经济学者和读者的研究提供参考。

1 文本建模相关理论

1.1 文本分词处理和去停止词及词根还原

在进行文本挖掘之前,需要先对文本原始数据进行预处理。而在文本预处理过程中,分词是最重要的一个环节。对于英文文本,通过空格和标点很容易将文章拆分成词;但对于中文文本,文本分词的过程比较复杂,比较常用的中文分词方法包括:词典法[1],隐马尔科夫过程[2]和CRF模型[3]。通常一篇文本中的冠词、连词和介词等虚词以及在整个文本集中出现频率很高、但对区分类别作用不大的词,被称为停止词[4]。去除停止词是文本预处理中不可缺少的步骤,它们可以使分词结果变得更准确,为后续的特征表示和统计建模提高精度。与中文相比,英文中同一个词有词形的变化,而因为词义本身没有变化,就不应该作为独立的词来存储和参与分类计算。去除这些词形不同但词义相同的词,仅保留一个副本的步骤就称为“词根还原”,经过“词根还原”,英文文本预处理过程结束。

1.2 文本特征提取

文本挖掘的一个基本问题是文本的表示及其特征项的选取。如果直接将分词结果作为特征项来表示文本,那么这个文本向量的维度将会非常大,因而,必须从文本中提取出特征词来表示文本信息,即通过特征选择来降低文本向量的维度。特征项必须具备如下的特性:(1)文本内容需要被特征项所标识;(2)将目标文本与其他文本需要被特征项相区分;(3)特征项的个数不能太多,否则起不到降维的效果;(4)特征项分离比较容易实现。

特征项选取的方式通常有4种:(1)通过映射或变换的方法把原始特征映射为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法找出最具分类信息的特征。这里的第4种方法是一种比较精确的方法,人为干扰因素较少,比较适用于文本自动分类挖掘系统。

1.3 基于LDA主题模型和CTM主题模型的文本建模理论

在自然语言处理领域,主题模型越来越受到广泛关注。主题模型是提取文档中隐含主题的一种概率模型,是对文字隐含主题进行建模的一种方法[5]。它打破了传统空间向量文档-词的思维定向,将文档映射到主题空间上,表示为文档-主题-词。用主题描述文档,有效地降低了维度,即主题模型克服了空间向量模型的缺点。

现阶段主要应用的主题模型包括LDA主题模型和CTM主题模型。

LDA(Latent Dirichlet Allocation)模型是Blei等人在2003年提出的[6],他们在pLSI方法[7]的基础上加入先验分布Dirichlet分布得到LDA模型。LDA主题模型生成文本的过程如下[8]:

(a)对于主题z,根据Dirichlet分布Dir(β)得到该主题上的一个单词多项式分布向量φ;

(b)根据泊松分布P得到文本的单词数目N;

(c)根据Dirichlet分布Dir(α)得到该文本的一个主题分布概率向量θ;

(d)对于该文本N个单词中的每一个单词Wn:

(d1)从θ的多项式分布Multinomial(θ)随机选择一个主题z;

(d2)从主题z的多项式条件概率分布Multinomial(θ)选择一个单词作为Wn。

其中,α和β是Dirichlet分布的参数,一般都是对称并且是固定值,α反映了文档集合中隐含主题间的相对强弱;β刻画了所有隐含主题自身的概率分布。

CTM模型则利用Logistic正态分布中的协方差矩阵来代表主题之间的关系。CTM主题模型生成文本的过程如下[9]:

(a)给定K个主题,各个主题都是全部词语的一个分布;

(b)从多维分布中,随机选取一个主题;

(c)从多维分布中,随机选取一个单词;

(d)重复以上过程,直到所有文档的所有词被抽取。

2 中外期刊文献挖掘对比研究

2.1 数据来源和文本数据预处理

文章来源:《环渤海经济瞭望》 网址: http://www.hbhjjw.cn/qikandaodu/2020/1116/432.html



上一篇:2019年浙江大学产业经济学国际会议在浙江大学
下一篇:学术评价的科学标准是什么?

环渤海经济瞭望投稿 | 环渤海经济瞭望编辑部| 环渤海经济瞭望版面费 | 环渤海经济瞭望论文发表 | 环渤海经济瞭望最新目录
Copyright © 2018 《环渤海经济瞭望》杂志社 版权所有
投稿电话: 投稿邮箱: