期刊论文基于互联网的标准化研究与实现

更新时间:2020-02-27 来源:论文发表 点击:

【www.rjdtv.com--论文发表】

随着人类科技和文化的进步,知识积累速度不断加快,现代社会中,期刊的巨大出版量也出现了“文献爆炸”现象,这使得科研人员很难从海量的科技论文中搜寻到有用的科技论文[1].期刊论文作为人类文明和科技发展积累的一座宝库,是人类智慧汇总的结晶,传统的期刊论文的工作关注有效地处理期刊信息,怎样评价、鉴别论文价值,完成从论文收稿、论文评审、论文排版、论文发表、论文归档的工作; 同时,论文归档的方式采用分类归档,以论文为主体进行基础的分类存储,缺少对包含巨大知识量的论文本身进行知识点抽取、聚类分析、数据标准化等处理。面对标准化论文的管理,国外在论文发表和投稿时就引入了标准化的处理流程。但是对历史已经形成的论文成果,仍然沿用历史习惯以论文为主体存储,而没有考虑在当前大数据研究背景下,对论文数据进行格式化、标准化、标签化存储。
  
  目前,研究人员已开始关注于面向科研人员的科技论文的大数据分析,并开展了初步的研究工作。在论文推荐方面,大致分为三类: 基于内容的推荐方法、协同过滤推荐方法和混合推荐方法[2].期刊论文内容所产生的相关理论方法是具备一定的实际意义,但是由于缺少针对期刊论文本身数据进行标准化处理,在进行论文分析时必然影响处理结果正确性。所以,本文以当前单篇论文为基本存储单位的情况下,讨论以单篇论文为对象,通过设定基于 JATS 标准模板,将论文标题、摘要、背景信息、算法信息、数据信息、引用信息等进行结构性分解,同时由于不同期刊包含多元化的领域知识,在内容的处理过程中引入聚类分析手段进行知识内容分解,最终得到一份结构化和标准化的论文文件。
  
  1 相关知识。
  
  1. 1 JATS 标准。
  
  JATS 是一种用于期刊全文电子文档和存档的通用数据交换格式,由美国国立医学图书馆下设的国立生物技术信息中心发布并定义的期刊数据 XML 标签的 DTD,又称做 NLM JATS标签集; 之后迅速被学术出版界采纳,美国国家信息标准协会( National Information Standards Organization,NISO) 正式批准JATS 成为美国标准[3].JATS 标准库包含了 250 多个标签元素和 130 多个元素属性,本文在系统模型设计中将扩展 JATS标签集,提供可以容纳领域知识点的标签集。
  
  1. 2 聚类分析方法。
  
  聚类分析是机器学习、无监督学习的重要部分,聚类是将物理或抽象对象的集合划分为由相识特征的对象组成的多个类的过程,聚类分析是知识发现的一个过程,在一个混乱、无序的系统中找到相似或者相同特征的信息,建立起知识的群组,最终形成可被分类的对象,每个对象有独特的标签,可以被人们理解和使用[4].聚类分析在数据挖掘研究中占有重要的位置。常用的聚类方法包括: a) SVM( support vector machine) 算法通过支持或支撑平面上把两类类别划分开来的超平面的向量点[5]; b) K-means 算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则[6]; c) KNN( K-nearest neighbor) 判断一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性[7]; d) EM( ex-pectation maximization algorithm) 算法是一种迭代算法,用于对含有隐变量的概率参数模型的最大似然估计或极大后验概率估计[8].本文将采用结合语义分析的 K-means 算法作为基本筛选器,实现对论文内容的特征划分。
  
  1. 3 语义分析。
  
  语义分析是自然语言理解领域研究的根本性问题,文献[9]讨论了浅层语义分析的发展历史和理论基础,概述了语义角色标注任务的定义、相关资源与方法。 还着重介绍并比较了当前英语两大语义角色体系和汉语角色体系,最后给出了浅层语义分析中统计模型的现有特征集的句法语义分类; 文献[10]提出了一种基于统计的文本相似度量方法大多先采用TF-IDF 方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度; 文献[11]提出基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量。在众多学者的研究验证下,语义分析已经有了长足的发展,并在数据挖掘、机器学习、人工智能中发挥了强调的作用。本文将语义分析的统计分析技术应用于期刊论文的类别识别,结合聚类分析技术完成期刊论文到标准化 JATS 标准集合的分解映射。
  
  2 论文标准化处理模型。
  
  在国内的论文投稿流程中,论文投稿大多是选用 OfficeWord 作为内容编辑工具,期刊论文作者会选用特定期刊论文的模板文件作为论文撰写的基本模板,编辑过程中遵循投稿论文规范。论文发布一般以纸质的期刊杂志、电子化的 PDF 文件作为媒介,原版的论文以 Word 文件保存在期刊编辑部服务器上。国内大型的论文期刊库,如万方、维普、中国知网,国外的 IEEE 等均采用 PDF 文件作为论文发表载体,不管是 PDF 还是 Word,论文内容的向下分析与检索均存在效率低下、可用性不高等问题。通过本文设计的期刊论文标准化的模型,可以将论文分解到结构化标准集中,从而为论文的自动评价、相关性检索、领域知识图谱等多个研究领域提供更好的数据条件。论文标准化处理以 Word 版本的内容稿件为数据源进行数据规范化处理,需要解决如下几个问题: a) Word 源数据的提取,包括文本数据、图片数据、表格数据、公式数据; b) 标准扩展,JATS 标准仅包含基础论文的数据内容分项存储,对内容的细节处理不够完善,对单项的知识点缺少支撑标签; c) 聚类分析方法的应用与优化,文本聚类分析已经具备成熟的理论方法,但是针对论文文本的特点,保存大量的理论提供、图例说明、算法比较等,需要进行聚类分析的优化设计和迭代更新。论文标准化处理的具体流程如图 1 所示。
  
  2. 1 Word 文件源数据抽取。
  
  Word 文件格式是微软 Office 工作套件的一部分,采用了私有的文件存储格式,同时针对 2003 版和 2007 版及以后的版本采用了不同的文件存储结构。在源数据抽取过程中,先将所有的 2003 版本导出为 2007 版本,即 docx 文件格式,再解压缩提取出原始文件目录结构。此时在 document. xml 中可以获取包含微软私有定义的 XML 文本内容,在 media 文件中提取出EMF 的图片资源文件和 WMF 的公式资源图片。由于 EMF 图片和 WMF 图片均属于私有格式,按照 JATS 对图片和公式的存储标准,需要进行相应的格式转换,将 EMF 转换为 PNG 格式,将 WMF 格式图片需要先转换为 SVG 格式再提取为 Latex风格文本格式; document. xml 的文本内容需要进行清洗并交由预解析处理。
     
  2. 2 文本聚类。
  
  本文使用 K-means 算法作为文本聚类的基本算法,聚类分析包含样本类型、样本相似度测量、类的定义等基本概念。在常用的聚类算法中,从整体效果上而言 K-means 基本优于HAC、K-means Bisecting 和 NN 聚类算法[12,13].由于期刊论文在标题、作者、摘要、关键词、工作单位、应用文献具备固定的格式,可以通过文本预解析获得相关的内容,而正文内容专业知识程度高,采用 K-means 算法进行聚类分析,将聚类分析结果映射至 JATS 扩展集。
  
  2. 2. 1 初始聚类中心选择。
  
  K-means 算法对离散和噪声数据比较敏感,对应初始聚类中心的选择很关键,因为初始聚类中心选择的好坏直接影响到聚类结果,而且 K-means 算法需要给定聚类的 k 值,在一般情况下,k 值的选定是难以估计的。在期刊论文的聚类分析应用上,K-means 算法反而更加具备优势,期刊论文的关键要素包括标题、关键词和摘要,是撰写者提炼的核心内容,对论文内容具有指导性意义,先定义关键要素向量 D = ( t1,k1,k2,k3,…,a1,a2,a3…) .其中: t1表示论文标题; ki( 1≤i≤n) 表示由关键词组成的向量组; aj( 1≤j≤n) 表示由摘要进行语义分析和关键信息提取的内容向量组。这里的向量 D 作为论文信息量度,表达了对该篇论文的内容特征定义。对于论文的初始聚类中心选择问题转换为对特征向量组 Dn的相似度计算问题,本文采用 cosine 相似度作为向量计算方法。
     
  如上公式求解多维空间两点与所设定的点形成夹角的余弦值,其中 T( x,y) 的范围在[- 1,1]中,值越大,说明夹角越大,两点相距就越远,相似度就越小,反之相识度越大。本文中定义当 T( x,y) ≥0. 8 时,被测试两个向量为同一类向量。
  
  2. 2. 2 论文内容聚类分析步骤。
  
  K-means 算法期刊内容聚类分析的步骤如下:
  
  输入: 经过 2. 2. 1 节计算获取的初始聚类数 k,以及经数据抽取获得的论文正文数据集 n.
  
  输出: 满足方差最小标准的 k 个聚类。
  
  a) 计算并选定初始聚类中心。
  
  b) 根据每个聚类对象的均值( 中心对象) ,计算每个对象与这些中心对象的距离; 并根据最小距离重新对相应对象进行划分。
  
  c) 重新计算每个( 有变化) 聚类的均值( 中心对象) .
  
  d) 循环步骤 b) c) 直到每个聚类不再发生变化为止。
  
  聚类算法工作过程中,首先从信息量准确的论文头部关键词及摘要计算获取初始聚类中心; 再通过计算每篇论文和初始对象的与这些聚类中心的相似度( 距离) ,分别将它们分配给与其最相似的( 聚类中心所代表的) 聚类; 然后再计算每个所获新聚类的聚类中心( 该聚类中所有对象的均值) ; 不断重复这一过程直到标准测度函数开始收敛为止。本文中采用均方差作为标准测度函数。k 个聚类具有以下特点: 各聚类本身尽可能地紧凑,而各聚类之间尽可能地分开。
  
  2. 2. 3 语义分析。
  
  论文中摘要和正文内容需要通过 n 元语法模型和语义分析模型进行关键信息提取。n 元语法模型对应系统词表中的每一个 n -1 元组都有一个概率分布于其对应,优点在于它包括了前 n -1 个词所提供的全部信息。使用语义分析方法能够自动分析各个词的词义和句子中词之间的语义依存关系,文献[14]提出了一种通过建立语义依存树来分析语言结构的方法,通过该方法能够自动分析句子中被分隔词的词义和句子中词之间的语义依存关系。在文献[14]语义分析模型分析结果中,再加入语句权重值 w[0,1],依存关系越高权重值越大。
  
  2. 3 JATS 标准映射。
  
  2. 3. 1 JATS 标准集映射。
  
  JATS 标准集包含三个子集,分别是论文创作标签库( thearticle authoring tag set) 、期刊出版标签库 ( the journal archiveand interchange tag set) 、期刊存储和交换标签库( the journal ar-chive and interchange tag set) .本文主要解决国内期刊存储稿件标准化问题,使用期刊出版标签库作为映射工作集。JATS期刊出版标签库提供一套标准的 XML 标签集如下:
  
  < article
  xmlns: mml = ″http: / / www. w3. org /1998 / Math / MathML″
  xmlns: xlink = ″http: / / www. w3. org /1999 / xlink″
  dtd-version = ″1. 1d3″
  article-type = ″article″
  specific-use = ″migrated″〉
  〈fron〉t…〈/front〉
  〈body〉…〈/body〉
  〈back〉…〈/back〉
  〈/article〉
  
  标准集中 front 标签中包含论文标题、作者、出版信息、摘要信息、版权信息,以作者“张三”为例将其映射到 contrib 标签如下:
  
  〈contrib-group〉
  〈contrib contrib-type = ″author″〉
  〈name〉
  〈given-names〉三〈/given-names〉
  〈surname〉张〈/surname〉
  〈/name>
  〈xref ref-type = ″aff″ rid = ″aff-1″/〉
  〈xref ref-type = ″author-notes″ rid = ″fn-1″/〉
  〈/contrib〉
  〈/contrib-group〉
  〈aff id = ″aff-1″〉work uni〈t/aff〉
  
  此处,xref 标签是对外部 aff 标签( 工作单位) 的引用。在论文标准化处理模型中,在论文 Word 文档的数据抽取和文本预解析之后,可以得到除正文之外的结构化论文数据,通过标准映射器将结构化论文数据映射到对应的标签集,完成标准集规划映射。
  
  2. 3. 2 JATS 扩展集映射。
  
  JATS 提供了完备的标签集,可以实现论文数据的标准化存储; 在正文文本的处理上,独立存储了公式、图片、表格等资源,而正文文本仅分段存储到〈sec〉标签中。本文前期对正文内容进行了聚类分析,得到了基于内容分类的数据对象,根据对象的不同需要自定义扩展标签,再将数据对象映射至扩展标签,完成论文的标准化存储工作。
  
  3 结束语。
  
  本文提出了对期刊论文进行聚类分析后进行基于 JATS标准的结构化存储的处理模型,设计了一套符合通用 Word 论文格式的处理步骤和方法,能够有效地转换至以 XML 格式存储在标准文件中。本文所研究的处理模型将极大地提升论文的可复用性,为论文知识的分析、评价、对比研究等提供基础条件。
  
  参考文献:
  
  [1] 任柯,黄智兴,邱玉辉。 基于主题模型的跨学科协作文献推荐[J]. 计算机科学,2012,39( 9) :235-239,261.  
  [2] Mietchen D,McEntyre J,Beck J,et al. Adapting JATS to supportdata citation[C]/ / Proc of Joural Article Tag Suite Conference. 2015.  
  [3] 何清,李宁,罗文娟,等。 大数据下的机器学习算法综述[C]/ /中国计算机学会人工智能会议论文集。 2013:327-336.  
  [4] 金建国。 聚类方法综述[J]. 计算机科学,2014,41( S2) :288-293.  
  [5] 王定成,姜斌。 支持向量机控制与在线学习方法研究的进展[J].系统仿真学报,2007,19( 6) :1177-1181.  
  [6] 万小军,杨建武,陈晓鸥。 文档聚类中 K-means 算法的一种改进算法计算机工程,2003,29( 2) :102-103,157.  
  [7] 周庆平,谭长庚,王宏君,等 . 基于聚类改进的 KNN 文本分类算法[J]. 计算机应用研究,2016,33( 11) :3374-3377,3382.  
  [8] 张博锋,白冰,苏金树。 基于自训练 EM 算法的半监督文本分类[J]. 国防科技大学学报,2007,44( 6) :65-69.  
  [9] 陈耀东,王挺,陈火旺。 浅层语义分析研究[J]. 计算机研究与发展,2008,45( S1) :321-325.  
  [10]华秀丽,朱巧明,李培峰。 语义分析与词频统计相结合的中文文本相似度量方法研究[J]. 计算机应用研究,2012,29( 3) : 833-836.  
  [11]李茹,王智强,李双红,等。 基于框架语义分析的汉语句子相似度计算[J]. 计算机研究与发展,2013,50( 8) : 1728-1736.  
  [12]李健。 聚类分析及其在文本挖掘中的应用[D]. 西安: 西安电子科技大学,2005.  
  [13]周昭涛。 文本聚类分析效果评价及文本表示研究[D]. 北京: 中国科学院研究生院,2005.  
  [14]李明琴,李涓子,王作英,等。 语义分析和结构化语言模型[J].软件学报,2005,16( 9) :1523-1533.

本文来源:http://www.rjdtv.com/lunwenfabiao/3243.html