聚类算法在研究生论文质量分析中的应用

更新时间:2020-03-20 来源:硕士论文 点击:

【www.rjdtv.com--硕士论文】

  一、引言      随着我国经济社会发展进入新常态,研究生教育改革发展也进入了一个新的历史时期,不断提升研究生教育质量是新时期研究生教育的核心任务。[1]2017年1月刘延东副总理在国务院学位委员会第三十三次会议上指出,质量是研究生教育的生命线,要加强质量保障体系建设,强化培养单位质量意识,抓好质量监控,确保研究生教育质量。研究生学位论文是研究生教育的总结性成果,是培养研究生科研能力、创新能力和实现培养目标的重要环节,也是衡量研究生教育水平和质量的重要指标。      数据挖掘技术可以从大量的数据中发现隐藏的模式与知识,目前已成功应用在金融、医疗和电子商务等广泛的领域,近年来,在教育信息化、远程教育及在线学习系统等应用的带动下,教育数据挖掘开始受到越来越多的研究者的关注。[2]在大数据时代,对教育数据进行挖掘分析可以得到教育数据中的隐含信息,可以帮助发现和解决教育中的各类问题,如为管理人员提供辅助决策依据,帮助教师改进课程、提升教学效果以及提高学生的学习效率等。      本文基于数据挖掘中的聚类算法,对福州大学2016学年毕业的1091位研究生的学位论文相关数据进行聚类分析与挖掘,找出影响学位论文质量的主要因素,为提高研究生学位论文质量提供参考依据。      二、聚类分析技术      聚类分析[3]是一种重要的数据分析方法,就是将数据对象分成类或簇的过程,使同一个簇中的对象之间具有较高的相似性,而不同簇中的对象具有较大的差异性。聚类分析数据挖掘过程可概括为数据准备、聚类分析及结果的解释和评估三部分。      目前,聚类算法[4-5]大致分为层次聚类算法、划分式聚类算法、基于密度和网格的聚类算法以及其他聚类算法。在众多的聚类算法中,K均值聚类(K-means)是最经典、最方便快速的算法之一。      K均值聚类算法的过程概述如下:      (1)从数据集D中任意选择K个对象作为初始簇中心;      (2)Repeat;      (3)根据簇中对象的均值,将每个对象(再)指派到最相似的簇;      (4)更新簇均值,即计算每个簇中对象的均值;      (5)Until不再发生变化。      三、聚类算法在研究生论文质量分析中的应用      1.数据的选取及预处理      福州大学的研究生教育管理信息系统记录了研究生从入学到毕业全过程的培养信息,为有效进行研究生论文数据聚类分析提供了基础。该系统数据库主要包括学生基本信息、导师信息、课程信息、成绩信息、奖学金信息、开题情况、发表论文信息、论文送审成绩以及论文答辩成绩等数据表,但是这些数据表涉及很多属性,哪些字段属性被用于聚类算法,直接影响到最终的聚类效果。本文目标是对研究生论文质量进行聚类分析,经查阅相关论文,论文质量的主要影响因素包括研究生选拔、研究生自身素质、导师因素、科研条件、培养管理机制、学位论文的评审与答辩制度等。[6-7]因此,我们选取了学号、入学方式、本科毕业学校、导师类别、课程综合成绩、获奖情况、论文选题来源、发表论文情况、论文送审成绩、答辩成绩等字段作为挖掘的属性。      为了让数据符合挖掘要求和提高挖掘算法的效率,对数据使用下列规则进行预处理。      (1)学生基本信息处理,将属性入学方式分为推免生和统考生,将属性本科毕业学校分为重点院校和普通院校,将属性研究生导师类别分为博硕士生导师和硕士生导师。      (2)课程学习成绩处理,每个研究生根据研究方向的不同可能选修不一样的课程,为了公平衡量研究生学习成绩,我校定义了研究生综合成绩计算公式,将根据公式计算的综合成绩进行分段:85以上为 “优”,75~85 为“良”,65~75 为“中”,65 以下为“差”.      (3)奖学金信息处理,分为获得奖学金和未获奖学金并分别标记为是和否;论文选题来源信息处理,研究生学位论文选题可能来自导师不同级别的科研项目或自选课题,为便于聚类把论文选题来源分为国家级项目、省部级项目、其他项目和其他。      (4)发表论文情况,根据研究生发表论文的刊物级别及数量分为4个等级,发表一类期刊论文或者2篇二类期刊以上论文的标记为3,发表1篇二类期刊论文的标记为2,发表三类期刊论文的标记为1,未发表论文的标记为0.      (5)学位论文信息处理,先根据论文答辩成绩把学位论文等级分为优、良、中、差4个等级,考虑到论文送审采用匿名盲审方式,送审成绩能比较客观地体现论文质量,因此,把两份送审成绩为优而答辩成绩为良及以下的论文等级定为优,把送审成绩出现不及格而答辩成绩为中及以上的论文等级定为差。      2.建立研究生学位论文质量聚类分析挖掘模型      本文利用微软SQL Server 2008 数据库及Visual Studio 2008商务智能应用程序开发工具集(Business Intelligence Development Studio,BI Dev Studio)作为数据挖掘实验平台。      在平台上建立研究生论文质量聚类分析挖掘模型,主要步骤包括:①创建Analysis Services 项目;②创建数据源;③创建数据源视图;④创建挖掘结构模型和设置算法参数,本文选择聚类分析中K-means算法,经过多次实验,当参数聚类数CLUSTER_COUNT设置为3时,能得到具有明显特征的数据结果;⑤部署和处理挖掘模型。在Visual Studio 2008中创建挖掘模型如图1所示。      3.结果的解释和评估      对福州大学2016学年毕业的1091位研究生的学位论文相关数据,执行研究生论文质量聚类分析挖掘模型,得到聚类分析结果,如表1所示。从聚类结果可以看出,数据被划分为3类:      第一类包括475名研究生,占总数43.5%,该类主要特征包括本科毕业学校以普通院校为主,入学方式以统考生为主,导师类别中博导占19.3%,硕导占80.7%,课程成绩优良率为81.8%,课程成绩中及以下的研究生占比18.2%,在学期间只有12%的研究生获得了奖学金,在学期期间38.5%的研究生发表了二类以上期刊论文,发表论文情况较一般,论文选题只有37.9%获得基金项目支持,论文质量优良率为94.4%,但论文质量以良为主,良占87.8%.总的来说,该类研究生在学期间表现相对一般。      第二类包括358名研究生,占总数32.8%,该类主要特征包括本科毕业学校以普通院校为主,入学方式以统考生为主,导师类别中博导占53.6%,硕导占46.4%,课程成绩优良率为86.8%,课程成绩中及以下的研究生占比13.1%,在学期间有40.1%的研究生获得了奖学金,在学期期间87.1%的研究生发表了二类以上期刊论文,发表论文情况较优秀,其中发表了2篇以上二类期刊或1篇以上一类期刊论文占70.3%,论文选题有87.9%获得基金项目支持,论文质量优良率为95%,其中优占68.4%.总的来说,该类研究生在学期间表现较为优秀,虽然很多研究生毕业于普通本科院校,但在读研期间通过自身努力、导师指导和参与各类科研项目取得了较好的成绩。      第三类包括258名研究生,占总数23.6%,该类主要特征包括本科毕业学校以重点院校为主,入学方式以推免生为主,导师类别中博导占46.7%,硕导占53.3%,课程成绩优良率为93.3%,课程成绩中及以下的研究生占比6.6%,在学期间有76.1%的研究生获得了奖学金,在学期期间67.9%的研究生发表了二类以上期刊论文,发表论文情况较好,发表了2篇以上二类期刊或1篇一类期刊论文占30.6%,论文选题有59.2%获得基金项目支持,论文质量优良率为97.6%,其中优占39.6%.总的来说,该类研究生在学期间在各方面的表现都较为优秀,具有较好的综合素质。      根据聚类分析结果,可以得出以下结论及建议:①在学期间参与科研项目是影响学位论文质量的重要因素,因此,要鼓励研究生在学期间多参与科研项目,同时学校在研究生招生指标分配时应向有重大科研项目的导师倾斜。②生源质量是影响学位论文质量的源头,学校应加强学科建设提高学校吸引力,加强招生宣传工作,千方百计提高生源质量。③发表论文情况和学位论文质量是正相关的,因此,要鼓励研究生在学期间积极撰写发表高质量的学术论文,为撰写学位论文打下坚实的基础,从而提高学位论文质量。④奖学金和学位论文质量也是正相关的,学校应加大对研究生的奖助力度,这样才能不断调动和激发研究生的学习主动性和科研创新能力,从而有效地促进学位论文质量的提高。      四、结语      研究生学位论文是衡量研究生培养质量的重要指标,学位论文质量受研究生自身因素、导师因素等诸多因素影响,通过对历史的研究生学位论文相关数据进行聚类分析,划分出不同类别的研究生,根据不同类别的研究生的群体特征,找出影响学位论文质量的主要因素,为学校提高研究生学位论文质量及研究生培养质量提供参考依据。     参考文献:      [1]高耀,陈洪捷,沈文钦.学术型硕士学位论文质量的学科差异--基于X 省学位论文抽检结果的量化分析[J].学位与研究生教育,2017(2):54-61.    [2]周庆,牟超,杨丹.教育数据挖掘研究进展综述[J].软件学报,2015(11):3026-3042.    [3]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.3.    [4]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61.    [5]姜云飞.基于聚类的博士生源选拔方法探析[J].长春大学学报,2014(2):238-240.    [6]姚秀颖,李秀兵,陆根书,吴宏春.研究生学位论文质量影响因素研究[J].学位与研究生教育,2008(1):2-6.    [7]肖华茵,肖新成.硕士学位论文质量的影响因素及其提升路径研究--基于结构方程模型的实证分析[J].宜春学院学报,2015(10).

本文来源:http://www.rjdtv.com/shuoshilunwen/3516.html