基于機器學習的論文作者名消歧方法研究

作者:鄧可君;華凱;鄧昌明;姜寧;袁玲;彭一明;張治坤; 刊名:四川大學學報(自然科學版) 上傳者:潘平

【摘要】本文提出了一種基于規則匹配和機器學習的論文作者名自動化消歧方法:首先基于人工構建的人名匹配規則確定候選作者,對于存在多個候選人的情況,基于論文的屬性信息(例如合作者、標題、摘要、關鍵詞和出版物名稱等)提取特征,然后選取合適的機器學習算法進行消歧.實驗效果表明K近鄰和Softmax分類器較適合于論文作者名消歧任務;此外,將作者信息與論文的其他信息分開提取特征能夠有效提高作者名消歧的準確性.

全文閱讀

2019年3月 四川大學學報(自然科學版) Mar.2019第56卷 第2期 Journal?。铮妗。樱椋悖瑁酰幔睢。眨睿椋觯澹颍螅椋簦ǎ危幔簦酰颍幔臁。樱悖椋澹睿悖濉。牛洌椋簦椋铮睿?Vol.56?。危铮?doi:10.3969/ ji.ssn.0490-6756.2019.02.010 基于機器學習的論文作者名消歧方法研究 鄧可君,華 凱,鄧昌明,姜 寧,袁 玲,彭一明,張治坤 (北京大學計算中心,北京100871) 摘 要:本文提出了一種基于規則匹配和機器學習的論文作者名自動化消歧方法:首先基于人工構建的人名匹配規則確定候選作者,對于存在多個候選人的情況,基于論文的屬性信息(例如合作者、標題、摘要、關鍵詞和出版物名稱等)提取特征,然后選取合適的機器學習算法進行消歧.實驗效果表明 K近鄰和Softmax分類器較適合于論文作者名消歧任務;此外,將作者信息與論文的其他信息分開提取特征能夠有效提高作者名消歧的準確性.關鍵詞:作者名消歧;機器學習;文本特征提取 中圖分類號:TP391.1   文獻標識碼:A   文章編號:0490-6756(2019)02-0241-05 收稿日期:2018-06-28 作者簡介:鄧可君(1986-),女,湖南長沙人,博士生,工程師,研究方向為信息處理.E-mail:kejund@pku.edu.cn通訊作者:張治坤.E-mail:zhangzhikun@pku.edu.cn Research?。铮睢。幔酰簦瑁铮颉。睿幔恚濉。洌椋螅幔恚猓椋纾酰幔簦椋铮睢。恚澹簦瑁铮洹。猓幔螅澹洹。铮睢。恚幔悖瑁椋睿濉。欤澹幔颍睿椋睿?DENG Ke - Jun , HUA Kai , DENG Chang - Ming , JIANG Ning , YUAN Ling , PENG Yi - Ming , ZHANG Zhi - Kun ( Computer?。茫澹睿簦澹?,Peking?。眨睿椋觯澹颍螅椋簦?,Beijing?。保埃埃福罚?,China) Abstract:This?。穑幔穑澹颉。穑颍铮穑铮螅澹蟆。幔睢。幔酰簦铮恚幔簦椋恪。幔颍簦椋悖欤濉。幔酰簦瑁铮颉。睿幔恚濉。洌椋螅幔恚猓椋纾酰幔簦椋铮睢。恚澹簦瑁铮洹。猓幔螅澹洹。铮睢。颍酰欤?matching?。幔睿洹。恚幔悖瑁椋睿濉。欤澹幔颍睿椋睿纾疲铮颉。澹幔悖琛。幔颍簦椋悖欤?,the?。悖幔睿洌椋洌幔簦濉。幔酰簦瑁铮颍蟆。幔颍濉。洌澹簦澹颍恚椋睿澹洹。猓幔螅澹洹。铮睢。幔颍簦椋妫椋悖椋幔欤悖铮睿螅簦颍酰悖簦澹洹。睿幔恚濉。恚幔簦悖瑁椋睿纭。颍酰欤澹蟆。妫椋颍螅簦欤疲铮颉。簦瑁濉。悖幔螅澹蟆。铮妗。恚酰欤簦椋穑欤濉。悖幔睿洌椋洌幔簦澹?,features?。幔颍濉。澹簦颍幔悖簦澹洌妫颍铮怼。簦瑁濉。幔簦簦颍椋猓酰簦濉。椋睿妫铮颍恚幔簦椋铮睢。铮妗。簦瑁濉。幔颍簦椋悖欤?,such?。幔蟆。悖铮欤欤幔猓铮颍幔簦铮颍?,title,abstract,key?。鳎铮颍洌蟆。幔睿洹。穑酰猓欤椋悖幔簦椋铮睢。睿幔恚?,and?。簦瑁澹睢。螅澹欤澹悖簦澹洹。恚幔悖瑁椋睿濉。欤澹幔颍睿椋睿纭。恚铮洌澹欤蟆。幔颍濉。幔穑穑欤椋澹洹。簦铩。幔酰簦瑁铮颉。睿幔恚濉。洌椋螅幔恚猓椋纾酰幔簦椋睿纾裕瑁?experimental?。颍澹螅酰欤簦蟆。螅瑁铮鳌。簦瑁幔簟。簦瑁濉。耍睿澹幔颍澹螅簟。睿澹椋纾瑁猓铮颉。幔睿洹。樱铮妫簦恚幔。悖欤幔螅螅椋妫椋澹颉。幔颍濉。恚铮颍濉。螅酰椋簦幔猓欤濉。妫铮颉。簦瑁澹幔酰簦瑁铮颉。睿幔恚濉。洌椋螅幔恚猓椋纾酰幔簦椋铮睢。簦幔螅搿。簦瑁幔睢。铮簦瑁澹颉。恚铮?/p>

參考文獻

引證文獻

問答

我要提問
湖北11选5胆拖玩法