IGSNRR OpenIR
稀疏地理实体关系的关键词提取方法
余丽1; 陆锋1; 刘希亮1; 程诗奋1; 张雪英2
2016
Source Publication地球信息科学学报
ISSN1560-8999
Volume018Issue:011Pages:1465
Abstract网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。
Language英语
Document Type期刊论文
Identifierhttp://ir.igsnrr.ac.cn/handle/311030/83227
Collection中国科学院地理科学与资源研究所
Affiliation1.中国科学院地理科学与资源研究所
2.南京师范大学
First Author Affilication中国科学院地理科学与资源研究所
Recommended Citation
GB/T 7714
余丽,陆锋,刘希亮,等. 稀疏地理实体关系的关键词提取方法[J]. 地球信息科学学报,2016,018(011):1465.
APA 余丽,陆锋,刘希亮,程诗奋,&张雪英.(2016).稀疏地理实体关系的关键词提取方法.地球信息科学学报,018(011),1465.
MLA 余丽,et al."稀疏地理实体关系的关键词提取方法".地球信息科学学报 018.011(2016):1465.
Files in This Item:
There are no files associated with this item.
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[余丽]'s Articles
[陆锋]'s Articles
[刘希亮]'s Articles
Baidu academic
Similar articles in Baidu academic
[余丽]'s Articles
[陆锋]'s Articles
[刘希亮]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[余丽]'s Articles
[陆锋]'s Articles
[刘希亮]'s Articles
Terms of Use
No data!
Social Bookmark/Share
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.