Improve Word Mover's Distance with Part-of-Speech Tagging
PWMD是度量文本距离的模型,针对WMD算法忽视文本语法信息的不足,提出使用词性标注进行改进。该目录保存了实验所使用的代码及部分数据,主要是度量文本的语义距离和文本的语法距离的实现。 主要文件说明:
- count_pos.py 根据文本单词的词性信息,计算文本之间在语法空间上的距离。
- rwmd.py 根据文本单词的语义信息,计算文本之间在语义空间省的距离,这里使用RWMD为计算方法。
- knn3.py 使用KNN算法进行分类,以分类效果反映文本度量学习的准确性
- test.py 根据语法距离和语义距离,结合knn算法,测试分类准确率。