-
Notifications
You must be signed in to change notification settings - Fork 10.9k
索引分词出现了重复的词 #513
Copy link
Copy link
Closed
Labels
Description
hi hankcs,有个问题还需要麻烦你,关于这个问题我看了下代码,但具体算法没弄懂。
版本号
master分支
当前最新版本号是:d37f97c8d54acda7ca1c6a8baae5cf0ebbd6a775
我使用的版本是:d37f97c8d54acda7ca1c6a8baae5cf0ebbd6a775
我的问题
索引分词出现了重复的词
复现问题
触发代码
List<Term> termList = IndexTokenizer.segment("南京市长江大桥");
for (Term term : termList)
{
System.out.println(term + " [" + term.offset + ":" + (term.offset + term.word.length()) + "]");
}
实际输出
出现了两个长江大桥
南京市/ns [0:3]
南京/ns [0:2]
长江大桥/nz [1:5]
市长/nnt [2:4]
长江大桥/nz [3:7]
长江/ns [3:5]
大桥/n [5:7]
其他信息
看了下代码,是在ViterbiSegment这个类的56行,调用这个方法后导致的combineByCustomDictionary(vertexList, wordNetAll);
调用完后,词图貌似就有问题了

Reactions are currently unavailable