Skip to content

索引分词出现了重复的词 #513

@gxy0451

Description

@gxy0451

hi hankcs,有个问题还需要麻烦你,关于这个问题我看了下代码,但具体算法没弄懂。

版本号

master分支
当前最新版本号是:d37f97c8d54acda7ca1c6a8baae5cf0ebbd6a775
我使用的版本是:d37f97c8d54acda7ca1c6a8baae5cf0ebbd6a775

我的问题

索引分词出现了重复的词

复现问题

触发代码

        List<Term> termList = IndexTokenizer.segment("南京市长江大桥");
        for (Term term : termList)
        {
            System.out.println(term + " [" + term.offset + ":" + (term.offset + term.word.length()) + "]");
        }

实际输出

出现了两个长江大桥

南京市/ns [0:3]
南京/ns [0:2]
长江大桥/nz [1:5]
市长/nnt [2:4]
长江大桥/nz [3:7]
长江/ns [3:5]
大桥/n [5:7]

其他信息

看了下代码,是在ViterbiSegment这个类的56行,调用这个方法后导致的combineByCustomDictionary(vertexList, wordNetAll);
调用完后,词图貌似就有问题了
qq20170502-115123

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions