Skip to content
This repository has been archived by the owner on Apr 19, 2024. It is now read-only.

词典里不支持单个字的分词么 #76

Open
yren opened this issue Jul 15, 2021 · 9 comments
Open

词典里不支持单个字的分词么 #76

yren opened this issue Jul 15, 2021 · 9 comments

Comments

@yren
Copy link

yren commented Jul 15, 2021

比如: 在 user.dict 加入一条单字分词
"药 3"

对 text "药品" 的分词测试,只有一个 token "药品"。

希望得到两个, token "药" 和 token “药品”

请问可以在字典里加入单字,对这个单字分词么

@sing1ee
Copy link
Owner

sing1ee commented Oct 14, 2021

是既有单字,也有词的分词么?

@yren
Copy link
Author

yren commented Oct 19, 2021

是的,有单字,也有词的分词。比如:

药 3
药品 3

这种没有对 "药" 分词。

@yren
Copy link
Author

yren commented Oct 19, 2021

另外,如果自定义词典里的词有包含关系,分词处理似乎也有问题。比如:

反渗透膜 3
反渗透膜元件 3

对于文本。"实验用反渗透膜元件", 期待的分词后有 "反渗透膜", "反渗透膜元件" 两个 token, 但实际上只有 "反渗透膜元件" 一个 token

@sing1ee
Copy link
Owner

sing1ee commented Oct 20, 2021

@yren 试试修改分词的模式,采用index的方式,不要采用search的方式

@yren
Copy link
Author

yren commented Oct 20, 2021

嗯,使用的是 index 方式 (jieba_index) , 但还是存在上述问题

@sing1ee
Copy link
Owner

sing1ee commented Oct 20, 2021

@yren jieba的python版本,有试验过么?或者jieba-analysis的版本,试一下

@yren
Copy link
Author

yren commented Oct 20, 2021

我有时间试一下。 这些是 jieba ES plugin 的 dependency 是吧

@sing1ee
Copy link
Owner

sing1ee commented Oct 20, 2021

@yren 主要是 jieba-analysis,python版本的jieba的java实现。

@huster-songtao
Copy link

这个问题一直都存在

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants