Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

最新稳定版本测试问题 #36

Closed
yukaizhao opened this issue Apr 12, 2013 · 6 comments
Closed

最新稳定版本测试问题 #36

yukaizhao opened this issue Apr 12, 2013 · 6 comments

Comments

@yukaizhao
Copy link

用户自定义词典中的内容如下:

easy_install 99999999
正则表达式 999999

如下测试代码:

#coding=utf-8


import jieba
__author__ = 'yukaizhao'


if __name__ == '__main__':
    jieba.load_userdict(r'E:\outofmemory\search\dict.txt')
    terms = jieba.cut('easy_install is great')
    for t in terms:
        print t
    print '-------------------------'
    terms = jieba.cut('python 的正则表达式是好用的')
    for t in terms:
        print t

以上代码执行的结果:

easy
_
install

is

great
-------------------------
python

的
正则表达式
是
好
用
的

分词的结果很不理想, 有如下问题:

  1. easy_install 在自定义词典中定义了非常高的权重,但是依然被拆开了
  2. 英文半角的空格也会当作一个词切出来了
  3. 第二个句子“python 的正则表达式是好用的”,这里的“是好用的”切成了单字

我测试用的是最新的稳定版本0.26.1.

感谢作者的开源精神

@fxsjy
Copy link
Owner

fxsjy commented Apr 12, 2013

@yukaizhao , easy_install被切开了,是因为我没有把 ‘_’ 纳入可参与成词的字符。英文半角的空格的确被yield出来了,过滤一下就好了。“好用的”被切成单字,是因为“好”和“用“的单字概率较大,除非你在自定义词典中调高”好用“的概率。
你git pull 一下,看看test_userdict.py 这个例子能否满足你的需求?

45591bb

@fxsjy
Copy link
Owner

fxsjy commented Apr 12, 2013

效果:

easy_install
is
great

python

正则表达式

好用

·

@yukaizhao
Copy link
Author

谢谢回复。

_下划线不应该作为单词分隔的依据希望在新的稳定版本中修复此问题
另外好,用单字的概率是很大,但是当他们在一起时则不应该切成两个词,这个问题是不是可以从算法上修改呀,也希望能做修改增强。

@yukaizhao
Copy link
Author

另外半角空格被yield出来其实是完全没有意义的,建议在jieba中处理,而不是让每个使用jieba的用户都去过滤这个空格

@fxsjy
Copy link
Owner

fxsjy commented Apr 13, 2013

@yukaizhao , 空格已经在昨天的提交中过滤掉了。

@fxsjy
Copy link
Owner

fxsjy commented Apr 13, 2013

@yukaizhao ,这个不是算法的问题,主要是词典中的词频有些并不准确。

@fxsjy fxsjy closed this as completed Apr 22, 2013
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants