-
Notifications
You must be signed in to change notification settings - Fork 6.7k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问如何结合jieba和搜狗的词库,谢谢! #24
Comments
dict.txt 里面已经包含了搜狗公布的2006版免费词库,你说的搜狗的词库是什么版本? |
搜狗输入法的词库,http://pinyin.sogou.com/dict/。因为我在做垂直领域的搜索引擎,所以想用搜狗的特定领域的词库。 另外一个问题,如果我把词库做的很大,会对分词的性能有影响吗?谢谢! |
谢谢您的及时回复。 还请教两个专业问题,望不吝赐教。 1、我已经爬取了很多的体育新闻,可否以这些新闻作为语料,然后通过特征提取算法来提取关键字,形成字典? 2、如果1成立,有哪些比较开源软件可以实现语料到字典的转换? 非常感谢! |
@massifor, 你说得意思是不是无监督分词?看看这篇文章,或许有帮助:http://www.matrix67.com/blog/archives/5044 |
主要是新词发现的工作,除了可以定期爬取垂直网站、搜索引擎和输入法等公布的query和词库外,matrix67这篇文章的确是个不错的思路。 不过,如果词典引入太多,会不会带来负作用呢?比如“腾讯科技有限公司”、“腾讯”、“腾讯科技”、“讯科”都在词库中 |
@fandywang , 长词优先。举个例子:
四个词的概率如上,可以看到 但是P(腾讯)_P(科技)_P(有限公司) = 0.1_0.2_0.1 = 0.002 < 0.01 |
谢谢! 另外,如果某个词条可能多个词性,如何处理的呢? (不好意思,还未来得及详细看代码) |
@fandywang , 由于python的速度限制,对于词典中有的词就只有一个词性。对于未登录词,才用HMM识别其词性。基本是就是把BMSE四种状态与词性全集交叉后做为状态序列。比如,('B','n'), ('B','v')都表示开头,但是前者表示是名词的开头,后者表示是动词的开头。 https://github.com/fxsjy/jieba/blob/master/jieba/posseg/prob_trans.py |
明白了,谢谢 |
jieba分词能用于lucene么? |
@wilbyang , 目前不能,只有python版的。 |
您好,关于您上面长词优先的例子,我想确认一下: |
@niorgai 你误解了长词优先。 |
@aszxqw 你好,我在词典里面发现软件的词频是4601,中山大学词频是192,学院词频是29249,但是我设置中山大学软件学院的词频为3即可得到我想要的长句结果,可以帮忙解释下吗? |
@niorgai |
@aszxqw 其实跟我原来的想法是一样的 |
请问如何结合jieba和搜狗的词库,谢谢!
The text was updated successfully, but these errors were encountered: