-
Notifications
You must be signed in to change notification settings - Fork 258
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我自定义的字典,词的权重不会发生改变呢 #51
Comments
@f1120309265 你可以提供一下這個例子的 $content 嗎? |
@f1120309265 我仔細看一下 jieba 目前的實作邏輯,自定義詞庫的權重影響的是斷詞切分的組合,跟取出關鍵字的 tf/idf 並無關係,如果你有調整關鍵字權重的需求,我可能要另外實作方法,而且也不是用自定義詞庫來調,可能就提供發法在 run time 中去調整 tf/idf 值。 |
剛剛仔細看源碼,應該不用實作新方法就可以達到您的需求,提供一個範例在下面。 |
@f1120309265 提供一個範例給你:
Output 的結果:
|
@f1120309265 從上面的範例,我們可以看到加了自定義字典之後,Jieba 可以斷出想要的結果,但是關鍵字的分數則不受影響(自定義字典中的權重意義上只是為了改善斷詞結果,而不是更改關鍵字演算結果),因為在正常情況下,我們不應該任意調整關鍵字演算法的權重計算結果。 但當有特別想要調整的關鍵字權重,我們還是可以使用 |
okay,谢谢解答。 |
请问您写的这个方法可以分享一下么?我也有同样的需求!~ |
代码如下,有问题再随时探讨沟通 class MyJiebaAnalyse extends JiebaAnalyse
}` |
我载入了自定义字典,想对部分词的权重进行提升,但是实际结果该词的权重并没有收到任何影响。
![image1](https://user-images.githubusercontent.com/7920552/51017762-27f05500-15b0-11e9-9a0b-138589d20409.png)
![image2](https://user-images.githubusercontent.com/7920552/51017764-29ba1880-15b0-11e9-97a8-1daaacf41ec2.png)
![image4](https://user-images.githubusercontent.com/7920552/51017812-5d953e00-15b0-11e9-9f92-44a282636bbf.png)
![image3](https://user-images.githubusercontent.com/7920552/51017829-6a199680-15b0-11e9-8f61-1744209c62b9.png)
举个栗子: 我没有在自定义词库里添加销量这个词的时候,它分出来的权重值是0.061093127894683,如下图1
(图1)
然后我把销量这个词加入自定义词库,权重设为100,再进行分词,结果还是这个,丝毫不受影响,如下图2
(图2)
这是我的自定义字典userdict.txt的内容,图3
(图3)
这是我的代码,图4
(图4)
请问这是为什么呢
The text was updated successfully, but these errors were encountered: