We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
為甚麼不採用CRF分詞呢?我是php的支持者和繁體用戶,試了不同方法去做分詞,但感覺CRF是分得最好的,但很可惜並沒有CRF的庫。 例如 蔡英文管理台灣 CRF分詞能準確把蔡英文分出來。 而當前這個庫會把 蔡 和 英文 分開了。
The text was updated successfully, but these errors were encountered:
jieba 目前採用的是 trie tree + HMM 實踐分詞,其實受到字典的影響很重,若要將蔡英文分好可以加入自定義辭典,設定高權重即可正確分詞。至於為何不採用 CRF 分詞,主要就是因為這個分詞是自原本 jieba python 版本的 PHP 翻譯版本,也許要採用 CRF 分詞就需要再另外實作了,目前我應該是沒有另外做一個分詞程式的規劃~
Sorry, something went wrong.
加入字典這樣的限制太大了,因為姓名是很好的關鍵字,但很多時候很多分詞都分不太好。
@shtse8 沒辦法,CRF 不是這個 library 的範圍~
No branches or pull requests
為甚麼不採用CRF分詞呢?我是php的支持者和繁體用戶,試了不同方法去做分詞,但感覺CRF是分得最好的,但很可惜並沒有CRF的庫。
例如 蔡英文管理台灣
CRF分詞能準確把蔡英文分出來。
而當前這個庫會把 蔡 和 英文 分開了。
The text was updated successfully, but these errors were encountered: