Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

關於分詞的一些建議 #17

Closed
shtse8 opened this issue Jan 31, 2017 · 3 comments
Closed

關於分詞的一些建議 #17

shtse8 opened this issue Jan 31, 2017 · 3 comments

Comments

@shtse8
Copy link

shtse8 commented Jan 31, 2017

為甚麼不採用CRF分詞呢?我是php的支持者和繁體用戶,試了不同方法去做分詞,但感覺CRF是分得最好的,但很可惜並沒有CRF的庫。
例如 蔡英文管理台灣
CRF分詞能準確把蔡英文分出來。
而當前這個庫會把 蔡 和 英文 分開了。

@fukuball
Copy link
Owner

fukuball commented Feb 2, 2017

jieba 目前採用的是 trie tree + HMM 實踐分詞,其實受到字典的影響很重,若要將蔡英文分好可以加入自定義辭典,設定高權重即可正確分詞。至於為何不採用 CRF 分詞,主要就是因為這個分詞是自原本 jieba python 版本的 PHP 翻譯版本,也許要採用 CRF 分詞就需要再另外實作了,目前我應該是沒有另外做一個分詞程式的規劃~

@shtse8
Copy link
Author

shtse8 commented Mar 2, 2017

加入字典這樣的限制太大了,因為姓名是很好的關鍵字,但很多時候很多分詞都分不太好。

@fukuball
Copy link
Owner

fukuball commented Mar 2, 2017

@shtse8 沒辦法,CRF 不是這個 library 的範圍~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants