# 結巴 (Jieba) 中文斷詞簡介

## Victor Gau (victorgau@gmail.com)

## 2018/01/21

## 參考資料：

* [Jieba 官網](https://github.com/fxsjy/jieba)
* [如何使用 JIEBA 結巴中文分詞程式](http://blog.fukuball.com/ru-he-shi-yong-jieba-jie-ba-zhong-wen-fen-ci-cheng-shi/)
* [Jieba 結巴中文斷詞](https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci)
* [用 Python 打造你自己的 summly](http://www.slideshare.net/daikeren/python-summly)
* [20150912 PyCon China 上海- 中文搜索经验分享](https://www.youtube.com/watch?v=KCeqTaJC0U8)

## 什麼是 Jieba ?

### 號稱是最好的中文斷詞系統。

## 安裝 Jieba

```
pip install jieba
```

## 怎麼使用 Jieba?

In [1]:
import jieba

sentence = "謝謝大家今天來高雄的文藻大學參加Python研習的活動!"

seg_list = jieba.cut(sentence)
print("/ ".join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\victor\AppData\Local\Temp\jieba.cache
Loading model cost 0.730 seconds.
Prefix dict has been built succesfully.


謝謝/ 大家/ 今天/ 來/ 高雄/ 的/ 文藻/ 大學/ 參加/ Python/ 研習/ 的/ 活動/ !


In [2]:
# cut_all

seg_list = jieba.cut(sentence, cut_all=True)
print("/ ".join(seg_list))

謝/ 謝/ 大家/ 今天/ 來/ 高/ 雄/ 的/ 文藻/ 大/ 學/ 參/ 加/ Python/ 研/ 習/ 的/ 活/ 動/ / 


In [3]:
# cut_for_search

seg_list = jieba.cut_for_search(sentence)
print("/ ".join(seg_list))

謝謝/ 大家/ 今天/ 來/ 高雄/ 的/ 文藻/ 大學/ 參加/ Python/ 研習/ 的/ 活動/ !


## 詞性 (Part-of-Speech) 標記


In [4]:
import jieba.posseg as posg

words = posg.cut(sentence)

for word, flag in words:
    print("%s : %s" % (word, flag))

謝謝 : nr
大家 : n
今天 : t
來高雄 : nr
的 : uj
文藻 : n
大學 : n
參加 : v
Python : eng
研習 : vn
的 : uj
活動 : vn
! : x


## 關於詞性的對照表，可以參考

* [词性对照说明.中科院版本](https://github.com/NLPchina/ansj_seg/wiki/词性对照说明.中科院版本)
* [ICTCLASTokenizer](https://github.com/rudaoshi/ICTCLASTokenizer/blob/master/src/ictclas/part-of-speech.txt)

## 關於辭典

* 使用繁體詞庫
* 使用者定義詞庫
* 動態加入新詞

In [5]:
# 使用繁體詞庫
# 繁體詞庫可以從這裡下載：https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big

jieba.set_dictionary('dict.txt.big')

seg_list = jieba.cut(sentence)
print("/ ".join(seg_list))

Building prefix dict from C:\Users\victor\Projects\wzu20180122\文字探勘\dict.txt.big ...
Dumping model to file cache C:\Users\victor\AppData\Local\Temp\jieba.u44800624480670b8704f7f7d704aa76b.cache
Loading model cost 1.471 seconds.
Prefix dict has been built succesfully.


謝謝/ 大家/ 今天/ 來/ 高雄/ 的/ 文藻/ 大學/ 參加/ Python/ 研習/ 的/ 活動/ !


In [6]:
# 使用者自定義詞庫
# 自定義詞庫必須是 UTF-8 編碼
jieba.load_userdict('userdict.txt')

seg_list = jieba.cut(sentence)
print("/ ".join(seg_list))

謝謝/ 大家/ 今天/ 來/ 高雄/ 的/ 文藻大學/ 參加/ Python/ 研習/ 的/ 活動/ !


In [7]:
jieba.add_word(u"文藻大學", freq=None, tag=None)
seg_list = jieba.cut(sentence)
print("/ ".join(seg_list))

謝謝/ 大家/ 今天/ 來/ 高雄/ 的/ 文藻大學/ 參加/ Python/ 研習/ 的/ 活動/ !


## 關鍵詞提取

In [12]:
import jieba.analyse

In [9]:
file = open("dadsback.txt", encoding='UTF-8')
article = file.read()
print(article)

朱自清  背影

  
　　我與父親不相見已有二年餘了，我最不能忘記的是他的背影。那年冬天，祖母死 
了，父親的差使也交卸了，正是禍不單行的日子，我從北京到徐州，打算跟父親奔喪 
回家。到徐州見著父親，看見滿院狼藉的東西，又想起祖母，不禁簌簌地流下眼淚。 
父親說：「事已如此，不必難過，好在天無絕人之路！」
　　回家變賣典質，父親還了虧空；又借錢辦了喪事。這些日子，家中光景很是慘淡 
，一半為了喪事，一半為了父親賦閒。喪事完畢，父親要到南京謀事，我也要回到北 
京唸書，我們便同行。

　　到南京時，有朋友約去遊逛，勾留了一日﹔第二日上午便須渡江到浦口，下午上 
車北去。父親因為事忙，本已說定不送我，叫旅館裡一個熟識的茶房陪我同去。他再 
三囑咐茶房，甚是仔細。但他終於不放心，怕茶房不妥貼；頗躊躇了一會。其實我那 
年已二十歲，北京已來往過兩三次，是沒有甚麼要緊的了。他躊躇了一會，終于決定 
還是自己送我去。我兩三回勸他不必去﹔他只說：「不要緊，他們去不好！」

　　我們過了江，進了車站。我買票，他忙著照看行李。行李太多了，得向腳夫行些 
小費，才可過去。他便又忙著和他們講價錢。我那時真是聰明過份，總覺他說話不大 
漂亮，非自己插嘴不可。但他終於講定了價錢；就送我上車。他給我揀定了靠車門的 
一張椅子；我將他給我做的紫毛大衣鋪好坐位。他囑我路上小心，夜裡要警醒些，不 
要受涼。又囑托茶房好好照應我。我心裡暗笑他的迂；他們只認得錢，托他們直是白 
托！而且我這樣大年紀的人，難道還不能料理自己麼？唉，我現在想想，那時真是太 
聰明了。

　　我說道：「爸爸，你走吧。」他往車外看了看，說，「我買幾個橘子去。你就在 
此地，不要走動。」我看那邊月臺的柵欄外有幾個賣東西的等著顧客。走到那邊月臺 
，須穿過鐵道，須跳下去又爬上去。父親是一個胖子，走過去自然要費事些。我本來 
要去的，他不肯，只好讓他去。我看見他戴著黑布小帽，穿著黑布大馬褂，深青布棉 
袍，蹣跚地走到鐵道邊，慢慢探身下去，尚不大難。可是他穿過鐵道，要爬上那邊月 
臺，就不容易了。他用兩手攀著上面，兩腳再向上縮；他肥胖的身子向左微傾，顯出 
努力的樣子。這時我看見他的背影，我的淚很快地流下來了。我趕緊拭幹了淚，怕他 
看見，也怕別人看見。我再向外看時，他已抱了朱紅的橘子往回走了。過鐵道時，他 
先將桔子散放在地上，自

In [13]:
# 使用 jieba.analyse.extract_tags()
# 這個是使用 TF-IDF 的演算法
jieba.set_dictionary('dict.txt.big')

keywords = jieba.analyse.extract_tags(article, topK=10, withWeight=False)

print("/ ".join(keywords))

Building prefix dict from C:\Users\victor\Projects\wzu20180122\文字探勘\dict.txt.big ...
Loading model from cache C:\Users\victor\AppData\Local\Temp\jieba.u44800624480670b8704f7f7d704aa76b.cache
Loading model cost 1.235 seconds.
Prefix dict has been built succesfully.


父親/ 看見/ 他們/ 那邊/ 鐵道/ 茶房/ 喪事/ 終於/ 一會/ 背影


In [14]:
# 使用 jieba.analyse.text_rank()

keywords = jieba.analyse.textrank(article, topK=10, withWeight=False)

print("/ ".join(keywords))

茶房/ 徐州/ 回家/ 北京/ 行李/ 桔子/ 橘子/ 放在/ 日子/ 紫毛
