### 瞭解如何使用結巴進行斷詞

在先前的課程, 我們熟悉了斷詞運作的基本原理(包含了存在於詞典中的字詞與不存在於詞典中的字詞), 現在讓我們來看看如何使用結巴來進行實際的斷詞操作。

目前結巴主要支援四種分詞模式:

* 精確模式: 精準地斷詞，是基礎的斷詞模式，是合作文本分析使用
* 全模式: 將句子中所有可以成詞的詞語都掃瞄出來，速度較快，但不能解決歧義詞
* 搜尋引擎模式: 在精確模式的基礎上，對長辭再次切分，提高召回率(Recall)，適合用於搜尋引擎或文本分析
* paddle模式: 利用PaddlePaddle深度學習框架，訓練序列標注(雙向GRU)網路模型實現分詞 (欲使用paddle模式，請先安裝paddlepaddle-tiny)

本次的學習會著重在前三種分詞模式，對第四種分詞模式有興趣的同學可以參照jieba的GitHub repo來深入了解

### 使用預設詞庫進行四種模式的斷詞

* paddle模式: `jieba.cut(str,use_paddle=True)`
* 全模式: `jieba.cut(str,cut_all=True)`
* 精確模式: `jieba.cut(str, cut_all=False)` (默認為精確模式)
* 搜尋引擎模式: `jieba.cut_for_search(str)`

以上返回的皆為generator，須透過迴圈(for)來取出斷詞結果

In [1]:
'''
結巴默認的字典為簡體字點，在此我們使用預設字典針對繁體與簡體字串進行斷詞
'''

import jieba #載入結巴模組

input_traditional_str = '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' #定義須斷詞的繁體字串
input_simple_str = '小明硕士毕业于国立臺湾大学，现在在日本东京大学进修深造' #定義須斷詞的繁體字串

#使用paddle模式
jieba.enable_paddle() #啟用paddle模式

trad_words = jieba.cut(input_traditional_str, use_paddle=True)
sim_words = jieba.cut(input_simple_str, use_paddle=True)

trad_paddle_output = []
sim_paddle_outupt = []

for word in trad_words:
    trad_paddle_output.append(word)
    
for word in sim_words:
    sim_paddle_outupt.append(word)

print(f'paddle模式段詞結果:')
print(trad_paddle_output)
print(sim_paddle_outupt)
print('\n')

#使用全模式
trad_words = jieba.cut(input_traditional_str, cut_all=True)
sim_words = jieba.cut(input_simple_str, cut_all=True)

trad_all_output = []
sim_all_output = []

for word in trad_words:
    trad_all_output.append(word)
    
for word in sim_words:
    sim_all_output.append(word)

print(f'全模式段詞結果:')
print(trad_all_output)
print(sim_all_output)
print('\n')

#使用精確模式
trad_words = jieba.cut(input_traditional_str) #default is accurate mode
sim_words = jieba.cut(input_simple_str) #default is accurate mode

trad_acc_output = []
sim_acc_output = []

for word in trad_words:
    trad_acc_output.append(word)
    
for word in sim_words:
    sim_acc_output.append(word)

print(f'精確模式段詞結果:')
print(trad_acc_output)
print(sim_acc_output)
print('\n')

#搜尋引擎模式
trad_words = jieba.cut_for_search(input_traditional_str) 
sim_words = jieba.cut_for_search(input_simple_str) 

trad_search_output = []
sim_search_output = []

for word in trad_words:
    trad_search_output.append(word)
    
for word in sim_words:
    sim_search_output.append(word)

print(f'搜尋引擎模式段詞結果:')
print(trad_search_output)
print(sim_search_output)
print('\n')

Installing paddle-tiny, please wait a minute......
Import paddle error, please use command to install: pip install paddlepaddle-tiny==1.6.1.Now, back to jieba basic cut......


UnboundLocalError: local variable 'paddle' referenced before assignment

由上面的結果可以發現，使用預設詞庫時，在簡體中文的斷詞結果結果比起繁體中文來的好一些。

### 返回斷詞list字串

* `jieba.lcut(input_string)`

* `jieba.lcut_for_search`

上述的斷詞法皆是返回generator, 我們也可以使用`lcut`與`lcut_for_search`來取的返回list。

In [32]:
'''
結巴默認的字典為簡體字點，在此我們使用預設字典針對繁體與簡體字串進行斷詞
'''

import jieba #載入結巴模組

input_traditional_str = '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' #定義須斷詞的繁體字串
input_simple_str = '小明硕士毕业于国立臺湾大学，现在在日本东京大学进修深造' #定義須斷詞的繁體字串

#lcut

trad_words = jieba.lcut(input_traditional_str)
sim_words = jieba.lcut(input_simple_str)

print(f'lcut斷詞結果:')
print(trad_words)
print(sim_words)
print('\n')


#lcut_for_search
trad_words = jieba.lcut_for_search(input_traditional_str)
sim_words = jieba.lcut_for_search(input_simple_str)

print(f'lcut_for_search斷詞結果:')
print(trad_words)
print(sim_words)

lcut斷詞結果:
['小明', '碩士', '畢業', '於', '國立', '臺灣大學', '，', '現在', '在', '日本東京大學', '進修', '深造']
['小明', '硕士', '毕业', '于', '国立', '臺', '湾', '大学', '，', '现在', '在', '日本东京大学', '进修', '深造']


lcut_for_search斷詞結果:
['小明', '碩士', '畢業', '於', '國立', '臺灣', '大學', '臺灣大學', '，', '現在', '在', '日本', '東京', '大學', '日本東京大學', '進修', '深造']
['小明', '硕士', '毕业', '于', '国立', '臺', '湾', '大学', '，', '现在', '在', '日本', '东京', '大学', '日本东京大学', '进修', '深造']


### 使用繁體詞庫
`jieba.set_dictionary('dict.txt.big')`

在結巴中，其提供另外一個較大的詞庫`dict.txt.big`,此詞庫對繁體中文的支援性較高。
範例中已先將字典下載放置在對應的路徑。

In [9]:
jieba.set_dictionary('dict.txt.big') #load extra dictionary

input_traditional_str = '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' #定義須斷詞的繁體字串
input_simple_str = '小明硕士毕业于国立臺湾大学，现在在日本东京大学进修深造' #定義須斷詞的繁體字串

#使用paddle模式
jieba.enable_paddle() #啟用paddle模式

trad_words = jieba.cut(input_traditional_str, use_paddle=True)
sim_words = jieba.cut(input_simple_str, use_paddle=True)

trad_paddle_output = []
sim_paddle_outupt = []

for word in trad_words:
    trad_paddle_output.append(word)
    
for word in sim_words:
    sim_paddle_outupt.append(word)

print(f'paddle模式段詞結果:')
print(trad_paddle_output)
print(sim_paddle_outupt)
print('\n')

#使用全模式
trad_words = jieba.cut(input_traditional_str, cut_all=True)
sim_words = jieba.cut(input_simple_str, cut_all=True)

trad_all_output = []
sim_all_output = []

for word in trad_words:
    trad_all_output.append(word)
    
for word in sim_words:
    sim_all_output.append(word)

print(f'全模式段詞結果:')
print(trad_all_output)
print(sim_all_output)
print('\n')

#使用精確模式
trad_words = jieba.cut(input_traditional_str) #default is accurate mode
sim_words = jieba.cut(input_simple_str) #default is accurate mode

trad_acc_output = []
sim_acc_output = []

for word in trad_words:
    trad_acc_output.append(word)
    
for word in sim_words:
    sim_acc_output.append(word)

print(f'精確模式段詞結果:')
print(trad_acc_output)
print(sim_acc_output)
print('\n')

#搜尋引擎模式
trad_words = jieba.cut_for_search(input_traditional_str) 
sim_words = jieba.cut_for_search(input_simple_str) 

trad_search_output = []
sim_search_output = []

for word in trad_words:
    trad_search_output.append(word)
    
for word in sim_words:
    sim_search_output.append(word)

print(f'搜尋引擎模式段詞結果:')
print(trad_search_output)
print(sim_search_output)
print('\n')

Paddle enabled successfully......
Building prefix dict from /Users/admin/Documents/cupoy/dict.txt.big ...
Loading model from cache /var/folders/9f/mkwhwg7d4vz7rp0429_kg43c0000gn/T/jieba.u84c918e3a4b96d5d3945d77bedf6e4ab.cache


paddle模式段詞結果:
['小明', '碩士', '畢業', '於', '國立臺灣大學', '，現在', '在', '日本', '東京大學', '進修', '深造']
['小明', '硕士', '毕业', '于', '国立臺湾大学', '，', '现在', '在', '日本东京大学', '进修', '深造']




Loading model cost 1.561 seconds.
Prefix dict has been built successfully.


全模式段詞結果:
['小', '明', '碩士', '畢業', '於', '國立', '臺灣', '臺灣大學', '大學', '，', '現在', '在', '日本', '日本東京大學', '東京', '東京大學', '大學', '進修', '深造']
['小', '明', '硕士', '毕业', '于', '国立', '臺', '湾', '大学', '，', '现在', '在', '日本', '日本东京大学', '东京', '东京大学', '大学', '进修', '深造']


精確模式段詞結果:
['小明', '碩士', '畢業', '於', '國立', '臺灣大學', '，', '現在', '在', '日本東京大學', '進修', '深造']
['小明', '硕士', '毕业', '于', '国立', '臺', '湾', '大学', '，', '现在', '在', '日本东京大学', '进修', '深造']


搜尋引擎模式段詞結果:
['小明', '碩士', '畢業', '於', '國立', '臺灣', '大學', '臺灣大學', '，', '現在', '在', '日本', '東京', '大學', '日本東京大學', '進修', '深造']
['小明', '硕士', '毕业', '于', '国立', '臺', '湾', '大学', '，', '现在', '在', '日本', '东京', '大学', '日本东京大学', '进修', '深造']




在此範例中，使用預設字典與使用`dict.txt.big`字典結果並無太大差異，有可能是此範例相較好斷詞。

不過之後若是有繁體中文斷詞需求，還是建議使用`dict.txt.big`字典。

### 辨識新字詞

在先前的課程中我們了解到，當需要斷的詞不在字典裡的時候會使用HMM來計算最大機率的斷詞結果，我們可以來觀察使用HMM與否在斷詞上的差異

In [14]:
test_string = "他来到了网易杭研大厦" #此舉例為結巴官方repo的例子

#使用HMM
hmm_words = jieba.cut(test_string, HMM=True) #HMM 參數預設即為True
hmm_out = []
for word in hmm_words:
    hmm_out.append(word)
    
print(f'HMM output: {hmm_out}')
print('\n')

#不使用HMM
no_hmm_words = jieba.cut(test_string, HMM=False) #HMM 參數預設即為True
no_hmm_out = []
for word in no_hmm_words:
    no_hmm_out.append(word)
    
print(f'Non HMM output: {no_hmm_out}')
print('\n')

HMM output: ['他', '来到', '了', '网易', '杭研', '大厦']


Non HMM output: ['他', '来到', '了', '网易', '杭', '研', '大厦']




可以發現不使用HMM的斷詞會將`杭研`斷開成`杭`、`研`，因為杭研並沒有在使用的字典中，所以若沒有使用HMM進行斷詞，便無法正確將不存在在詞典的字詞斷開。

### 載入自定義詞庫
`jieba.load_userdict('userdict.txt')`

雖然結巴斷詞可以使用HMM對新字詞(未在詞典中出現的詞)進行斷詞，但我們依然可以自行添加字典，提高對新字詞斷詞的準確度。

自定義字典的格式需與結巴字典格式`dict.txt`相同。如下所示

```
创新办 3 i
云计算 5
凱特琳 nz
台中
```

其中第一行為自定義的字詞，第二行為詞頻(可省略)，第三行為詞性(可省略)。

In [15]:
#使用結巴的繁體中文辭典對台語進行斷詞

jieba.set_dictionary('dict.txt.big') #load extra dictionary

test_string = '親愛的媽媽請你毋通煩惱我原諒我行袂開跤我欲去對抗袂當原諒的人'

words = jieba.cut(test_string, cut_all=False) #使用精確模式
out = []

for word in words:
    out.append(word)
    
print(out)

Building prefix dict from /Users/admin/Documents/cupoy/dict.txt.big ...
Loading model from cache /var/folders/9f/mkwhwg7d4vz7rp0429_kg43c0000gn/T/jieba.u84c918e3a4b96d5d3945d77bedf6e4ab.cache
Loading model cost 1.515 seconds.
Prefix dict has been built successfully.


['親愛', '的', '媽媽', '請', '你', '毋通', '煩惱', '我', '原諒', '我行', '袂', '開跤', '我', '欲', '去', '對抗', '袂', '當', '原諒', '的', '人']


可以發現結巴使用繁體字庫對與的斷詞還是有些地方會不合理，像是將`袂當`斷成了`袂`與`當`，以及將`我行袂開跤`斷成`我行`, `袂`, `開跤`。 這時我們可以使用自定義的詞庫將這樣的詞語加入字典中。

```
行袂開跤 2 v
袂當 4 d
袂記 4 v
袂有 4 
唱著 
```

In [16]:
jieba.set_dictionary('dict.txt.big') #load extra dictionary
jieba.load_userdict("userdict.txt") #load user defined dictionary

test_string = '親愛的媽媽請你毋通煩惱我原諒我行袂開跤我欲去對抗袂當原諒的人'

words = jieba.cut(test_string, cut_all=False) #使用精確模式
out = []

for word in words:
    out.append(word)
    
print(out)

Building prefix dict from /Users/admin/Documents/cupoy/dict.txt.big ...
Loading model from cache /var/folders/9f/mkwhwg7d4vz7rp0429_kg43c0000gn/T/jieba.u84c918e3a4b96d5d3945d77bedf6e4ab.cache
Loading model cost 1.458 seconds.
Prefix dict has been built successfully.


['親愛', '的', '媽媽', '請', '你', '毋通', '煩惱', '我', '原諒', '我', '行袂開跤', '我', '欲', '去', '對抗', '袂當', '原諒', '的', '人']


可以發現這時就能將`袂當`正確斷成`袂當`以及`我行袂開跤`斷成`我`, `行袂開跤`。

### 動態調整字典

* 加入字典:`add_word(word, freq=None, tag=None)`

* 從字典中刪除: `del_word(word)`

* 調整字詞詞頻: `suggest_freq(segment, tune=True)`

除了使用上述的直接載入自定義字典外，我們也可以在程式中動態的修改想要的斷詞與字詞的詞頻。

調整詞頻可能會使原本無法(可以)被斷詞的字詞，使其可以(無法)被分出來。

In [20]:
jieba.add_word('國立臺灣大學') #動態加入字詞

input_str = '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' #定義須斷詞的字串

#使用精確模式
words = jieba.cut(input_str) #default is accurate mode
acc_output = []

for word in words:
    acc_output.append(word)

print(f'精確模式段詞結果:')
print(acc_output)
print('\n')

精確模式段詞結果:
['小明', '碩士', '畢業', '於', '國立臺灣大學', '，', '現在', '在', '日本東京大學', '進修', '深造']




In [19]:
import jieba #載入結巴模組

jieba.suggest_freq('國立臺灣大學', True) #動態調整詞頻

input_str = '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' #定義須斷詞的字串

#使用精確模式
words = jieba.cut(input_str) #default is accurate mode
acc_output = []

for word in words:
    acc_output.append(word)

print(f'精確模式段詞結果:')
print(acc_output)
print('\n')

精確模式段詞結果:
['小明', '碩士', '畢業', '於', '國立臺灣大學', '，', '現在', '在', '日本東京大學', '進修', '深造']




在原來的例子中，精確模式會將`國立台灣大學`斷詞成`國立`, `台灣大學`。 當我們動態加入字詞或調整詞頻後，就可以將`國立台灣大學`斷成`國立台灣大學`

### 詞性標註

`jieba.posseg.cut(string)`

結巴也可以對斷詞進行詞性的標注，但這邊請注意，詞性標注的結果跟斷詞系統所使用的字典語料庫有關，結巴使用人民日報進行訓練的結果，不一定會符合使用者所應用的領域。

In [21]:
import jieba
import jieba.posseg as pseg

input_str = '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' #定義須斷詞的字串

jieba.set_dictionary('./dict.txt.big') #load extra dictionary

words = pseg.cut(input_str)

for word, flag in words:
    print(word, flag)

Building prefix dict from /Users/admin/Documents/cupoy/dict.txt.big ...
Loading model from cache /var/folders/9f/mkwhwg7d4vz7rp0429_kg43c0000gn/T/jieba.u84c918e3a4b96d5d3945d77bedf6e4ab.cache
Loading model cost 1.452 seconds.
Prefix dict has been built successfully.


小明 nr
碩士 n
畢業 n
於 nr
國立 b
臺灣大學 nt
， x
現在 t
在 p
日本東京大學 nt
進修 v
深造 v


關於詞定代號的意義，同學可以參考延伸閱讀。

### 取出斷詞位置

`jieba.tokenize(u'content')`

有時我們會需要斷詞的字詞起點與終點位置，我們也可以使用結巴的`tokenize`達到需求。 在使用前需要把輸入字串轉為unicode。

In [27]:
import jieba

input_str = u'小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' #在此將字串轉為unicode

jieba.set_dictionary('./dict.txt.big') #load extra dictionary
words = jieba.tokenize(input_str)

for tk in words:
    print(f'word:{tk[0]}, start:{tk[1]}, end:{tk[2]}')

Building prefix dict from /Users/admin/Documents/cupoy/dict.txt.big ...
Loading model from cache /var/folders/9f/mkwhwg7d4vz7rp0429_kg43c0000gn/T/jieba.u84c918e3a4b96d5d3945d77bedf6e4ab.cache
Loading model cost 1.451 seconds.
Prefix dict has been built successfully.


word:小明, start:0, end:2
word:碩士, start:2, end:4
word:畢業, start:4, end:6
word:於, start:6, end:7
word:國立, start:7, end:9
word:臺灣大學, start:9, end:13
word:，, start:13, end:14
word:現在, start:14, end:16
word:在, start:16, end:17
word:日本東京大學, start:17, end:23
word:進修, start:23, end:25
word:深造, start:25, end:27


### 關鍵字提取

`jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())`

* sentence: 輸入字串(文本)

* topK: 返回k個tf-idf權重最大的關鍵字詞

* withWeight: 是否一併返回關鍵詞權重值

* allowPOS: 僅包括指定詞性的詞

In [30]:
import jieba
import jieba.analyse

jieba.set_dictionary('dict.txt.big')

input_str = '小明碩士畢業於國立臺灣大學，現在在日本東京大學進修深造' 

tags = jieba.analyse.extract_tags(input_str, 5, withWeight=True)
print(tags)

Building prefix dict from /Users/admin/Documents/cupoy/dict.txt.big ...
Loading model from cache /var/folders/9f/mkwhwg7d4vz7rp0429_kg43c0000gn/T/jieba.u84c918e3a4b96d5d3945d77bedf6e4ab.cache
Loading model cost 1.792 seconds.
Prefix dict has been built successfully.


[('碩士', 1.3283075003222222), ('畢業', 1.3283075003222222), ('國立', 1.3283075003222222), ('臺灣大學', 1.3283075003222222), ('現在', 1.3283075003222222)]
