# Jieba
## 支持三種分詞模式：
* 精確模式，試圖將句子最精確地切開，適合文本分析；
* 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
* 搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。

## 支持繁體分詞
## 支持自定義詞典

In [1]:
import jieba

In [2]:
sentence = '哈囉,大家好,我叫大明哥,剛從北商大畢業,讓我來測試如何使用結巴的各種模式吧'

In [3]:
seg_list = jieba.cut(sentence,cut_all=True)
print('Full Mode: ','/'.join(seg_list)) # 全模式

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\MIGUEL~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.665 seconds.
Prefix dict has been built succesfully.


Full Mode:  哈/囉///大家/好///我/叫/大明/哥///剛/從/北商/商大/畢/業///讓/我/來/測/試/如何/使用/結/巴/的/各/種/模式/吧


In [4]:
seg_list = jieba.cut(sentence,cut_all=False)
print('Default Mode: ','/'.join(seg_list)) # 精確模式

Default Mode:  哈/囉/,/大家/好/,/我/叫/大明/哥/,/剛從/北商/大/畢業/,/讓/我/來/測試/如何/使用/結巴/的/各種/模式/吧


In [5]:
seg_list = jieba.cut(sentence)
print('/'.join(seg_list)) # 默認精確模式

哈/囉/,/大家/好/,/我/叫/大明/哥/,/剛從/北商/大/畢業/,/讓/我/來/測試/如何/使用/結巴/的/各種/模式/吧


In [6]:
seg_list = jieba.cut_for_search(sentence)
print('Search Mode: ','/'.join(seg_list)) # 搜尋引擎模式斷詞

Search Mode:  哈/囉/,/大家/好/,/我/叫/大明/哥/,/剛從/北商/大/畢業/,/讓/我/來/測試/如何/使用/結巴/的/各種/模式/吧


In [7]:
# 下載 繁體中文詞庫  https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/dict.txt.big
jieba.set_dictionary('./jieba_dictionary/dict.txt.big')
# 修改中文詞典，讓斷詞更聰明

In [8]:
seg_list = jieba.cut(sentence)
print('/'.join(seg_list)) # 默認精確模式

Building prefix dict from C:\Users\miguellok\Google 雲端硬碟\Coding練習\Jupyter_Practice\data Visualization\jieba_dictionary\dict.txt.big ...
Loading model from cache C:\Users\MIGUEL~1\AppData\Local\Temp\jieba.uad66765783dd9ab50db5e66fa45f6ef2.cache
Loading model cost 1.167 seconds.
Prefix dict has been built succesfully.


哈囉/,/大家/好/,/我/叫/大明哥/,/剛從/北商/大/畢業/,/讓/我/來/測試/如何/使用/結巴/的/各種/模式/吧


In [13]:
jieba.add_word('北商大')  # 手動增加/刪除 自定義詞

In [10]:
seg_list = jieba.cut(sentence)
print('/'.join(seg_list)) 

哈囉/,/大家/好/,/我/叫/大明哥/,/剛從/北商大/畢業/,/讓/我/來/測試/如何/使用/結巴/的/各種/模式/吧


In [11]:
jieba.del_word('北商大')

In [12]:
seg_list = jieba.cut(sentence)
print('/'.join(seg_list)) 

哈囉/,/大家/好/,/我/叫/大明哥/,/剛從/北商/大/畢業/,/讓/我/來/測試/如何/使用/結巴/的/各種/模式/吧


In [15]:
# 增加自定義詞典斷詞
jieba.load_userdict('./jieba_dictionary/user_defined_dict.txt')

In [16]:
seg_list = jieba.cut(sentence)
print('/'.join(seg_list)) 

哈囉/,/大家/好/,/我/叫/大明哥/,/剛從/北商大/畢業/,/讓/我/來/測試/如何/使用/結巴/的/各種/模式/吧


In [20]:
with open('jieba_dictionary/stopwords.txt','r',encoding='utf-8') as file:
    stops = file.read().split('\n')
print('停用詞:'+'/'.join(stops))

停用詞:,/./;/:/，/。/；/：


In [None]:
for 