## 背後演算法

## jieba 中文斷詞所使用的演算法是基於 Trie Tree 結構去生成句子中中文字所有可能成詞的情況，然後使用動態規劃（Dynamic programming）算法來找出最大機率的路徑，這個路徑就是基於詞頻的最大斷詞結果。對於辨識新詞（字典詞庫中不存在的詞）則使用了 HMM 模型（Hidden Markov Model）及 Viterbi 算法來辨識出來。基本上這樣就可以完成具有斷詞功能的程式了，或許我之後可以找個時間寫幾篇部落格來介紹這幾個演算法。

### jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
### jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
### 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
### jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
### jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
### jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

In [1]:
# encoding=utf-8
import jieba

seg_list = jieba.cut("我來到資訊策進會學習資料分析", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到資訊策進會學習資料分析", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("我來到資訊策進會學習資料分析", cut_all=False,HMM=True)  # 默認是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中央大學計算實驗所，然後在日本京都大學深造")  # 搜索引擎模式
print(", ".join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Java\AppData\Local\Temp\jieba.cache
Loading model cost 0.608 seconds.
Prefix dict has been built succesfully.


Full Mode: 我來/ 來到/ 資訊/ 策進/ 策進會/ 進會/ 學習/ 資料/ 分析
Default Mode: 我/ 來到/ 資訊/ 策進會/ 學習/ 資料/ 分析
我, 來到, 資訊, 策進會, 學習, 資料, 分析
小明, 碩士, 畢業, 於, 中央, 大學, 計算, 實驗, 實驗所, ，, 然後, 在, 日本, 京都, 大學, 深造


In [35]:
#encoding=utf-8
import jieba

sentence = "獨立音樂需要大家一起來推廣，歡迎加入我們的行列！"
print ("Input：", sentence)
words = jieba.cut(sentence, cut_all=False ,HMM=True)
print ("Output 精確模式 Full Mode：")
print ('/'.join(words))

sentence = "独立音乐需要大家一起来推广，欢迎加入我们的行列！"
print ("Input：", sentence)
words = jieba.cut(sentence, cut_all=False)
print ("Output 精確模式 Full Mode：")
print("/".join(words))

Input： 獨立音樂需要大家一起來推廣，歡迎加入我們的行列！
Output 精確模式 Full Mode：
獨立/音樂/需要/大家/一起/來/推廣/，/歡迎/加入/我們/的/行列/！
Input： 独立音乐需要大家一起来推广，欢迎加入我们的行列！
Output 精確模式 Full Mode：
独立/音乐/需要/大家/一/起来/推广/，/欢迎/加入/我们/的/行列/！


In [36]:
import jieba


content = open('lyrice.txt','r').read()

words = jieba.cut(content,cut_all=False)
print("Output 精確模式 Full Mode : ")

print("/".join(words))
    
    

Output 精確模式 Full Mode : 
一顆/葡萄/有/多/甜美/ /用/盡/了/所有/的/ /圖騰/和/語言/ /描寫/
/想/一個/人/有/多/想念/ /那/又/是/文字/失效/瞬間/
/
/結一個/紀念/的/繩結/ /記錄/你/離/去/後/ /萬語/和/千言/ /瓦解/
/升起/了/慌/張/的/狼/煙/ /我/遺落/在/最/孤獨/史前/ /的/荒野/
/
/多遙遠/ /多/糾結/ /多/想念/ /多無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看/不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /寫出/ /能/讓/你/快/回來/ /的/詩篇/
/
/一/隻/蝴蝶/有多鮮/豔/ /能/不能/飛越過/ /猜忌/和/冷漠/ /世界/
/給你/的/簡訊/和/留言/ /說/不/清萬分/之一/追悔/
/
/當/星宿/都/沉/沒/山岳/ /只/盼/你/會/抬頭/ /看/我/寄/託/的/ /彎/月/
/當一個/文明/即將/熄滅/ /有什麼/證明/你/我/存在/ /的/歲/月/
/
/多遙遠/ /多/糾結/ /多/想念/ /多無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看/不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /創造/ /能/讓/你/想起/我/ /的/字眼/
/
/
/多遙遠/ /多/糾結/ /多/想念/ /多無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看/不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /寫出/ /能/讓/你/快/回來/ /的詩/
/
/需要/你/ /需要/你/ /需要/你/ /想逆轉/時間/ /回到/ /最開始/ /有/你/的/世界/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /寫出/ /讓/宇宙/能/重來/ /的/詩篇/
/
/天雨粟/ /鬼夜/哭/ /思念/漫/太古


In [41]:
#encoding=utf-8
import jieba

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

print ("Input：", content)

words = jieba.cut(content, cut_all=False)

print ("Output 精確模式 Full Mode：")
print("/".join(words))

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache


Input： 一顆葡萄有多甜美 用盡了所有的 圖騰和語言 描寫
想一個人有多想念 那又是文字失效瞬間

結一個紀念的繩結 記錄你離去後 萬語和千言 瓦解
升起了慌張的狼煙 我遺落在最孤獨史前 的荒野

多遙遠 多糾結 多想念 多無法描寫 疼痛 和瘋癲 你都看不見
想穿越 想飛天 想變成 造字的倉頡 寫出 能讓你快回來 的詩篇

一隻蝴蝶有多鮮豔 能不能飛越過 猜忌和冷漠 世界
給你的簡訊和留言 說不清萬分之一追悔

當星宿都沉沒山岳 只盼你會抬頭 看我寄託的 彎月
當一個文明即將熄滅 有什麼證明你我存在 的歲月

多遙遠 多糾結 多想念 多無法描寫 疼痛 和瘋癲 你都看不見
想穿越 想飛天 想變成 造字的倉頡 創造 能讓你想起我 的字眼


多遙遠 多糾結 多想念 多無法描寫 疼痛 和瘋癲 你都看不見
想穿越 想飛天 想變成 造字的倉頡 寫出 能讓你快回來 的詩

需要你 需要你 需要你 想逆轉時間 回到 最開始 有你的世界
想穿越 想飛天 想變成 造字的倉頡 寫出 讓宇宙能重來 的詩篇

天雨粟 鬼夜哭 思念漫太古
Output 精確模式 Full Mode：


Loading model cost 4.328 seconds.
Prefix dict has been built succesfully.


一顆/葡萄/有/多/甜美/ /用盡/了/所有/的/ /圖騰/和/語言/ /描寫/
/想/一個/人有/多/想念/ /那/又/是/文字/失效/瞬間/
/
/結/一個/紀念/的/繩結/ /記錄/你/離去/後/ /萬語/和/千言/ /瓦解/
/升起/了/慌張/的/狼煙/ /我/遺落/在/最/孤獨/史前/ /的/荒野/
/
/多/遙遠/ /多/糾結/ /多/想念/ /多/無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /寫出/ /能/讓/你/快/回來/ /的/詩篇/
/
/一隻/蝴蝶/有/多/鮮豔/ /能/不能/飛越/過/ /猜忌/和/冷漠/ /世界/
/給你/的/簡訊/和/留言/ /說不清/萬分之一/追悔/
/
/當/星宿/都/沉沒/山岳/ /只/盼/你/會/抬頭/ /看/我/寄託/的/ /彎/月/
/當/一個/文明/即將/熄滅/ /有/什麼/證明/你/我/存在/ /的/歲月/
/
/多/遙遠/ /多/糾結/ /多/想念/ /多/無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /創造/ /能/讓/你/想起/我/ /的/字眼/
/
/
/多/遙遠/ /多/糾結/ /多/想念/ /多/無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /寫出/ /能/讓/你/快/回來/ /的詩/
/
/需要/你/ /需要/你/ /需要/你/ /想/逆轉/時間/ /回到/ /最/開始/ /有/你/的/世界/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /寫出/ /讓/宇宙/能/重來/ /的/詩篇/
/
/天雨粟/ /鬼夜/哭/ /思念/漫/太古


In [44]:
import jieba

jieba.set_dictionary('dict.txt.big')

content=open('lyric.txt','r').read()

words = jieba.cut(content,cut_all=False,HMM=True)

print("/".join(words))


Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache
Loading model cost 3.194 seconds.
Prefix dict has been built succesfully.


親愛/的/媽媽/
/請/你/毋通/煩惱/我/
/原諒/我/
/行袂/開跤/
/我/欲/去/對抗/袂/當/原諒/的/人/
/
/歹勢/啦/
/愛人/啊/
/袂/當/陪你去/看/電影/
/原諒/我/
/行袂/開跤/
/我/欲/去/對抗/欺負/咱/的/人/
/
/天色/漸漸/光/
/遮有/一陣/人/
/為/了/守護/咱/的/夢/
/成/做/更加/勇敢的人/
/
/天色/漸漸/光/
/已經/不再/驚惶/
/現在/就是/彼一工/
/換阮/做/守護/恁/的/人/
/
/已經/袂/記/
/是/第幾/工/
/請/毋通/煩惱/我/
/因為/阮/知道/
/無行過/寒冬/
/袂/有/花開/的/一工/
/
/天色/漸漸/光/
/天色/漸漸/光/
/已經/是/更加/勇敢的人/
/
/天色/漸漸/光/
/咱/就/大聲/來/唱/著歌/
/一直/到/希望/的/光線/
/照光/島嶼/每/一個/人/
/
/天色/漸漸/光/
/咱/就/大聲/來/唱/著歌/
/日頭/一爬/上山/
/就/會/使/轉去/啦/
/現在/是/彼/一工/
/勇敢/的/台灣/人


## jieba 提供了一個功能讓使用者可以增加自定義詞庫，這種無法用 HMM 判斷出來的新詞就可以得到改善

## 其中每一行代表一筆語料資料，首先填上自定義詞如：「袂當」、「袂記」，然後填上權重，權重值可以依照斷詞結果做自己想做的調整，最後填上詞性，但詞性非必要填寫，詞性列表

行袂開跤 2 v
袂當 4 d
袂記 4 v
袂有 4 d
唱著 4 v
每一個 4 m
會使 70 d

In [None]:
import jieba

jieba.set_dictionary('dict.txt.big')
jieba.load_userdict('user.txt')
content=open('lyric.txt','r',encoding='UTF-8').read()

words = jieba.cut(content,cut_all=False,HMM=True)

print("/".join(words))

In [52]:
#encoding=utf-8
# 取出斷詞詞性
import jieba
import jieba.posseg as pseg

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

words = pseg.cut(content)

print ("-------------------------------")
for word in words:
    print (word.word,"=",word.flag)

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache


-------------------------------


Loading model cost 3.770 seconds.
Prefix dict has been built succesfully.


一顆 = m
葡萄 = n
有 = v
多 = m
甜美 = a
  = x
用盡 = v
了 = ul
所有 = b
的 = uj
  = x
圖騰 = n
和 = c
語言 = n
  = x
描寫 = v

 = x
想 = v
一個 = m
人 = n
有 = v
多 = m
想念 = v
  = x
那 = r
又 = d
是 = v
文字 = n
失效 = a
瞬間 = t

 = x

 = x
結 = zg
一個 = m
紀念 = n
的 = uj
繩結 = n
  = x
記錄 = n
你 = r
離去 = v
後 = f
  = x
萬語 = nz
和 = c
千言 = n
  = x
瓦解 = v

 = x
升起 = v
了 = ul
慌張 = a
的 = uj
狼煙 = n
  = x
我 = r
遺落 = n
在 = p
最 = a
孤獨 = a
史前 = nr
  = x
的 = uj
荒野 = n

 = x

 = x
多 = m
遙遠 = a
  = x
多 = m
糾結 = v
  = x
多 = m
想念 = v
  = x
多 = m
無法 = n
描寫 = v
  = x
疼痛 = n
  = x
和 = c
瘋癲 = z
  = x
你 = r
都 = d
看不見 = v

 = x
想 = v
穿越 = v
  = x
想 = v
飛天 = n
  = x
想 = v
變成 = v
  = x
造字 = n
的 = uj
倉頡 = nr
  = x
寫出 = v
  = x
能 = v
讓 = v
你 = r
快 = d
回來 = v
  = x
的 = uj
詩篇 = n

 = x

 = x
一隻 = m
蝴蝶 = n
有 = v
多 = m
鮮豔 = a
  = x
能 = v
不能 = v
飛越 = v
過 = ug
  = x
猜忌 = v
和 = c
冷漠 = n
  = x
世界 = n

 = x
給 = p
你 = r
的 = uj
簡訊 = n
和 = c
留言 = v
  = x
說不清 = l
萬分之一 = m
追悔 = v

 = x

 = x
當 = t
星宿 = n
都 = d
沉沒 = v
山岳 = ns
  = x
只 = d
盼 = v
你 = r
會 = v
抬頭 = v
  

In [1]:
# 取出斷詞位置
#encoding=utf-8
import jieba

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

words = jieba.tokenize(content, 'utf-8')

for tk in words:
    print ("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]) )

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache
Loading model cost 3.129 seconds.
Prefix dict has been built succesfully.


word 一顆		 start: 0 		 end:2
word 葡萄		 start: 2 		 end:4
word 有		 start: 4 		 end:5
word 多		 start: 5 		 end:6
word 甜美		 start: 6 		 end:8
word  		 start: 8 		 end:9
word 用盡		 start: 9 		 end:11
word 了		 start: 11 		 end:12
word 所有		 start: 12 		 end:14
word 的		 start: 14 		 end:15
word  		 start: 15 		 end:16
word 圖騰		 start: 16 		 end:18
word 和		 start: 18 		 end:19
word 語言		 start: 19 		 end:21
word  		 start: 21 		 end:22
word 描寫		 start: 22 		 end:24
word 
		 start: 24 		 end:25
word 想		 start: 25 		 end:26
word 一個		 start: 26 		 end:28
word 人有		 start: 28 		 end:30
word 多		 start: 30 		 end:31
word 想念		 start: 31 		 end:33
word  		 start: 33 		 end:34
word 那		 start: 34 		 end:35
word 又		 start: 35 		 end:36
word 是		 start: 36 		 end:37
word 文字		 start: 37 		 end:39
word 失效		 start: 39 		 end:41
word 瞬間		 start: 41 		 end:43
word 
		 start: 43 		 end:44
word 
		 start: 44 		 end:45
word 結		 start: 45 		 end:46
word 一個		 start: 46 		 end:48
word 紀念		 start: 48 		 end:50
word 的		 st

word 想		 start: 416 		 end:417
word 飛天		 start: 417 		 end:419
word  		 start: 419 		 end:420
word 想		 start: 420 		 end:421
word 變成		 start: 421 		 end:423
word  		 start: 423 		 end:424
word 造字		 start: 424 		 end:426
word 的		 start: 426 		 end:427
word 倉頡		 start: 427 		 end:429
word  		 start: 429 		 end:430
word 寫出		 start: 430 		 end:432
word  		 start: 432 		 end:433
word 讓		 start: 433 		 end:434
word 宇宙		 start: 434 		 end:436
word 能		 start: 436 		 end:437
word 重來		 start: 437 		 end:439
word  		 start: 439 		 end:440
word 的		 start: 440 		 end:441
word 詩篇		 start: 441 		 end:443
word 
		 start: 443 		 end:444
word 
		 start: 444 		 end:445
word 天雨粟		 start: 445 		 end:448
word  		 start: 448 		 end:449
word 鬼夜		 start: 449 		 end:451
word 哭		 start: 451 		 end:452
word  		 start: 452 		 end:453
word 思念		 start: 453 		 end:455
word 漫		 start: 455 		 end:456
word 太古		 start: 456 		 end:458


In [55]:
#encoding=utf-8
import jieba
import jieba.analyse

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

tags = jieba.analyse.extract_tags(content, 10)

print( "/".join(tags))

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache
Loading model cost 3.071 seconds.
Prefix dict has been built succesfully.


描寫/飛天/變成/倉頡/造字/一個/遙遠/糾結/無法/瘋癲


# 程式中的 jieba.analyse.extract_tags(content, 10)，就是告訴 jieba 我們要從這個文章中取出前 10 個 tf-idf 值最大的關鍵詞。

In [3]:
"我是柯p阿伯柯p".replace("柯p","柯文哲").replace("阿伯","柯文哲")

'我是柯文哲柯文哲柯文哲'

In [17]:
import re
s= re.sub(r"hello (\w+), nihao \1", "crifanli", "hello crifan, nihao crifan");
s

'crifanli'

In [40]:
def dashrepl(matchobj):
    if matchobj.group(0) == '柯p': 
        return '柯文哲'
re.sub('柯p', dashrepl, '我是柯p阿伯柯p,柯p')

'我是柯文哲阿伯柯文哲,柯文哲'

## 建立同義詞字典

In [75]:
import jieba
syn = {}
with open("syn.txt","r") as f :
    for line in f:
#         print(line)
        for word in line.strip("\n").split("\t")[1:]:
            syn[word] = line.strip("\n").split("\t")[0]
# print(syn)
with open("text.txt","r") as f:
    r = f.read()
print(r)
jieba.set_dictionary("dict.txt")
seg_list = jieba.cut(r, cut_all = False, HMM=True)
for word in seg_list:
    if word in syn.keys():
        word = syn[word]
        print(word)
    else:
        print(word)

Building prefix dict from C:\Users\user\Python--ETL\jieba\dict.txt ...
DEBUG:jieba:Building prefix dict from C:\Users\user\Python--ETL\jieba\dict.txt ...


孫悟空齊天大聖美猴王柯文哲柯p柯媽媽柯市長


Dumping model to file cache C:\Users\user\AppData\Local\Temp\jieba.udec3e3a1de148d91e0a6a1fffd9d9ea1.cache
DEBUG:jieba:Dumping model to file cache C:\Users\user\AppData\Local\Temp\jieba.udec3e3a1de148d91e0a6a1fffd9d9ea1.cache
Loading model cost 1.017 seconds.
DEBUG:jieba:Loading model cost 1.017 seconds.
Prefix dict has been built succesfully.
DEBUG:jieba:Prefix dict has been built succesfully.


孫悟空
孫悟空
孫悟空
柯文哲
柯文哲
柯媽媽
柯文哲


In [76]:
string="孫悟空齊天大聖美猴王"
d = jieba.cut(string,cut_all = False, HMM=True)
for i in d:
    print(i)

孫悟空
齊天大聖
美猴王


In [77]:
syn.keys()

dict_keys(['齊天大聖', '美猴王', '柯p', '柯市長', '阿伯'])

In [79]:
syn["齊天大聖"]

'孫悟空'