## 背後演算法

## jieba 中文斷詞所使用的演算法是基於 Trie Tree 結構去生成句子中中文字所有可能成詞的情況，然後使用動態規劃（Dynamic programming）算法來找出最大機率的路徑，這個路徑就是基於詞頻的最大斷詞結果。對於辨識新詞（字典詞庫中不存在的詞）則使用了 HMM 模型（Hidden Markov Model）及 Viterbi 算法來辨識出來。基本上這樣就可以完成具有斷詞功能的程式了，或許我之後可以找個時間寫幾篇部落格來介紹這幾個演算法。

## jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
## jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
## 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
## jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
## jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
## jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

In [30]:
# encoding=utf-8
import jieba

seg_list = jieba.cut("我來到資訊策進會學習資料分析", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到資訊策進會學習資料分析", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("我來到資訊策進會學習資料分析", cut_all=False,HMM=True)  # 默認是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中央大學計算實驗所，然後在日本京都大學深造")  # 搜索引擎模式
print(", ".join(seg_list))

Full Mode: 我/ 來/ 到/ 資/ 訊/ 策/ 進/ 會/ 學/ 習/ 資/ 料/ 分析
Default Mode: 我來/ 到/ 資訊策/ 進會/ 學習/ 資料/ 分析
我來, 到, 資訊策, 進會, 學習, 資料, 分析
小明, 碩士, 畢業, 於, 中央, 大學, 計算, 實驗, 所, ，, 然後在, 日本, 京都, 大學, 深造


In [35]:
#encoding=utf-8
import jieba

sentence = "獨立音樂需要大家一起來推廣，歡迎加入我們的行列！"
print ("Input：", sentence)
words = jieba.cut(sentence, cut_all=False ,HMM=True)
print ("Output 精確模式 Full Mode：")
print ('/'.join(words))

sentence = "独立音乐需要大家一起来推广，欢迎加入我们的行列！"
print ("Input：", sentence)
words = jieba.cut(sentence, cut_all=False)
print ("Output 精確模式 Full Mode：")
print("/".join(words))

Input： 獨立音樂需要大家一起來推廣，歡迎加入我們的行列！
Output 精確模式 Full Mode：
獨立/音樂/需要/大家/一起/來/推廣/，/歡迎/加入/我們/的/行列/！
Input： 独立音乐需要大家一起来推广，欢迎加入我们的行列！
Output 精確模式 Full Mode：
独立/音乐/需要/大家/一/起来/推广/，/欢迎/加入/我们/的/行列/！


In [36]:
import jieba


content = open('lyrice.txt','r').read()

words = jieba.cut(content,cut_all=False)
print("Output 精確模式 Full Mode : ")

print("/".join(words))
    
    

Output 精確模式 Full Mode : 
一顆/葡萄/有/多/甜美/ /用/盡/了/所有/的/ /圖騰/和/語言/ /描寫/
/想/一個/人/有/多/想念/ /那/又/是/文字/失效/瞬間/
/
/結一個/紀念/的/繩結/ /記錄/你/離/去/後/ /萬語/和/千言/ /瓦解/
/升起/了/慌/張/的/狼/煙/ /我/遺落/在/最/孤獨/史前/ /的/荒野/
/
/多遙遠/ /多/糾結/ /多/想念/ /多無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看/不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /寫出/ /能/讓/你/快/回來/ /的/詩篇/
/
/一/隻/蝴蝶/有多鮮/豔/ /能/不能/飛越過/ /猜忌/和/冷漠/ /世界/
/給你/的/簡訊/和/留言/ /說/不/清萬分/之一/追悔/
/
/當/星宿/都/沉/沒/山岳/ /只/盼/你/會/抬頭/ /看/我/寄/託/的/ /彎/月/
/當一個/文明/即將/熄滅/ /有什麼/證明/你/我/存在/ /的/歲/月/
/
/多遙遠/ /多/糾結/ /多/想念/ /多無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看/不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /創造/ /能/讓/你/想起/我/ /的/字眼/
/
/
/多遙遠/ /多/糾結/ /多/想念/ /多無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看/不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /寫出/ /能/讓/你/快/回來/ /的詩/
/
/需要/你/ /需要/你/ /需要/你/ /想逆轉/時間/ /回到/ /最開始/ /有/你/的/世界/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉/頡/ /寫出/ /讓/宇宙/能/重來/ /的/詩篇/
/
/天雨粟/ /鬼夜/哭/ /思念/漫/太古


In [41]:
#encoding=utf-8
import jieba

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

print ("Input：", content)

words = jieba.cut(content, cut_all=False)

print ("Output 精確模式 Full Mode：")
print("/".join(words))

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache


Input： 一顆葡萄有多甜美 用盡了所有的 圖騰和語言 描寫
想一個人有多想念 那又是文字失效瞬間

結一個紀念的繩結 記錄你離去後 萬語和千言 瓦解
升起了慌張的狼煙 我遺落在最孤獨史前 的荒野

多遙遠 多糾結 多想念 多無法描寫 疼痛 和瘋癲 你都看不見
想穿越 想飛天 想變成 造字的倉頡 寫出 能讓你快回來 的詩篇

一隻蝴蝶有多鮮豔 能不能飛越過 猜忌和冷漠 世界
給你的簡訊和留言 說不清萬分之一追悔

當星宿都沉沒山岳 只盼你會抬頭 看我寄託的 彎月
當一個文明即將熄滅 有什麼證明你我存在 的歲月

多遙遠 多糾結 多想念 多無法描寫 疼痛 和瘋癲 你都看不見
想穿越 想飛天 想變成 造字的倉頡 創造 能讓你想起我 的字眼


多遙遠 多糾結 多想念 多無法描寫 疼痛 和瘋癲 你都看不見
想穿越 想飛天 想變成 造字的倉頡 寫出 能讓你快回來 的詩

需要你 需要你 需要你 想逆轉時間 回到 最開始 有你的世界
想穿越 想飛天 想變成 造字的倉頡 寫出 讓宇宙能重來 的詩篇

天雨粟 鬼夜哭 思念漫太古
Output 精確模式 Full Mode：


Loading model cost 4.328 seconds.
Prefix dict has been built succesfully.


一顆/葡萄/有/多/甜美/ /用盡/了/所有/的/ /圖騰/和/語言/ /描寫/
/想/一個/人有/多/想念/ /那/又/是/文字/失效/瞬間/
/
/結/一個/紀念/的/繩結/ /記錄/你/離去/後/ /萬語/和/千言/ /瓦解/
/升起/了/慌張/的/狼煙/ /我/遺落/在/最/孤獨/史前/ /的/荒野/
/
/多/遙遠/ /多/糾結/ /多/想念/ /多/無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /寫出/ /能/讓/你/快/回來/ /的/詩篇/
/
/一隻/蝴蝶/有/多/鮮豔/ /能/不能/飛越/過/ /猜忌/和/冷漠/ /世界/
/給你/的/簡訊/和/留言/ /說不清/萬分之一/追悔/
/
/當/星宿/都/沉沒/山岳/ /只/盼/你/會/抬頭/ /看/我/寄託/的/ /彎/月/
/當/一個/文明/即將/熄滅/ /有/什麼/證明/你/我/存在/ /的/歲月/
/
/多/遙遠/ /多/糾結/ /多/想念/ /多/無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /創造/ /能/讓/你/想起/我/ /的/字眼/
/
/
/多/遙遠/ /多/糾結/ /多/想念/ /多/無法/描寫/ /疼痛/ /和/瘋癲/ /你/都/看不見/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /寫出/ /能/讓/你/快/回來/ /的詩/
/
/需要/你/ /需要/你/ /需要/你/ /想/逆轉/時間/ /回到/ /最/開始/ /有/你/的/世界/
/想/穿越/ /想/飛天/ /想/變成/ /造字/的/倉頡/ /寫出/ /讓/宇宙/能/重來/ /的/詩篇/
/
/天雨粟/ /鬼夜/哭/ /思念/漫/太古


In [44]:
import jieba

jieba.set_dictionary('dict.txt.big')

content=open('lyric.txt','r').read()

words = jieba.cut(content,cut_all=False,HMM=True)

print("/".join(words))


Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache
Loading model cost 3.194 seconds.
Prefix dict has been built succesfully.


親愛/的/媽媽/
/請/你/毋通/煩惱/我/
/原諒/我/
/行袂/開跤/
/我/欲/去/對抗/袂/當/原諒/的/人/
/
/歹勢/啦/
/愛人/啊/
/袂/當/陪你去/看/電影/
/原諒/我/
/行袂/開跤/
/我/欲/去/對抗/欺負/咱/的/人/
/
/天色/漸漸/光/
/遮有/一陣/人/
/為/了/守護/咱/的/夢/
/成/做/更加/勇敢的人/
/
/天色/漸漸/光/
/已經/不再/驚惶/
/現在/就是/彼一工/
/換阮/做/守護/恁/的/人/
/
/已經/袂/記/
/是/第幾/工/
/請/毋通/煩惱/我/
/因為/阮/知道/
/無行過/寒冬/
/袂/有/花開/的/一工/
/
/天色/漸漸/光/
/天色/漸漸/光/
/已經/是/更加/勇敢的人/
/
/天色/漸漸/光/
/咱/就/大聲/來/唱/著歌/
/一直/到/希望/的/光線/
/照光/島嶼/每/一個/人/
/
/天色/漸漸/光/
/咱/就/大聲/來/唱/著歌/
/日頭/一爬/上山/
/就/會/使/轉去/啦/
/現在/是/彼/一工/
/勇敢/的/台灣/人


## jieba 提供了一個功能讓使用者可以增加自定義詞庫，這種無法用 HMM 判斷出來的新詞就可以得到改善

## 其中每一行代表一筆語料資料，首先填上自定義詞如：「袂當」、「袂記」，然後填上權重，權重值可以依照斷詞結果做自己想做的調整，最後填上詞性，但詞性非必要填寫，詞性列表

行袂開跤 2 v
袂當 4 d
袂記 4 v
袂有 4 d
唱著 4 v
每一個 4 m
會使 70 d

In [4]:
import jieba

jieba.set_dictionary('dict.txt.big')
jieba.load_userdict('user.txt')
content=open('lyric.txt','r',encoding='UTF-8').read()

words = jieba.cut(content,cut_all=False,HMM=True)

print("/".join(words))

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache
Loading model cost 2.886 seconds.
Prefix dict has been built succesfully.


ValueError: dictionary file user.txt must be utf-8

In [52]:
#encoding=utf-8
# 取出斷詞詞性
import jieba
import jieba.posseg as pseg

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

words = pseg.cut(content)

print ("-------------------------------")
for word in words:
    print (word.word,"=",word.flag)

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache


-------------------------------


Loading model cost 3.770 seconds.
Prefix dict has been built succesfully.


一顆 = m
葡萄 = n
有 = v
多 = m
甜美 = a
  = x
用盡 = v
了 = ul
所有 = b
的 = uj
  = x
圖騰 = n
和 = c
語言 = n
  = x
描寫 = v

 = x
想 = v
一個 = m
人 = n
有 = v
多 = m
想念 = v
  = x
那 = r
又 = d
是 = v
文字 = n
失效 = a
瞬間 = t

 = x

 = x
結 = zg
一個 = m
紀念 = n
的 = uj
繩結 = n
  = x
記錄 = n
你 = r
離去 = v
後 = f
  = x
萬語 = nz
和 = c
千言 = n
  = x
瓦解 = v

 = x
升起 = v
了 = ul
慌張 = a
的 = uj
狼煙 = n
  = x
我 = r
遺落 = n
在 = p
最 = a
孤獨 = a
史前 = nr
  = x
的 = uj
荒野 = n

 = x

 = x
多 = m
遙遠 = a
  = x
多 = m
糾結 = v
  = x
多 = m
想念 = v
  = x
多 = m
無法 = n
描寫 = v
  = x
疼痛 = n
  = x
和 = c
瘋癲 = z
  = x
你 = r
都 = d
看不見 = v

 = x
想 = v
穿越 = v
  = x
想 = v
飛天 = n
  = x
想 = v
變成 = v
  = x
造字 = n
的 = uj
倉頡 = nr
  = x
寫出 = v
  = x
能 = v
讓 = v
你 = r
快 = d
回來 = v
  = x
的 = uj
詩篇 = n

 = x

 = x
一隻 = m
蝴蝶 = n
有 = v
多 = m
鮮豔 = a
  = x
能 = v
不能 = v
飛越 = v
過 = ug
  = x
猜忌 = v
和 = c
冷漠 = n
  = x
世界 = n

 = x
給 = p
你 = r
的 = uj
簡訊 = n
和 = c
留言 = v
  = x
說不清 = l
萬分之一 = m
追悔 = v

 = x

 = x
當 = t
星宿 = n
都 = d
沉沒 = v
山岳 = ns
  = x
只 = d
盼 = v
你 = r
會 = v
抬頭 = v
  

In [1]:
# 取出斷詞位置
#encoding=utf-8
import jieba

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

words = jieba.tokenize(content, 'utf-8')

for tk in words:
    print ("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]) )

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache
Loading model cost 3.129 seconds.
Prefix dict has been built succesfully.


word 一顆		 start: 0 		 end:2
word 葡萄		 start: 2 		 end:4
word 有		 start: 4 		 end:5
word 多		 start: 5 		 end:6
word 甜美		 start: 6 		 end:8
word  		 start: 8 		 end:9
word 用盡		 start: 9 		 end:11
word 了		 start: 11 		 end:12
word 所有		 start: 12 		 end:14
word 的		 start: 14 		 end:15
word  		 start: 15 		 end:16
word 圖騰		 start: 16 		 end:18
word 和		 start: 18 		 end:19
word 語言		 start: 19 		 end:21
word  		 start: 21 		 end:22
word 描寫		 start: 22 		 end:24
word 
		 start: 24 		 end:25
word 想		 start: 25 		 end:26
word 一個		 start: 26 		 end:28
word 人有		 start: 28 		 end:30
word 多		 start: 30 		 end:31
word 想念		 start: 31 		 end:33
word  		 start: 33 		 end:34
word 那		 start: 34 		 end:35
word 又		 start: 35 		 end:36
word 是		 start: 36 		 end:37
word 文字		 start: 37 		 end:39
word 失效		 start: 39 		 end:41
word 瞬間		 start: 41 		 end:43
word 
		 start: 43 		 end:44
word 
		 start: 44 		 end:45
word 結		 start: 45 		 end:46
word 一個		 start: 46 		 end:48
word 紀念		 start: 48 		 end:50
word 的		 st

word 想		 start: 416 		 end:417
word 飛天		 start: 417 		 end:419
word  		 start: 419 		 end:420
word 想		 start: 420 		 end:421
word 變成		 start: 421 		 end:423
word  		 start: 423 		 end:424
word 造字		 start: 424 		 end:426
word 的		 start: 426 		 end:427
word 倉頡		 start: 427 		 end:429
word  		 start: 429 		 end:430
word 寫出		 start: 430 		 end:432
word  		 start: 432 		 end:433
word 讓		 start: 433 		 end:434
word 宇宙		 start: 434 		 end:436
word 能		 start: 436 		 end:437
word 重來		 start: 437 		 end:439
word  		 start: 439 		 end:440
word 的		 start: 440 		 end:441
word 詩篇		 start: 441 		 end:443
word 
		 start: 443 		 end:444
word 
		 start: 444 		 end:445
word 天雨粟		 start: 445 		 end:448
word  		 start: 448 		 end:449
word 鬼夜		 start: 449 		 end:451
word 哭		 start: 451 		 end:452
word  		 start: 452 		 end:453
word 思念		 start: 453 		 end:455
word 漫		 start: 455 		 end:456
word 太古		 start: 456 		 end:458


In [55]:
#encoding=utf-8
import jieba
import jieba.analyse

jieba.set_dictionary('dict.txt.big')

content = open('lyrice.txt', 'r').read()

tags = jieba.analyse.extract_tags(content, 10)

print( "/".join(tags))

Building prefix dict from C:\Users\user\Python--ETL\dict.txt.big ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u8d62ca063d7c046ff48d3a70d9d6d9a0.cache
Loading model cost 3.071 seconds.
Prefix dict has been built succesfully.


描寫/飛天/變成/倉頡/造字/一個/遙遠/糾結/無法/瘋癲


# 程式中的 jieba.analyse.extract_tags(content, 10)，就是告訴 jieba 我們要從這個文章中取出前 10 個 tf-idf 值最大的關鍵詞。

In [9]:
stop_words="""一
一下
一些
一切
一則
一天
一定
一方面
一旦
一時
一來
一樣
一次
一片
一直
一致
一般
一起
一邊
一面
萬一
上下
上升
上去
上來
上述
上面
下列
下去
下來
下面
不一
不久
不僅
不會
不但
不光
不單
不變
不只
不可
不同
不夠
不如
不得
不怕
不惟
不成
不拘
不敢
不斷
不是
不比
不然
不特
不獨
不管
不能
不要
不論
不足
不過
不問
與
與其
與否
與此同時
專門
且
兩者
嚴格
嚴重
個
個人
個別
中小
中間
豐富
臨
為
為主
為了
為什麽
為什麼
為何
為著
主張
主要
舉行
乃
乃至
麽
之
之一
之前
之後
之後
之所以
之類
烏乎
乎
乘
也
也好
也是
也罷
了
了解
爭取
於
於是
於是乎
雲雲
互相
產生
人們
人家
什麽
什麽樣
什麼
今後
今天
今年
今後
仍然
從
從事
從而
他
他人
他們
他的
代替
以
以上
以下
以為
以便
以免
以前
以及
以後
以外
以後
以來
以至
以至於
以致
們
任
任何
任憑
任務
企圖
偉大
似乎
似的
但
但是
何
何況
何處
何時
作為
你
你們
你的
使得
使用
例如
依
依照
依靠
促進
保持
俺
俺們
倘
倘使
倘或
倘然
倘若
假使
假如
假若
做到
像
允許
充分
先後
先後
先生
全部
全面
兮
共同
關於
其
其一
其中
其二
其他
其余
其它
其實
其次
具體
具體地說
具體說來
具有
再者
再說
冒
沖
決定
況且
準備
幾
幾乎
幾時
憑
憑借
出去
出來
出現
分別
則
別
別的
別說
到
前後
前者
前進
前面
加之
加以
加入
加強
十分
即
即令
即使
即便
即或
即若
卻不
原來
又
及
及其
及時
及至
雙方
反之
反應
反映
反過來
反過來說
取得
受到
變成
另
另一方面
另外
只是
只有
只要
只限
叫
叫做
召開
叮咚
可
可以
可是
可能
可見
各
各個
各人
各位
各地
各種
各級
各自
合理
同
同一
同時
同樣
後來
後面
向
向著
嚇
嗎
否則
吧
吧噠
吱
呀
呃
嘔
唄
嗚
嗚呼
呢
周圍
呵
呸
呼哧
咋
和
咚
咦
咱
咱們
咳
哇
哈
哈哈
哉
哎
哎呀
哎喲
嘩
喲
哦
哩
哪
哪個
哪些
哪兒
哪天
哪年
哪怕
哪樣
哪邊
哪里
哼
哼唷
唉
啊
啐
啥
啦
啪達
餵
喏
喔唷
嗡嗡
嗬
嗯
噯
嘎
嘎登
噓
嘛
嘻
嘿
因
因為
因此
因而
固然
在
在下
地
堅決
堅持
基本
處理
複雜
多
多少
多數
多次
大力
大多數
大大
大家
大批
大約
大量
失去
她
她們
她的
好的
好象
如
如上所述
如下
如何
如其
如果
如此
如若
存在
寧
寧可
寧願
寧肯
它
它們
它們的
它的
安全
完全
完成
實現
實際
宣布
容易
密切
對
對於
對應
將
少數
爾後
尚且
尤其
就
就是
就是說
盡
盡管
屬於
豈但
左右
巨大
鞏固
己
已經
幫助
常常
並
並不
並不是
並且
並沒有
廣大
廣泛
應當
應用
應該
開外
開始
開展
引起
強烈
強調
歸
當
當前
當時
當然
當著
形成
徹底
彼
彼此
往
往往
待
後來
後面
得
得出
得到
心里
必然
必要
必須
怎
怎麽
怎麽辦
怎麽樣
怎樣
怎麼
總之
總是
總的來看
總的來說
總的說來
總結
總而言之
恰恰相反
您
意思
願意
慢說
成為
我
我們
我的
或
或是
或者
戰鬥
所
所以
所有
所謂
打
擴大
把
抑或
拿
按
按照
換句話說
換言之
據
掌握
接著
接著
故
故此
整個
方便
方面
旁人
無寧
無法
無論
既
既是
既然
時候
明顯
明確
是
是否
是的
顯然
顯著
普通
普遍
更加
曾經
替
最後
最大
最好
最後
最近
最高
有
有些
有關
有利
有力
有所
有效
有時
有點
有的
有著
有著
望
朝
朝著
本
本著
來
來著
極了
構成
果然
果真
某
某個
某些
根據
根本
歡迎
正在
正如
正常
此
此外
此時
此間
毋寧
每
每個
每天
每年
每當
比
比如
比方
比較
毫不
沒有
沿
沿著
註意
深入
清楚
滿足
漫說
焉
然則
然後
然後
然而
照
照著
特別是
特殊
特點
現代
現在
甚麽
甚而
甚至
用
由
由於
由此可見
的
的話
目前
直到
直接
相似
相信
相反
相同
相對
相對而言
相應
相當
相等
省得
看出
看到
看來
看看
看見
真是
真正
著
著呢
矣
知道
確定
離
積極
移動
突出
突然
立即
第
等
等等
管
緊接著
縱
縱令
縱使
縱然
練習
組成
經
經常
經過
結合
結果
給
絕對
繼續
繼而
維持
綜上所述
罷了
考慮
者
而
而且
而況
而外
而已
而是
而言
聯系
能
能否
能夠
騰
自
自個兒
自從
自各兒
自家
自己
自身
至
至於
良好
若
若是
若非
範圍
莫若
獲得
雖
雖則
雖然
雖說
行為
行動
表明
表示
被
要
要不
要不是
要不然
要麽
要是
要求
規定
覺得
認為
認真
認識
讓
許多
論
設使
設若
該
說明
諸位
誰
誰知
趕
起
起來
起見
趁
趁著
越是
跟
轉動
轉變
轉貼
較
較之
邊
達到
迅速
過
過去
過來
運用
還是
還有
這
這個
這麽
這麽些
這麽樣
這麽點兒
這些
這會兒
這兒
這就是說
這時
這樣
這點
這種
這邊
這里
這麼
進入
進步
進而
進行
連
連同
適應
適當
適用
逐步
逐漸
通常
通過
造成
遇到
遭到
避免
那
那個
那麽
那麽些
那麽樣
那些
那會兒
那兒
那時
那樣
那邊
那里
那麼
部分
鄙人
采取
里面
重大
重新
重要
鑒於
問題
防止
阿
附近
限制
除
除了
除此之外
除非
隨
隨著
隨著
集中
需要
非但
非常
非徒
靠
順
順著
首先
高興
是不是
說說"""

In [127]:
sd = stop_words.split("\n")
sd

['一',
 '一下',
 '一些',
 '一切',
 '一則',
 '一天',
 '一定',
 '一方面',
 '一旦',
 '一時',
 '一來',
 '一樣',
 '一次',
 '一片',
 '一直',
 '一致',
 '一般',
 '一起',
 '一邊',
 '一面',
 '萬一',
 '上下',
 '上升',
 '上去',
 '上來',
 '上述',
 '上面',
 '下列',
 '下去',
 '下來',
 '下面',
 '不一',
 '不久',
 '不僅',
 '不會',
 '不但',
 '不光',
 '不單',
 '不變',
 '不只',
 '不可',
 '不同',
 '不夠',
 '不如',
 '不得',
 '不怕',
 '不惟',
 '不成',
 '不拘',
 '不敢',
 '不斷',
 '不是',
 '不比',
 '不然',
 '不特',
 '不獨',
 '不管',
 '不能',
 '不要',
 '不論',
 '不足',
 '不過',
 '不問',
 '與',
 '與其',
 '與否',
 '與此同時',
 '專門',
 '且',
 '兩者',
 '嚴格',
 '嚴重',
 '個',
 '個人',
 '個別',
 '中小',
 '中間',
 '豐富',
 '臨',
 '為',
 '為主',
 '為了',
 '為什麽',
 '為什麼',
 '為何',
 '為著',
 '主張',
 '主要',
 '舉行',
 '乃',
 '乃至',
 '麽',
 '之',
 '之一',
 '之前',
 '之後',
 '之後',
 '之所以',
 '之類',
 '烏乎',
 '乎',
 '乘',
 '也',
 '也好',
 '也是',
 '也罷',
 '了',
 '了解',
 '爭取',
 '於',
 '於是',
 '於是乎',
 '雲雲',
 '互相',
 '產生',
 '人們',
 '人家',
 '什麽',
 '什麽樣',
 '什麼',
 '今後',
 '今天',
 '今年',
 '今後',
 '仍然',
 '從',
 '從事',
 '從而',
 '他',
 '他人',
 '他們',
 '他的',
 '代替',
 '以',
 '以上',
 '以下',
 '以為',
 '以便',
 '以免',
 '以前',
 '以及',
 '以後',
 '以外',
 '以後',
 

In [4]:
list_ = ['one', 'two', 'three']

any(word in 'some one long two phrase three' for word in list_)
    

True

In [34]:
s="123 456\n789 012\n345 678"
rc=re.compile(r"^\d+") #匹配一个位于开头的数字，没有使用M选项
print(rc.findall(s))
# ['123'] #结果只能找到位于第一个行首的’123’


rcm=re.compile(r"^\d+",re.M) #使用 M 选项
print(rcm.findall(s))
# ['123', '789', '345'] #找到了三个行首的数字

['123']
['123', '789', '345']


In [70]:
import re
reChinese = re.compile('[\u4e00-\u9fa5]+')
teststr = '测试awk测试123测试11'
reChinese.findall(teststr)

import re
line="王八蛋hbjhbhj"
rule = re.compile('[\u4e00-\u9fa5]+')
lines = rule.findall(line)
lines

['王八蛋']

In [128]:
news=""""一，上場前一刻，竟發生選手臨時遭汰換，換來參賽的人卻根本沒報名參賽！台中市議員吳瓊華今天踢爆，今年全市運動會中的女子400公尺比賽，原本洪姓選手依規定報名代表南屯區參賽，賽前卻變成葉姓選手。吳瓊華以「林佳龍參賽，可改成蔡其昌上場跑步嗎？」比喻，認為此舉不但傷害學生，還做了最壞的教育示範，要求追究責任；市長林佳龍坦言行政疏失，要求運動局有錯就改。
台中市議員吳瓊華今天在市議會總質詢時指出，今年市運會傳出選手名單公然遭竄改，參賽名冊上，清楚登記洪姓選手代表南屯區參加女子組400公尺比賽，但比賽時，居然是完全沒有報名參賽的葉姓選手下場，家長替洪同學打抱不平，她則批台中是「作弊一條龍」，不但涉嫌偽造文書，也傷害學生，做了最壞的教育示範。
吳瓊華並舉例問「林佳龍參賽，可改成蔡其昌替代上場比賽嗎？」要求追究責任，揪出竄改選手名單的幕後黑手。林佳龍則說，有錯則改，行政程序層次的疏失，將要求運動局檢討改進。運動局長王慶堂坦言，市運會舉辦多次，在市府運動局成立後，發現很多便宜行事，竄改選手名單，是不該發生的事。市長林佳龍答詢指出，這是行政疏失，要求運動局檢討改進。
王慶堂表示，過去單項運動委員會於舉辦賽事時，的確有便宜行事、臨場更換名單的事情，這次變更選手未經技術會議討論，確實有瑕疵，嚴重違反行政程序與破壞競賽公平性。為避免出現同樣疏失，市府將在明年度舉辦市運會時，將比賽報名、競賽資訊與成績記錄系統委外由第三公正方處理，避免單項協會私自決議，影響比賽公正性。"""

In [143]:
import jieba
import re
list_words = []
words = jieba.cut(news, cut_all=False ,HMM=True)
for w in words:
    ### 把標點符號去掉&只留下中文字
    rule = re.compile('[\u4e00-\u9fa5]+')
    lines = rule.findall(w)
    if len(lines) > 0 :
        list_words.extend(lines)
        

In [144]:
print(list_words)

['一', '上場', '前一刻', '竟', '發生', '選手', '臨時', '遭汰換', '換來', '參賽', '的', '人', '卻', '根本', '沒報', '名', '參賽', '台中市', '議員', '吳瓊華', '今天', '踢', '爆', '今年', '全市', '運動會', '中', '的', '女子', '公尺', '比賽', '原本', '洪姓', '選手', '依規定', '報名', '代表', '南屯區', '參賽', '賽前', '卻', '變成', '葉姓', '選手', '吳瓊華以', '林佳龍', '參賽', '可', '改成', '蔡其昌', '上場', '跑步', '嗎', '比喻', '認為', '此舉', '不但', '傷害', '學生', '還做', '了', '最壞', '的', '教育', '示範', '要求', '追究', '責任', '市長', '林佳龍', '坦言', '行政', '疏失', '要求', '運動局', '有', '錯', '就', '改', '台中市', '議員', '吳瓊華', '今天', '在', '市議會', '總質', '詢時', '指出', '今年', '市運會', '傳出', '選手', '名單', '公然', '遭竄', '改', '參賽', '名冊', '上', '清楚', '登記', '洪姓', '選手', '代表', '南屯區', '參加', '女子', '組', '公尺', '比賽', '但', '比賽', '時', '居然', '是', '完全', '沒有', '報名', '參賽', '的', '葉姓', '選', '手下', '場', '家長', '替', '洪同學', '打抱不平', '她則', '批台', '中', '是', '作弊', '一條', '龍', '不但', '涉嫌', '偽造', '文書', '也', '傷害', '學生', '做', '了', '最壞', '的', '教育', '示範', '吳瓊華', '並舉', '例問', '林佳龍', '參賽', '可', '改成', '蔡其昌', '替代', '上場', '比賽', '嗎', '要求', '追究', '責任', '揪出', '竄', '改選手', '名單', '的', '幕', '後

In [151]:
count = 1
for word in list_words:
    if word not in sd:
        print("%s"%count+word)
        count = count + 1

1上場
2前一刻
3竟
4發生
5選手
6臨時
7遭汰換
8換來
9參賽
10人
11卻
12沒報
13名
14參賽
15台中市
16議員
17吳瓊華
18踢
19爆
20全市
21運動會
22中
23女子
24公尺
25比賽
26原本
27洪姓
28選手
29依規定
30報名
31代表
32南屯區
33參賽
34賽前
35卻
36葉姓
37選手
38吳瓊華以
39林佳龍
40參賽
41改成
42蔡其昌
43上場
44跑步
45比喻
46此舉
47傷害
48學生
49還做
50最壞
51教育
52示範
53追究
54責任
55市長
56林佳龍
57坦言
58行政
59疏失
60運動局
61錯
62改
63台中市
64議員
65吳瓊華
66市議會
67總質
68詢時
69指出
70市運會
71傳出
72選手
73名單
74公然
75遭竄
76改
77參賽
78名冊
79上
80登記
81洪姓
82選手
83代表
84南屯區
85參加
86女子
87組
88公尺
89比賽
90比賽
91時
92居然
93報名
94參賽
95葉姓
96選
97手下
98場
99家長
100洪同學
101打抱不平
102她則
103批台
104中
105作弊
106一條
107龍
108涉嫌
109偽造
110文書
111傷害
112學生
113做
114最壞
115教育
116示範
117吳瓊華
118並舉
119例問
120林佳龍
121參賽
122改成
123蔡其昌
124替代
125上場
126比賽
127追究
128責任
129揪出
130竄
131改選手
132名單
133幕
134後
135黑手
136林佳龍則
137說
138錯則
139改
140行政
141程序
142層次
143疏失
144運動局
145檢討
146改進
147運動
148局長
149王慶堂
150坦言
151市運會
152舉辦
153市府
154運動局
155成立
156後
157發現
158很多
159便宜行事
160竄
161改選手
162名單
163不該
164發生
165事
166市長
167林佳龍
168答詢
169指出
170這是
171行政
172疏失
173運動局
174檢討
175改進
176王慶堂
177單項
178運動委員會
179舉辦賽
180事時
181確有
182便宜行事
