# 中文斷詞
* 中文的「字詞」是獨立的意義單元，在閱讀時，讀者通常會下意識地先斷詞，再理解原意。
* 如果斷錯詞，語意將難以理解。進行文字探勘時，通常要先斷詞，斷詞的正確與否會影響其後的分析。
* 本週，我們介紹一個簡便的斷詞模組：結巴(Jieba)。它最大的好處是簡單易用，而且可以自己新增詞彙，校正錯誤。
* 不過即使如此，我們還是無保證斷詞完全正確，因為中文實在太複雜了。

## 結巴斷詞

* 官方網頁   https://github.com/fxsjy/jieba
* 使用前要先安裝, 在命令提示字元
* pip install jieba,  easy_install jieba  或者 pip3 install jieba 
* 半自動安裝：先下載 http://pypi.python.org/pypi/jieba/ ，解壓縮後 python setup.py install 
* 手動安裝：將 jieba 目錄放置於當前目錄，或者 site-packages 目錄 (C:\Users\user\Anaconda3\Lib\site-packages)

## 範例檔案與目錄
* 歷屆總統就職演說 "D:/My Python/corpus/president/"
* 習近平十九大演說 "D:/My Python/corpus/china"
* 字典 "D:/My Python/corpus/dict.txt.big.txt" 
* 自訂字典 "D:/My Python/corpus/userdict.txt"
* "D:/My Python/data" 置放結果檔。

In [1]:
path="D:/My Python/"

In [2]:
path = 'C:/Users/HSIU/Desktop/108-1/python_ntu'

## 小測試

In [2]:
import jieba
# 簡體字、繁體字，白話、文言均可。
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(" ".join(seg_list))
# 找出所有的斷詞

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\brat\AppData\Local\Temp\jieba.cache
Loading model cost 1.365 seconds.
Prefix dict has been built succesfully.


小明 硕士 毕业 于 中国 科学 学院 科学院 中国科学院 计算 计算所 ， 后 在 日本 京都 大学 日本京都大学 深造


In [2]:
import jieba
seg_list = jieba.cut_for_search('小明硕士毕业于中国科学院计算所，后在日本京都大学深造')
print(' '.join(seg_list))

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\HSIU\AppData\Local\Temp\jieba.cache
Loading model cost 0.906 seconds.
Prefix dict has been built succesfully.


小明 硕士 毕业 于 中国 科学 学院 科学院 中国科学院 计算 计算所 ， 后 在 日本 京都 大学 日本京都大学 深造


In [3]:
# 以空白隔開的字詞
words = jieba.cut("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")
print(' '.join(words))
# 斷詞不重覆

小明 硕士 毕业 于 中国科学院 计算所 ， 后 在 日本京都大学 深造


In [3]:
words = jieba.cut('小明硕士毕业于中国科学院计算所，后在日本京都大学深造')
print(' '.join(words))

小明 硕士 毕业 于 中国科学院 计算所 ， 后 在 日本京都大学 深造


# Jeiba 完整範例

In [15]:
# from __future__ import print_function, unicode_literals
import sys
import jieba
import jieba.posseg as pseg

path='D:/My Python/'
test_sent = '''
李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n
例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n
「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。
'''

# 引數為字串
words = jieba.cut(test_sent)
# 以空白隔開的字詞
print(' '.join(words))



 李小福 是 创新 办 主任 也 是 云 计算 方面 的 专家 ;   什么 是 八 一双 鹿 
 
 例如 我 输入 一个 带 “ 韩玉 赏鉴 ” 的 标题 ， 在 自定义词 库中 也 增加 了 此 词为 N 类 
 
 「 台 中 」 正確 應該 不會 被 切開 。 mac 上 可 分出 「 石墨 烯 」 ； 此時 又 可以 分 出來 凱特 琳 了 。 



In [4]:
import sys
import jieba
import jieba.posseg as pseg

path = 'C:/Users/HSIU/Desktop/108-1/python_ntu'
test_sent = '''
李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n
例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n
「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。
'''

# 引數為字串
words = jieba.cut(test_sent)
# 以空白隔開的字詞
print(' '.join(words))


 李小福 是 创新 办 主任 也 是 云 计算 方面 的 专家 ;   什么 是 八 一双 鹿 
 
 例如 我 输入 一个 带 “ 韩玉 赏鉴 ” 的 标题 ， 在 自定义词 库中 也 增加 了 此 词为 N 类 
 
 「 台 中 」 正確 應該 不會 被 切開 。 mac 上 可 分出 「 石墨 烯 」 ； 此時 又 可以 分出 來凱 特琳 了 。 



In [12]:
# 加註詞性
result = pseg.cut(test_sent)

In [5]:
result = pseg.cut(test_sent)

In [13]:
for w in result:
    # 印出字詞 .word 與屬性 .flag
    print(w.word, w.flag)


 x
李小福 nr
是 v
创新 v
办 v
主任 b
也 d
是 v
云 n
计算 v
方面 n
的 uj
专家 n
; x
  x
什么 r
是 v
八 m
一双 m
鹿 nr

 x

 x
例如 v
我 r
输入 v
一个 m
带 v
“ x
韩玉 nr
赏鉴 v
” x
的 uj
标题 n
， x
在 p
自定义词 n
库中 nrt
也 d
增加 v
了 ul
此 r
词 n
为 p
N eng
类 q

 x

 x
「 x
台 q
中 f
」 x
正確 ad
應該 v
不 d
會 v
被 p
切開 ad
。 x
mac eng
上 f
可 v
分出 v
「 x
石墨 n
烯 x
」 x
； x
此時 c
又 d
可以 c
分出 v
來 v
凱特琳 nrt
了 ul
。 x

 x


 ## 結巴的詞性列表

* https://blog.csdn.net/suibianshen2012/article/details/53487157
* a 形容词
* ad 副形词
* m 数词
* n 名词
* nr 人名
* ns 地名
* nt 机构团体
* nz 其他专名
* p 介词
* q 量词
* r 代词
* s 处所词
* t 时间词
* v 动词
* w 标点符号
* un 未知词
* x 非语素字只是一个符号，字母 x通常用于代表未知数、符号。

## 其他词典
* 占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
* 支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big
* 下载你所需要的词典，然后覆盖 jieba/dict.txt 即可；或者用 jieba.set_dictionary('data/dict.txt.big')

In [8]:
# path = 'C:/Users/HSIU/Anaconda3/Lib/site-packages/jieba'
path = 'C:/Users/HSIU/Anaconda3/Lib/site-packages/jieba'

# 蔡英文總統就職演說為例

In [3]:
import jieba
import jieba.analyse
from optparse import OptionParser
import re

#設定斷辭字典
path = 'C:/Users/HSIU/Desktop/108-1/python_ntu/corpus'
jieba.set_dictionary(path + '/dict.txt.big.txt')

#呼叫自行定義的辭典(增加詞彙)
jieba.load_userdict(path+"/userdict.txt")

#停用字設定
jieba.del_word('政權和平移轉')
jieba.del_word('自由人')

#讀取單一檔案
fname= path+ '/president/蔡英文第十四任.txt'
content = open(fname, 'r', encoding = 'utf-8').read()

#異體字轉換
contnet = re.sub('台', '臺', content)
content=re.sub("「","",content)
content=re.sub("」","",content)


# 刪除中文的空格符號，這些看起來像是亂碼先刪除
content=re.sub("\ufeff","",content)
content=re.sub("\u3000","",content)
# 結巴分詞
result = jieba.cut(content)

# 分詞後存成 string，中間空白隔開
text=' '.join(result)
text

Building prefix dict from C:\Users\HSIU\Desktop\108-1\python_ntu\corpus\dict.txt.big.txt ...
Loading model from cache C:\Users\HSIU\AppData\Local\Temp\jieba.u6ab43d37eb7d3b30b3db5d18997a0f99.cache
Loading model cost 2.439 seconds.
Prefix dict has been built succesfully.


'各位 友邦 的 元首 與 貴賓 、 各國 駐台 使節 及 代表 、 現場 的 好 朋友 ， 全體 國人 同胞 ， 大家 好 。 \n 感謝 與 承擔 。 \n 就 在 剛剛 ， 我 和 陳建仁 已經 在 總統府 裡面 ， 正式 宣誓 就任 中華民國 第十四任 總統 與 副總統 。 我們 要 感謝 這塊 土地 對 我們 的 栽培 ， 感謝 人民 對 我們 的 信任 ， 以及 ， 最 重要 的 ， 感謝 這個 國家 的 民主 機制 ， 讓 我們 透過 和平 的 選舉 過程 ， 實現 第三次 政黨輪替 ， 並且 克服 種種 不確定因素 ， 順利 渡過 長達 四個 月 的 交接期 ， 完成 政權 和平移轉 。 \n 台灣 ， 再一次 用 行動 告訴 世界 ， 作為 一群 民主 人 與 自由 人 ， 我們 有 堅定 的 信念 ， 去 捍衛 民主自由 的 生活方式 。 這段 旅程 ， 我們 每 一個 人 都 參與 其中 。 親愛 的 台灣 人民 ， 我們 做到 了 。 \n 我要 告訴 大家 ， 對於 一月 十六日 的 選舉 結果 ， 我 從來 沒有 其他 的 解讀 方式 。 人民 選擇 了 新 總統 、 新政府 ， 所 期待 的 就是 四個 字 ： 解決問題 。 此時此刻 ， 台灣 的 處境 很 困難 ， 迫切需要 執政者 義無反顧 的 承擔 。 這 一點 ， 我 不會 忘記 。 \n 我 也 要 告訴 大家 ， 眼前 的 種種 難關 ， 需要 我們 誠實 面對 ， 需要 我們 共同 承擔 。 所以 ， 這個 演說 是 一個 邀請 ， 我要 邀請 全體 國人 同胞 一 起來 ， 扛起 這個 國家 的 未來 。 \n 國家 不會 因為 領導人 而 偉大 ； 全體 國民 的 共同奮鬥 ， 才 讓 這個 國家 偉大 。 總統 該 團結 的 不 只是 支持者 ， 總統 該 團結 的 是 整個 國家 。 團結 是 為 了 改變 ， 這是 我 對 這個 國家 最 深切 的 期待 。 在 這裡 ， 我要 誠懇 地 呼籲 ， 請給 這個 國家 一個 機會 ， 讓 我們 拋下 成見 ， 拋下 過去 的 對立 ， 我們 一 起來 完成 新時代 交給 我們 的 使命 。 \n 在 我們 共同奮鬥 的 過程 中 ， 身為 總統 ， 我要 向 全國 人民 宣示 ， 未來 我 和 新政府 ， 將 領導

In [31]:
import jieba
import jieba.analyse
from optparse import OptionParser
import re

# 設定斷詞字典  
jieba.set_dictionary(path + "corpus/dict.txt.big.txt")    

# 呼叫自行定義的詞典(增加詞彙) 
jieba.load_userdict(path + "corpus/userdict.txt")
    
# 停用字設定，請比較其差異 
jieba.del_word('政權和平移轉')
jieba.del_word('自由人')

# 讀取單一檔，中文編碼方式，設定為 utf-8 ######                        
fname= path+ 'corpus/president/蔡英文第十四任.txt'
content = open(fname,'r', encoding='utf-8').read()

# 異體字轉換
content=re.sub("台","臺",content)
content=re.sub("「","",content)
content=re.sub("」","",content)

# 刪除中文的空格符號，這些看起來像是亂碼先刪除
content=re.sub("\ufeff","",content)
content=re.sub("\u3000","",content)

# 結巴分詞
result = jieba.cut(content)

# 分詞後存成 string，中間空白隔開
text=' '.join(result)
text

Building prefix dict from D:\My Python\corpus\dict.txt.big.txt ...
Loading model from cache C:\Users\brat\AppData\Local\Temp\jieba.u8b65a825ab313662e292a782f6b39845.cache
Loading model cost 1.559 seconds.
Prefix dict has been built succesfully.


'各位 友邦 的 元首 與 貴賓 、 各國 駐 臺 使節 及 代表 、 現場 的 好 朋友 ， 全體 國人 同胞 ， 大家 好 。 \n 感謝 與 承擔 。 \n 就 在 剛剛 ， 我 和 陳建仁 已經 在 總統府 裡面 ， 正式 宣誓 就任 中華民國 第十四任 總統 與 副總統 。 我們 要 感謝 這塊 土地 對 我們 的 栽培 ， 感謝 人民 對 我們 的 信任 ， 以及 ， 最 重要 的 ， 感謝 這個 國家 的 民主 機制 ， 讓 我們 透過 和平 的 選舉 過程 ， 實現 第三次 政黨輪替 ， 並且 克服 種種 不確定因素 ， 順利 渡過 長達 四個 月 的 交接期 ， 完成 政權 和平移轉 。 \n 臺灣 ， 再一次 用 行動 告訴 世界 ， 作為 一群 民主 人 與 自由 人 ， 我們 有 堅定 的 信念 ， 去 捍衛 民主自由 的 生活方式 。 這段 旅程 ， 我們 每 一個 人 都 參與 其中 。 親愛 的 臺灣 人民 ， 我們 做到 了 。 \n 我要 告訴 大家 ， 對於 一月 十六日 的 選舉 結果 ， 我 從來 沒有 其他 的 解讀 方式 。 人民 選擇 了 新 總統 、 新政府 ， 所 期待 的 就是 四個 字 ： 解決問題 。 此時此刻 ， 臺灣 的 處境 很 困難 ， 迫切需要 執政者 義無反顧 的 承擔 。 這 一點 ， 我 不會 忘記 。 \n 我 也 要 告訴 大家 ， 眼前 的 種種 難關 ， 需要 我們 誠實 面對 ， 需要 我們 共同 承擔 。 所以 ， 這個 演說 是 一個 邀請 ， 我要 邀請 全體 國人 同胞 一 起來 ， 扛起 這個 國家 的 未來 。 \n 國家 不會 因為 領導人 而 偉大 ； 全體 國民 的 共同奮鬥 ， 才 讓 這個 國家 偉大 。 總統 該 團結 的 不 只是 支持者 ， 總統 該 團結 的 是 整個 國家 。 團結 是 為 了 改變 ， 這是 我 對 這個 國家 最 深切 的 期待 。 在 這裡 ， 我要 誠懇 地 呼籲 ， 請給 這個 國家 一個 機會 ， 讓 我們 拋下 成見 ， 拋下 過去 的 對立 ， 我們 一 起來 完成 新時代 交給 我們 的 使命 。 \n 在 我們 共同奮鬥 的 過程 中 ， 身為 總統 ， 我要 向 全國 人民 宣示 ， 未來 我 和 新政府 ， 將 領

In [16]:
# 分詞後存成list of words
seg_list=text.split()
print (seg_list)

['各位', '友邦', '的', '元首', '與', '貴賓', '、', '各國', '駐台', '使節', '及', '代表', '、', '現場', '的', '好', '朋友', '，', '全體', '國人', '同胞', '，', '大家', '好', '。', '感謝', '與', '承擔', '。', '就', '在', '剛剛', '，', '我', '和', '陳建仁', '已經', '在', '總統府', '裡面', '，', '正式', '宣誓', '就任', '中華民國', '第十四任', '總統', '與', '副總統', '。', '我們', '要', '感謝', '這塊', '土地', '對', '我們', '的', '栽培', '，', '感謝', '人民', '對', '我們', '的', '信任', '，', '以及', '，', '最', '重要', '的', '，', '感謝', '這個', '國家', '的', '民主', '機制', '，', '讓', '我們', '透過', '和平', '的', '選舉', '過程', '，', '實現', '第三次', '政黨輪替', '，', '並且', '克服', '種種', '不確定因素', '，', '順利', '渡過', '長達', '四個', '月', '的', '交接期', '，', '完成', '政權', '和平移轉', '。', '台灣', '，', '再一次', '用', '行動', '告訴', '世界', '，', '作為', '一群', '民主', '人', '與', '自由', '人', '，', '我們', '有', '堅定', '的', '信念', '，', '去', '捍衛', '民主自由', '的', '生活方式', '。', '這段', '旅程', '，', '我們', '每', '一個', '人', '都', '參與', '其中', '。', '親愛', '的', '台灣', '人民', '，', '我們', '做到', '了', '。', '我要', '告訴', '大家', '，', '對於', '一月', '十六日', '的', '選舉', '結果', '，', '我', '從來', '沒有', '其他', '的', '解讀', '方式'

## 特殊符號處理範例

In [None]:
#練習到這裡

In [7]:
#去除空白
seg_list = [i for i in seg_list if i != u'']

#去除數字
seg_list = [w for w in seg_list if not re.search(r'[0123456789]', w)]

#去除英文
seg_list = [w for w in seg_list if not re.search(r'[a-zA-Z]', w)]

#去除特殊符號
seg_list = [w for w in seg_list if not re.search(r'[-，+、@,？{}●►❖★！!：/(=)…（）『』%《》$;；」:?=<>"／.&#"「_【】]',w)]

#去除特殊字串
deletewords=['[',']',"'",'\ufeff']
seg_list = [w for w in seg_list if w not in deletewords]

#印出結果
print(seg_list)

['各位', '友邦', '的', '元首', '與', '貴賓', '各國', '駐台', '使節', '及', '代表', '現場', '的', '好', '朋友', '全體', '國人', '同胞', '大家', '好', '。', '感謝', '與', '承擔', '。', '就', '在', '剛剛', '我', '和', '陳建仁', '已經', '在', '總統府', '裡面', '正式', '宣誓', '就任', '中華民國', '第十四任', '總統', '與', '副總統', '。', '我們', '要', '感謝', '這塊', '土地', '對', '我們', '的', '栽培', '感謝', '人民', '對', '我們', '的', '信任', '以及', '最', '重要', '的', '感謝', '這個', '國家', '的', '民主', '機制', '讓', '我們', '透過', '和平', '的', '選舉', '過程', '實現', '第三次', '政黨輪替', '並且', '克服', '種種', '不確定因素', '順利', '渡過', '長達', '四個', '月', '的', '交接期', '完成', '政權', '和平移轉', '。', '台灣', '再一次', '用', '行動', '告訴', '世界', '作為', '一群', '民主', '人', '與', '自由', '人', '我們', '有', '堅定', '的', '信念', '去', '捍衛', '民主自由', '的', '生活方式', '。', '這段', '旅程', '我們', '每', '一個', '人', '都', '參與', '其中', '。', '親愛', '的', '台灣', '人民', '我們', '做到', '了', '。', '我要', '告訴', '大家', '對於', '一月', '十六日', '的', '選舉', '結果', '我', '從來', '沒有', '其他', '的', '解讀', '方式', '。', '人民', '選擇', '了', '新', '總統', '新政府', '所', '期待', '的', '就是', '四個', '字', '解決問題', '。', '此時此刻', '台灣', '的', '處境', '很

In [17]:
# list 分詞校正，去除特殊符號，視需要調整。
# 去除空白
seg_list = [i for i in seg_list if i != u'']
# 去除數字
seg_list = [w for w in seg_list if not re.search(r"[0123456789]",w)]
# 去除英文
seg_list = [w for w in seg_list if not re.search(r"[a-zA-Z]",w)]
# 去除特殊符號
seg_list = [w for w in seg_list if not re.search(r'[-，+、@,？{}●►❖★！!：/(=)…（）『』%《》$;；」:?=<>"／.&#"「_【】]',w)]
# 去除特殊字串
deletewords=['[',']',"'",'\ufeff']
seg_list = [w for w in seg_list if w not in deletewords]
# 印出最後結果
print (seg_list)

['各位', '友邦', '的', '元首', '與', '貴賓', '各國', '駐台', '使節', '及', '代表', '現場', '的', '好', '朋友', '全體', '國人', '同胞', '大家', '好', '。', '感謝', '與', '承擔', '。', '就', '在', '剛剛', '我', '和', '陳建仁', '已經', '在', '總統府', '裡面', '正式', '宣誓', '就任', '中華民國', '第十四任', '總統', '與', '副總統', '。', '我們', '要', '感謝', '這塊', '土地', '對', '我們', '的', '栽培', '感謝', '人民', '對', '我們', '的', '信任', '以及', '最', '重要', '的', '感謝', '這個', '國家', '的', '民主', '機制', '讓', '我們', '透過', '和平', '的', '選舉', '過程', '實現', '第三次', '政黨輪替', '並且', '克服', '種種', '不確定因素', '順利', '渡過', '長達', '四個', '月', '的', '交接期', '完成', '政權', '和平移轉', '。', '台灣', '再一次', '用', '行動', '告訴', '世界', '作為', '一群', '民主', '人', '與', '自由', '人', '我們', '有', '堅定', '的', '信念', '去', '捍衛', '民主自由', '的', '生活方式', '。', '這段', '旅程', '我們', '每', '一個', '人', '都', '參與', '其中', '。', '親愛', '的', '台灣', '人民', '我們', '做到', '了', '。', '我要', '告訴', '大家', '對於', '一月', '十六日', '的', '選舉', '結果', '我', '從來', '沒有', '其他', '的', '解讀', '方式', '。', '人民', '選擇', '了', '新', '總統', '新政府', '所', '期待', '的', '就是', '四個', '字', '解決問題', '。', '此時此刻', '台灣', '的', '處境', '很

## 含詞性註記

In [18]:
result = pseg.cut(content)
i=1
for w in result:
    print(w.word, w.flag)
    i+=1
    # 列出前10個詞性註記
    if i>10: 
        break
# 詞性註記顯然不太正確

﻿ x
各位 r
友邦 n
的 uj
元首 t
與 zg
貴賓 x
、 x
各國 x
駐台 n


## 編修 自行定義的詞典
* path + "corpus/userdict.txt"

In [19]:
path = 'C:/Users/HSIU/desktop/108-1/python_ntu/corpus'
fname= path+  "/userdict.txt"
content = open(fname,'r', encoding='utf-8').read()
print (content)

﻿addwords
一中原則
一個中國
一分子
一國兩制
三權分立
三民主義
不一定
不了解
不友善
不只
不可侵犯
不可能
不吭聲
不好走
不實
不忘
不放心 
不方便
不服從
不清楚
不確定因素
不認為
不負所託
不贊成
中國人
中國大陸
中國大陸 
中國涉台智庫
中國特色社會主義
中國統一
中央委員會
中小企業
中華文化總會
中華民族
中評社
主權在民
主權轉移
九二共識
九二共識
互動
亞太經合會
亡國
交接期
交通
人口
人權
仍舊
代工
以假亂真
以商逼政
以後
伊能嘉矩
俄帝
修憲
個人
倒行逆施
傾聽 
僑胞
儘管
優美
先烈
光復
光復大陸
兒童
入聯
內亂
內外交迫
內需
全台
全台
全球化
全球化
兩個中國
兩千三百萬
兩岸
兩岸人民關係條例
兩岸和解
兩岸關係
兩岸關係
公共服務系統
公平
公投
共匪
共產
共產主義
共產邪說
共產集團
共禍
具體
再一次
冷處理
凸顯
分配
副主委
副秘書長
副總統
副董事長
加薪
匪共
匪區
區域和平
區域整合
區域發展
十三億同胞
卡式台胞證
原住民
原住民族
參與
反共
反共抗俄
反對
反攻
反攻復國
叛亂
叛國
可長可久
台大
台灣
台灣模式
司法
合作事業
同理心
同盟會
同胞
向來
命運 
和平
和平協議
和平移轉
和解
喊話
國土規劃
國家
國家主席
國家主權
國家安全
國家情報法
國是會議
國民革命
國父
國父
國立編譯館
國與國關係
國號
國際
國際合作
國際社會
國際組織
土地改革
在一起
地方自治
坐下來談
執政者
基本國策
報復
壓制
外國
多元族群
大約
大老
大陸
大陸同胞
大陸政策
失民心
失蹤
奔馳
奸匪
始終
子虛烏有
字彙
孫中山
安全
對方
對等
對話
就坐
就學
就業
就職典禮
居住
巍巍蕩蕩
工商業
工業化
工程師
已經
平等
年輕
年輕人
年金
廉能
建國
建國方略
建設
建設性
弔民伐罪
影響性
後續
復國
復育
心意相通
意識形態
憲政
憲政改革
憲法
憲法增修條文
戡平叛亂
批評評
投資
抗戰
招搖撞騙
拯救
挑剩
掉以輕心
揮霍
撥雲見日
據了解
擱置
政權
政權和平移轉
政治人物
政治制度
政治對話
政策會
政黨
政黨政治
政黨輪替
教科書
教育
敲鑼打鼓
文化
文化產業
文官
文官制度
文膽
文藝青年
文過飾非
新南向
新南向
新台灣人基金會
新政府


## 列印合於某些詞性註記的字詞

In [None]:
#練習到這

In [20]:
# 列印動詞
tags = jieba.analyse.extract_tags(content,topK=100,allowPOS=('v'))  #查詢這個
print(",".join(tags))

#兩個抓取單詞的方式
#1. TF-IDF
# jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

# sentence為待提取的文本
# topK為返回幾個TF / IDF權重最大的關鍵詞，默認值為20
# withWeight為是否一併返回關鍵詞權重值，默認值為False
# allowPOS僅包括指定詞性的詞，默認值為空，即不篩選
# jieba.analyse.TFIDF（idf_path = None）新建TFIDF實例，idf_path為IDF頻率文件

# 2. TextRank
# jieba.analyse.textrank（sentence, topK=20, withWeight=False, allowPOS=('ns','n','vn','v'））直接使用，接口相同，注意默認過濾詞性。

廉能,公投,腐化,和解,拯救,居住


## 只保留某些詞性的字

In [24]:
# 只保留動詞
result = pseg.cut(content)
allowwords=[]
for w in result:
    if w.flag in ['v']:  
        allowwords.append(w.word)
print (allowwords, end=" ")

['公投', '和解', '居住', '廉能', '拯救', '腐化'] ['公投', '和解', '居住', '廉能', '拯救', '腐化']

In [25]:
# list 改回 空白隔開之string
text2 = r' '.join(allowwords)  
text2

'公投 和解 居住 廉能 拯救 腐化'

# 練習：習近平演說(簡體字)

In [26]:
#設定斷詞字典 
path = 'C:/Users/HSIU/Desktop/108-1/python_ntu/corpus'
jieba.set_dictionary(path+'/dict.txt.big.txt')

## 呼叫自行定義的詞典(增加詞彙) 
jieba.load_userdict(path+'/userdict.txt')

#停用字設定
jieba.del_word('政權和平移轉')
jieba.del_word('自由人')


# 讀取單一檔，編碼為='utf-8'，如果是其他，要查明，如'big-5'  
fname= path+ '/習近平.txt'
content = open(fname,'r', encoding='utf-8').read()

#結巴分詞
result = jieba.cut(content)

#分詞後存成 string
text = ' '.join(result)
seg = text.split(' ')

Building prefix dict from C:\Users\HSIU\Desktop\108-1\python_ntu\corpus\dict.txt.big.txt ...
Loading model from cache C:\Users\HSIU\AppData\Local\Temp\jieba.u6ab43d37eb7d3b30b3db5d18997a0f99.cache
Loading model cost 2.732 seconds.
Prefix dict has been built succesfully.


In [27]:
seg

['同志',
 '們',
 '：',
 '\n',
 '\n',
 '現在',
 '，',
 '我',
 '代表',
 '第十八屆',
 '中央委員會',
 '向',
 '大會',
 '作',
 '報告',
 '。',
 '\n',
 '\n',
 '中國共產黨',
 '第十九次',
 '全國代表大會',
 '，',
 '是',
 '在',
 '全面',
 '建成',
 '小康社會',
 '決勝',
 '階段',
 '、',
 '中國特色社會主義',
 '進入',
 '新時代',
 '的',
 '關鍵時期',
 '召開',
 '的',
 '一次',
 '十分',
 '重要',
 '的',
 '大會',
 '。',
 '\n',
 '\n',
 '大會',
 '的',
 '主題',
 '是',
 '：',
 '不忘',
 '初',
 '心',
 '，',
 '牢記',
 '使命',
 '，',
 '高舉',
 '中國特色社會主義',
 '偉大旗幟',
 '，',
 '決勝',
 '全面',
 '建成',
 '小康社會',
 '，',
 '奪取',
 '新時代',
 '中國特色社會主義',
 '偉大勝利',
 '，',
 '為',
 '實現',
 '中華民族',
 '偉大',
 '復興',
 '的',
 '中國',
 '夢',
 '不懈',
 '奮鬥',
 '。',
 '\n',
 '\n',
 '不忘',
 '初',
 '心',
 '，',
 '方得',
 '始終',
 '。',
 '中國共產黨',
 '人',
 '的',
 '初心',
 '和',
 '使命',
 '，',
 '就是',
 '為',
 '中國',
 '人民',
 '謀',
 '幸福',
 '，',
 '為',
 '中華民族',
 '謀',
 '復興',
 '。',
 '這個',
 '初心',
 '和',
 '使命',
 '是',
 '激勵',
 '中國共產黨',
 '人',
 '不斷前進',
 '的',
 '根本',
 '動力',
 '。',
 '全黨同志',
 '一定',
 '要',
 '永遠',
 '與',
 '人民',
 '同呼吸',
 '、',
 '共命運',
 '、',
 '心連心',
 '，',
 '永遠',
 '把',
 '人民',
 '對',
 '美好生活',
 '的',
 '嚮往',

In [27]:
# 設定斷詞字典  ######
jieba.set_dictionary(path + "corpus/dict.txt.big.txt")    

# 呼叫自行定義的詞典(增加詞彙) 
jieba.load_userdict(path + "corpus/userdict.txt")
    
# 停用字設定，請比較其差異 ######
jieba.del_word('政權和平移轉')
jieba.del_word('自由人')

# 讀取單一檔，編碼為='utf-8'，如果是其他，要查明，如'big-5'                         
fname= path+ 'corpus/china/習近平.txt'
content = open(fname,'r', encoding='utf-8').read()

# 結巴分詞
result = jieba.cut(content)

# 分詞後存成 string
text=' '.join(result)
seg=text.split(' ')

Building prefix dict from D:\My Python\corpus\dict.txt.big.txt ...
Loading model from cache C:\Users\brat\AppData\Local\Temp\jieba.u8b65a825ab313662e292a782f6b39845.cache
Loading model cost 1.600 seconds.
Prefix dict has been built succesfully.


In [28]:
seg

['同志',
 '們',
 '：',
 '\n',
 '\n',
 '現在',
 '，',
 '我',
 '代表',
 '第十八屆',
 '中央委員會',
 '向',
 '大會',
 '作',
 '報告',
 '。',
 '\n',
 '\n',
 '中國共產黨',
 '第十九次',
 '全國代表大會',
 '，',
 '是',
 '在',
 '全面',
 '建成',
 '小康社會',
 '決勝',
 '階段',
 '、',
 '中國特色社會主義',
 '進入',
 '新時代',
 '的',
 '關鍵時期',
 '召開',
 '的',
 '一次',
 '十分',
 '重要',
 '的',
 '大會',
 '。',
 '\n',
 '\n',
 '大會',
 '的',
 '主題',
 '是',
 '：',
 '不忘',
 '初',
 '心',
 '，',
 '牢記',
 '使命',
 '，',
 '高舉',
 '中國特色社會主義',
 '偉大旗幟',
 '，',
 '決勝',
 '全面',
 '建成',
 '小康社會',
 '，',
 '奪取',
 '新時代',
 '中國特色社會主義',
 '偉大勝利',
 '，',
 '為',
 '實現',
 '中華民族',
 '偉大',
 '復興',
 '的',
 '中國',
 '夢',
 '不懈',
 '奮鬥',
 '。',
 '\n',
 '\n',
 '不忘',
 '初',
 '心',
 '，',
 '方得',
 '始終',
 '。',
 '中國共產黨',
 '人',
 '的',
 '初心',
 '和',
 '使命',
 '，',
 '就是',
 '為',
 '中國',
 '人民',
 '謀',
 '幸福',
 '，',
 '為',
 '中華民族',
 '謀',
 '復興',
 '。',
 '這個',
 '初心',
 '和',
 '使命',
 '是',
 '激勵',
 '中國共產黨',
 '人',
 '不斷前進',
 '的',
 '根本',
 '動力',
 '。',
 '全黨同志',
 '一定',
 '要',
 '永遠',
 '與',
 '人民',
 '同呼吸',
 '、',
 '共命運',
 '、',
 '心連心',
 '，',
 '永遠',
 '把',
 '人民',
 '對',
 '美好生活',
 '的',
 '嚮往',

In [16]:
#練習到這裡 05:19

# 例一：如果有多篇文章
* 多篇文章置於 d:/My Python/corpus/president

In [30]:
import os
# List 記錄所有的檔名
doc_list = []
# 指定資料夾
os.chdir(path + "/corpus/president")
# 找出所有.txt 檔，開頭不是 _ 者
for f in os.listdir("."):
     if f.endswith(".txt") and not f.startswith("_"):
        # 第一個字母會是亂碼，先去除    
        f=re.sub("\ufeff","",f)        
        doc_list.append(f)       
print (len(doc_list))
doc_list

14


['李登輝第九任.txt',
 '李登輝第八任.txt',
 '蔡英文第十四任.txt',
 '蔣中正第一任.txt',
 '蔣中正第三任.txt',
 '蔣中正第二任.txt',
 '蔣中正第五任.txt',
 '蔣中正第四任.txt',
 '蔣經國第七任.txt',
 '蔣經國第六任.txt',
 '陳水扁第十一任.txt',
 '陳水扁第十任.txt',
 '馬英九第十三任.txt',
 '馬英九第十二任.txt']

In [52]:
# 文章清單
doc_list=['蔣中正第一任.txt', '蔣中正第二任.txt','蔣中正第三任.txt','蔣中正第四任.txt','蔣中正第五任.txt','蔣經國第六任.txt', 
          '蔣經國第七任.txt', '李登輝第八任.txt','李登輝第九任.txt', '陳水扁第十任.txt', '陳水扁第十一任.txt' , 
          '馬英九第十二任.txt','馬英九第十三任.txt','蔡英文第十四任.txt']

# 設定斷詞字典
jieba.set_dictionary(path + "corpus/dict.txt.big.txt")    
   
# 增加新詞，字典可以隨時叫出修改， 增添新的詞彙。 
jieba.load_userdict(path + "corpus/userdict.txt")   

doc=[]
token=[]
i=0
for f in doc_list: 
        i+=1
        # 完整檔名
        file_name=path + 'corpus/president/' + f
        # 讀取檔案，注意格式為 'utf8'，若為 big5 無毋 encoding。
        content = open(file_name,'r',encoding='utf8').read()  
        
        # 異體字轉換
        content=re.sub("台","臺",content)
        content=re.sub("「","",content)
        content=re.sub("」","",content)

        # 刪除中文的空格符號，這些看起來像是亂碼先刪除
        content=re.sub("\ufeff","",content)
        content=re.sub("\u3000","",content)        

        # 結巴分詞，引數為 string。
        result = jieba.cut(content)        
        # 讀取中文斷詞結果，存為 string，中間以空白隔開
        seg=''
        for word in result:
            seg= seg + word+' '                           
        doc.append(content)    
        token.append(seg)    
           
        # 每處理完10篇文章，報告進度。******    
        if i%10==0:
            print (i, 'done')

Building prefix dict from D:\My Python\corpus\dict.txt.big.txt ...
Loading model from cache C:\Users\brat\AppData\Local\Temp\jieba.u8b65a825ab313662e292a782f6b39845.cache
Loading model cost 1.611 seconds.
Prefix dict has been built succesfully.


10 done


In [53]:
print (len(texts))
texts[0]

14


'中正 承 國民大會 依照 憲法 選舉 為 中華民國 總統 ， 擔任 國家 和 人民 的 公僕 ， 當 此 就職 伊始 ， 追念 我國 父 和 先烈 締造 民國 的 艱難 ， 省察 我 國家 民族所 處 的 環境 ， 以及 全體 同胞 的 期望 ， 深深 感覺 到 責任重大 ， 負荷 艱鉅 。 我 自從 許身 國事 以來 ， 一向 祗 知道 效忠 服務 是 自己 的 天職 ， 今天 膺 此 名位 ， 實非 本懷 。 廿年 來 內憂外患 接踵而至 ， 因 長期 的 抗戰 與 戡亂 而 未能 達成 建設 的 目標 ， 深自怍愧 。 今後 我們 全國 不僅 在 戡亂 中要 建立 民主 ， 更 應從 戡亂 中求 建設 、 求 進步 ， 這個 救國 的 大業 不是 一手一足 所 能 成功 ， 亦 不是 一朝一夕 所能 集事 。 既 承 國民 課 我 以 責任 ， 更望 國民 給我以 助力 ， 特 就 今後 國家 的 需要 ， 政府 人民 共同努力 的 方針 ， 掬 其 誠 悃 ， 告 我 全國同胞 。 \n 實行 憲政 是 中華民國 前所未有 的 大事 ， 我們 經歷 無數 的 犧牲 困難 和 挫折 ， 纔 能 完成 今日 實施 憲政 的 程序 ， 這是 長期 苦鬥 所獲 的 結果 ， 這是 五十餘年 來 我 革命 抗戰 先烈 和 全體 軍民 流血流汗 的 結晶 ， 我們 必須 珍護 這一 艱難 創造 的 成果 ， 每 一個 人 都 有 神聖 的 責任 。 行憲 是 為 了 國家 的 前途 ， 也 為 了 人民 的 福利 ， 如果 國家 不能 因 行憲 而 達到 統一 、 獨立 、 繁榮 ， 人民 不能 因 行憲 而 得到 幸福 和 進步 ， 則 行憲 將失 其 意義 。 行憲 以後 第一個 要務 就是 使 憲法 不祗 是 文字 ， 而 要 見諸 實行 。 因 之 ， 嚴格 遵行 這 一部 憲法 ， 是 行憲 政府 的 責任 ， 也 是 全國同胞 每 一個 人 應有 的 責任 。 國家 的 主權 在於 全體 人民 ， 救國 建國 的 責任 ， 也 就 在於 全體 人民 。 在 行憲 之始 ， 更 須 全體 國民 盡責 守紀 ， 人人 有 奉公守法 的 精神 ， 養成 先公後私 的 習慣 ， 纔 能 達成 這次 行憲 的 目的 。 我們 必須 尊重 憲法 ， 實行 憲法 ， 確

## 存檔

In [54]:
doc_list=['蔣中正第一任.txt', '蔣中正第二任.txt','蔣中正第三任.txt','蔣中正第四任.txt','蔣中正第五任.txt','蔣經國第六任.txt', 
          '蔣經國第七任.txt', '李登輝第八任.txt','李登輝第九任.txt', '陳水扁第十任.txt', '陳水扁第十一任.txt' , 
          '馬英九第十二任.txt','馬英九第十三任.txt','蔡英文第十四任.txt']

In [55]:
import pickle
# save
with open(path + "data/president_seg.pkl", "wb") as fp:   #Pickling
     pickle.dump(texts, fp)
# read
with open(path + "data/president_seg.pkl", "rb") as fp:   # Unpickling
     texts=pickle.load(fp)
     

In [58]:
import pandas as pd
data=list(zip(doc_list,doc,token))
df=pd.DataFrame(data,columns=['title','doc','token'])

In [59]:
df

Unnamed: 0,title,doc,token
0,蔣中正第一任.txt,中正承國民大會依照憲法選舉為中華民國總統，擔任國家和人民的公僕，當此就職伊始，追念我國父和先...,中正 承 國民大會 依照 憲法 選舉 為 中華民國 總統 ， 擔任 國家 和 人民 的 公僕...
1,蔣中正第二任.txt,我大陸淪陷，已經四載。全體同胞正遭受著俄寇及其傀儡朱毛，殘殺迫害，呼號引領，急切待援之時；中...,我 大陸 淪陷 ， 已經 四載 。 全體 同胞 正 遭受 著俄寇 及其 傀儡 朱毛 ， 殘殺...
2,蔣中正第三任.txt,國民大會第三次會議，重新選舉中正，賦予先復大陸，重建中華，維護國家領土主權，解救同胞生命自由...,國民大會 第三次 會議 ， 重新 選舉 中正 ， 賦予 先 復 大陸 ， 重建 中華 ， 維...
3,蔣中正第四任.txt,國民大會第四次會議，根據憲法，代表全國人民，選舉中正繼續擔任中華民國第四任總統，並制定戰時授...,國民大會 第四次 會議 ， 根據 憲法 ， 代表 全國 人民 ， 選舉 中正 繼續 擔任 中...
4,蔣中正第五任.txt,中正今天再度接受全國國民之付託，國民大會之推選，宣誓就任中華民國第五任總統，實深感於現階段在...,中正 今天 再度 接受 全國 國民 之 付託 ， 國民大會 之 推選 ， 宣誓 就任 中華民...
5,蔣經國第六任.txt,國民大會受國民付託，依據憲法，選舉經國為中華民國第六任總統，今天經國和謝東閔副總統宣誓就職，...,國民大會 受 國民 付託 ， 依據 憲法 ， 選舉 經國 為 中華民國 第六任 總統 ， 今...
6,蔣經國第七任.txt,親愛的全國同胞們、諸位貴賓：\n國民大會第七次會議，選舉經國為中華民國第七任總統，今天和李登...,親愛 的 全國 同胞們 、 諸位 貴賓 ： \n 國民大會 第七次 會議 ， 選舉 經國 為...
7,李登輝第八任.txt,親愛的全國同胞、各位貴賓：\n國民大會第八次會議選舉登輝為中華民國第八任總統，今天和李副總統...,親愛 的 全國同胞 、 各位 貴賓 ： \n 國民大會 第八次 會議 選舉 登輝 為 中華民...
8,李登輝第九任.txt,各位遠道而來的友邦元首、各位特使、外交團的各位使節、各位貴賓、各位親愛的父老兄弟姐妹：\n今...,各位 遠道而來 的 友邦 元首 、 各位 特使 、 外交團 的 各位 使節 、 各位 貴賓 ...
9,陳水扁第十任.txt,各位友邦元首、各位貴賓、各位親愛的海內外同胞：\n這是一個光榮的時刻，也是一個莊嚴而充滿希望...,各位 友邦 元首 、 各位 貴賓 、 各位 親愛 的 海內外 同胞 ： \n 這是 一個 光...


In [60]:
with open(path+"data/doc_token.pkl", "wb") as fp:   #Pickling
     pickle.dump(df, fp)

In [61]:
path='D:/My Python/'
df = pandas.read_pickle(path+"data/doc_token.pkl")
df

Unnamed: 0,title,doc,token
0,蔣中正第一任.txt,中正承國民大會依照憲法選舉為中華民國總統，擔任國家和人民的公僕，當此就職伊始，追念我國父和先...,中正 承 國民大會 依照 憲法 選舉 為 中華民國 總統 ， 擔任 國家 和 人民 的 公僕...
1,蔣中正第二任.txt,我大陸淪陷，已經四載。全體同胞正遭受著俄寇及其傀儡朱毛，殘殺迫害，呼號引領，急切待援之時；中...,我 大陸 淪陷 ， 已經 四載 。 全體 同胞 正 遭受 著俄寇 及其 傀儡 朱毛 ， 殘殺...
2,蔣中正第三任.txt,國民大會第三次會議，重新選舉中正，賦予先復大陸，重建中華，維護國家領土主權，解救同胞生命自由...,國民大會 第三次 會議 ， 重新 選舉 中正 ， 賦予 先 復 大陸 ， 重建 中華 ， 維...
3,蔣中正第四任.txt,國民大會第四次會議，根據憲法，代表全國人民，選舉中正繼續擔任中華民國第四任總統，並制定戰時授...,國民大會 第四次 會議 ， 根據 憲法 ， 代表 全國 人民 ， 選舉 中正 繼續 擔任 中...
4,蔣中正第五任.txt,中正今天再度接受全國國民之付託，國民大會之推選，宣誓就任中華民國第五任總統，實深感於現階段在...,中正 今天 再度 接受 全國 國民 之 付託 ， 國民大會 之 推選 ， 宣誓 就任 中華民...
5,蔣經國第六任.txt,國民大會受國民付託，依據憲法，選舉經國為中華民國第六任總統，今天經國和謝東閔副總統宣誓就職，...,國民大會 受 國民 付託 ， 依據 憲法 ， 選舉 經國 為 中華民國 第六任 總統 ， 今...
6,蔣經國第七任.txt,親愛的全國同胞們、諸位貴賓：\n國民大會第七次會議，選舉經國為中華民國第七任總統，今天和李登...,親愛 的 全國 同胞們 、 諸位 貴賓 ： \n 國民大會 第七次 會議 ， 選舉 經國 為...
7,李登輝第八任.txt,親愛的全國同胞、各位貴賓：\n國民大會第八次會議選舉登輝為中華民國第八任總統，今天和李副總統...,親愛 的 全國同胞 、 各位 貴賓 ： \n 國民大會 第八次 會議 選舉 登輝 為 中華民...
8,李登輝第九任.txt,各位遠道而來的友邦元首、各位特使、外交團的各位使節、各位貴賓、各位親愛的父老兄弟姐妹：\n今...,各位 遠道而來 的 友邦 元首 、 各位 特使 、 外交團 的 各位 使節 、 各位 貴賓 ...
9,陳水扁第十任.txt,各位友邦元首、各位貴賓、各位親愛的海內外同胞：\n這是一個光榮的時刻，也是一個莊嚴而充滿希望...,各位 友邦 元首 、 各位 貴賓 、 各位 親愛 的 海內外 同胞 ： \n 這是 一個 光...


# 作業:  
* 針對你爬蟲的一千篇文章，結巴斷詞，
* 檢查斷詞的正確性，增加自建字典，去除停用字，以提高斷詞正確率。
* 每篇文章為字串，字詞間以空白隔開。各篇文章組成 list。
* 抓出年月日時間資訊
* 存成 dataframe，含原始文本(doc)與斷詞後的文本(token)
* save pickle 檔。 
* 作業繳交.ipynb, pickle 檔，自建字典 txt 檔。同時要介紹你的資料來源、性質、可能的應用。
