# 中文 NLP

## 簡體字分詞

In [1]:
# 載入相關套件
import numpy as np
import jieba

# 分詞
text = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"
# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精確模式
seg_list = jieba.cut(text, cut_all=False)
print("精確模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\mikec\AppData\Local\Temp\jieba.cache
Loading model cost 0.553 seconds.
Prefix dict has been built successfully.


全模式: 小/ 明/ 硕士/ 毕业/ 于/ 中国/ 中国科学院/ 科学/ 科学院/ 学院/ 计算/ 计算所/ ，/ 后/ 在/ 日本/ 日本京都大学/ 京都/ 京都大学/ 大学/ 深造
精確模式: 小明/ 硕士/ 毕业/ 于/ 中国科学院/ 计算所/ ，/ 后/ 在/ 日本京都大学/ 深造
搜索引擎模式:  小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


## 繁體字分詞

In [2]:
# 設定繁體字典
jieba.set_dictionary('./jieba/dict.txt')

# 分詞
text = "新竹的交通大學在新竹的大學路上"

# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精確模式
seg_list = jieba.cut(text, cut_all=False)
print("精確模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

Building prefix dict from F:\0_AI\Books\以100張圖理解深度學習\code\jieba\dict.txt ...
Loading model from cache C:\Users\mikec\AppData\Local\Temp\jieba.ub261639f1be4696093696d8b40cee700.cache
Loading model cost 0.441 seconds.
Prefix dict has been built successfully.


全模式: 新竹/ 的/ 交通/ 交通大/ 大學/ 在/ 新竹/ 的/ 大學/ 大學路/ 學路/ 路上
精確模式: 新竹/ 的/ 交通/ 大學/ 在/ 新竹/ 的/ 大學路/ 上
搜索引擎模式:  新竹, 的, 交通, 大學, 在, 新竹, 的, 大學, 學路, 大學路, 上


## 分詞，並顯示字詞位置

In [15]:
text = "新竹的交通大學在新竹的大學路上"
result = jieba.tokenize(text)
print("單字\t開始位置\t結束位置")
for tk in result:
    print(f"{tk[0]}\t{tk[1]:-2d}\t{tk[2]:-2d}")

單字	開始位置	結束位置
新竹	 0	 2
的	 2	 3
交通	 3	 5
大學	 5	 7
在	 7	 8
新竹	 8	10
的	10	11
大學路	11	14
上	14	15


## 加詞

In [3]:
# 測試語句
text = "張惠妹在演唱會演唱三天三夜"

# 加詞前的分詞
seg_list = jieba.cut(text, cut_all=False)
print("加詞前的分詞: " + "/ ".join(seg_list))  

# 加詞
jieba.add_word('三天三夜')

seg_list = jieba.cut(text, cut_all=False)
print("加詞後的分詞: " + "/ ".join(seg_list))  

加詞前的分詞: 張惠妹/ 在/ 演唱會/ 演唱/ 三天三/ 夜
加詞後的分詞: 張惠妹/ 在/ 演唱會/ 演唱/ 三天三夜


## 關鍵字萃取

In [5]:
# 測試語句來自新聞 https://news.ltn.com.tw/news/life/breakingnews/3497315
with open('./jieba/news.txt', encoding='utf8') as f:
    text = f.read()

# 加詞前的分詞
import jieba.analyse

jieba.analyse.extract_tags(text, topK=10)  

['百貨公司', '水車', '中友', '用水', '限水', '封閉', '數間', '公廁', '因應', '20']

## 關鍵字萃取

In [7]:
# 測試語句來自新聞 https://news.ltn.com.tw/news/life/breakingnews/3497315
with open('./jieba/news.txt', encoding='utf8') as f:
    text = f.read()

import jieba.analyse

# 設定停用詞
jieba.analyse.set_stop_words('./jieba/stop_words.txt')     
    
# 加詞前的分詞
jieba.analyse.extract_tags(text, topK=10)  

['百貨公司', '水車', '中友', '用水', '限水', '封閉', '數間', '公廁', '百貨', '週二']

## 詞性(POS)標註

In [9]:
# 測試語句
text = "張惠妹在演唱會演唱三天三夜"

# 詞性(POS)標註
words = jieba.posseg.cut(text)     
for word, flag in words:
    print(f'{word} {flag}')

張惠妹 N
在 P
演唱會 N
演唱 Vt
三天三夜 x
