# 中文 NLP

## 簡體字分詞

In [2]:
!pip install jieba

Collecting jieba
  Downloading jieba-0.42.1.tar.gz (19.2 MB)
     ---------------------------------------- 0.0/19.2 MB ? eta -:--:--
     - -------------------------------------- 0.8/19.2 MB 8.3 MB/s eta 0:00:03
     ------------ --------------------------- 6.0/19.2 MB 24.6 MB/s eta 0:00:01
     ---------------------- ---------------- 11.3/19.2 MB 23.5 MB/s eta 0:00:01
     ------------------------------------ -- 17.8/19.2 MB 26.1 MB/s eta 0:00:01
     --------------------------------------- 19.2/19.2 MB 26.4 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: jieba
  Building wheel for jieba (setup.py): started
  Building wheel for jieba (setup.py): finished with status 'done'
  Created wheel for jieba: filename=jieba-0.42.1-py3-none-any.whl size=19314474 sha256=5d87893d7ccbe42f856ee5a8e66b4afffeff28f76529fcbbe55b6a8c5d4179b3
  Stored in directory: c:\users\mikec\appdata\local\pi

In [3]:
# 載入相關套件
import numpy as np
import jieba

# 分詞
text = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"
# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精確模式
seg_list = jieba.cut(text, cut_all=False)
print("精確模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\mikec\AppData\Local\Temp\jieba.cache
Loading model cost 0.784 seconds.
Prefix dict has been built successfully.


全模式: 小/ 明/ 硕士/ 毕业/ 于/ 中国/ 中国科学院/ 科学/ 科学院/ 学院/ 计算/ 计算所/ ，/ 后/ 在/ 日本/ 日本京都大学/ 京都/ 京都大学/ 大学/ 深造
精確模式: 小明/ 硕士/ 毕业/ 于/ 中国科学院/ 计算所/ ，/ 后/ 在/ 日本京都大学/ 深造
搜索引擎模式:  小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


## 繁體字分詞

In [5]:
# 設定繁體字典
jieba.set_dictionary('../jieba/dict.txt')

# 分詞
text = "新竹的交通大學在新竹的大學路上"

# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精確模式
seg_list = jieba.cut(text, cut_all=False)
print("精確模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

Building prefix dict from D:\0_AI\Books\Tensorflow\00_V2\src\jieba\dict.txt ...
Dumping model to file cache C:\Users\mikec\AppData\Local\Temp\jieba.u517a36f7f6d8b67f5dd99a9ed7543d1d.cache
Loading model cost 0.699 seconds.
Prefix dict has been built successfully.


全模式: 新竹/ 的/ 交通/ 交通大/ 大學/ 在/ 新竹/ 的/ 大學/ 大學路/ 學路/ 路上
精確模式: 新竹/ 的/ 交通/ 大學/ 在/ 新竹/ 的/ 大學路/ 上
搜索引擎模式:  新竹, 的, 交通, 大學, 在, 新竹, 的, 大學, 學路, 大學路, 上


## 分詞，並顯示字詞位置

In [6]:
text = "新竹的交通大學在新竹的大學路上"
result = jieba.tokenize(text)
print("單字\t開始位置\t結束位置")
for tk in result:
    print(f"{tk[0]}\t{tk[1]:-2d}\t{tk[2]:-2d}")

單字	開始位置	結束位置
新竹	 0	 2
的	 2	 3
交通	 3	 5
大學	 5	 7
在	 7	 8
新竹	 8	10
的	10	11
大學路	11	14
上	14	15


## 加詞

In [7]:
# 測試語句
text = "張惠妹在演唱會演唱三天三夜"

# 加詞前的分詞
seg_list = jieba.cut(text, cut_all=False)
print("加詞前的分詞: " + "/ ".join(seg_list))  

# 加詞
jieba.add_word('三天三夜')

seg_list = jieba.cut(text, cut_all=False)
print("加詞後的分詞: " + "/ ".join(seg_list))  

加詞前的分詞: 張惠妹/ 在/ 演唱會/ 演唱/ 三天三/ 夜
加詞後的分詞: 張惠妹/ 在/ 演唱會/ 演唱/ 三天三夜


## 關鍵字萃取

In [9]:
# 測試語句來自新聞 https://news.ltn.com.tw/news/life/breakingnews/3497315
with open('../jieba/news.txt', encoding='utf8') as f:
    text = f.read()

# 加詞前的分詞
import jieba.analyse

jieba.analyse.extract_tags(text, topK=10)  

['水車', '因應', '停水', '用水', '百貨公司', '20', '餐廳', '中友', '限水', '封閉']

## 關鍵字萃取

In [11]:
# 測試語句來自新聞 https://news.ltn.com.tw/news/life/breakingnews/3497315
with open('../jieba/news.txt', encoding='utf8') as f:
    text = f.read()

import jieba.analyse

# 設定停用詞
jieba.analyse.set_stop_words('../jieba/stop_words.txt')     
    
# 加詞前的分詞
jieba.analyse.extract_tags(text, topK=10)  

['百貨公司', '水車', '中友', '用水', '限水', '封閉', '數間', '公廁', '百貨', '週二']

## 詞性(POS)標註

In [12]:
# 測試語句
text = "張惠妹在演唱會演唱三天三夜"

# 詞性(POS)標註
words = jieba.posseg.cut(text)     
for word, flag in words:
    print(f'{word} {flag}')

張惠妹 N
在 P
演唱會 N
演唱 Vt
三天三夜 x
