# 中文 NLP

## 简体字分词

In [1]:
# 载入相关套件
import numpy as np
import jieba

# 分词
text = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"
# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精确模式
seg_list = jieba.cut(text, cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\WINDOWS\TEMP\jieba.cache
Loading model cost 0.630 seconds.
Prefix dict has been built successfully.


全模式: 小/ 明/ 硕士/ 毕业/ 于/ 中国/ 中国科学院/ 科学/ 科学院/ 学院/ 计算/ 计算所/ ，/ 后/ 在/ 日本/ 日本京都大学/ 京都/ 京都大学/ 大学/ 深造
精确模式: 小明/ 硕士/ 毕业/ 于/ 中国科学院/ 计算所/ ，/ 后/ 在/ 日本京都大学/ 深造
搜索引擎模式:  小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


## 繁体字分词

In [3]:
# 设定繁体字典
jieba.set_dictionary('./jieba/dict.txt')

# 分词
text = "新竹的交通大學在新竹的大學路上"

# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精确模式
seg_list = jieba.cut(text, cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

Building prefix dict from F:\0_AI\Books\PyTorch\簡體\src_cn\jieba\dict.txt ...
Dumping model to file cache C:\WINDOWS\TEMP\jieba.u18c15c540fdb5e937d9c29c59f2cc217.cache
Loading model cost 0.544 seconds.
Prefix dict has been built successfully.


全模式: 新竹/ 的/ 交通/ 交通大/ 大學/ 在/ 新竹/ 的/ 大學/ 大學路/ 學路/ 路上
精确模式: 新竹/ 的/ 交通/ 大學/ 在/ 新竹/ 的/ 大學路/ 上
搜索引擎模式:  新竹, 的, 交通, 大學, 在, 新竹, 的, 大學, 學路, 大學路, 上


## 分词，并显示字词位置

In [4]:
text = "新竹的交通大学在新竹的大学路上"
result = jieba.tokenize(text)
print("单字\t开始位置\t结束位置")
for tk in result:
    print(f"{tk[0]}\t{tk[1]:-2d}\t{tk[2]:-2d}")

单字	开始位置	结束位置
新竹	 0	 2
的	 2	 3
交通	 3	 5
大学	 5	 7
在	 7	 8
新竹	 8	10
的	10	11
大学路	11	14
上	14	15


## 加词

In [5]:
# 测试语句
text = "张惠妹在演唱会演唱三天三夜"

# 加词前的分词
seg_list = jieba.cut(text, cut_all=False)
print("加词前的分词: " + "/ ".join(seg_list))  

# 加词
jieba.add_word('三天三夜')

seg_list = jieba.cut(text, cut_all=False)
print("加词后的分词: " + "/ ".join(seg_list))  

加词前的分词: 张/ 惠妹/ 在/ 演唱/ 会/ 演唱/ 三天三/ 夜
加词后的分词: 张/ 惠妹/ 在/ 演唱/ 会/ 演唱/ 三天三夜


## 关键字萃取

In [6]:
# 测试语句来自新闻 https://news.ltn.com.tw/news/life/breakingnews/3497315
with open('./jieba/news.txt', encoding='utf8') as f:
    text = f.read()

# 加词前的分词
import jieba.analyse

jieba.analyse.extract_tags(text, topK=10)  

['百貨公司', '水車', '中友', '用水', '限水', '封閉', '數間', '公廁', '因應', '20']

## 设定停用词

In [7]:
with open('./jieba/news.txt', encoding='utf8') as f:
    text = f.read()

import jieba.analyse

# 设定停用词
jieba.analyse.set_stop_words('./jieba/stop_words.txt')     
    
# 加词前的分词
jieba.analyse.extract_tags(text, topK=10)  

['百貨公司', '水車', '中友', '用水', '限水', '封閉', '數間', '公廁', '百貨', '週二']

## 词性(POS)标注

In [11]:
# 设定简体字典
jieba.set_dictionary('jieba/dict_org.txt')

# 测试语句
text = "张惠妹在演唱会演唱三天三夜"

# 词性(POS)标注
words = jieba.posseg.cut(text)     
for word, flag in words:
    print(f'{word} {flag}')

Building prefix dict from F:\0_AI\Books\PyTorch\簡體\src_cn\jieba\dict_org.txt ...
Dumping model to file cache C:\WINDOWS\TEMP\jieba.u41379fd7e2fad37cbc13067380f66812.cache
Loading model cost 0.654 seconds.
Prefix dict has been built successfully.


张惠妹 x
在 P
演唱会 x
演唱 Vt
三天三夜 x
