# 中文 NLP

## 简体字分词

In [33]:
!pip install jieba



In [34]:
# 测试语句来自新闻 http://finance.people.com.cn/n1/2021/0902/c1004-32215242.html
# 载入相关套件
import numpy as np
import jieba

# 分词
text = "增加用户数量和使用黏性，提升平台活跃度，提高平台在广告谈判中的议价能力"
# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精确模式
seg_list = jieba.cut(text, cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

全模式: 增加/ 用/ 户/ 数量/ 和/ 使用/ 黏性/ ，/ 提升/ 平台/ 活/ 跃/ 度/ ，/ 提高/ 高平/ 平台/ 在/ 广/ 告/ 谈/ 判中/ 的/ 议/ 价/ 能力
精确模式: 增加/ 用户/ 数量/ 和/ 使用/ 黏性/ ，/ 提升/ 平台/ 活跃度/ ，/ 提高/ 平台/ 在/ 广告/ 谈判/ 中/ 的/ 议价/ 能力
搜索引擎模式:  增加, 用户, 数量, 和, 使用, 黏性, ，, 提升, 平台, 活跃度, ，, 提高, 平台, 在, 广告, 谈判, 中, 的, 议价, 能力


## 繁体字分词

In [35]:
# 设定繁体字典
jieba.set_dictionary('./jieba/dict.txt')

# 分词
text = "新竹的交通大學在新竹的大學路上"

# cut_all=True：全模式
seg_list = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(seg_list))  

# cut_all=False：精确模式
seg_list = jieba.cut(text, cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  

# cut_for_search：搜索引擎模式
seg_list = jieba.cut_for_search(text)  
print('搜索引擎模式: ', ', '.join(seg_list))

Building prefix dict from D:\編書\簡體版\src_S\jieba\dict.txt ...
Loading model from cache C:\Users\Ariel\AppData\Local\Temp\jieba.u04883f32edfe54b4952c7a2a2ed9b00c.cache
Loading model cost 0.553 seconds.
Prefix dict has been built successfully.


全模式: 新竹/ 的/ 交通/ 交通大/ 大學/ 在/ 新竹/ 的/ 大學/ 大學路/ 學路/ 路上
精确模式: 新竹/ 的/ 交通/ 大學/ 在/ 新竹/ 的/ 大學路/ 上
搜索引擎模式:  新竹, 的, 交通, 大學, 在, 新竹, 的, 大學, 學路, 大學路, 上


## 分词，并显示字词位置

In [36]:
text = "新竹的交通大学在新竹的大学路上"
result = jieba.tokenize(text)
print("单字\t开始位置\t结束位置")
for tk in result:
    print(f"{tk[0]}\t{tk[1]:-2d}\t{tk[2]:-2d}")

单字	开始位置	结束位置
新竹	 0	 2
的	 2	 3
交通	 3	 5
大学	 5	 7
在	 7	 8
新竹	 8	10
的	10	11
大学路	11	14
上	14	15


## 加词

In [37]:
# 测试语句
text = "张惠妹在演唱会演唱三天三夜"

# 加词前的分词
seg_list = jieba.cut(text, cut_all=False)
print("加词前的分词: " + "/ ".join(seg_list))  

# 加词
jieba.add_word('张惠妹')
jieba.add_word('演唱会')
jieba.add_word('三天三夜')

seg_list = jieba.cut(text, cut_all=False)
print("加词后的分词: " + "/ ".join(seg_list))  

加词前的分词: 张/ 惠妹/ 在/ 演唱/ 会/ 演唱/ 三天三/ 夜
加词后的分词: 张惠妹/ 在/ 演唱会/ 演唱/ 三天三夜


## 关键字萃取

In [38]:
# 测试语句来自新闻 http://finance.people.com.cn/n1/2021/0902/c1004-32215242.html5
with open('./jieba/news_s.txt', encoding='utf8') as f:
    text = f.read()

# 加词前的分词
import jieba.analyse

jieba.analyse.extract_tags(text, topK=10)  

['平台', '用户', '互联网', '算法', '推送', '信息', '推荐', '这本来', '知用户', '过分读']

## 关键字萃取

In [41]:
# 测试语句来自新闻 http://finance.people.com.cn/n1/2021/0902/c1004-32215242.html
with open('./jieba/news_s.txt', encoding='utf8') as f:
    text = f.read()

import jieba.analyse

# 设定停用词
jieba.analyse.set_stop_words('./jieba/stop_words_s.txt')     
    
# 加词前的分词
jieba.analyse.extract_tags(text, topK=10)  

['平台', '用户', '互联网', '算法', '推送', '信息', '推荐', '户数据', '这无疑', '工具人']

## 词性(POS)标注

In [40]:
# 测试语句
text = "张惠妹在演唱会演唱三天三夜"

# 加词
jieba.add_word('张惠妹')
jieba.add_word('演唱会')
jieba.add_word('三天三夜')

# 词性(POS)标注
words = jieba.posseg.cut(text)     
for word, flag in words:
    print(f'{word} {flag}')

张惠妹 x
在 P
演唱会 x
演唱 Vt
三天三夜 x
