# 分词工具测试
- 直接切分
- jieba
- hanLP

## 实验数据
- cmn.txt

## 读取数据

In [1]:
with open('cmn.txt', 'r', encoding='utf-8') as f:
    data = f.readlines()

data = data[:10]
print('总数据：\n', data)

总数据：
 ['Hi.\t嗨。\n', 'Hi.\t你好。\n', 'Run.\t你用跑的。\n', 'Wait!\t等等！\n', 'Hello!\t你好。\n', 'I try.\t让我来。\n', 'I won!\t我赢了。\n', 'Oh no!\t不会吧。\n', 'Cheers!\t乾杯!\n', 'He ran.\t他跑了。\n']


## 直接切分

In [2]:
en_list = [line.split('\t')[0] for line in data]
print('\n英文数据：\n', en_list)

ch_list = [line.split('\t')[1].strip('\n') for line in data]
print('\n中文数据：\n', ch_list)

en_vocab = sorted(set(''.join(en_list)))
print('直接分词英文字典：\n', en_vocab)

ch_vocab = sorted(set(''.join(ch_list)))
print('\n直接分词中文字典：\n', ch_vocab)


英文数据：
 ['Hi.', 'Hi.', 'Run.', 'Wait!', 'Hello!', 'I try.', 'I won!', 'Oh no!', 'Cheers!', 'He ran.']

中文数据：
 ['嗨。', '你好。', '你用跑的。', '等等！', '你好。', '让我来。', '我赢了。', '不会吧。', '乾杯!', '他跑了。']
直接分词英文字典：
 [' ', '!', '.', 'C', 'H', 'I', 'O', 'R', 'W', 'a', 'e', 'h', 'i', 'l', 'n', 'o', 'r', 's', 't', 'u', 'w', 'y']

直接分词中文字典：
 ['!', '。', '不', '乾', '了', '他', '会', '你', '吧', '嗨', '好', '我', '来', '杯', '用', '的', '等', '让', '赢', '跑', '！']


## 结巴分词工具

详细功能查阅：[jieba github](https://github.com/fxsjy/jieba)

结巴能够添加自己词库的功能


In [3]:
import jieba

jieba_en_list = [jieba.lcut(line) for line in en_list]
print('英文数据——结巴分词：\n', jieba_en_list)

jieba_ch_list = [jieba.lcut(line) for line in ch_list]
print('\n中文数据——结巴分词：\n', jieba_ch_list)

jieba_en_vocab =[char for line in jieba_en_list for char in line]
jieba_en_vocab = sorted(set(jieba_en_vocab))
print('\njieba分词英文字典：\n', jieba_en_vocab)

jieba_ch_vocab =[char for line in jieba_ch_list for char in line]
jieba_ch_vocab = sorted(set(jieba_ch_vocab))
print('\njieba分词中文字典：\n', jieba_ch_vocab)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Hongwen\AppData\Local\Temp\jieba.cache
Loading model cost 0.748 seconds.
Prefix dict has been built succesfully.


英文数据——结巴分词：
 [['Hi', '.'], ['Hi', '.'], ['Run', '.'], ['Wait', '!'], ['Hello', '!'], ['I', ' ', 'try', '.'], ['I', ' ', 'won', '!'], ['Oh', ' ', 'no', '!'], ['Cheers', '!'], ['He', ' ', 'ran', '.']]

中文数据——结巴分词：
 [['嗨', '。'], ['你好', '。'], ['你', '用', '跑', '的', '。'], ['等等', '！'], ['你好', '。'], ['让', '我', '来', '。'], ['我', '赢', '了', '。'], ['不会', '吧', '。'], ['乾杯', '!'], ['他', '跑', '了', '。']]

jieba分词英文字典：
 [' ', '!', '.', 'Cheers', 'He', 'Hello', 'Hi', 'I', 'Oh', 'Run', 'Wait', 'no', 'ran', 'try', 'won']

jieba分词中文字典：
 ['!', '。', '不会', '乾杯', '了', '他', '你', '你好', '吧', '嗨', '我', '来', '用', '的', '等等', '让', '赢', '跑', '！']


## HanLP分词工具

python调用：[pyhanlp](https://github.com/hankcs/pyhanlp)

主项目文档：[详细文档](https://github.com/hankcs/HanLP)
- 执行：
`pip install hanlp`

- 报错先执行：
`conda install -c conda-forge jpype1`_(使用anaconda）_

In [4]:
from pyhanlp import *

print([ term.word for term in HanLP.segment('你好，欢迎在Python中调用HanLP的API')])

for term in HanLP.segment('下雨天地面积水'):
    print('{}\t{}'.format(term.word, term.nature)) # 获取单词与词性

testCases = [
    "商品和服务",
    "结婚的和尚未结婚的确实在干扰分词啊",
    "买水果然后来世博园最后去世博会",
    "中国的首都是北京",
    "欢迎新老师生前来就餐",
    "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
    "随着页游兴起到现在的页游繁盛，依赖于存档进行逻辑判断的设计减少了，但这块也不能完全忽略掉。"]

for sentence in testCases: print(HanLP.segment(sentence))

# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露，" \
           "根据刚刚完成了水资源管理制度的考核，有部分省接近了红线的指标，" \
           "有部分省超过红线的指标。对一些超过红线的地方，陈明忠表示，对一些取用水项目进行区域的限批，" \
           "严格地进行水资源论证和取水许可的批准。"
print(HanLP.extractKeyword(document, 2))

# 自动摘要
print(HanLP.extractSummary(document, 3))

# 依存句法分析
print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))

['你好', '，', '欢迎', '在', 'Python', '中', '调用', 'HanLP', '的', 'API']
下雨天	n
地面	n
积水	n
[商品/n, 和/cc, 服务/vn]
[结婚/vi, 的/ude1, 和/cc, 尚未/d, 结婚/vi, 的/ude1, 确实/ad, 在/p, 干扰/vn, 分词/n, 啊/y]
[买/v, 水果/n, 然后/c, 来/vf, 世博园/n, 最后/f, 去/vf, 世博会/n]
[中国/ns, 的/ude1, 首都/n, 是/vshi, 北京/ns]
[欢迎/v, 新/a, 老/a, 师生/n, 前来/vi, 就餐/vi]
[工信处/nt, 女/b, 干事/nnt, 每月/t, 经过/p, 下属/v, 科室/n, 都/d, 要/v, 亲口/d, 交代/v, 24/m, 口/n, 交换机/n, 等/udeng, 技术性/n, 器件/n, 的/ude1, 安装/v, 工作/vn]
[随着/p, 页游/nz, 兴起/v, 到/v, 现在/t, 的/ude1, 页游/nz, 繁盛/a, ，/w, 依赖于/v, 存档/vi, 进行/vn, 逻辑/n, 判断/v, 的/ude1, 设计/vn, 减少/v, 了/ule, ，/w, 但/c, 这/rzv, 块/q, 也/d, 不能/v, 完全/ad, 忽略/v, 掉/v, 。/w]
[水资源, 陈明忠]
[严格地进行水资源论证和取水许可的批准, 有部分省超过红线的指标, 水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露]
1	徐先生	徐先生	nh	nr	_	4	主谓关系	_	_
2	还	还	d	d	_	4	状中结构	_	_
3	具体	具体	a	ad	_	4	状中结构	_	_
4	帮助	帮助	v	v	_	0	核心关系	_	_
5	他	他	r	r	_	4	兼语	_	_
6	确定	确定	v	v	_	4	动宾关系	_	_
7	了	了	u	u	_	6	右附加关系	_	_
8	把	把	p	p	_	15	状中结构	_	_
9	画	画	v	v	_	8	介宾关系	_	_
10	雄鹰	雄鹰	n	n	_	9	动宾关系	_	_
11	、	、	wp	w	_	12	标点符号	_	_
12	松鼠	松鼠	n	n	_	10	并列关系	_	_
13	和	和	c	c	_	14	左附

# utils测试

In [6]:
from utils1 import GenData

data = GenData()
print(data.de_out_num)

[[81, 14, 2], [35, 96, 14, 2], [35, 188, 241, 194, 14, 2], [206, 206, 281, 2], [35, 96, 14, 2], [227, 139, 158, 14, 2], [139, 235, 25, 14, 2], [18, 33, 70, 14, 2], [24, 159, 5, 2], [29, 241, 25, 14, 2], [243, 252, 158, 14, 2], [139, 253, 93, 25, 14, 2], [139, 254, 51, 14, 2], [139, 170, 26, 14, 2], [71, 198, 14, 2], [18, 65, 215, 281, 2], [171, 266, 281, 2], [35, 201, 106, 283, 2], [229, 229, 70, 14, 2], [139, 32, 158, 229, 229, 14, 2], [21, 28, 23, 154, 139, 283, 2], [60, 267, 169, 99, 14, 2], [49, 270, 180, 14, 2], [46, 118, 180, 14, 2], [62, 79, 180, 14, 2], [75, 168, 180, 14, 2], [214, 208, 139, 14, 2], [214, 208, 139, 32, 14, 2], [252, 158, 14, 2], [143, 53, 169, 99, 14, 2], [177, 51, 60, 281, 2], [236, 265, 281, 2], [177, 281, 2], [236, 265, 281, 2], [48, 225, 281, 2], [74, 247, 281, 2], [206, 15, 17, 281, 2], [29, 158, 25, 14, 2], [29, 241, 14, 2], [115, 139, 15, 17, 14, 2], [88, 149, 14, 2], [146, 146, 169, 99, 281, 2], [139, 67, 134, 14, 2], [139, 187, 193, 25, 14, 2], [139, 2