**如需运行本文件，请将本文件放在Project1文件夹内运行(与myNLP在同一个目录下)**

In [1]:
import myNLP

## 分词使用

### 功能支持
* 支持5种分词算法：使用哪种算法写在参数中即可
* 支持进度条显示（目前仅HMM算法支持）
* 支持单句子处理和多文本处理：使用多文本批处理，只需要传入一个单句列表即可
* 支持HMM即时训练模型和使用本地模型，选择哪个在参数中进行选择即可

### 使用说明
myNLP.cut(sentences, HMM = False, FMM = False, RMM = False, BMM = False, shortPath = False, progressBar = False, useModel = False)
* sentences: 待分词的句子或者一个句子列表
* HMM：使用HMM算法进行分词，但使用HMM时可以添加参数useModel，使用本地训练的模型
* FMM：使用FMM算法进行分词
* RMM：使用RMM算法进行分词
* BMM：使用BMM算法进行分词
* shortPath：使用最短路算法进行分词
* progressBar：显示进度条
* 如果传入一个字符串，则返回一个分词结果列表；如果传入一个字符串列表，则返回一个分词结果矩阵。

In [2]:
# 使用HMM分词，不使用本地模型
res = myNLP.cut("人生如逆旅，我亦是行人。", HMM=True)
print (res)

[['人生', '如', '逆旅', '，', '我', '亦', '是', '行人', '。']]


In [3]:
# 使用HMM分词，使用本地模型
res = myNLP.cut("人生如逆旅，我亦是行人。", HMM=True, useModel=True)
print (res)

[['人生', '如', '逆旅', '，', '我', '亦', '是', '行人', '。']]


In [4]:
# 使用FMM分词
res = myNLP.cut("人生如逆旅，我亦是行人。", FMM=True)
print (res)

[['人生', '如', '逆', '旅', '，', '我', '亦', '是', '行人', '。']]


In [5]:
# 使用RMM分词
res = myNLP.cut("人生如逆旅，我亦是行人。", RMM=True)
print (res)

[['人生', '如', '逆', '旅', '，', '我', '亦', '是', '行人', '。']]


In [6]:
# 使用BMM分词
res = myNLP.cut("人生如逆旅，我亦是行人。", BMM=True)
print (res)

[['人生', '如', '逆', '旅', '，', '我', '亦', '是', '行人', '。']]


In [7]:
# 使用最短路分词
res = myNLP.cut("人生如逆旅，我亦是行人。", shortPath=True)
print (res)

[['人生', '如', '逆', '旅', '，', '我', '亦', '是', '行人', '。']]


In [8]:
# 显示进度条
# 使用HMM分词，使用本地模型
res = myNLP.cut("人生如逆旅，我亦是行人。", HMM=True, useModel=True, progressBar=True)
print (res)

---------------------------开始分词---------------------------
100%[**************************************************->]0.00s
---------------------------分词完成---------------------------
[['人生', '如', '逆旅', '，', '我', '亦', '是', '行人', '。']]


In [9]:
# 进行批量分词，只需要将字符串换成字符串列表即可
# 使用最短路分词

sentences = ["欲买桂花同载酒",
             "终不似，少年游。"
            ]
res = myNLP.cut(sentences, shortPath=True)
print (res)


[['欲', '买', '桂花', '同', '载', '酒'], ['终', '不', '似', '，', '少年', '游', '。']]


## 词性标注

### 功能支持
* 支持HMM即时训练和使用本地模型
* 支持进度条显示
* 支持单句处理和多句批处理，只需要将传入的句子改为单句列表即可

### 使用说明
myNLP.tag(sentences, HMM = True, progressBar = False, useModel = False)
* sentences：带标注的已分词列表，一个句子为一个列表。如果要进行多个句子批处理，则传入一个矩阵。
* HMM：默认使用HMM算法进行词性标注，目前只实现了HMM算法。
* progressBar：显示进度条
* useModel：使用本地模型
* 如果传入一个列表，返回为一个标注完成的列表；如果传入一个矩阵，则返回一个标注完成的矩阵。

In [10]:
# 使用HMM，不使用本地模型
res = myNLP.tag(['人生', '如', '逆旅', '，', '我', '亦', '是', '行人', '。'])
print (res)

[['人生/n', '如/v', '逆旅/n', '，/w', '我/r', '亦/d', '是/v', '行人/n', '。/w']]


In [11]:
# 使用HMM进行词性标注，使用本地模型
res = myNLP.tag(['人生', '如', '逆旅', '，', '我', '亦', '是', '行人', '。'], useModel=True)
print (res)

[['人生/n', '如/v', '逆旅/n', '，/w', '我/r', '亦/d', '是/v', '行人/n', '。/w']]


In [12]:
# 使用HMM进行词性标注，使用本地模型，显示进度条
res = myNLP.tag(['人生', '如', '逆旅', '，', '我', '亦', '是', '行人', '。'], useModel=True, progressBar=True)
print (res)

---------------------------开始标注---------------------------
100%[**************************************************->]0.02s
---------------------------标注完成---------------------------
[['人生/n', '如/v', '逆旅/n', '，/w', '我/r', '亦/d', '是/v', '行人/n', '。/w']]


In [13]:
# 批处理词性标注，只需要将列表换成一个二维矩阵即可
# 使用HMM进行词性标注批处理，使用本地模型，显示进度条
sentences = [['人生', '如', '逆旅', '，'],
             ['我', '亦', '是', '行人', '。']
            ]
res = myNLP.tag(sentences, HMM=True, useModel=True, progressBar=True)
print (res)

---------------------------开始标注---------------------------
100%[**************************************************->]0.01s
---------------------------标注完成---------------------------
[['人生/n', '如/v', '逆旅/n', '，/w'], ['我/r', '亦/d', '是/v', '行人/n', '。/w']]


## 命名实体识别

### 功能支持
* 支持HMM即时训练和使用本地模型
* 支持进度条显示
* 支持单句处理和多句批处理，只需要将传入的句子改为单句列表即可

### 使用说明
myNLP.ner(sentences, HMM = True, progressBar = False, useModel = False)
* sentences：待识别的已分词的列表，或者矩阵
* HMM：默认使用HMM进行命名实体识别
* progressBar：显示进度条
* useModel：使用本地模型

In [14]:
# 命名实体识别
# 使用HMM进行命名实体识别，不使用本地模型
# res = myNLP.ner("")
sentence = ['今晚', '的', '长安街', '流光溢彩', '，', '火树银花', '；', '人民', '大会堂', '里', '灯火辉煌', '，', '充满', '欢乐', '祥和', '的', '喜庆', '气氛', '。', '在', '这', '场', '由', '中共', '北京', '市委', '宣传部', '、', '市政府', '办公厅', '等', '单位', '主办', '的', '活动', '。']
res = myNLP.ner(sentence, HMM=True)
print (res)

[{'people': [], 'location': ['长安街', '人民大会堂'], 'organization': ['中共北京市委宣传部']}]


In [15]:
# 命名实体识别
# 使用HMM进行命名实体识别，使用本地模型
# res = myNLP.ner("")
sentence = ['今晚', '的', '长安街', '流光溢彩', '，', '火树银花', '；', '人民', '大会堂', '里', '灯火辉煌', '，', '充满', '欢乐', '祥和', '的', '喜庆', '气氛', '。', '在', '这', '场', '由', '中共', '北京', '市委', '宣传部', '、', '市政府', '办公厅', '等', '单位', '主办', '的', '活动', '。']
res = myNLP.ner(sentence, HMM=True, useModel=True)[0] # 返回的结果是一个字典列表
people = res["people"]
location = res["location"]
organization = res["organization"]
print ("人名：", people)
print ("地名：", location)
print ("机构名：", organization)

人名： []
地名： ['长安街', '人民大会堂']
机构名： ['中共北京市委宣传部']


In [16]:
# 命名实体识别
# 同样支持批处理，只需要把传入的列表换成二维矩阵即可
sentence = [['今晚', '的', '长安街', '流光溢彩', '，', '火树银花', '；'], 
            ['人民', '大会堂', '里', '灯火辉煌', '，', '充满', '欢乐', '祥和', '的', '喜庆', '气氛', '。', '在', '这', '场', '由', '中共', '北京', '市委', '宣传部', '、', '市政府', '办公厅', '等', '单位', '主办', '的', '活动', '。']
           ]
res = myNLP.ner(sentence, HMM=True, useModel=True, progressBar=True) # 返回的结果是一个字典列表
people, location, organization = [], [], []
for dic in res:
    people += dic["people"]
    location += dic["location"]
    organization += dic["organization"]
print ("人名：", people)
print ("地名：", location)
print ("机构名：", organization)

---------------------------开始识别---------------------------
100%[**************************************************->]0.01s
---------------------------识别完成---------------------------
人名： []
地名： ['长安街', '人民大会堂']
机构名： ['中共北京市委宣传部']


## 综合应用

之所以把词性标注和命名实体识别的输入设置为一个已经分词的结果，而不是一个正常的句子。
主要是考虑到设计的灵活性，有可能用户只想使用词性标注，而自己实现了某种分词的算法。
而如果将词性标注的功能写死，则用户想要使用词性标注或者命名实体识别，只能实现当前包里面支持的分词算法。
下面展示如何将上诉功能综合应用，实现一个句子的词性标注和命名实体识别。

In [17]:
sentence = "今晚的长安街流光溢彩，火树银花"
cut_res = myNLP.cut(sentence, FMM=True)
tag_res = myNLP.tag(cut_res, useModel=True)
ner_res = myNLP.ner(cut_res, useModel=True)

print ("句子：", sentence)
print ("分词结果：", cut_res)
print ("词性标注结果：", tag_res)
print ("命名实体结果：", ner_res)


句子： 今晚的长安街流光溢彩，火树银花
分词结果： [['今晚', '的', '长安街', '流光溢彩', '，', '火树银花']]
词性标注结果： [['今晚/t', '的/u', '长安街/ns', '流光溢彩/l', '，/w', '火树银花/i']]
命名实体结果： [{'people': [], 'location': ['长安街'], 'organization': []}]


## 结果评测

评测所用的测试集已在代码中写好，如果需要对某个算法进行评测，只需要调用myNLP中的evaluate函数即可

In [18]:
# 评测分词的HMM算法
precision, recall, f1 = myNLP.evaluateCut(HMM=True)
print ("准确率 = ", precision)
print ("召回率 = ", recall)
print ("f1 = ", f1)

---------------------------开始分词---------------------------
100%[**************************************************->]88.04s
---------------------------分词完成---------------------------
使用HMM算法进行测试，测试集规模为100000, 测试共进行96.75s
准确率 =  0.7789998184012452
召回率 =  0.7863058510058747
f1 =  0.7826357843237322


In [5]:
# 评测分词的FMM算法
precision, recall, f1 = myNLP.evaluateCut(FMM=True)
print ("准确率 = ", precision)
print ("召回率 = ", recall)
print ("f1 = ", f1)

使用FMM算法进行测试，测试集规模为100000, 测试共进行65.08s
准确率 =  0.7885834203338712
召回率 =  0.8626867788896005
f1 =  0.8239723469768789


In [6]:
# 评测分词的RMM算法
precision, recall, f1 = myNLP.evaluateCut(RMM=True)
print ("准确率 = ", precision)
print ("召回率 = ", recall)
print ("f1 = ", f1)

使用RMM算法进行测试，测试集规模为100000, 测试共进行64.75s
准确率 =  0.7930475263546711
召回率 =  0.8669065685752142
f1 =  0.8283338821104314


In [7]:
# 评测分词的BMM算法
precision, recall, f1 = myNLP.evaluateCut(BMM=True)
print ("准确率 = ", precision)
print ("召回率 = ", recall)
print ("f1 = ", f1)

使用BMM算法进行测试，测试集规模为100000, 测试共进行124.25s
准确率 =  0.7932202926081842
召回率 =  0.8670954251002285
f1 =  0.8285143355343616


In [8]:
# 评测分词的最短路径算法
precision, recall, f1 = myNLP.evaluateCut(shortPath=True)
print ("准确率 = ", precision)
print ("召回率 = ", recall)
print ("f1 = ", f1)

使用shortPath算法进行测试，测试集规模为100000, 测试共进行111.70s
准确率 =  0.7930475263546711
召回率 =  0.8669065685752142
f1 =  0.8283338821104314


In [9]:
# 评测词性标注算法
precision, recall, f1 = myNLP.evaluateTag()
print ("准确率 = ", precision)
print ("召回率 = ", recall)
print ("f1 = ", f1)

---------------------------开始标注---------------------------
100%[**************************************************->]185.87s
---------------------------标注完成---------------------------
准确率 =  0.9305736412857241
召回率 =  0.9305736412857241
f1 =  0.9305736412857241


In [19]:
# 评测命名实体识别算法
precision, recall, f1 = myNLP.evaluateNer()
print ("准确率 = ", precision)
print ("召回率 = ", recall)
print ("f1 = ", f1)

---------------------------开始识别---------------------------
100%[**************************************************->]16.18s
---------------------------识别完成---------------------------
准确率 =  0.9299129638112689
召回率 =  0.7080572026508546
f1 =  0.803960396039604
