### 一. spacy nlp处理包

In [1]:
import spacy

In [2]:
nlp = spacy.load("en")
doc = nlp("The big grey dog ate all of the chocolate, but fortunately he wasn't sick!")

In [3]:
type(nlp), type(doc)

(spacy.lang.en.English, spacy.tokens.doc.Doc)

#### 1. 分词

In [4]:
# 分词
doc.text.split()

['The',
 'big',
 'grey',
 'dog',
 'ate',
 'all',
 'of',
 'the',
 'chocolate,',
 'but',
 'fortunately',
 'he',
 "wasn't",
 'sick!']

In [5]:
[token.orth_ for token in doc]

['The',
 'big',
 'grey',
 'dog',
 'ate',
 'all',
 'of',
 'the',
 'chocolate',
 ',',
 'but',
 'fortunately',
 'he',
 'was',
 "n't",
 'sick',
 '!']

In [6]:
[(token, token.orth_, token.orth) for token in doc]

[(The, 'The', 5059648917813135842),
 (big, 'big', 15511632813958231649),
 (grey, 'grey', 10475807793332549289),
 (dog, 'dog', 7562983679033046312),
 (ate, 'ate', 10806788082624814911),
 (all, 'all', 13409319323822384369),
 (of, 'of', 886050111519832510),
 (the, 'the', 7425985699627899538),
 (chocolate, 'chocolate', 10946593968795032542),
 (,, ',', 2593208677638477497),
 (but, 'but', 14560795576765492085),
 (fortunately, 'fortunately', 13851269277375979931),
 (he, 'he', 1655312771067108281),
 (was, 'was', 9921686513378912864),
 (n't, "n't", 2043519015752540944),
 (sick, 'sick', 14841597609857081305),
 (!, '!', 17494803046312582752)]

#### 2. 词干提取

In [7]:
# 词干提取
practice = "practice practiced practicing"
nlp_practice = nlp(practice)
[word.lemma_ for word in nlp_practice]

['practice', 'practice', 'practicing']

#### 3.词性标注

In [9]:
# 词性标注 POS
doc2 = nlp("Conor's dog's toy was hidden under the man's sofa in the woman's house")
pos_tags = [(i, i.tag_) for i in doc2]
pos_tags

[(Conor, 'NNP'),
 ('s, 'POS'),
 (dog, 'NN'),
 ('s, 'POS'),
 (toy, 'NN'),
 (was, 'VBD'),
 (hidden, 'VBN'),
 (under, 'IN'),
 (the, 'DT'),
 (man, 'NN'),
 ('s, 'POS'),
 (sofa, 'NN'),
 (in, 'IN'),
 (the, 'DT'),
 (woman, 'NN'),
 ('s, 'POS'),
 (house, 'NN')]

In [11]:
owners_possessions = [(i[0].nbor(-1), i[0].nbor(1)) for i in pos_tags if i[1] == 'POS']
owners_possessions

[(Conor, dog), (dog, toy), (man, sofa), (woman, house)]

#### 4. 实体识别

In [13]:
wiki_obama = """Barack Obama is an America polician who served as the 44th Persident of the United States
from 2009 to 2017. He is the first Africa American to have served as the Persident, as well as the first born 
outside the contiguous United States."""

In [14]:
nlp_obama = nlp(wiki_obama)
[(i, i.label_, i.label) for i in nlp_obama.ents]

[(Barack Obama, 'PERSON', 378),
 (America, 'GPE', 382),
 (44th, 'ORDINAL', 393),
 (2009 to 2017, 'DATE', 388),
 (first, 'ORDINAL', 393),
 (Africa American, 'NORP', 379),
 (Persident, 'FAC', 9191306739292312949),
 (first, 'ORDINAL', 393),
 (, 'GPE', 382),
 (United States, 'GPE', 382)]

In [25]:
for ix, sent in enumerate(nlp_obama.sents, 1):
    print("Sentence number {ix}: {sent}".format(ix=ix, sent=sent))

Sentence number 1: Barack Obama is an America polician who served as the 44th Persident of the United States
from 2009 to 2017.
Sentence number 2: He is the first Africa American to have served as the Persident, as well as the first born 
outside the contiguous United States.


---

---
1. 分词
---
Ltp与结巴jieba分词，jieba核心使用NShort算法

---

### 1.1 Ltp 3.4

In [26]:
import pyltp

In [27]:
import sys
import os
from pyltp import Segmentor

In [None]:
"""
cws.model 分词模型
pos.model 词性标注模型
ner.model 命名体识别模型
parser.model 依存句法分析模型
pisrl.model 语义角色标注模型
"""

In [31]:
model_path = "/Users/chenhui/ltp_data_v3.4.0/cws.model" # 分词模型库
segmentor = Segmentor()
segmentor.load(model_path)
words = segmentor.segment("在包含问题的所有解的解空间树中，按照深度优先搜索的策略，从根节点出发深度探索解空间树。")
print(' | '.join(words))

在 | 包含 | 问题 | 的 | 所有 | 解 | 的 | 解 | 空间 | 树 | 中 | ， | 按照 | 深度 | 优先 | 搜索 | 的 | 策略 | ， | 从 | 根节点 | 出发 | 深度 | 探索 | 解 | 空间 | 树 | 。


In [32]:
seg_sent = ' | '.join(words)
postdict = {"解 | 空间": "解空间", "深度 | 优先":"深度优先"}
for key in postdict:
    seg_sent = seg_sent.replace(key, postdict[key])
seg_sent

'在 | 包含 | 问题 | 的 | 所有 | 解 | 的 | 解空间 | 树 | 中 | ， | 按照 | 深度优先 | 搜索 | 的 | 策略 | ， | 从 | 根节点 | 出发 | 深度 | 探索 | 解空间 | 树 | 。'

In [None]:
# 加入用户词典
segmentor.load_with_lexicon(model_path, fulluserdict.txt)
words = segmentor.segment("在包含问题的所有解的解空间树中，按照深度优先搜索的策略，从根节点出发深度探索解空间树。")

### 1.2 结巴分词

In [35]:
import sys
import os
import jieba
sent = "在包含问题的所有解的解空间树中，按照深度优先搜索的策略，从根节点出发深度探索解空间树。"

#### 结巴分词-全模式

In [36]:
wordlist = jieba.cut(sent, cut_all= True)
print(" | ".join(wordlist))

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/kx/75q0msjd2xv_rzkypkrw7f7r0000gn/T/jieba.cache
Loading model cost 0.923 seconds.
Prefix dict has been built succesfully.


在 | 包含 | 问题 | 的 | 所有 | 解 | 的 | 解空 | 空间 | 树 | 中 |  |  | 按照 | 深度 | 优先 | 搜索 | 的 | 策略 |  |  | 从 | 根 | 节点 | 点出 | 出发 | 深度 | 探索 | 索解 | 解空 | 空间 | 树 |  | 


#### 结巴分词-精确切分 (类似于Ltp)

In [37]:
wordlist = jieba.cut(sent)  # cut_all = False
print(" | ".join(wordlist))

在 | 包含 | 问题 | 的 | 所有 | 解 | 的 | 解 | 空间 | 树中 | ， | 按照 | 深度 | 优先 | 搜索 | 的 | 策略 | ， | 从根 | 节点 | 出发 | 深度 | 探索 | 解 | 空间 | 树 | 。


#### 结巴分词-搜索引擎模式

In [38]:
wordlist = jieba.cut_for_search(sent)
print(" | ".join(wordlist))

在 | 包含 | 问题 | 的 | 所有 | 解 | 的 | 解 | 空间 | 树中 | ， | 按照 | 深度 | 优先 | 搜索 | 的 | 策略 | ， | 从根 | 节点 | 出发 | 深度 | 探索 | 解 | 空间 | 树 | 。


#### 定义用户词典

In [39]:
"""
格式：一个词占一行，每行分三部分：词语，词频，词性
  解空间 5 n
  解空间树 5 n
  根节点 5 n
  深度优先 5 n
"""

'\n格式：一个词占一行，每行分三部分：词语，词频，词性\n  解空间 5 n\n  解空间树 5 n\n  \n'

#### 使用用户词典

In [41]:
jieba.load_userdict('Userdict.txt')
wordlist = jieba.cut(sent)
print(" | ".join(wordlist))

在 | 包含 | 问题 | 的 | 所有 | 解 | 的 | 解空间树 | 中 | ， | 按照 | 深度优先 | 搜索 | 的 | 策略 | ， | 从 | 根节点 | 出发 | 深度 | 探索 | 解空间树 | 。


用户词典起到了作用，会和内置词典相互博弈

---
2. 词性标注
---
Ltp与Stanford，中文词性标注大多数使用HMM（隐马尔科夫）和最大熵，如结巴；CRF有更高的精度，如Ltp

---

### 2.1 Ltp词性标注

In [42]:
import sys
import os
from pyltp import *

In [43]:
sent = "在 包含 问题 的 所有 解 的 解空间树 中 ， 按照 深度优先 搜索 的 策略 ， 从 根节点 出发 深度 探索 解空间树 。"
words = sent.split(" ")

In [47]:
postagger = Postagger()
postagger.load("/Users/chenhui/ltp_data_v3.4.0/pos.model")
postags = postagger.postag(words)
for word, postag in zip(words, postags):
    print(word + "/" + postag, end= " ")

在/p 包含/v 问题/n 的/u 所有/b 解/v 的/u 解空间树/n 中/nd ，/wp 按照/p 深度优先/d 搜索/v 的/u 策略/n ，/wp 从/p 根节点/n 出发/v 深度/n 探索/v 解空间树/n 。/wp 

### 2.2 Stanford词性标注

In [1]:
# 执行stanford PostTagger类来进行词性标注
import sys
import os

参见https://stanfordnlp.github.io/CoreNLP/cmdline.html

In [2]:
import stanford
root = "/Users/chenhui/stanford-corenlp/"
modelpath = root+"chinese-models/edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger"
st = stanford.StanfordPOSTagger(root, modelpath)
seg_sent = "在 包含 问题 的 所有 解 的 解空间树 中 ， 按照 深度优先 搜索 的 策略 ， 从 根节点 出发 深度 探索 解空间树 。"
taglist = st.tag(seg_sent)
print(taglist)

在/P 包含/VV 问题/NN 的/DEC 所有/DT 解/VV 的/DEC 解空间树/NN 中/LC ，/PU 按照/P 深度优先/NN 搜索/NN 的/DEC 策略/NN ，/PU 从/P 根节点/NN 出发/VV 深度/JJ 探索/NN 解空间树/VV 。/PU



In [4]:
st.cmdline # mac或者linux使用(:)冒号分隔class path，windows使用(;)分号

'java -Xmx1g -cp "/Users/chenhui/stanford-corenlp/stanford-corenlp-3.9.1.jar:/Users/chenhui/stanford-corenlp/stanford-corenlp-3.9.1-models.jar:/Users/chenhui/stanford-corenlp/ejml-0.23.jar:/Users/chenhui/stanford-corenlp/javax.json.jar:/Users/chenhui/stanford-corenlp/jollyday.jar:/Users/chenhui/stanford-corenlp/joda-time.jar:/Users/chenhui/stanford-corenlp/protobuf.jar:/Users/chenhui/stanford-corenlp/slf4j-api.jar:/Users/chenhui/stanford-corenlp/slf4j-simple.jar:/Users/chenhui/stanford-corenlp/xom.jar" edu.stanford.nlp.tagger.maxent.MaxentTagger -model "/Users/chenhui/stanford-corenlp/chinese-models/edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger" -tagSeparator /'

In [7]:
import os  
mystr=os.popen("ls")  #popen与system可以执行指令,popen可以接受返回对象  
mystr=mystr.read() #读取输出  
print("hello",mystr)  
if mystr.find("QQ.exe") !=-1:  
    print("发现QQ")  
else:  
    print("QQ已死有事请烧纸")  

hello Userdict.txt
__init__.py
__pycache__
derby.log
metastore_db
nlp_beginer.ipynb
stanford.py

QQ已死有事请烧纸


---
3. 命名实体识别
---
Ltp与Stanford

---

### 3.1 Ltp ner.model

In [6]:
import sys
import os
from pyltp import *

In [8]:
sent = "欧洲 东部 的 罗马尼亚 ， 首都 是 布加勒斯特 ， 也 是 一 座 世界性 的 城市 。"
words = sent.split()
words

['欧洲',
 '东部',
 '的',
 '罗马尼亚',
 '，',
 '首都',
 '是',
 '布加勒斯特',
 '，',
 '也',
 '是',
 '一',
 '座',
 '世界性',
 '的',
 '城市',
 '。']

In [9]:
# 词性标注
postagger = Postagger()
postagger.load("/Users/chenhui/ltp_data_v3.4.0/pos.model")  # 导入词性标注模块（语法层面）
postags = postagger.postag(words)

# 命名体识别
recognizer = NamedEntityRecognizer()
recognizer.load("/Users/chenhui/ltp_data_v3.4.0/ner.model")
netags = recognizer.recognize(words, postags)

for word, postag, netag in zip(words, postags, netags):
    print(word+'/'+postag+'/'+netag, end=' ')


欧洲/ns/S-Ns 东部/nd/O 的/u/O 罗马尼亚/ns/S-Ns ，/wp/O 首都/n/O 是/v/O 布加勒斯特/ns/S-Ns ，/wp/O 也/d/O 是/v/O 一/m/O 座/q/O 世界性/n/O 的/u/O 城市/n/O 。/wp/O 

In [14]:
list(netags)

['S-Ns',
 'O',
 'O',
 'S-Ns',
 'O',
 'O',
 'O',
 'S-Ns',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O']

### 3.2 Stanford 命名实体识别

In [1]:
import sys
import os 
import stanford

In [11]:
root = "/Users/chenhui/stanford-corenlp/"
modelpath = os.path.join(root, "chinese-models/edu/stanford/nlp/models/ner/chinese.misc.distsim.crf.ser.gz")
st = stanford.StanfordNERTagger(root, modelpath)
seg_sent = "欧洲 东部 的 罗马尼亚 ， 首都 是 布加勒斯特 ， 也 是 一 座 世界性 的 城市 。"
taglist = st.tagfile(seg_sent, "ner_test.txt")
print(taglist)

None


In [12]:
os.path.exists(modelpath)

True

In [14]:
print(st.tag(seg_sent))




---
4. 句法解析
---
Ltp句法依存树，Stanford：PCFG解析器，Shift-Reduce解析器，神经网络依存解析器

---

### 4.1 Ltp句法依存树

In [3]:
import sys
import os
import nltk
from nltk.tree import Tree  # 导入NLTK tree结构
from nltk.grammar import DependencyGrammar
from nltk.parse import *
from pyltp import *
import re

In [4]:
# 分词
words = "罗马尼亚 的 首都 是 布加勒斯特 。 ".split()  # 分词
words = "欧洲 东部 的 罗马尼亚 ， 首都 是 布加勒斯特 ， 也 是 一 座 世界性 的 城市 。".split()

# 词性标注
postagger = Postagger()
postagger.load("/Users/chenhui/ltp_data_v3.4.0/pos.model")
postags = postagger.postag(words)  # 词性标注

# 句法解析
parser = Parser()
parser.load("/Users/chenhui/ltp_data_v3.4.0/parser.model")
arcs = parser.parse(words, postags)  # 输入分词结果和词性标注
arclen = len(arcs)
conll = ""
for i in range(arclen):  # 构建Conll标准的数据结构
    if arcs[i].head == 0:
        arcs[i].relation = "ROOT"
    conll += "\t"+words[i]+"("+postags[i]+")" + "\t"+postags[i]+ "\t"+ str(arcs[i].head)+ "\t" + arcs[i].relation+"\n"
print(conll)
conlltree = DependencyGraph(conll)  # 转换为依存句法图
tree = conlltree.tree()  # 构建树结构

#tree.draw()

	欧洲(ns)	ns	2	ATT
	东部(nd)	nd	4	ATT
	的(u)	u	2	RAD
	罗马尼亚(ns)	ns	7	SBV
	，(wp)	wp	4	WP
	首都(n)	n	7	SBV
	是(v)	v	0	ROOT
	布加勒斯特(ns)	ns	7	VOB
	，(wp)	wp	7	WP
	也(d)	d	11	ADV
	是(v)	v	7	COO
	一(m)	m	13	ATT
	座(q)	q	16	ATT
	世界性(n)	n	16	ATT
	的(u)	u	14	RAD
	城市(n)	n	11	VOB
	。(wp)	wp	7	WP



In [8]:
arcs[0].head, arcs[0].relation

(2, 'ATT')

In [None]:
tree.draw()

### 4.2 Stanford Parser

Stanford短语树

In [None]:
import sys  
import os  
import nltk  
from nltk.tree import Tree    #导入nltk tree结构  
from stanford import *  
  
reload(sys)  
sys.setdefaultencoding('utf-8')  
  
# 配置环境变量  
#os.environ['JAVA_HOME'] =   
  
root = "stanford-corenlp/"  
modelpath = root + "models/edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz"  
opttype = 'penn'  #滨州树库格式  
parser = StanfordParser(modelpath, root, opttype)  
result = parser.parse("罗马尼亚 的 首都 是 布加勒斯特 。")  
print result  
  
tree = Tree.fromstring(result)  
tree.draw()  

Stanford句法依存树

In [None]:
# -*- coding: utf-8 -*-  
import sys  
import os  
import nltk  
from nltk.tree import Tree    #导入nltk tree结构  
from stanford import *  

# 配置环境变量  
#os.environ['JAVA_HOME'] =   
  
root = "stanford-corenlp/"  
modelpath = root + "models/edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz"  
opttype = '<span style="color:#ff0000;">typedDependencies</span>'  #   
parser = StanfordParser(modelpath, root, opttype)  
result = parser.parse("罗马尼亚 的 首都 是 布加勒斯特 。")  
print result  

--- 
5. 语义角色标注SemanticRoleLabeling，SRL
---
Ltp

---

In [4]:
# -*- coding: utf-8 -*-  
import sys  
import os  
from pyltp import *  
  
MODELDIR = "/Users/chenhui/ltp_data_v3.4.0/"  
sentence = "欧洲东部的罗马尼亚，首都是布加勒斯特，也是一座世界性的城市。"  
  
segmentor = Segmentor()  
segmentor.load(os.path.join(MODELDIR, "cws.model"))  
words = segmentor.segment(sentence)  
wordlist = list(words)  #从生成器变为列表元素  
  
postagger = Postagger()  
postagger.load(os.path.join(MODELDIR, "pos.model"))  
postags = postagger.postag(words)  
  
parser = Parser()  
parser.load(os.path.join(MODELDIR, "parser.model"))  
arcs = parser.parse(words, postags)  
  
recognizer = NamedEntityRecognizer()  
recognizer.load(os.path.join(MODELDIR, "ner.model"))  
netags = recognizer.recognize(words, postags)  
  
#语义角色标注  
labeller = SementicRoleLabeller()  
labeller.load(os.path.join(MODELDIR, "pisrl.model"))  
roles = labeller.label(words, postags, netags, arcs)  
  
#输出标注结果  
for role in roles:  
    print('rel:', wordlist[role.index]) #谓词  
    for arg in role.arguments:  
        if arg.range.start != arg.range.end:  
            print(arg.name, ' '.join(wordlist[arg.range.start:arg.range.end]) ) 
        else:  
            print(arg.name,wordlist[arg.range.start])

ArgumentError: Python argument types in
    SementicRoleLabeller.label(SementicRoleLabeller, VectorOfString, VectorOfString, VectorOfString, VectorOfParseResult)
did not match C++ signature:
    label(SementicRoleLabeller {lvalue}, boost::python::list, boost::python::list, std::__1::vector<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > >, std::__1::allocator<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > > >)
    label(SementicRoleLabeller {lvalue}, boost::python::list, std::__1::vector<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> >, std::__1::allocator<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > >, std::__1::vector<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > >, std::__1::allocator<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > > >)
    label(SementicRoleLabeller {lvalue}, std::__1::vector<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> >, std::__1::allocator<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > >, boost::python::list, std::__1::vector<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > >, std::__1::allocator<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > > >)
    label(SementicRoleLabeller {lvalue}, std::__1::vector<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> >, std::__1::allocator<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > >, std::__1::vector<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> >, std::__1::allocator<std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > >, std::__1::vector<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > >, std::__1::allocator<std::__1::pair<int, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > > > >)