## 使用 pyltp
pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。
https://pyltp.readthedocs.io/zh_CN/latest/api.html  
https://github.com/HIT-SCIR/pyltp

In [1]:
from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎么看？我就趴窗口上看呗！')  # 分句
print ('\n'.join(sents))

元芳你怎么看？
我就趴窗口上看呗！


### 分词¶
使用 pyltp 进行分词示例如下

In [2]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/ian/code/data/ltp_data_v3.4.0'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
words = segmentor.segment('元芳你怎么看')  # 分词
print ('\t'.join(words))
segmentor.release()  # 释放模型

元芳	你	怎么	看


words = segmentor.segment('元芳你怎么看') 的返回值类型是native的VectorOfString类型，可以使用list转换成Python的列表类型，例如

In [5]:
type(words)

pyltp.VectorOfString

In [6]:
list(words)

['元芳', '你', '怎么', '看']

In [3]:
import jieba

In [4]:
jieba.lcut('元芳你怎么看')

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.585 seconds.
Prefix dict has been built succesfully.


['元芳', '你', '怎么', '看']

### 使用分词外部词典
pyltp 分词支持用户使用自定义词典。分词外部词典本身是一个文本文件（plain text），每行指定一个词，编码同样须为 UTF-8，样例如下所示

------------------
苯并芘  
亚硝酸盐

In [7]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/ian/code/data/ltp_data_v3.4.0'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型

In [8]:
words = segmentor.segment('亚硝酸盐是一种化学物质')
print ('\t'.join(words))

亚硝酸盐	是	一	种	化学	物质


In [9]:
segmentor.load_with_lexicon(cws_model_path, '/home/ian/code/data/ltp_data_v3.4.0/dicttest.txt') # 加载模型，第二个参数是您的外部词典文件路径
words = segmentor.segment('亚硝酸盐是一种化学物质')
print ('\t'.join(words))

亚硝酸盐	是	一	种	化学	物质


"一种"都不能看成一个词。。。

In [10]:
words = segmentor.segment('狗是一种动物')
print ('\t'.join(words))

狗	是	一	种	动物


In [None]:
在外部词典里加入"一种"结果还是分不成一个词。。。

In [13]:
segmentor.load_with_lexicon(cws_model_path, '/home/ian/code/data/ltp_data_v3.4.0/dicttest1.txt') # 加载模型，第二个参数是您的外部词典文件路径
words = segmentor.segment('亚硝酸盐是一种化学物质')
print ('\t'.join(words))

亚硝酸盐	是	一	种	化学	物质


还是jieba靠谱

In [12]:
jieba.lcut('亚硝酸盐是一种化学物质')

['亚硝酸盐', '是', '一种', '化学物质']

### 词性标注
使用 pyltp 进行词性标注示例如下

In [14]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/ian/code/data/ltp_data_v3.4.0'  # ltp模型目录的路径
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 词性标注模型路径，模型名称为`pos.model`

from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']  # 分词结果
postags = postagger.postag(words)  # 词性标注

print ('\t'.join(postags))
postagger.release()  # 释放模型

nh	r	r	v


### 依存句法分析
使用 pyltp 进行依存句法分析示例如下

In [15]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/ian/code/data/ltp_data_v3.4.0'  # ltp模型目录的路径
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 依存句法分析模型路径，模型名称为`parser.model`

from pyltp import Parser
parser = Parser() # 初始化实例
parser.load(par_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
arcs = parser.parse(words, postags)  # 句法分析

print ("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))
parser.release()  # 释放模型

4:SBV	4:SBV	4:ADV	0:HED
