## 分词

In [16]:
import os
LTP_DATA_DIR = 'ltp_data_v3.4.0'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`

from pyltp import SentenceSplitter
sents = SentenceSplitter.split('我以前住在上海，现在在北京')  # 分句
print(list(sents))

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
words = segmentor.segment('我以前住在上海，现在在北京')  # 分词
print('\t'.join(words))
segmentor.release()  # 释放模型

['我以前住在上海，现在在北京']
我	以前	住	在	上海	，	现在	在	北京


## 词性标注

In [17]:
#
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 词性标注模型路径，模型名称为`pos.model`

from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path)  # 加载模型

postags = postagger.postag(words)  # 词性标注

print(list(postags))
postagger.release()  # 释放模型

['r', 'nd', 'v', 'p', 'ns', 'wp', 'nt', 'p', 'ns']


## 依存句法分析

In [19]:
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 依存句法分析模型路径，模型名称为`parser.model`

from pyltp import Parser
parser = Parser() # 初始化实例
parser.load(par_model_path)  # 加载模型

arcs = parser.parse(words, postags)  # 句法分析

list_arc = [(arc.head, arc.relation) for arc in arcs]
print(list_arc)
parser.release()  # 释放模型

[(3, 'SBV'), (3, 'ADV'), (0, 'HED'), (3, 'CMP'), (4, 'POB'), (3, 'WP'), (8, 'ADV'), (3, 'COO'), (8, 'POB')]


In [None]:
for head, relation in list_arc:
    