## LTP 4
LTP（Language Technology Platform） 提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。

https://github.com/HIT-SCIR/ltp

- 分词: Electra Small1 + Linear
- 词性: Electra Small + Linear
- 命名实体: Electra Small + Relative Transformer2 + Linear
- 依存句法: Electra Small + BiAffine + Eisner3
- 语义依存: Electra Small + BiAffine
- 语义角色: Electra Small + BiAffine + CRF

命名实体识别标注集
LTP中的NE 模块识别三种NE，分别如下：
-  人名
-  机构名
- 地点名


In [2]:
from ltp import LTP

ltp = LTP("small")     # 默认加载 Small 模型 base
                # ltp = LTP(path="small")
                #     其中 path 可接受的路径为下载下来的模型或者解压后的文件夹路径
                #     另外也可以接受一些已注册可自动下载的模型名(可使用 ltp.available_models() 查看): 
                #     base/base1/base2/small/tiny/GSD/GSD+CRF/GSDSimp/GSDSimp+CRF
seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
pos = ltp.pos(hidden)
ner = ltp.ner(hidden)
srl = ltp.srl(hidden)
dep = ltp.dep(hidden)
sdp = ltp.sdp(hidden)

In [3]:
seg

[['他', '叫', '汤姆', '去', '拿', '外衣', '。']]

In [4]:
pos

[['r', 'v', 'nh', 'v', 'v', 'n', 'wp']]

In [5]:
ner

[[('Nh', 2, 2)]]

In [6]:
seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
ner = ltp.ner(hidden)
# [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
# [[('Nh', 2, 2)]]

tag, start, end = ner[0][0]
print(tag,":", "".join(seg[0][start:end + 1]))
# Nh : 汤姆

Nh : 汤姆


## LAC

LAC全称Lexical Analysis of Chinese，是百度自然语言处理部研发的一款联合的词法分析工具，实现中文分词、词性标注、专名识别等功能。该工具具有以下特点与优势：

效果好：通过深度学习模型联合学习分词、词性标注、专名识别任务，词语重要性，整体效果F1值超过0.91，词性标注F1值超过0.94，专名识别F1值超过0.85，效果业内领先。
效率高：精简模型参数，结合Paddle预测库的性能优化，CPU单线程性能达800QPS，效率业内领先。
可定制：实现简单可控的干预机制，精准匹配用户词典对模型进行干预。词典支持长片段形式，使得干预更为精准。
调用便捷：支持一键安装，同时提供了Python、Java和C++调用接口与调用示例，实现快速调用和集成。
支持移动端: 定制超轻量级模型，体积仅为2M，主流千元手机单线程性能达200QPS，满足大多数移动端应用的需求，同等体积量级效果业内领先。

In [4]:
!pip install lac

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


In [7]:
from LAC import LAC

# 装载LAC模型
lac = LAC(mode='lac')

# 单个样本输入，输入为Unicode编码的字符串
text = u"据俄罗斯卫星通讯社2日报道，有消息称，俄罗斯飞机在美国空域被拦截，驾驶员和机组成员被扣押。 （来源：环球时报）"
lac_result = lac.run(text)

# 批量样本输入, 输入为多个句子组成的list，平均速率更快
texts = [u"苏伊士运河管理局：俄罗斯船只经过苏伊士运河“不受影响", u"据俄罗斯卫星通讯社2日报道，有消息称，俄罗斯飞机在美国空域被拦截，驾驶员和机组成员被扣押。 （来源：环球时报）"]
lac_result = lac.run(texts)

In [8]:
lac_result

[[['苏伊士运河管理局', '：', '俄罗斯', '船只', '经过', '苏伊士运河', '“', '不受', '影响'],
  ['ORG', 'w', 'LOC', 'n', 'v', 'LOC', 'w', 'v', 'vn']],
 [['据',
   '俄罗斯卫星通讯社2日报道',
   '，',
   '有',
   '消息',
   '称',
   '，',
   '俄罗斯',
   '飞机',
   '在',
   '美国',
   '空域',
   '被',
   '拦截',
   '，',
   '驾驶员',
   '和',
   '机组',
   '成员',
   '被扣押',
   '。',
   ' ',
   '（',
   '来源',
   '：',
   '环球时报',
   '）'],
  ['p',
   'ORG',
   'w',
   'v',
   'n',
   'v',
   'w',
   'LOC',
   'n',
   'p',
   'LOC',
   'n',
   'p',
   'v',
   'w',
   'n',
   'c',
   'n',
   'n',
   'v',
   'w',
   'w',
   'w',
   'n',
   'w',
   'ORG',
   'w']]]