## import hanlp

In [1]:
import hanlp

### 多任务学习（MTL）模型

hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH是HanLP库中的一个预训练多任务学习（MTL）模型，它基于Electra模型架构，并针对中文语料进行了训练。

In [3]:
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)  # 世界最大中文语料库
doc = HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '阿婆主来到北京立方庭参观自然语义科技公司。'])
doc

                                   

{'tok/fine': [['2021年',
   'HanLPv2.1',
   '为',
   '生产',
   '环境',
   '带来',
   '次世代',
   '最',
   '先进',
   '的',
   '多语种',
   'NLP',
   '技术',
   '。'],
  ['阿婆主', '来到', '北京', '立方庭', '参观', '自然', '语义', '科技', '公司', '。']],
 'tok/coarse': [['2021年',
   'HanLPv2.1',
   '为',
   '生产',
   '环境',
   '带来',
   '次世代',
   '最',
   '先进',
   '的',
   '多语种',
   'NLP',
   '技术',
   '。'],
  ['阿婆主', '来到', '北京立方庭', '参观', '自然语义科技公司', '。']],
 'pos/ctb': [['NT',
   'NR',
   'P',
   'NN',
   'NN',
   'VV',
   'NN',
   'AD',
   'VA',
   'DEC',
   'NN',
   'NR',
   'NN',
   'PU'],
  ['NN', 'VV', 'NR', 'NR', 'VV', 'NN', 'NN', 'NN', 'NN', 'PU']],
 'pos/pku': [['t',
   'nx',
   'p',
   'vn',
   'n',
   'v',
   'n',
   'd',
   'a',
   'u',
   'n',
   'nx',
   'n',
   'w'],
  ['n', 'v', 'ns', 'ns', 'v', 'n', 'n', 'n', 'n', 'w']],
 'pos/863': [['nt',
   'w',
   'p',
   'v',
   'n',
   'v',
   'nt',
   'd',
   'a',
   'u',
   'n',
   'w',
   'n',
   'w'],
  ['n', 'v', 'ns', 'ni', 'v', 'a', 'n', 'n', 'n', 'w']],
 'ner/msra': [[(

### 中文分词模型

In [4]:
from hanlp.components.taggers.transformers.transformer_tagger import TransformerTaggingModel
tok = hanlp.load(hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH)
# 加载了一个预训练的中文分词模型，COARSE_ELECTRA_SMALL_ZH 是一个基于 ELECTRA-small 的预训练模型，用于粗粒度的分词。
tok_doc = tok(['周星驰，1962年6月22日生于香港，祖籍浙江宁波', '商品和服务。', '晓美焰来到北京立方庭参观自然语义科技公司', '周星驰，1962年6月22日生于香港，祖籍浙江宁波'])
print(tok_doc)

                                   

[['周星驰', '，', '1962年6月22日', '生于', '香港', '，', '祖籍', '浙江', '宁波'], ['商品', '和', '服务', '。'], ['晓美焰', '来到', '北京立方庭', '参观', '自然语义科技公司'], ['周星驰', '，', '1962年6月22日', '生于', '香港', '，', '祖籍', '浙江', '宁波']]


### 词性标柱

In [5]:
pos = hanlp.load(hanlp.pretrained.pos.CTB9_POS_ELECTRA_SMALL)
# 加载一个基于 CTB9 的预训练词性标注模型。
pos_doc = pos(['我', '的', '希望', '是', '希望', '世界', '和平'])
print(pos_doc)
pos_doc = pos(tok_doc)
print(pos_doc)

                                   

['PN', 'DEG', 'NN', 'VC', 'VV', 'NN', 'VA']
[['NR', 'PU', 'NT', 'VV', 'NR', 'PU', 'NN', 'NR', 'NR'], ['NN', 'CC', 'NN', 'PU'], ['NR', 'VV', 'NR', 'VV', 'NN'], ['NR', 'PU', 'NT', 'VV', 'NR', 'PU', 'NN', 'NR', 'NR']]


### 命名实体识别

In [6]:
ner = hanlp.load(hanlp.pretrained.ner.MSRA_NER_ELECTRA_SMALL_ZH)
# 加载一个基于 MSRA 数据集的命名实体识别模型。
ner_doc = ner(tok_doc)
print(ner_doc)

                                   

[[('周星驰', 'PERSON', 0, 1), ('1962年6月22日', 'DATE', 2, 3), ('香港', 'LOCATION', 4, 5), ('浙江', 'LOCATION', 7, 8), ('宁波', 'LOCATION', 8, 9)], [], [('晓美焰', 'PERSON', 0, 1), ('北京立方庭', 'LOCATION', 2, 3), ('自然语义科技公司', 'ORGANIZATION', 4, 5)], [('周星驰', 'PERSON', 0, 1), ('1962年6月22日', 'DATE', 2, 3), ('香港', 'LOCATION', 4, 5), ('浙江', 'LOCATION', 7, 8), ('宁波', 'LOCATION', 8, 9)]]


In [7]:
ner_doc = ner([['晓美焰', '来到', '北京立方庭', '参观', '自然语义', '科技', '公司']])
print(ner_doc)

[[('晓美焰', 'PERSON', 0, 1), ('北京立方庭', 'LOCATION', 2, 3), ('自然语义科技公司', 'ORGANIZATION', 4, 7)]]


## HanLPClient

官网： https://hanlp.com/semantics/dashboard/index

In [None]:
from hanlp_restful import HanLPClient
# pip install hanlp-restful

HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')  # auth不填则匿名，zh中文，mul多语种

doc = HanLP.parse("2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。")
print(doc)

## 结果参数说明

In [5]:
doc.keys()

dict_keys(['tok/fine', 'tok/coarse', 'pos/ctb', 'pos/pku', 'pos/863', 'ner/msra', 'ner/pku', 'ner/ontonotes', 'srl', 'dep', 'sdp', 'con'])

| Key    | 说明                                         |
|--------|----------------------------------------------|
| tok/fine | 细粒度分词，将文本分割成更小的单元，如词语、短语等 |
| tok/coarse | 粗粒度分词，将文本分割成较大的单元，如句子或段落 |
| pos/ctb | 词性标注，使用中文树库（CTB）的词性标注体系       |
| pos/pku | 词性标注，使用北京大学（PKU）的词性标注体系       |
| pos/863 | 词性标注，使用国家高技术研究发展计划（863计划）的词性标注体系 |
| ner/msra | 命名实体识别，使用微软亚洲研究院（MSRA）的命名实体识别模型 |
| ner/pku | 命名实体识别，使用北京大学（PKU）的命名实体识别模型 |
| ner/ontonotes | 命名实体识别，使用OntoNotes项目的命名实体识别模型 |
| srl    | 语义角色标注，用于识别句子中的动作和它们的角色   |
| dep    | 依存句法分析，分析句子中词与词之间的依存关系     |
| sdp    | 语义依存分析，分析句子中词与词之间的语义依存关系 |
| con    | 共指消解，用于识别文本中指代相同实体的不同表达   |