<h2 align="center">点击下列图标在线运行HanLP</h2>
<div align="center">
	<a href="https://colab.research.google.com/github/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/dep_mtl.ipynb" target="_blank"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
	<a href="https://mybinder.org/v2/gh/hankcs/HanLP/doc-zh?filepath=plugins%2Fhanlp_demo%2Fhanlp_demo%2Fzh%2Fdep_mtl.ipynb" target="_blank"><img src="https://mybinder.org/badge_logo.svg" alt="Open In Binder"/></a>
</div>

## 安装

无论是Windows、Linux还是macOS，HanLP的安装只需一句话搞定：

In [None]:
!pip install hanlp -U

## 加载模型
HanLP的工作流程是先加载模型，模型的标示符存储在`hanlp.pretrained`这个包中，按照NLP任务归类。

In [2]:
import hanlp
hanlp.pretrained.mtl.ALL # MTL多任务，具体任务见模型名称，语种见名称最后一个字段或相应语料库

{'OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH': 'https://file.hankcs.com/hanlp/mtl/open_tok_pos_ner_srl_dep_sdp_con_electra_small_20201223_035557.zip',
 'OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH': 'https://file.hankcs.com/hanlp/mtl/open_tok_pos_ner_srl_dep_sdp_con_electra_base_20201223_201906.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_electra_small_20210111_124159.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_electra_base_20210111_124519.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ERNIE_GRAM_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_ernie_gram_base_aug_20210904_145403.zip',
 'UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_MT5_SMALL': 'https://file.hankcs.com/hanlp/mtl/ud_ontonotes_tok_pos_lem_fea_ner_srl_dep_sdp_con_mt5_small_20210228_123458.zip',
 'UD_ONTONOTES_TOK_POS_LEM

调用`hanlp.load`进行加载，模型会自动下载到本地缓存。自然语言处理分为许多任务，分词只是最初级的一个。与其每个任务单独创建一个模型，不如利用HanLP的联合模型一次性完成多个任务：

In [3]:
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH)

## 依存句法分析
任务越少，速度越快。如指定仅执行依存句法分析：

In [4]:
doc = HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '阿婆主来到北京立方庭参观自然语义科技公司。'], tasks='dep')

返回值为一个[Document](https://hanlp.hankcs.com/docs/api/common/document.html):

In [5]:
print(doc)

{
  "tok/fine": [
    ["2021年", "HanLPv2.1", "为", "生产", "环境", "带来", "次", "世代", "最", "先进", "的", "多", "语种", "NLP", "技术", "。"],
    ["阿婆主", "来到", "北京", "立方庭", "参观", "自然", "语义", "科技", "公司", "。"]
  ],
  "dep": [
    [[6, "tmod"], [6, "nsubj"], [6, "prep"], [5, "nn"], [3, "pobj"], [0, "root"], [8, "amod"], [15, "nn"], [10, "advmod"], [15, "rcmod"], [10, "assm"], [13, "nummod"], [15, "nn"], [15, "nn"], [6, "dobj"], [6, "punct"]],
    [[2, "nsubj"], [0, "root"], [4, "nn"], [2, "dobj"], [2, "conj"], [9, "nn"], [9, "nn"], [9, "nn"], [5, "dobj"], [2, "punct"]]
  ]
}


`doc['dep']`为句子们的依存句法树列表，第`i`个二元组表示第`i`个单词的`[中心词的下标, 与中心词的依存关系]`。

可视化依存句法树：

In [6]:
doc.pretty_print()

Dep Tree    	Token    	Relati
────────────	─────────	──────
 ┌─────────►	2021年    	tmod  
 │┌────────►	HanLPv2.1	nsubj 
 ││┌─►┌─────	为        	prep  
 │││  │  ┌─►	生产       	nn    
 │││  └─►└──	环境       	pobj  
┌┼┴┴────────	带来       	root  
││       ┌─►	次        	amod  
││  ┌───►└──	世代       	nn    
││  │    ┌─►	最        	advmod
││  │┌──►├──	先进       	rcmod 
││  ││   └─►	的        	assm  
││  ││   ┌─►	多        	nummod
││  ││┌─►└──	语种       	nn    
││  │││  ┌─►	NLP      	nn    
│└─►└┴┴──┴──	技术       	dobj  
└──────────►	。        	punct 

Dep Tree    	Tok	Relat
────────────	───	─────
         ┌─►	阿婆主	nsubj
┌┬────┬──┴──	来到 	root 
││    │  ┌─►	北京 	nn   
││    └─►└──	立方庭	dobj 
│└─►┌───────	参观 	conj 
│   │  ┌───►	自然 	nn   
│   │  │┌──►	语义 	nn   
│   │  ││┌─►	科技 	nn   
│   └─►└┴┴──	公司 	dobj 
└──────────►	。  	punct


转换为CoNLL格式：

In [7]:
print(doc.to_conll())

1	2021年	_	_	_	_	6	tmod	_	_
2	HanLPv2.1	_	_	_	_	6	nsubj	_	_
3	为	_	_	_	_	6	prep	_	_
4	生产	_	_	_	_	5	nn	_	_
5	环境	_	_	_	_	3	pobj	_	_
6	带来	_	_	_	_	0	root	_	_
7	次	_	_	_	_	8	amod	_	_
8	世代	_	_	_	_	15	nn	_	_
9	最	_	_	_	_	10	advmod	_	_
10	先进	_	_	_	_	15	rcmod	_	_
11	的	_	_	_	_	10	assm	_	_
12	多	_	_	_	_	13	nummod	_	_
13	语种	_	_	_	_	15	nn	_	_
14	NLP	_	_	_	_	15	nn	_	_
15	技术	_	_	_	_	6	dobj	_	_
16	。	_	_	_	_	6	punct	_	_

1	阿婆主	_	_	_	_	2	nsubj	_	_
2	来到	_	_	_	_	0	root	_	_
3	北京	_	_	_	_	4	nn	_	_
4	立方庭	_	_	_	_	2	dobj	_	_
5	参观	_	_	_	_	2	conj	_	_
6	自然	_	_	_	_	9	nn	_	_
7	语义	_	_	_	_	9	nn	_	_
8	科技	_	_	_	_	9	nn	_	_
9	公司	_	_	_	_	5	dobj	_	_
10	。	_	_	_	_	2	punct	_	_


为已分词的句子执行依存句法分析：

In [9]:
HanLP([
    ["HanLP", "为", "生产", "环境", "带来", "次世代", "最", "先进", "的", "多语种", "NLP", "技术", "。"],
    ["我", "的", "希望", "是", "希望", "张晚霞", "的", "背影", "被", "晚霞", "映红", "。"]
  ], tasks='dep', skip_tasks='tok*').pretty_print()

Dep Tree   	Token	Relati
───────────	─────	──────
 ┌────────►	HanLP	nsubj 
 │┌─►┌─────	为    	prep  
 ││  │  ┌─►	生产   	nn    
 ││  └─►└──	环境   	pobj  
┌┼┴────────	带来   	root  
││  ┌─────►	次世代  	nn    
││  │   ┌─►	最    	advmod
││  │┌─►├──	先进   	rcmod 
││  ││  └─►	的    	assm  
││  ││ ┌──►	多语种  	nn    
││  ││ │┌─►	NLP  	nn    
│└─►└┴─┴┴──	技术   	dobj  
└─────────►	。    	punct 

Dep Tree        	Tok	Relation 
────────────────	───	─────────
          ┌─►┌──	我  	assmod   
          │  └─►	的  	assm     
       ┌─►└─────	希望 	top      
┌┬─────┴────────	是  	root     
│└─►┌───────────	希望 	ccomp    
│   │     ┌─►┌──	张晚霞	assmod   
│   │     │  └─►	的  	assm     
│   │  ┌─►└─────	背影 	nsubjpass
│   └─►└──┬─────	被  	ccomp    
│         │  ┌─►	晚霞 	nsubj    
│         └─►└──	映红 	dep      
└──────────────►	。  	punct    


#### 注意
Native API的输入单位限定为句子，需使用[多语种分句模型](https://github.com/hankcs/HanLP/blob/master/plugins/hanlp_demo/hanlp_demo/sent_split.py)或[基于规则的分句函数](https://github.com/hankcs/HanLP/blob/master/hanlp/utils/rules.py#L19)先行分句。RESTful同时支持全文、句子、已分词的句子。除此之外，RESTful和native两种API的语义设计完全一致，用户可以无缝互换。