<h2 align="center">点击下列图标在线运行HanLP</h2>
<div align="center">
	<a href="https://colab.research.google.com/github/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/con_mtl.ipynb" target="_blank"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
	<a href="https://mybinder.org/v2/gh/hankcs/HanLP/doc-zh?filepath=plugins%2Fhanlp_demo%2Fhanlp_demo%2Fzh%2Fcon_mtl.ipynb" target="_blank"><img src="https://mybinder.org/badge_logo.svg" alt="Open In Binder"/></a>
</div>

## 安装

无论是Windows、Linux还是macOS，HanLP的安装只需一句话搞定：

In [None]:
!pip install hanlp -U

## 加载模型
HanLP的工作流程是先加载模型，模型的标示符存储在`hanlp.pretrained`这个包中，按照NLP任务归类。

In [1]:
import hanlp
hanlp.pretrained.mtl.ALL # MTL多任务，具体任务见模型名称，语种见名称最后一个字段或相应语料库

{'OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH': 'https://file.hankcs.com/hanlp/mtl/open_tok_pos_ner_srl_dep_sdp_con_electra_small_20201223_035557.zip',
 'OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH': 'https://file.hankcs.com/hanlp/mtl/open_tok_pos_ner_srl_dep_sdp_con_electra_base_20201223_201906.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_electra_small_20210111_124159.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_electra_base_20210111_124519.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ERNIE_GRAM_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_ernie_gram_base_aug_20210904_145403.zip',
 'UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_MT5_SMALL': 'https://file.hankcs.com/hanlp/mtl/ud_ontonotes_tok_pos_lem_fea_ner_srl_dep_sdp_con_mt5_small_20210228_123458.zip',
 'UD_ONTONOTES_TOK_POS_LEM

调用`hanlp.load`进行加载，模型会自动下载到本地缓存。自然语言处理分为许多任务，分词只是最初级的一个。与其每个任务单独创建一个模型，不如利用HanLP的联合模型一次性完成多个任务：

In [2]:
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH)

## 短语句法分析
任务越少，速度越快。如指定仅执行短语句法分析：

In [3]:
doc = HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '阿婆主来到北京立方庭参观自然语义科技公司。'], tasks='con')

返回值为一个[Document](https://hanlp.hankcs.com/docs/api/common/document.html):

In [4]:
print(doc)

{
  "tok/fine": [
    ["2021年", "HanLPv2.1", "为", "生产", "环境", "带来", "次", "世代", "最", "先进", "的", "多", "语种", "NLP", "技术", "。"],
    ["阿婆主", "来到", "北京", "立方庭", "参观", "自然", "语义", "科技", "公司", "。"]
  ],
  "con": [
    ["TOP", [["IP", [["NP", [["_", ["2021年"]]]], ["NP", [["_", ["HanLPv2.1"]]]], ["VP", [["PP", [["_", ["为"]], ["NP", [["_", ["生产"]], ["_", ["环境"]]]]]], ["VP", [["_", ["带来"]], ["NP", [["ADJP", [["NP", [["ADJP", [["_", ["次"]]]], ["NP", [["_", ["世代"]]]]]], ["ADVP", [["_", ["最"]]]], ["VP", [["_", ["先进"]]]]]], ["_", ["的"]], ["NP", [["QP", [["_", ["多"]]]], ["NP", [["_", ["语种"]]]]]], ["NP", [["_", ["NLP"]], ["_", ["技术"]]]]]]]]]], ["_", ["。"]]]]]],
    ["TOP", [["IP", [["NP", [["_", ["阿婆主"]]]], ["VP", [["VP", [["_", ["来到"]], ["NP", [["_", ["北京"]], ["_", ["立方庭"]]]]]], ["VP", [["_", ["参观"]], ["NP", [["_", ["自然"]], ["_", ["语义"]], ["_", ["科技"]], ["_", ["公司"]]]]]]]], ["_", ["。"]]]]]]
  ]
}


`doc['con']`为Tree类型，是list的子类。

可视化短语句法树：

In [5]:
doc.pretty_print()

Token    	P    3       4       5       6       7       8       9 
─────────	───────────────────────────────────────────────────────
2021年    	_───────────────────────────────────────────►NP ───┐   
HanLPv2.1	_───────────────────────────────────────────►NP────┤   
为        	_──────────┐                                       │   
生产       	_──┐       ├────────────────────────►PP ───┐       │   
环境       	_──┴►NP ───┘                               │       │   
带来       	_──────────────────────────────────┐       │       │   
次        	_───►ADJP──┐                       │       ├►VP────┤   
世代       	_───►NP ───┴►NP ───┐               │       │       │   
最        	_───────────►ADVP──┼►ADJP──┐       ├►VP ───┘       ├►IP
先进       	_───────────►VP ───┘       │       │               │   
的        	_──────────────────────────┤       │               │   
多        	_───►QP ───┐               ├►NP ───┘               │   
语种       	_───►NP ───┴────────►NP────┤                       │   
NLP      	

将第一个短语树转换为bracketed格式：

In [6]:
print(doc['con'][0])

(TOP
  (IP
    (NP (_ 2021年))
    (NP (_ HanLPv2.1))
    (VP
      (PP (_ 为) (NP (_ 生产) (_ 环境)))
      (VP
        (_ 带来)
        (NP
          (ADJP
            (NP (ADJP (_ 次)) (NP (_ 世代)))
            (ADVP (_ 最))
            (VP (_ 先进)))
          (_ 的)
          (NP (QP (_ 多)) (NP (_ 语种)))
          (NP (_ NLP) (_ 技术)))))
    (_ 。)))


将第一个短语树转换为list格式：

In [7]:
doc['con'][0].to_list()

['TOP',
 [['IP',
   [['NP', [['_', ['2021年']]]],
    ['NP', [['_', ['HanLPv2.1']]]],
    ['VP',
     [['PP', [['_', ['为']], ['NP', [['_', ['生产']], ['_', ['环境']]]]]],
      ['VP',
       [['_', ['带来']],
        ['NP',
         [['ADJP',
           [['NP', [['ADJP', [['_', ['次']]]], ['NP', [['_', ['世代']]]]]],
            ['ADVP', [['_', ['最']]]],
            ['VP', [['_', ['先进']]]]]],
          ['_', ['的']],
          ['NP', [['QP', [['_', ['多']]]], ['NP', [['_', ['语种']]]]]],
          ['NP', [['_', ['NLP']], ['_', ['技术']]]]]]]]]],
    ['_', ['。']]]]]]

为已分词的句子执行短语句法分析：

In [8]:
HanLP([
    ["HanLP", "为", "生产", "环境", "带来", "次世代", "最", "先进", "的", "多语种", "NLP", "技术", "。"],
    ["我", "的", "希望", "是", "希望", "张晚霞", "的", "背影", "被", "晚霞", "映红", "。"]
  ], tasks='con', skip_tasks='tok*').pretty_print()

Token	P    3       4       5       6       7       8       9 
─────	───────────────────────────────────────────────────────
hanlp	_───────────────────────────────────────────►NP ───┐   
为    	_──────────┐                                       │   
生产   	_──┐       ├────────────────────────►PP ───┐       │   
环境   	_──┴►NP ───┘                               │       │   
带来   	_──────────────────────────────────┐       │       │   
次世代  	_───►NP ───┐                       │       ├►VP────┤   
最    	_───►ADVP──┼►VP ────►IP ───┐       │       │       ├►IP
先进   	_───►VP ───┘               │       ├►VP ───┘       │   
的    	_──────────────────────────┤       │               │   
多语种  	_───────────────────►NP────┼►NP ───┘               │   
nlp  	_───────────────────►NP────┤                       │   
技术   	_───────────────────►NP ───┘                       │   
。    	_──────────────────────────────────────────────────┘   

Tok	P    3       4       5       6       7       8       9       10  