<h2 align="center">点击下列图标在线运行HanLP</h2>
<div align="center">
	<a href="https://colab.research.google.com/github/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/ner_mtl.ipynb" target="_blank"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
	<a href="https://mybinder.org/v2/gh/hankcs/HanLP/doc-zh?filepath=plugins%2Fhanlp_demo%2Fhanlp_demo%2Fzh%2Fner_mtl.ipynb" target="_blank"><img src="https://mybinder.org/badge_logo.svg" alt="Open In Binder"/></a>
</div>

## 安装

无论是Windows、Linux还是macOS，HanLP的安装只需一句话搞定：

In [None]:
!pip install hanlp -U

## 加载模型
HanLP的工作流程是先加载模型，模型的标示符存储在`hanlp.pretrained`这个包中，按照NLP任务归类。

In [3]:
import hanlp
hanlp.pretrained.mtl.ALL # MTL多任务，具体任务见模型名称，语种见名称最后一个字段或相应语料库

{'OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH': 'https://file.hankcs.com/hanlp/mtl/open_tok_pos_ner_srl_dep_sdp_con_electra_small_20201223_035557.zip',
 'OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH': 'https://file.hankcs.com/hanlp/mtl/open_tok_pos_ner_srl_dep_sdp_con_electra_base_20201223_201906.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_electra_small_20210111_124159.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_electra_base_20210111_124519.zip',
 'CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ERNIE_GRAM_ZH': 'https://file.hankcs.com/hanlp/mtl/close_tok_pos_ner_srl_dep_sdp_con_ernie_gram_base_aug_20210904_145403.zip',
 'UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_MT5_SMALL': 'https://file.hankcs.com/hanlp/mtl/ud_ontonotes_tok_pos_lem_fea_ner_srl_dep_sdp_con_mt5_small_20210228_123458.zip',
 'UD_ONTONOTES_TOK_POS_LEM

调用`hanlp.load`进行加载，模型会自动下载到本地缓存。自然语言处理分为许多任务，分词只是最初级的一个。与其每个任务单独创建一个模型，不如利用HanLP的联合模型一次性完成多个任务：

In [4]:
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH)

## 命名实体识别

同时执行所有标准的命名实体识别：

In [5]:
print(HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '阿婆主来到北京立方庭参观自然语义科技公司。'], tasks='ner*'))

{
  "tok/fine": [
    ["2021年", "HanLPv2.1", "为", "生产", "环境", "带来", "次", "世代", "最", "先进", "的", "多", "语种", "NLP", "技术", "。"],
    ["阿婆主", "来到", "北京", "立方庭", "参观", "自然", "语义", "科技", "公司", "。"]
  ],
  "ner/msra": [
    [["2021年", "DATE", 0, 1], ["HanLPv2.1", "WWW", 1, 2]],
    [["北京", "LOCATION", 2, 3], ["立方庭", "LOCATION", 3, 4], ["自然语义科技公司", "ORGANIZATION", 5, 9]]
  ],
  "ner/pku": [
    [],
    [["北京立方庭", "ns", 2, 4], ["自然语义科技公司", "nt", 5, 9]]
  ],
  "ner/ontonotes": [
    [["2021年", "DATE", 0, 1], ["HanLPv2.1", "ORG", 1, 2]],
    [["北京立方庭", "FAC", 2, 4], ["自然语义科技公司", "ORG", 5, 9]]
  ]
}


每个四元组表示`[命名实体, 类型标签, 起始下标, 终止下标]`，下标指的是命名实体在单词数组中的下标，单词数组默认为第一个以`tok`开头的数组。

任务越少，速度越快。如指定仅执行命名实体识别，默认MSRA标准：

In [6]:
HanLP('2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。', tasks='ner').pretty_print()

Token    	NER Type        
─────────	────────────────
2021年    	───►DATE        
HanLPv2.1	───►WWW         
为        	                
生产       	                
环境       	                
带来       	                
次世代      	───►DATE        
最        	                
先进       	                
的        	                
多        	                
语种       	                
NLP      	                
技术       	                
。        	                
阿婆主      	                
来到       	                
北京       	◄─┐             
立方庭      	◄─┴►ORGANIZATION
参观       	                
自然       	◄─┐             
语义       	  │             
科技       	  ├►ORGANIZATION
公司       	◄─┘             
。        	                


执行OntoNotes命名实体识别：

In [7]:
HanLP('2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。', tasks='ner/ontonotes').pretty_print()

Token    	NER Type
─────────	────────
2021年    	───►DATE
HanLPv2.1	───►ORG 
为        	        
生产       	        
环境       	        
带来       	        
次世代      	        
最        	        
先进       	        
的        	        
多        	        
语种       	        
NLP      	        
技术       	        
。        	        
阿婆主      	        
来到       	        
北京       	◄─┐     
立方庭      	◄─┴►ORG 
参观       	        
自然       	◄─┐     
语义       	  │     
科技       	  ├►ORG 
公司       	◄─┘     
。        	        


#### 注意
Native API的输入单位限定为句子，需使用[多语种分句模型](https://github.com/hankcs/HanLP/blob/master/plugins/hanlp_demo/hanlp_demo/sent_split.py)或[基于规则的分句函数](https://github.com/hankcs/HanLP/blob/master/hanlp/utils/rules.py#L19)先行分句。RESTful同时支持全文、句子、已分词的句子。除此之外，RESTful和native两种API的语义设计完全一致，用户可以无缝互换。

## 自定义词典

自定义词典是NER任务的成员变量，要操作自定义词典，先获取一个NER任务。以MSRA为例：

In [8]:
ner = HanLP['ner/msra']

### 白名单词典
白名单词典中的词语会尽量被输出。当然，HanLP以统计为主，词典的优先级很低。

In [9]:
ner.dict_whitelist = {'午饭后': 'TIME'}
doc = HanLP('2021年测试高血压是138，时间是午饭后2点45，低血压是44', tasks='ner/msra')
doc.pretty_print()

Token	NER Type   
─────	───────────
2021年	───►DATE   
测试   	           
高血压  	           
是    	           
138  	───►INTEGER
，    	           
时间   	           
是    	           
午饭   	◄─┐        
后    	◄─┴►TIME   
2点45 	───►TIME   
，    	           
低血压  	           
是    	           
44   	───►INTEGER


### 强制词典
如果你读过[《自然语言处理入门》](http://nlp.hankcs.com/book.php)，你就会理解BMESO标注集，于是你可以直接干预统计模型预测的标签，拿到最高优先级的权限。

In [10]:
ner.dict_tags = {('名字', '叫', '金华'): ('O', 'O', 'S-PERSON')}
HanLP('他在浙江金华出生，他的名字叫金华。', tasks='ner/msra').pretty_print()

To	NER Type    
──	────────────
他 	            
在 	            
浙江	───►LOCATION
金华	───►LOCATION
出生	            
， 	            
他 	            
的 	            
名字	            
叫 	            
金华	───►PERSON  
。 	            


### 黑名单词典
黑名单中的词语绝对不会被当做命名实体。

In [11]:
ner.dict_blacklist = {'金华'}
HanLP('他在浙江金华出生，他的名字叫金华。', tasks='ner/msra').pretty_print()

To	NER Type    
──	────────────
他 	            
在 	            
浙江	───►LOCATION
金华	            
出生	            
， 	            
他 	            
的 	            
名字	            
叫 	            
金华	            
。 	            
