## 学习要点

1、自定义管道组件

In [1]:
# 导入 spaCy 库
import spacy

In [2]:
# 加载英语小型模型
nlp = spacy.load("en_core_web_sm")
# 使用加载的模型处理文本
doc = nlp("Britain is a place. Mary is a doctor.")

In [3]:
# 遍历识别出的实体并打印
for ent in doc.ents:
    print(ent.text, ent.label_)

Britian NORP
Mary PERSON


In [4]:
# 从 spacy.language 模块导入 Language 类
from spacy.language import Language

In [5]:
# 定义一个自定义的管道组件，用于移除 GPE（地理政治实体）
@Language.component("remove_gpe")
def remove_gpe(doc):
    # 创建实体的副本
    original_ents = list(doc.ents)
    # 遍历实体，移除 GPE 类型的实体
    for ent in doc.ents:
        if ent.label_ == 'GPE':
            original_ents.remove(ent)
    # 更新文档的实体
    doc.ents = original_ents
    return(doc)

In [6]:
# 将自定义的 remove_gpe 组件添加到管道中
nlp.add_pipe("remove_gpe")

<function __main__.remove_gpe(doc)>

In [7]:
# 分析当前的管道组件
nlp.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'tagger': {'assigns': ['token.tag'],
   'requires': [],
   'scores': ['tag_acc'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'remove_gpe': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False}},
 'problems': {'tok2vec': [],
  

In [8]:
# 使用更新后的管道处理相同的文本
doc = nlp("Britain is a place. Mary is a doctor.")
# 再次遍历并打印实体，检查 GPE 是否被移除
for ent in doc.ents:
    print(ent.text, ent.label_)

Britian NORP
Mary PERSON


In [None]:
# 尝试将更新后的模型保存到磁盘
nlp.to_disk("data/new_en_core_web_sm")