## 学习要点

1、添加自定义实体规则

2、规则添加位置的重要性

- 将实体规则器添加到NER（命名实体识别）组件之前，规则才能有效生效。

- 如果规则添加在NER之后，自定义规则可能会被NER的结果覆盖。

3、通过自定义规则来增强或修改默认的实体识别结果。

In [1]:
# 导入spacy库
import spacy

In [2]:
# 加载英语小型核心模型
nlp = spacy.load("en_core_web_sm")

In [6]:
# 定义要分析的文本
text = "West Chesterfieldville was referenced in Mr. Deeds."

In [7]:
# 使用nlp对象处理文本
doc = nlp(text)

In [9]:
# 打印处理后的文档对象
print(doc)

West Chesterfieldville was referenced in Mr. Deeds.

In [10]:
# 遍历文档中识别出的所有命名实体并打印
# doc.ents 是一个包含所有被识别实体的列表
# 每个实体（ent）都是一个 Span 对象，包含文本和标签信息
for ent in doc.ents:
    # ent.text 是实体的原始文本
    # ent.label_ 是实体的类别标签（如人名、地名、组织等）
    # 打印每个实体的文本和对应的标签
    print(ent.text, ent.label_)

West Chesterfieldville PERSON
Deeds PERSON


In [11]:
# 添加实体规则器到nlp管道
ruler = nlp.add_pipe("entity_ruler")

In [12]:
# 分析nlp对象的管道组件
# 这个方法返回一个字典，包含了每个管道组件的详细信息
# 包括它们的功能、依赖关系、分配的属性等
nlp.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'tagger': {'assigns': ['token.tag'],
   'requires': [],
   'scores': ['tag_acc'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'entity_ruler': {'assigns': ['doc.ents', 'token.ent_type', 'token.ent_iob'],
   'requires': [],
   'scores': ['ents_f', 'ent

In [13]:
# 定义实体模式
patterns = [
    {"label": "GPE", "pattern": "West Chesterfieldville"}
]

In [14]:
# 将模式添加到规则器
ruler.add_patterns(patterns)

In [15]:
# 遍历文档中识别出的所有命名实体并打印
# doc.ents 是一个包含所有被识别实体的列表
# 每个实体（ent）都是一个 Span 对象，包含文本和标签信息
for ent in doc.ents:
    # ent.text 是实体的原始文本
    # ent.label_ 是实体的类别标签（如人名、地名、组织等）
    # 打印每个实体的文本和对应的标签
    print(ent.text, ent.label_)

West Chesterfieldville PERSON
Deeds PERSON


In [16]:
# 加载英语小型核心模型
nlp2 = spacy.load("en_core_web_sm")

In [17]:
# 在NER组件之前添加实体规则器
ruler = nlp2.add_pipe("entity_ruler", before="ner")

In [18]:
# 将模式添加到规则器
ruler.add_patterns(patterns)

In [19]:
# 使用新的nlp对象处理文本
doc2 = nlp2(text)

In [21]:
# 遍历新文档中的实体并打印
for ent in doc2.ents:
    print(ent.text, ent.label_)

West Chesterfieldville GPE
Deeds PERSON


In [22]:
# 分析新nlp对象的管道组件
nlp2.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'tagger': {'assigns': ['token.tag'],
   'requires': [],
   'scores': ['tag_acc'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'entity_ruler': {'assigns': ['doc.ents', 'token.ent_type', 'token.ent_iob'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ent

In [23]:
# 加载英语小型核心模型
nlp3 = spacy.load("en_core_web_sm")

In [24]:
# 在NER组件之前添加实体规则器
ruler = nlp3.add_pipe("entity_ruler", before="ner")

In [25]:
# 定义新的实体模式，包括电影标签
patterns = [
    {"label": "GPE", "pattern": "West Chesterfieldville"},
    {"label": "FILM", "pattern": "Mr. Deeds"}
]

In [26]:
# 将模式添加到规则器
ruler.add_patterns(patterns)

In [27]:
# 使用新的nlp对象处理文本
doc = nlp3(text)

In [29]:
# 遍历新文档中的实体并打印
for ent in doc.ents:
    print(ent.text, ent.label_)

West Chesterfieldville GPE
Mr. Deeds FILM
