In [3]:
import spacy

In [4]:
# EntityRuler
nlp = spacy.load("pt_core_news_sm")
text = "Nísia Floresta foi referenciado em Sr. Vieira."
doc = nlp(text)

In [5]:
# Ele acacha que Nísia Floresta é uma pessoa
for ent in doc.ents:
    print(ent.text, ent.label_)

Nísia Floresta PER
Sr. Vieira PER


In [6]:
ruler = nlp.add_pipe("entity_ruler")

In [7]:
nlp.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'morphologizer': {'assigns': ['token.morph', 'token.pos'],
   'requires': [],
   'scores': ['pos_acc', 'morph_acc', 'morph_per_feat'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'entity_ruler': {'assigns': ['doc.ents', 'token.ent_type', 'token.ent_i

In [8]:
patterns = [
    {"label": "LOC",
     "pattern": "Nísia Floresta"}
]

In [9]:
ruler.add_patterns(patterns)

In [10]:
# Não mudou, porque o entityruler não consegue mudar o resultado do ner
# Podemos dar um jeito de override o ner ou colocar o entityruler antes
doc2 = nlp(text)
for ent in doc2.ents:
    print(ent.text, ent.label_)

Nísia Floresta PER
Sr. Vieira PER


In [11]:
# Colocando o entityruler antes
nlp2 = spacy.load("pt_core_news_sm")
ruler = nlp2.add_pipe("entity_ruler", before="ner") # aqui
ruler.add_patterns(patterns)

In [12]:
doc = nlp2(text)

In [13]:
# Aqui está forçamdp Nísia Floresta a ser LOC
for ent in doc.ents:
    print(ent.text, ent.label_)

Nísia Floresta LOC
Sr. Vieira PER


In [14]:
nlp3 = spacy.load("pt_core_news_sm")
ruler = nlp3.add_pipe("entity_ruler", before="ner") # aqui
patterns = [
    {"label": "LOC", "pattern": "Nísia Floresta"},
    {"label": "FILME", "pattern": "Sr. Vieira"}
]
ruler.add_patterns(patterns)

In [15]:
doc = nlp3(text)
for ent in doc.ents:
    print(ent.text, ent.label_)

Nísia Floresta LOC
Sr. Vieira FILME
