In [1]:
import spacy

In [2]:
#Carregamento do modelo pequeno de ingles e da frase a ser utilizada
nlp = spacy.load("en_core_web_sm")
text = "West Chestertenfieldville was referenced in Mr. Deeds."

In [3]:
doc = nlp(text)

In [4]:
#Aqui o nlp reconheceu o "West Chestertenfieldville" como uma localização e "Deeds" como uma pessoa
for ent in doc.ents:
    print(ent.text, ent.label_)

West Chestertenfieldville LOC
Deeds PERSON


In [5]:
#Adicionadno um entity ruler a pipeline 
ruler = nlp.add_pipe("entity_ruler")

In [6]:
nlp.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'tagger': {'assigns': ['token.tag'],
   'requires': [],
   'scores': ['tag_acc',
    'pos_acc',
    'tag_micro_p',
    'tag_micro_r',
    'tag_micro_f'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'entity_ruler': {'assigns': ['doc.ents', 'token.ent_

In [7]:
#Adicionando os padrões ao ruler
patterns = [
        {"label" : "GPE", "pattern": "West Chestertenfieldville"}
]

In [8]:
ruler.add_patterns(patterns)

In [9]:
#Verificando se alterou algo
doc2 = nlp(text)
for ent in doc2.ents:
    print(ent.text, ent.label_)

West Chestertenfieldville LOC
Deeds PERSON


In [10]:
nlp2 = spacy.load("en_core_web_sm")

In [15]:
#Passando o entity ruler para a pipeline como customizado apos o NER
ruler = nlp2.add_pipe("entity_ruler", name="my_custom_ruler", before="ner")

In [16]:
ruler.add_patterns(patterns)

In [17]:
#Agora ele reconhece como uma entidade GPE pois ele vem antes do nre ou entidades nomeadas reconhecidas
doc = nlp2(text)
for ent in doc.ents:
    print(ent.text, ent.label_)

West Chestertenfieldville GPE
Deeds PERSON


In [18]:
#Mesmo processo, mas agora para identificar Mr. Deeds como filme
nlp3 = spacy.load("en_core_web_sm")

In [21]:
ruler = nlp3.add_pipe("entity_ruler",name="ruler_custom", before="ner")

In [22]:
patterns = [
        {"label" : "GPE", "pattern": "West Chestertenfieldville"},
        {"label" : "FILM", "pattern": "Mr. Deeds"}
]

In [23]:
ruler.add_patterns(patterns)

In [24]:
#Agora está correto, West Chestertenfieldville como um GPE e Mr. Deeds como filme
doc = nlp3(text)
for ent in doc.ents:
    print(ent.text, ent.label_)

West Chestertenfieldville GPE
Mr. Deeds FILM
