In [6]:
#Personalizando os componentes de um pipeline

import spacy
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span
from spacy.language import Language

nlp = spacy.load("pt_core_news_sm")
animals = ["cachorro", "gato", "tartaruga", "papagaio"]
animal_patterns = list(nlp.pipe(animals))
print("animal_patterns:", animal_patterns)
matcher = PhraseMatcher(nlp.vocab)
matcher.add("ANIMAL", None, *animal_patterns)

# Defininindo o componente customizado
@Language.component("animal_component")
def animal_component(doc):
    # Aplicando o matcher ao doc
    matches = matcher(doc)
    # Criando uma partição para cada correspondência e atribuir=ndo o rótulo "ANIMAL"
    spans = [Span(doc, start, end, label="ANIMAL") for match_id, start, end in matches]
    # Sobrescrevendo doc.ents com as correspondências 
    doc.ents = spans
    return doc


# Adicionando o componente no final do fluxo de processamento 
nlp.add_pipe("animal_component", last=True)
print(nlp.pipe_names)

# Processando o texto e imprimir o texto e rótulo de doc.ents
doc = nlp("Eu tenho uma tartaruga e um cachorro")
print([(ent.text, ent.label_) for ent in doc.ents])

animal_patterns: [cachorro, gato, tartaruga, papagaio]
['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner', 'animal_component']
[('tartaruga', 'ANIMAL'), ('cachorro', 'ANIMAL')]
