In [1]:
#Personalizando os componentes de um pipeline

import spacy
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span
from spacy.language import Language

nlp = spacy.load("pt_core_news_sm")
animals = ["cachorro", "gato", "tartaruga", "papagaio"]
animal_patterns = list(nlp.pipe(animals))
print("animal_patterns:", animal_patterns)
matcher = PhraseMatcher(nlp.vocab)
matcher.add("ANIMAL", None, *animal_patterns)

# Defininindo o componente customizado
@Language.component("animal_component")
def animal_component(doc):
    # Aplicando o matcher ao doc
    matches = matcher(doc)
    # Criando uma partição para cada correspondência e atribuir=ndo o rótulo "ANIMAL"
    spans = [Span(doc, start, end, label="ANIMAL") for match_id, start, end in matches]
    # Sobrescrevendo doc.ents com as correspondências 
    doc.ents = spans
    return doc


# Adicionando o componente no final do fluxo de processamento 
nlp.add_pipe("animal_component", last=True)
print(nlp.pipe_names)

# Processando o texto e imprimir o texto e rótulo de doc.ents
doc = nlp("Eu tenho uma tartaruga e um cachorro")
print([(ent.text, ent.label_) for ent in doc.ents])

animal_patterns: [cachorro, gato, tartaruga, papagaio]
['tok2vec', 'morphologizer', 'parser', 'ner', 'attribute_ruler', 'lemmatizer', 'animal_component']
[('tartaruga', 'ANIMAL'), ('cachorro', 'ANIMAL')]


In [2]:
#Adicionando atributos


from spacy.tokens import Doc, Token, Span

Doc.set_extension("title", default=None)
Token.set_extension("is_color", default=False)
#Span.set_extension("has_color", default=False)

doc = nlp("O céu é azul.")

# Acessando o novo atributo criado
doc[3]._.is_color = True

# Para o Span tem que usar a extensão de propriedade com uma função getter
def get_has_color(span):
    colors = ["vermelho", "amarelo", "azul"]
    return any(token.text in colors for token in span)

# Definindo a extensão com o parametro getter sendo a função definida
Span.set_extension("has_color", getter=get_has_color)


In [3]:
#Adicionando métodos

from spacy.tokens import Doc

# Definindo método com seus parâmetros
def has_token(doc, token_text):
    in_doc = token_text in [token.text for token in doc]
    return in_doc

# Definindo a extensão do documento com o parâmetro nomeado method
Doc.set_extension("has_token", method=has_token)

doc = nlp("O céu é azul.")
print(doc._.has_token("azul"), "- azul")
print(doc._.has_token("nuvem"), "- nuvem")

True - azul
False - nuvem


In [None]:
#Aumentando escala e desempenho

#Jeito mais eficiente de criar vários Docs de uma vez
#É interessante criar Docs diferentes para textos diferentes, como por exmplo, um conjunto de tweets sobre um determinado assunto

docs = list(nlp.pipe(LOTS_OF_TEXTS))

In [5]:
#Ativando as duplas para passar metadados adicionais
#Dá para criar atributos personalizados com esses metadados

data = [
    ("Isso é um texto", {"id": 1, "page_number": 15}),
    ("Isso é um outro texto", {"id": 2, "page_number": 16}),
]

for doc, context in nlp.pipe(data, as_tuples=True):
    print(doc.text, context["page_number"])

Isso é um texto 15
Isso é um outro texto 16


In [6]:
#Método usado para criar um Doc passando apenas pelo processo de tokenização

doc = nlp.make_doc("Olá!")

In [None]:
#é possível desabilitar temporariamente componentes do fluxo de processamento

# Desabilitando o tagueador tagger e o analisador parser
with nlp.disable_pipes("tagger", "parser"):
    doc = nlp(text)
    print(doc.ents)