# NLP - SPACY

- Spacy: biblioteca de NLP

In [131]:
#!pip install -U spacy==3.2.0

- Instalando modelo de NLP: lg (Large)

In [132]:
#!python -m spacy download pt_core_news_lg


In [133]:
import spacy

- Modelo em Portguês

In [134]:
# Criar o objeto com o modelo que se quer utilizar
nlp = spacy.load('pt_core_news_lg')

- Objeto nlp: <class 'spacy.lang.pt.Portuguese'>
- Quando se cria o objeto o spacy constroi um pipeline com várias etapas de pre-processing
- É possível personalizar o pipeline padrão

In [135]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


- É possível visualizar as tarefas dentro do pipeline padrão: ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']

In [136]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


- Vamos criar um Documento e transformar em um objeto DOC do spacy

In [137]:
# Criando documento a partir do objeto NLP
documento = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia")
documento2 = nlp("Alegações extraordinárias requerem evidências extraordinárias. Carl Sagan: 'https://carlsagan.com'")

In [138]:
# Tamanho do documento
len(documento.vocab)

382

- Objetos do tipo DOC do SPACY é composto por tokens
- A criação dos tokens não é opcional: é criada sempre

In [139]:
# Tipo de documento: DOC do SPACY
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


- Imprimento o token do documento
- A pontuação é preservada
- Entendeu que S.A. é uma palavra. Não separou

In [140]:
for token in documento:
    print(token.text)

As
ações
do
Magazine
Luiza
S.A.
,
Franca
,
Brasil
,
acumularam
baixa
de
70
%
ao
ano
.
Assim
já
devolveram
todos
os
ganhos
do
período
da
pandemia


In [141]:
for token in documento2:
    print(token.text)

Alegações
extraordinárias
requerem
evidências
extraordinárias
.
Carl
Sagan
:
'
https://carlsagan.com
'


In [142]:
# Token na posição 3
print(documento[3])

Magazine


- Selecionar uma parte do texto: token 3 ao 4

In [143]:
print(documento[3:5])# de 3 a 5, ele pega de 3 a 4

Magazine Luiza


In [144]:
# Quantidade de tokens no documento
len(documento)

29

- Identificar atributos que não tem contexto
- Informando o tipo do Token

In [145]:
print("Tokens: ", [token.text for token in documento])
print("Stop Word: ", [token.is_stop for token in documento])
print("Alfanumérico: ", [token.is_alpha for token in documento])
print("Maiúsculo: ", [token.is_upper for token in documento])
print("Pontuação: ", [token.is_punct for token in documento])
print("Número: ", [token.like_num for token in documento])
print("Sentença Inicial: ", [token.is_sent_start for token in documento])

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Stop Word:  [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, True, False, False, True, True, False, True, True, False, True, False, True, False]
Alfanumérico:  [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, True, False, True, True, True, True, True, True, True, True, True, True]
Maiúsculo:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, False, False, True,

- Você pode querer remover pontuação, stopword ou outro tipo. Por isso é importante a identificação

In [146]:
# Formato do Token - É importante para processar documento
print("Tokens: ", [token.text for token in documento])
print("Stop Word: ", [token.shape_ for token in documento])

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Stop Word:  ['Xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx']


- Vamos pesquisar elementos numéricos ou 

In [147]:
for token in documento:
    if token.like_num:
        print("Número Encontrado: ", token.text)
    if token.is_punct:
        print("Pontuação Encontrada: ", token.text)

Pontuação Encontrada:  ,
Pontuação Encontrada:  ,
Pontuação Encontrada:  ,
Número Encontrado:  70
Pontuação Encontrada:  %
Pontuação Encontrada:  .


- O _ a seguir serve para trazer a representação textual: sem isso, tras o número

In [148]:
for token in documento:
    print(token.text, " - ", token.pos_ , " - ", token.dep_ , " - ", token.lemma_ , " - ", token.shape_)

As  -  DET  -  det  -  o  -  Xx
ações  -  NOUN  -  nsubj  -  ação  -  xxxx
do  -  ADP  -  case  -  de o  -  xx
Magazine  -  PROPN  -  nmod  -  Magazine  -  Xxxxx
Luiza  -  PROPN  -  appos  -  Luiza  -  Xxxxx
S.A.  -  PROPN  -  flat:name  -  S.A.  -  X.X.
,  -  PUNCT  -  punct  -  ,  -  ,
Franca  -  PROPN  -  conj  -  Franca  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
Brasil  -  PROPN  -  conj  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
acumularam  -  VERB  -  ROOT  -  acumular  -  xxxx
baixa  -  NOUN  -  obj  -  baixa  -  xxxx
de  -  ADP  -  case  -  de  -  xx
70  -  NUM  -  nummod  -  70  -  dd
%  -  SYM  -  nmod  -  %  -  %
ao  -  ADP  -  case  -  a o  -  xx
ano  -  NOUN  -  nmod  -  ano  -  xxx
.  -  PUNCT  -  punct  -  .  -  .
Assim  -  ADV  -  advmod  -  assim  -  Xxxxx
já  -  ADV  -  advmod  -  já  -  xx
devolveram  -  VERB  -  ROOT  -  devolver  -  xxxx
todos  -  DET  -  det  -  todo  -  xxxx
os  -  DET  -  det  -  o  -  xx
ganhos  -  NOUN  -  obj  -  ganho  -  xxxx
d

- Isso acontece pois o NLP trabalha com números

In [149]:
for token in documento:
    print(token.text, " - ", token.pos , " - ", token.dep , " - ", token.lemma , " - ", token.shape)

As  -  90  -  415  -  1489474827855109852  -  12204527652707022206
ações  -  92  -  429  -  7281034482467035345  -  13110060611322374290
do  -  85  -  8110129090154140942  -  12950005104698871082  -  4370460163704169311
Magazine  -  96  -  426  -  475134985396613654  -  16072095006890171862
Luiza  -  96  -  403  -  15824816097074282294  -  16072095006890171862
S.A.  -  96  -  17772752594865228322  -  14572827027234061171  -  9346084826459880894
,  -  97  -  445  -  2593208677638477497  -  2593208677638477497
Franca  -  96  -  410  -  7113486204488927274  -  16072095006890171862
,  -  97  -  445  -  2593208677638477497  -  2593208677638477497
Brasil  -  96  -  410  -  16970572670701158181  -  16072095006890171862
,  -  97  -  445  -  2593208677638477497  -  2593208677638477497
acumularam  -  100  -  8206900633647566924  -  12070761697871444291  -  13110060611322374290
baixa  -  92  -  434  -  13225109099391061592  -  13110060611322374290
de  -  85  -  8110129090154140942  -  11144093025

In [150]:
for token in documento:
    print(token.text, " - ", token.morph)

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine  -  Gender=Fem|Number=Sing
Luiza  -  Gender=Fem|Number=Sing
S.A.  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumularam  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano  -  Gender=Masc|Number=Sing
.  -  
Assim  -  
já  -  
devolveram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos  -  Gender=Masc|Number=Plur|PronType=Tot
os  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos  -  Gender=Masc|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
período  -  Gender=Masc|Number=Sing
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemia  -  Gender=Fem|Number=Sing


In [151]:
for token in documento:
    print(token.text, " - ", token.tag_)

As  -  DET
ações  -  NOUN
do  -  ADP
Magazine  -  PROPN
Luiza  -  PROPN
S.A.  -  PROPN
,  -  PUNCT
Franca  -  PROPN
,  -  PUNCT
Brasil  -  PROPN
,  -  PUNCT
acumularam  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM
ao  -  ADP
ano  -  NOUN
.  -  PUNCT
Assim  -  ADV
já  -  ADV
devolveram  -  VERB
todos  -  DET
os  -  DET
ganhos  -  NOUN
do  -  ADP
período  -  NOUN
da  -  ADP
pandemia  -  NOUN


- Encontrando as entidades nomeadas - Obtido a partir de um modelo treinado
- O modelo também pode ser personalizado - possível adicionar outras formas de entidades nomeadas

In [152]:
for ent in documento.ents:
    print(ent.text, " - ", ent.label_)

Magazine Luiza S.A.  -  ORG
Franca  -  LOC
Brasil  -  LOC


- Stop Words: palavras sem valor semântico. Uma boa prática é remover elas.
- Precisamos identificar as Stop Words
- Spacy permite: consultar, adicionar ou checar se uma token é um stop word
- Dessa forma podemos fazer a remoção dessas palavras a partir do Spacy

In [153]:
for token in documento:
    if token.is_stop:
        print("Stop Word: ", token.text)

Stop Word:  As
Stop Word:  do
Stop Word:  de
Stop Word:  ao
Stop Word:  Assim
Stop Word:  já
Stop Word:  todos
Stop Word:  os
Stop Word:  do
Stop Word:  da


- As stop words são especificas de um determinado idioma

In [154]:
# Lista todas as stop words que existem no modelo do Spacy que estamos utilizando
for words in nlp.Defaults.stop_words:
    print(words)

põem
nem
tempo
fazia
des
posso
porquê
entre
pontos
querem
estado
sabe
cuja
vindo
sob
ver
grupo
doze
estou
sétima
cujo
aquela
vão
cedo
naquela
às
novos
onze
as
nuns
treze
porque
isto
das
exemplo
esta
ir
tentei
três
os
geral
está
quer
parece
quieta
custa
também
momento
fui
vinte
primeira
mesmo
eita
foi
podia
são
esses
pouca
mês
podem
todas
quê
contudo
foste
próprio
zero
faz
números
área
estar
pôde
próxima
nas
à
segunda
adeus
dezoito
tem
dezanove
só
nossa
faço
eu
pelo
terceiro
suas
ali
maior
conhecida
daquela
fora
aqui
diante
ainda
comprida
em
sexta
somos
pelos
quinze
nível
certamente
número
apenas
oitava
tivestes
vós
boa
fazemos
perto
elas
tu
sei
breve
pois
pelas
ponto
porém
num
tentar
onde
minhas
numa
cinco
meses
qual
aquelas
disso
de
nove
além
embora
neste
quinta
tive
contra
como
ou
sem
conselho
teu
fostes
seus
segundo
deverá
seu
portanto
último
coisa
tuas
talvez
no
sistema
sua
puderam
vai
quarto
usar
para
o
seis
seria
esse
assim
vem
uma
e
nossos
dizem
quarta
vocês
saber
cá
alguns
todo

- Eventualmente podemos querer adicionar uma nova stop word

In [155]:
# Adicionando uma palavra qualquer como stop word
nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

In [156]:
# Checando a stop word
nlp.vocab['eita'].is_stop

True

- Como remover stop word de um texto

In [157]:
# Lista com Tokens
token_lista = []
for token in documento:
    token_lista.append(token.text)

# Lista com Stop Words
stop_lista = []
for words in nlp.Defaults.stop_words:
    stop_lista.append(words)

# Objeto que armazena os tokens, excluindo as stopwords
semstop = [word for word in token_lista if not word in stop_lista]

print(documento.text)
print(semstop)

As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'período', 'pandemia']


- Cada palavra no Spacy é armazenada por um HASH, então é possível identifica-las. Ou seja, cada palavra é representada por um hash
- O hash é utilizado internamente
- Vamos entender a representação da palavra em termos de HASH

In [158]:
# Não tem muita utilidade prática, mas para entendimento do SPACY

# Obtendo o Hash da palavra dados
print("Hash: ", nlp.vocab.strings['dados'])
print("Hash: ", documento.vocab.strings["dados"])

# Retornando a String com base no HASH
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [159]:
# Representaçlão do Lexema
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


In [160]:
# 300 pesos que representam a relação da palavra dados com outras 300 palavras. As aplicações de NLP utilizam esses pesos obtidos a partir de um modelo treinado
print(nlp("dados").vector.shape)
print(nlp("dados").vector)

(300,)
[-1.8078e+00 -2.8421e+00 -5.5345e-01 -4.0565e+00 -2.3565e+00  4.7295e+00
 -3.3508e+00 -1.2036e+00 -5.3749e+00 -7.5768e-01 -2.0015e+00  5.3618e+00
  2.2789e-01  1.2136e+00 -1.4418e+00 -3.0621e+00  2.2060e+00  1.1943e+00
 -1.8689e+00 -5.9128e+00 -5.1929e-01  2.1897e+00 -2.4651e+00  1.7600e+00
 -5.6308e+00  1.0053e+00  7.3080e-01  2.0417e-01 -6.0370e+00  1.7474e+00
  2.0375e+00  2.7541e+00 -1.0423e+00  1.7632e+00 -1.4484e+00 -2.4344e+00
 -8.6094e-01  1.7867e+00 -4.9920e+00 -3.1162e+00 -5.3973e-01  2.4241e+00
  4.4410e-01 -4.7503e+00  2.1383e+00  3.8537e-01 -2.2418e+00  5.8104e+00
 -1.1731e+00  2.4686e-02 -1.8413e+00 -5.9321e+00 -7.0872e-03 -2.3093e+00
  5.5101e+00 -4.1795e-01  2.9754e+00  3.6709e-01 -8.0867e-01 -1.3751e+00
  4.8132e+00 -2.2835e+00 -2.0920e-01  1.2578e+00  4.3466e+00  1.3846e+00
 -1.5847e+00  3.3322e+00 -4.3669e+00  1.8883e+00 -1.2312e+00  3.7902e-01
  8.6331e-01 -4.0607e+00 -1.3444e+00  4.5210e+00  2.2995e-01 -5.9245e+00
 -2.0598e-01 -3.1810e+00 -3.8640e+00  7.2114

In [161]:
# Mostra a relação dessa sentença com outras palavras. Mostra a métria das palavras que formam a sentença
print(nlp("dados são uma nova forma de ver o mundo").vector)

[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.2420444

- Esses vetores trazem os pesos que demonstram as relações entre as palavras

- Similaridade do Spacy: retornam uma métrica de similaridade dizendo o quão similar as sentenças são
- Matcher: busca e retorna um padrão se encontrar. Por exemplo, buscar um CPF, se encotnrar um padrão, ele retorna

- A similaridade precisa do modelo Large Idioma
- A métrica é o coseno, valor entre ZERO e 1. Quanto mais próxima de 1 mais semelhante é
- Utiliza representações vetoriais das palavras (word embeddings) (word2vec)
- Pode ser aplicado entre Docs, Spans e Tokens

- É possível adaptar o Spacy para utilizar outras funções de similaridade

- As stop word podem puxar a métrica de similaridade para baixo
- Modificando a ordem das palavras na sentença, a ordem de similaridade se mantém a mesma

In [162]:
# Vamos verificar a similaridade
documento3 = nlp("Ele viaja regularmente de carro")
documento4 = nlp("Ele viaja regularmente de avião")

print(documento3.similarity(documento4))

0.9567075977283297


- O valor encontrado foi alto: 0.956. próximo de 1, considerado um valor alto de similaridade

- Ao modificar a ordem, o coeficiente se mantém

In [163]:
# Vamos verificar a similaridade
documento3 = nlp("Ele viaja regularmente de carro")
documento4 = nlp("Ele regularmente de avião viaja")

print(documento3.similarity(documento4))

0.9567075918833333


- Ao trocar Ele por Ela, existe uma redução de similaridade

In [164]:
# Vamos verificar a similaridade
documento3 = nlp("Ele viaja regularmente de carro")
documento4 = nlp("Ela regularmente de avião viaja")

print(documento3.similarity(documento4))

0.8941741168014388


- Existem bibliotecas mais robustas para busca de similaridade de documentos

- Podemos comparar diretamente dois tokens

In [165]:
documento5 = nlp("Devemos dizer comprimento ou cumprimento")
tokenA = documento5[2]
print(tokenA)
tokenB = documento5[4]
print(tokenB)

print(tokenA.similarity(tokenB))

comprimento
cumprimento
0.5804340243339539


- Trouxe uma métrica de 0.58

- Outra forma de buscar similaridade é utilizar o Span

In [166]:
documento6 = nlp("Ele pede descrição. Ele pede discrição")

partA = documento6[0:3]
print(partA)
partB = documento6[4:7]
print(partB)

print(partA.similarity(partB))

Ele pede descrição
Ele pede discrição
0.9630053639411926


- Matcher: busca padrões dentro de um documento
- Possui uma forma especial


- Suponha que vc quer encontrar um padrão de numero de telefone dentro do Spacy. Quando ele encontrar, ele retorna

- Atributo/padrão:
    1. ORTH: busca o texto literal
    2. Shape: busca formato; por exemplo dois digitos
    3. OP: Qualificador, qualquer texto.
    4. is_digit: pesquisa um digito, por exemplo, True
    5. mactcher.add: da um nome e o padrão adicionado para ele

- Existe uma lista de atributos para  ser utilizado

In [167]:
from typing import Match
from spacy.matcher import Matcher

documento5 = nlp("Você pode ligar para (51) - 9964656570 ou (11) 12344988 ")

matcher = Matcher(nlp.vocab) # Inicializa o matcher

# Definir o padrão que será buscado
#1. Orth (; irá buscar logo um parêntese
#2. Shape dd; irá procurar 2 digitos
#3. Orth ); irá pesquisa um fechamento de parênteses
#4. Orth - ou ? (qualquer coisa); não necessariamente o -
#5. Is_Digit True: tem que ser um número
padrao = [{"ORTH": "("} ,{"SHAPE": "dd"},{"ORTH": ")"}, {"ORTH": "-", "OP":"?"} , {"IS_DIGIT": True}]

# Adicionar o padrão: nome e padrão
matcher.add("telefone", [padrao])

# Matcher para o documento5 - aonde vai buscar o padrão. Padrão será armazenado aqui
matches = matcher(documento5)

# Percorrer esse padrão - Sempre tem incio e FIM
for id, inicio, fim in matches:
  #print(id)
  #print(inicio)
  #print(fim)
  print(documento5[inicio:fim])

(51) - 9964656570
(11) 12344988


- Nesse segundo exemplo temos microorganismo escrito e três formas

In [168]:
documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)

# Criar três padrões e adicionar no matcher
# Sintaxe LOWER, retorna maiusculo ou minusculo, em qualquer situação

padrao1 = [{"LOWER":"micro-organismos"}]
padrao2 = [{"LOWER":"microorganismos"}]
padrao3 = [{"LOWER":"micro"}, {"LOWER":"organismos"}]

matcher.add("padrao", [padrao1,padrao2,padrao3])

matches = matcher(documento6)
for id, inicio, fim in matches:
  print(documento6[inicio:fim])


micro organismos
MICROORGANISMOS
micro-organismos


- Spacy para visualização
- Visualização de dependência

In [169]:
from spacy import displacy

# Reconhecimento de entidades nomeadas
displacy.render(documento,style="ent", jupyter=True)

In [170]:
from spacy import displacy

# Reconhecimento de dependências
displacy.render(documento,style="dep", jupyter=True)

In [171]:
documento.user_data['title'] = "Exemplo"
displacy.render(documento,style="dep", jupyter=True,
                options={'compact': True, 'distance' : 80, 'color': '#FFFFFF', 'bg': '#000000', 'font': 'Arial' })

- Gerenciamento de Pipelines do Spacy
- É possível remover ou adicionar etapas no pipeline
- Spacy possui modo pipe: Python generator - Gera sobre demanda, quando vc acess ao elemento. Para ganho de performance. Similar ao que acontece em SPARK. So após pedir o resultado é que ocorre o gasto de memória.

In [172]:
# Mostra os elementos do pipeline
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [173]:
# Removendo elemento do pipeline
nlp.remove_pipe('tok2vec')
print("Pipeline sem tok2vec: ", nlp.pipe_names)

Pipeline sem tok2vec:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [174]:
# Adicionando o tok2vec e modificando sua posição
nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'tok2vec', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
