In [1]:
!python -m spacy download 'pt_core_news_lg' # Intalação do modelo pré treinado grande em português

Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
import spacy # importação da biblioteca

In [3]:
nlp = spacy.load('pt_core_news_lg') # Carregamento do modelo

In [4]:
type(nlp) # Mostra o tipo de objeto

In [5]:
nlp.pipe_names # Mostra os objetos no pipeline

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']

In [6]:
# Criação do documento que vamos usar
documento = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia")


In [7]:
len(documento.vocab) # tamanho do vocabulário

375

In [8]:
type(documento) # Tipo do documento

spacy.tokens.doc.Doc

In [9]:
# Percorre os tokens do documento e printa o texto armazenado
for token in documento:
  print(token.text)

As
ações
do
Magazine
Luiza
S.A.
,
Franca
,
Brasil
,
acumularam
baixa
de
70
%
ao
ano
.
Assim
já
devolveram
todos
os
ganhos
do
período
da
pandemia


In [10]:
print(documento[3]) # Printando um token por index

Magazine


In [11]:
print(documento[0:4]) # Printando os tokens dentro de um range

As ações do Magazine


In [12]:
print(len(documento)) # Quantidade de tokens

29


In [13]:
print("Tokens: ",[token.text for token in documento]) # Printa os tokens
print("Stop word: ",[token.is_stop for token in documento]) # Printa se é stop word (True ou False)
print("Alfanumerico: ",[token.is_alpha for token in documento]) # Printa se é alfanumerico (True ou False)
print("Maísculo: ",[token.is_upper for token in documento]) # Printa se é maísculo (True ou False)
print("Pontuação: ",[token.is_punct for token in documento]) # Printa se é pontuação (True ou False)
print("Número: ",[token.like_num for token in documento]) # Printa se é número (True ou False)
print("Sentença inicial: ",[token.is_sent_start for token in documento]) # Printa se é sentença inicial (True ou False)


Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Stop word:  [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, True, False, False, True, True, False, True, True, False, True, False, True, False]
Alfanumerico:  [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, True, False, True, True, True, True, True, True, True, True, True, True]
Maísculo:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, False, False, True, 

In [14]:
print("Tokens: ",[token.text for token in documento]) # Printa os tokens
print("Formato: ",[token.shape_ for token in documento]) # Printa o formato

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Formato:  ['Xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx']


In [15]:
# Percorre o documento printando os números e pontuações
for token in documento:
  if token.like_num:
    print("Número encontrado: ", token.text)
  if token.is_punct:
    print("Pontuação encontrada: ", token.text)


Pontuação encontrada:  ,
Pontuação encontrada:  ,
Pontuação encontrada:  ,
Número encontrado:  70
Pontuação encontrada:  %
Pontuação encontrada:  .


In [16]:
# Printa o token, a classe gramatical, a dependencia, a palavra raiz e o formato
for token in documento:
  print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)
# é necessário colocar o "_" pois se tirar ele vai trazer a referência númerica

As  -  DET  -  det  -  o  -  Xx
ações  -  NOUN  -  nsubj  -  ação  -  xxxx
do  -  ADP  -  case  -  de o  -  xx
Magazine  -  PROPN  -  nmod  -  Magazine  -  Xxxxx
Luiza  -  PROPN  -  flat:name  -  Luiza  -  Xxxxx
S.A.  -  PROPN  -  flat:name  -  S.A.  -  X.X.
,  -  PUNCT  -  punct  -  ,  -  ,
Franca  -  PROPN  -  conj  -  Franca  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
Brasil  -  PROPN  -  conj  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
acumularam  -  VERB  -  ROOT  -  acumular  -  xxxx
baixa  -  NOUN  -  obj  -  baixa  -  xxxx
de  -  ADP  -  case  -  de  -  xx
70  -  NUM  -  nummod  -  70  -  dd
%  -  SYM  -  nmod  -  %  -  %
ao  -  ADP  -  case  -  a o  -  xx
ano  -  NOUN  -  nmod  -  ano  -  xxx
.  -  PUNCT  -  punct  -  .  -  .
Assim  -  ADV  -  mark  -  assim  -  Xxxxx
já  -  ADV  -  advmod  -  já  -  xx
devolveram  -  VERB  -  ROOT  -  devolver  -  xxxx
todos  -  DET  -  det  -  todo  -  xxxx
os  -  DET  -  fixed  -  o  -  xx
ganhos  -  NOUN  -  obj  -  ganho  -  xx

In [17]:
# printa os tokens e a morfologia dele
for token in documento:
  print(token.text, " - ", token.morph)

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine  -  Gender=Masc|Number=Sing
Luiza  -  Number=Sing
S.A.  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumularam  -  Mood=Ind|Number=Plur|Person=3|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano  -  Gender=Masc|Number=Sing
.  -  
Assim  -  
já  -  
devolveram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos  -  Gender=Masc|Number=Plur|PronType=Tot
os  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos  -  Gender=Masc|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
período  -  Gender=Masc|Number=Sing
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemia  -  Gender=Fem|Number=Sing


In [18]:
# printa os tokens e a tag dele
for token in documento:
  print(token.text, " - ", token.tag_)

As  -  DET
ações  -  NOUN
do  -  ADP
Magazine  -  PROPN
Luiza  -  PROPN
S.A.  -  PROPN
,  -  PUNCT
Franca  -  PROPN
,  -  PUNCT
Brasil  -  PROPN
,  -  PUNCT
acumularam  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM
ao  -  ADP
ano  -  NOUN
.  -  PUNCT
Assim  -  ADV
já  -  ADV
devolveram  -  VERB
todos  -  DET
os  -  DET
ganhos  -  NOUN
do  -  ADP
período  -  NOUN
da  -  ADP
pandemia  -  NOUN


In [19]:
# Printa todas as entidades nomeadas
for ent in documento.ents:
  print(ent.text, " - ", ent.label_)

Magazine Luiza S.A.  -  ORG
Franca  -  LOC
Brasil  -  LOC


In [22]:
# Printa as stop word
for token in documento:
  if token.is_stop:
    print("Stop word:", token.text)

Stop word: As
Stop word: do
Stop word: de
Stop word: ao
Stop word: Assim
Stop word: já
Stop word: todos
Stop word: os
Stop word: do
Stop word: da


In [24]:
# Printa todas as stop words que existem no modelo português do spacy
for word in nlp.Defaults.stop_words:
  print(word)

deste
ainda
ver
cima
custa
sabe
tiveram
oitavo
uns
meu
inicio
pouco
ponto
oitava
ambos
atrás
tens
cento
dezoito
até
estiveste
mais
meio
pegar
for
possível
vós
tempo
cuja
suas
sempre
fomos
número
questão
à
fazeis
números
és
algo
sim
conhecido
quem
fazes
muitos
das
nenhuma
aquele
nunca
dez
apoio
pouca
muito
final
terceiro
esteve
três
tentar
caminho
apenas
neste
um
aos
treze
novos
quatro
zero
lado
doze
outra
diz
catorze
podem
cujo
como
quando
próximo
primeira
pôde
terceira
nível
corrente
faz
qualquer
dá
tais
forma
eu
dão
nossa
as
daquela
exemplo
disso
ir
nós
nuns
num
sistema
breve
esses
outras
sem
isso
está
contudo
certamente
embora
sobre
lugar
quarta
tendes
essas
minha
também
mês
aqueles
nesse
povo
só
vens
posso
cá
pelos
tem
assim
querem
ser
tenho
tente
inclusive
que
tiveste
desse
uma
dezasseis
maioria
estou
vais
logo
quais
desta
talvez
estiveram
por
fazia
naquela
quieta
antes
aquelas
nossos
quinta
pelo
mas
ambas
porquanto
seu
porém
vosso
já
fazem
foi
outros
os
são
tive
aquilo
fazemos
ap

In [27]:
nlp.Defaults.stop_words.add("bah") # Adiciona uma stop word
nlp.vocab["bah"].is_stop # Verificação

True

In [28]:
# Cria uma lista vazia e adiciona todos os token do documento
token_lista = []
for token in documento:
  token_lista.append(token.text)

# Cria uma lista vazia e adiciona todas as palavras que não são stop words
semstop = []
for token in documento:
  if not token.is_stop:
    semstop.append(token.text)

# Printa o antes e depois para comparação
print("Tokens: ", token_lista)
print("Tokens sem stop words: ", semstop)

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Tokens sem stop words:  ['ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'devolveram', 'ganhos', 'período', 'pandemia']


In [32]:
print("Hash:", nlp.vocab.strings["dados"]) # Hash da palavra "dados" salva no modelo
print("Hash:", documento.vocab.strings["dados"]) # Hash da palavra "dados" salva no documento
print("String:", nlp.vocab.strings[6013848609874238634]) # Operação inversa

Hash: 6013848609874238634
Hash: 6013848609874238634
String: dados


In [33]:
lex = nlp.vocab["dados"]
print(lex.text, "-", lex.orth, "-", lex.is_alpha, "-", lex.is_lower )

dados - 6013848609874238634 - True - True


In [39]:
# Cada palavra possui um vetor que possui 300 pesos que representam a relação da palavra com as outras
print(nlp("dados").vector.shape)
print(nlp("dados").vector)

(300,)
[-1.8078e+00 -2.8421e+00 -5.5345e-01 -4.0565e+00 -2.3565e+00  4.7295e+00
 -3.3508e+00 -1.2036e+00 -5.3749e+00 -7.5768e-01 -2.0015e+00  5.3618e+00
  2.2789e-01  1.2136e+00 -1.4418e+00 -3.0621e+00  2.2060e+00  1.1943e+00
 -1.8689e+00 -5.9128e+00 -5.1929e-01  2.1897e+00 -2.4651e+00  1.7600e+00
 -5.6308e+00  1.0053e+00  7.3080e-01  2.0417e-01 -6.0370e+00  1.7474e+00
  2.0375e+00  2.7541e+00 -1.0423e+00  1.7632e+00 -1.4484e+00 -2.4344e+00
 -8.6094e-01  1.7867e+00 -4.9920e+00 -3.1162e+00 -5.3973e-01  2.4241e+00
  4.4410e-01 -4.7503e+00  2.1383e+00  3.8537e-01 -2.2418e+00  5.8104e+00
 -1.1731e+00  2.4686e-02 -1.8413e+00 -5.9321e+00 -7.0872e-03 -2.3093e+00
  5.5101e+00 -4.1795e-01  2.9754e+00  3.6709e-01 -8.0867e-01 -1.3751e+00
  4.8132e+00 -2.2835e+00 -2.0920e-01  1.2578e+00  4.3466e+00  1.3846e+00
 -1.5847e+00  3.3322e+00 -4.3669e+00  1.8883e+00 -1.2312e+00  3.7902e-01
  8.6331e-01 -4.0607e+00 -1.3444e+00  4.5210e+00  2.2995e-01 -5.9245e+00
 -2.0598e-01 -3.1810e+00 -3.8640e+00  7.2114

In [40]:
# Importante lembrar que a similaridade no spacy é baseada por contexto, retorna um valor entre zero e um
documento1 = nlp("Ele viaja regurlamente de carro")
documento2 = nlp("Ela viaja regurlamente de avião")
print(documento1.similarity(documento2)) # mostra a similaridade entre o documento 1 e 2 (0 - 1)

0.8806809782981873


In [43]:
documento3 = nlp("Devemos dizer comprimento ou cumprimento")
tokenA = documento3[2]
print(tokenA)
tokenB = documento3[4]
print(tokenB)
print(tokenA.similarity(tokenB)) # Similaridade entre tokens

comprimento
cumprimento
0.5804340243339539


In [None]:
# matcher é usado para encontrar padrões dentro de texto
from spacy.matcher import Matcher # Importação do matcher

documento5 = nlp("Você pode ligar para (22) - 22222222 ou (22) 22222222")
matcher = Matcher(nlp.vocab)
padrao = [{"ORTH":"("},{"SHAPE":"dd"},{"ORTH":")"},{"ORTH":"-","OP":"?"},{"IS_DIGIT":True}] # Criação de um padrão
matcher.add("telefone",[padrao]) # Adição do padrão
matches = matcher(documento5) # busca e salvamento do padrão
for id, inicio, fim in matches: # Printando onde achou
  print(documento5[inicio:fim])

(22) - 22222222
(22) 22222222


In [53]:
documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não exergamos micro-organismos")
# Criação de 3 padrões
padrao1 = [{"LOWER": "micro-organismos"}]
padrao2 = [{"LOWER": "microorganismos"}]
padrao3 = [{"LOWER": "micro"}, {"LOWER": "organismos"}]
matcher.add("microorganismos",[padrao1,padrao2,padrao3]) # Adição dos padrões
matches = matcher(documento6) # busca e salvamento dos padrões
for id, inicio, fim in matches: # Printando onde achou
  print(documento6[inicio:fim])

micro organismos
MICROORGANISMOS
micro-organismos


In [60]:
# Displacy é o modulo do spacy para visualização
from spacy import displacy # importação do displacy
documento.user_data["title"] = "Título" # Titulo do documento
displacy.render(documento, style="ent", jupyter=True) # visualização do documento com as entidades (jupyter = True indica que está sendo renderizado em um arquivo .ipynb)
displacy.render(documento, style="dep", jupyter=True, options={'compact':True, 'distance': 80, 'color':'#0000FF', 'bg':'#FFFFFF'})
# visualização do documento com as dependencias, compact = diminui o tamanho, distance = diminui a distancia entre as dependencias, color = cor das linhas, bg = cor do fundo

In [66]:
print("Pipeline padrão:", nlp.pipe_names) # printa o pipeline padrão
nlp.remove_pipe("ner") # remove a parte do ner
print("Pipeline:", nlp.pipe_names) # printa o pipeline atualizado
nlp.add_pipe("ner", last=True) # adiciona a parte do ner
print("Pipeline:", nlp.pipe_names) # printa o pipeline atualizado

Pipeline padrão: ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
Pipeline: ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler']
Pipeline: ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
