# Spacy

## Importações

In [1]:
import spacy

In [2]:
nlp = spacy.load('pt_core_news_lg')

## Modelo NLP

In [3]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [4]:
# etapas executadas por padrão
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [5]:
# criação do objeto documento
documento = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos da pandemia.")

In [6]:
len(documento.vocab)

374

In [7]:
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


## Tokenização

In [8]:
for token in documento:
    print(token.text)

As
ações
do
Magazine
Luiza
S.A.
,
Franca
,
Brasil
,
acumularam
baixa
de
70
%
ao
ano
.
Assim
já
devolveram
todos
os
ganhos
da
pandemia
.


In [10]:
print(documento[3:5])

Magazine Luiza


In [11]:
print(len(documento))

28


In [12]:
print("Tokens: ", [token.text for token in documento])
print("Stop word: ", [token.is_stop for token in documento])
print("Alfanumérico: ", [token.is_alpha for token in documento])
print("Maísculo: ", [token.is_upper for token in documento])
print("Pontuação: ", [token.is_punct for token in documento])
print("Número: ", [token.like_num for token in documento])
print("Sentença Inicial: ", [token.is_sent_start for token in documento])

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'da', 'pandemia', '.']
Stop word:  [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, True, False, False, True, True, False, True, True, False, True, False, False]
Alfanumérico:  [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, True, False, True, True, True, True, True, True, True, True, False]
Maísculo:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, False, False, True, False, False, False, False, Fa

In [13]:
print("Tokens: ", [token.text for token in documento])
print("Formato: ", [token.shape_ for token in documento])

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'da', 'pandemia', '.']
Formato:  ['Xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', '.']


In [14]:
for token in documento:
  if token.like_num:
    print("Número encontrado: ", token.text)
  if token.is_punct:
    print("Pontuação encontrada; ", token.text)

Pontuação encontrada;  ,
Pontuação encontrada;  ,
Pontuação encontrada;  ,
Número encontrado:  70
Pontuação encontrada;  %
Pontuação encontrada;  .
Pontuação encontrada;  .


## Pos Tagging

In [15]:
for token in documento:
  print(token.text, " - ", token.pos_ , " - ", token.dep_ , " - ", token.lemma_ , " - ", token.shape_)

As  -  DET  -  det  -  o  -  Xx
ações  -  NOUN  -  nsubj  -  ação  -  xxxx
do  -  ADP  -  case  -  de o  -  xx
Magazine  -  PROPN  -  nmod  -  Magazine  -  Xxxxx
Luiza  -  PROPN  -  flat:name  -  Luiza  -  Xxxxx
S.A.  -  PROPN  -  flat:name  -  S.A.  -  X.X.
,  -  PUNCT  -  punct  -  ,  -  ,
Franca  -  PROPN  -  conj  -  Franca  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
Brasil  -  PROPN  -  conj  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
acumularam  -  VERB  -  ROOT  -  acumular  -  xxxx
baixa  -  NOUN  -  obj  -  baixa  -  xxxx
de  -  ADP  -  case  -  de  -  xx
70  -  NUM  -  nummod  -  70  -  dd
%  -  SYM  -  nmod  -  %  -  %
ao  -  ADP  -  case  -  a o  -  xx
ano  -  NOUN  -  nmod  -  ano  -  xxx
.  -  PUNCT  -  punct  -  .  -  .
Assim  -  ADV  -  mark  -  assim  -  Xxxxx
já  -  ADV  -  advmod  -  já  -  xx
devolveram  -  VERB  -  ROOT  -  devolver  -  xxxx
todos  -  DET  -  det  -  todo  -  xxxx
os  -  DET  -  fixed  -  o  -  xx
ganhos  -  NOUN  -  obj  -  ganho  -  xx

In [16]:
for token in documento:
  print(token.text, " - ", token.morph) # morfologia

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine  -  Gender=Masc|Number=Sing
Luiza  -  Number=Sing
S.A.  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumularam  -  Mood=Ind|Number=Plur|Person=3|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano  -  Gender=Masc|Number=Sing
.  -  
Assim  -  
já  -  
devolveram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos  -  Gender=Masc|Number=Plur|PronType=Tot
os  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos  -  Gender=Masc|Number=Plur
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemia  -  Gender=Fem|Number=Sing
.  -  


In [17]:
for token in documento:
  print(token.text, " - ", token.tag_)

As  -  DET
ações  -  NOUN
do  -  ADP
Magazine  -  PROPN
Luiza  -  PROPN
S.A.  -  PROPN
,  -  PUNCT
Franca  -  PROPN
,  -  PUNCT
Brasil  -  PROPN
,  -  PUNCT
acumularam  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM
ao  -  ADP
ano  -  NOUN
.  -  PUNCT
Assim  -  ADV
já  -  ADV
devolveram  -  VERB
todos  -  DET
os  -  DET
ganhos  -  NOUN
da  -  ADP
pandemia  -  NOUN
.  -  PUNCT


## Entidades nomeadas

In [18]:
for ent in documento.ents:
  print(ent.text, " - ", ent.label_)

Magazine Luiza S.A.  -  ORG
Franca  -  LOC
Brasil  -  LOC


## Stop Words

Palavras vazias sem valor semântico

In [19]:
for token in documento:
  if token.is_stop:
    print("Stop word: ", token.text)

Stop word:  As
Stop word:  do
Stop word:  de
Stop word:  ao
Stop word:  Assim
Stop word:  já
Stop word:  todos
Stop word:  os
Stop word:  da


In [20]:
# Stop Words: que o Spacy usa para identificar
for words in nlp.Defaults.stop_words:
  print(words)

um
sois
vosso
é
lá
à
seria
talvez
nuns
apenas
quer
para
foram
essas
cinco
teus
vossas
menos
quatro
próprio
vinda
usa
catorze
enquanto
sou
estiveram
ora
treze
meus
tarde
poder
sétima
os
quinze
estes
quarto
és
menor
próxima
corrente
poderá
veja
sempre
tem
pegar
está
meu
tentei
nos
nem
pontos
tua
favor
ao
vai
dizer
ter
maiorias
boa
tais
quero
desde
esta
vossos
ontem
agora
as
a
qual
teve
obrigado
dar
no
sete
estado
grandes
numa
fazer
deste
toda
quê
ambas
acerca
nas
fora
máximo
oitava
número
pelos
vós
muitos
direita
mês
diz
você
era
fazemos
comprido
fostes
ponto
coisa
estas
sei
tanto
primeiro
aqueles
irá
cada
obrigada
tuas
suas
estão
dezoito
parece
oito
tivestes
vinte
conhecida
em
final
sim
depois
embora
quinto
mil
for
caminho
maioria
fazia
do
tu
porquanto
ver
aqui
ambos
te
vais
ele
falta
tivemos
pouca
vocês
pôde
seu
outras
todos
querem
demais
pela
conhecido
aquelas
área
doze
faço
mal
nove
tudo
isso
novos
tentaram
local
quando
sobre
exemplo
possível
longe
naquele
alguns
portanto
podia
sem
u

Pode ser que o Spacy não considere algumas palavras como Stop Words, então existe uma forma de adicioná-las:

In [21]:
nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True # pode estar no bd, mas não considerado como sw

In [22]:
token_lista = []
for token in documento:
  token_lista.append(token.text) # lista com tokens
  
stop_lista = []
for words in nlp.Defaults.stop_words:
  stop_lista.append(words) # lista com sw
  
semstop = [word for word in token_lista if not word in stop_lista]
print(documento.text)
print(semstop)

As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos da pandemia.
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'pandemia', '.']


## Vocabulário

Cada palavra é representada por um Hash.

In [23]:
print("Hash: ", nlp.vocab.strings["dados"])
print("Hash: ", documento.vocab.strings["dados"])
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [24]:
# Vendo os tokens na forma do seu lexema
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


In [25]:
print(nlp("dados").vector.shape) # representa a relação com outras 300 palavras

(300,)


In [26]:
print(nlp("dados são uma nova forma de ver o mundo").vector)

[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.2420444

## Similaridade

- Similaridade: retornar um valor (métrica da similaridade)
- Matcher: buscar um padrão, retornar se encontrá-lo (semelhante a expressão regular)

In [29]:
documento1 = nlp("Ele estuda regularmente matématica")
documento2 = nlp("Ela regularmente estatística estuda")
print(documento1.similarity(documento2))
print(documento2.similarity(documento1))

0.8430212140083313
0.8430212140083313


In [32]:
documento3 = nlp("Quando devo usar mau ou mal?")
tokenA = documento3[3]
print(tokenA)
tokenB = documento3[5]
print(tokenB)
print(tokenA.similarity(tokenB))

mau
mal
0.6138057112693787


In [33]:
documento4 = nlp("Ele pede descrição. Ele pede discrição")
partA = documento4[0:3]
print(partA)
partB = documento4[4:7]
print(partB)
print(partA.similarity(partB))

Ele pede descrição
Ele pede discrição
0.9630053639411926


## Matcher

In [34]:
from spacy.matcher import Matcher

In [37]:
# Criando um padrão
documento5 = nlp("Você pode ligar para (51) 99646-5670 ou (11) 912344988 ")
matcher = Matcher(nlp.vocab)
padrao = [{"ORTH": "("} ,{"SHAPE": "dd"},{"ORTH": ")"}, {"IS_DIGIT": True}]
matcher.add("telefone", [padrao])
matches = matcher(documento5)
for id, inicio, fim in matches:
  print(documento5[inicio:fim])


(11) 912344988


In [38]:
documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)
padrao1 = [{"LOWER":"micro-organismos"}]
padrao2 = [{"LOWER":"microorganismos"}]
padrao3 = [{"LOWER":"micro"}, {"LOWER":"organismos"}]

matcher.add("padrao", [padrao1,padrao2,padrao3])

matches = matcher(documento6)
for id, inicio, fim in matches:
  print(documento6[inicio:fim])

micro organismos
MICROORGANISMOS
micro-organismos


## Displacy - Visualização

In [42]:
from spacy import displacy
displacy.render(documento,style="ent", jupyter=True)

In [41]:
documento.user_data['title'] = "Exemplo"
displacy.render(documento,style="dep", jupyter=True,
                options={'compact': True, 'distance' : 80, 'color': '#FFFFFF', 'bg': '#0000FF', 'font': 'Arial' })

## Gerenciando Pipelines

In [43]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [44]:
nlp.remove_pipe('tok2vec')
print("Pipeline sem tok2vec: ", nlp.pipe_names)

Pipeline sem tok2vec:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [45]:
nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'tok2vec', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
