In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import spacy

In [4]:
print(spacy.__version__)

3.7.5


In [6]:
!python -m spacy download 'pt_core_news_lg'

Collecting pt-core-news-lg==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.7.0/pt_core_news_lg-3.7.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [7]:
nlp = spacy.load('pt_core_news_lg')

In [8]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [9]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [10]:
document = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumuluram baixa de 70% ano.")

In [11]:
len(document.vocab)

365

In [12]:
print(type(document))

<class 'spacy.tokens.doc.Doc'>


# Tokens


In [13]:
for token in document:
  print(token.text)

As
ações
do
Magazine
Luiza
S.A.
,
Franca
,
Brasil
,
acumuluram
baixa
de
70
%
ano
.


In [14]:
print(document[3:5])

Magazine Luiza


In [15]:
print(len(document))

18


In [16]:
print("Tokens: ", [token.text for token in document])
print("\n")
print("Stop word: ", [token.is_stop for token in document])
print("Alfanumérico: ", [token.is_alpha for token in document])
print("Maiúsculo: ", [token.is_upper for token in document])
print("Pontuação: ", [token.is_punct for token in document])
print("Número: ", [token.like_num for token in document])
print("Sentença inicial: ", [token.is_sent_start for token in document])
print("Sentença final: ", [token.is_sent_end for token in document])

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumuluram', 'baixa', 'de', '70', '%', 'ano', '.']


Stop word:  [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, False, False]
Alfanumérico:  [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, False]
Maiúsculo:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, False, True]
Número:  [False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, False, False]
Sentença inicial:  [True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Sentença final:  [False, False, 

In [17]:
for token in document:
  if token.like_num:
    print(token)
  elif token.is_punct:
    print(token)

,
,
,
70
%
.


# Pos-Tagging e Dependências

In [18]:
for token in document:
  print(token.text, ' - ', token.morph)

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine  -  Gender=Fem|Number=Sing
Luiza  -  Gender=Fem|Number=Sing
S.A.  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumuluram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ano  -  Gender=Masc|Number=Sing
.  -  


In [19]:
for token in document:
  print(token.text, ' - ', token.tag_)

As  -  DET
ações  -  NOUN
do  -  ADP
Magazine  -  PROPN
Luiza  -  PROPN
S.A.  -  PROPN
,  -  PUNCT
Franca  -  PROPN
,  -  PUNCT
Brasil  -  PROPN
,  -  PUNCT
acumuluram  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM
ano  -  NOUN
.  -  PUNCT


# Entidades nomeadas

In [20]:
for ent in document.ents:
  print(ent.text, ' - ', ent.label_)

Magazine Luiza S.A.  -  ORG
Franca  -  LOC
Brasil  -  LOC


# Stop Words

In [21]:
for token in document:
  if token.is_stop:
    print(token.text)

As
do
de


In [22]:
for words in nlp.Defaults.stop_words:
  print(words)

oitava
estará
através
sim
favor
vos
sexta
usa
pelos
novo
aos
tu
fazem
seis
eventual
esses
sois
parece
des
quer
quieto
disso
demais
cada
mais
quarta
mas
vós
primeiro
onze
umas
quinze
aquela
entre
vosso
isto
cedo
grandes
número
estiveste
dentro
fazer
neste
os
era
teu
relação
tive
me
sétima
nos
foram
algumas
cujo
três
contudo
lado
grande
tanto
posição
ali
nuns
foi
ontem
porque
questão
cinco
nosso
máximo
possivelmente
tem
vossos
este
maior
aqueles
vens
nenhuma
pelo
vão
essas
vocês
acerca
ambos
segunda
eles
muitos
vezes
longe
desse
deverá
fez
tão
e
tivemos
apontar
partir
fazeis
forma
toda
pôde
são
faço
seria
tiveste
todo
meio
pode
vai
estiveram
pontos
se
momento
assim
lugar
põe
isso
também
diz
coisa
dezassete
teve
for
foste
minhas
ir
treze
talvez
maiorias
quarto
ou
tarde
fui
ela
parte
pouco
ser
da
suas
boa
estás
outros
estivemos
breve
fomos
fazia
somos
eu
sua
menor
conhecido
sabe
a
inicio
oito
atrás
poderá
quem
adeus
bom
dezasseis
esta
já
pelas
sou
vossas
ao
área
seus
tentar
pouca
numa
terc

In [23]:
nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

## Removendo Stop Words do Corpus

In [24]:
document_without_stop = []
for token in document:
  if not token.is_stop:
    document_without_stop.append(token)

document_without_stop

[ações,
 Magazine,
 Luiza,
 S.A.,
 ,,
 Franca,
 ,,
 Brasil,
 ,,
 acumuluram,
 baixa,
 70,
 %,
 ano,
 .]

# Vocabulário

cada palavra é representada por um Hash

In [25]:
print("Hash: ", nlp.vocab.strings["dados"])
print("Hash: ", document.vocab.strings["dados"])
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [26]:
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


In [27]:
# formato da palvara
print(nlp("dados").vector.shape)

(300,)


In [28]:
# relacão da palavra com outras 300
print(nlp("dados").vector)

[-1.8078e+00 -2.8421e+00 -5.5345e-01 -4.0565e+00 -2.3565e+00  4.7295e+00
 -3.3508e+00 -1.2036e+00 -5.3749e+00 -7.5768e-01 -2.0015e+00  5.3618e+00
  2.2789e-01  1.2136e+00 -1.4418e+00 -3.0621e+00  2.2060e+00  1.1943e+00
 -1.8689e+00 -5.9128e+00 -5.1929e-01  2.1897e+00 -2.4651e+00  1.7600e+00
 -5.6308e+00  1.0053e+00  7.3080e-01  2.0417e-01 -6.0370e+00  1.7474e+00
  2.0375e+00  2.7541e+00 -1.0423e+00  1.7632e+00 -1.4484e+00 -2.4344e+00
 -8.6094e-01  1.7867e+00 -4.9920e+00 -3.1162e+00 -5.3973e-01  2.4241e+00
  4.4410e-01 -4.7503e+00  2.1383e+00  3.8537e-01 -2.2418e+00  5.8104e+00
 -1.1731e+00  2.4686e-02 -1.8413e+00 -5.9321e+00 -7.0872e-03 -2.3093e+00
  5.5101e+00 -4.1795e-01  2.9754e+00  3.6709e-01 -8.0867e-01 -1.3751e+00
  4.8132e+00 -2.2835e+00 -2.0920e-01  1.2578e+00  4.3466e+00  1.3846e+00
 -1.5847e+00  3.3322e+00 -4.3669e+00  1.8883e+00 -1.2312e+00  3.7902e-01
  8.6331e-01 -4.0607e+00 -1.3444e+00  4.5210e+00  2.2995e-01 -5.9245e+00
 -2.0598e-01 -3.1810e+00 -3.8640e+00  7.2114e+00  3

# Similaridade

baseada em contexto

retorna um valor(métrica de similaridade)

a métrica é o coseno, valor entre 0 e 1.(quando mais próximo de 1, mais semelhança)

matcher busca um padrão, retorna se encontra


In [33]:
document = nlp("Ele viaja frequentemente de moto")
document2 = nlp("Ele viaja regularmente de carro")

print(document.similarity(document2))

0.9502978109419011


In [38]:
document3 = nlp("Devemos dizer comprimento ou cumprimento?")
tokenA = document3[2]
tokenB = document3[4]

print(f"Similaridade entre {tokenA} e {tokenB}: {(tokenA.similarity(tokenB))}")

Similaridade entre comprimento e cumprimento: 0.5804340243339539


# Busca de expressões com matching

In [39]:
from typing import Match
from spacy.matcher import Matcher

In [46]:
document5 = nlp("Você pode ligar para (51) - 9964656570 ou (11) 12344988")

matcher = Matcher(nlp.vocab)
pattern = [{"ORTH": "("}, {"SHAPE": "dd"}, {"ORTH": ")"}, {"ORTH": "-", "OP": "?"}, {"IS_DIGIT": True}]
matcher.add("Number", [pattern])
matches = matcher(document5)

for id, start, end in matches:
  print(document5[start:end])


(51) - 9964656570
(11) 12344988


# Displacy

Módulo do Spacy para visualização

In [48]:
from spacy import displacy

document = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumuluram baixa de 70% ano.")
displacy.render(document, style="ent", jupyter=True)

In [56]:
displacy.render(document, style="dep", jupyter=True,
                options={'compact': False, 'distance': 120, 'color': 'white', 'bg': '#2e3233'})

# Gerenciamento de pipelines

Você pode personalizar o Pipeline para ter apenas as etapas que você precisa

In [57]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [58]:
nlp.remove_pipe("tok2vec")

('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7cdd516f6ff0>)

In [59]:
nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'tok2vec', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
