## Importando modelo

In [48]:
!pip install spacy



In [49]:
!python -m spacy download pt_core_news_lg


Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [50]:
import spacy
nlp = spacy.load('pt_core_news_lg')
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [51]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [52]:
doc = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia.")
#doc = nlp("Alegações extraordinárias requerem evidências extraordinárias. Carl sagan: 'https://arlsagan.com' ")

In [53]:
print(len(doc.vocab))
print(type(doc))

375
<class 'spacy.tokens.doc.Doc'>


## Produção de tokens

In [54]:
for token in doc:
  print(token.text)

As
ações
do
Magazine
Luiza
S.A.
,
Franca
,
Brasil
,
acumularam
baixa
de
70
%
ao
ano
.
Assim
já
devolveram
todos
os
ganhos
do
período
da
pandemia
.


In [55]:
print(doc[3:5])

Magazine Luiza


In [56]:
print(len(doc))

30


In [57]:
#tokens lexicos:
print("Tokens:",[token.text for token in doc])

Tokens: ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia', '.']


In [58]:
#atributos
print("Tokens:",[token.text for token in doc])
print("Stop word",[token.is_stop for token in doc])
print("Alfanumérico",[token.is_alpha for token in doc])
print("Maiúculo:",[token.is_upper for token in doc])
print("Pontuação:",[token.is_punct for token in doc])
print("Número:",[token.like_num for token in doc])
print("Sentença inicial:",[token.is_sent_start for token in doc])



Tokens: ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia', '.']
Stop word [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, True, False, False, True, True, False, True, True, False, True, False, True, False, False]
Alfanumérico [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, True, False, True, True, True, True, True, True, True, True, True, True, False]
Maiúculo: [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação: [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, F

In [59]:
print("Tokens:",[token.text for token in doc])
print("Formato:",[token.shape_ for token in doc])

Tokens: ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia', '.']
Formato: ['Xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', '.']


In [60]:
for token in doc:
  if token.like_num:
    print("Numerp encontrado:", token.text)
  if token.is_punct:
    print("Pontuação encontrada:", token.text)

Pontuação encontrada: ,
Pontuação encontrada: ,
Pontuação encontrada: ,
Numerp encontrado: 70
Pontuação encontrada: %
Pontuação encontrada: .
Pontuação encontrada: .


##Post Tagging e Dependências

In [61]:
for token in doc:
  print(token.text, "-", token.pos_, "-", token.dep_, "-", token.lemma_, '-', token.shape_)

As - DET - det - o - Xx
ações - NOUN - nsubj - ação - xxxx
do - ADP - case - de o - xx
Magazine - PROPN - nmod - Magazine - Xxxxx
Luiza - PROPN - flat:name - Luiza - Xxxxx
S.A. - PROPN - flat:name - S.A. - X.X.
, - PUNCT - punct - , - ,
Franca - PROPN - conj - Franca - Xxxxx
, - PUNCT - punct - , - ,
Brasil - PROPN - conj - Brasil - Xxxxx
, - PUNCT - punct - , - ,
acumularam - VERB - ROOT - acumular - xxxx
baixa - NOUN - obj - baixa - xxxx
de - ADP - case - de - xx
70 - NUM - nummod - 70 - dd
% - SYM - nmod - % - %
ao - ADP - case - a o - xx
ano - NOUN - nmod - ano - xxx
. - PUNCT - punct - . - .
Assim - ADV - mark - assim - Xxxxx
já - ADV - advmod - já - xx
devolveram - VERB - ROOT - devolver - xxxx
todos - DET - det - todo - xxxx
os - DET - fixed - o - xx
ganhos - NOUN - obj - ganho - xxxx
do - ADP - case - de o - xx
período - NOUN - nmod - período - xxxx
da - ADP - case - de o - xx
pandemia - NOUN - nmod - pandemia - xxxx
. - PUNCT - punct - . - .


In [62]:
#morfologia das palavras
for token in doc:
  print(token.text, "-", token.morph)

As - Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações - Gender=Fem|Number=Plur
do - Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine - Gender=Masc|Number=Sing
Luiza - Number=Sing
S.A. - Number=Sing
, - 
Franca - Gender=Fem|Number=Sing
, - 
Brasil - Gender=Masc|Number=Sing
, - 
acumularam - Mood=Ind|Number=Plur|Person=3|VerbForm=Fin
baixa - Gender=Fem|Number=Sing
de - 
70 - NumType=Card
% - 
ao - Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano - Gender=Masc|Number=Sing
. - 
Assim - 
já - 
devolveram - Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos - Gender=Masc|Number=Plur|PronType=Tot
os - Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos - Gender=Masc|Number=Plur
do - Definite=Def|Gender=Masc|Number=Sing|PronType=Art
período - Gender=Masc|Number=Sing
da - Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemia - Gender=Fem|Number=Sing
. - 


In [63]:
#Tag
for token in doc:
  print(token.text, "-", token.tag_)

As - DET
ações - NOUN
do - ADP
Magazine - PROPN
Luiza - PROPN
S.A. - PROPN
, - PUNCT
Franca - PROPN
, - PUNCT
Brasil - PROPN
, - PUNCT
acumularam - VERB
baixa - NOUN
de - ADP
70 - NUM
% - SYM
ao - ADP
ano - NOUN
. - PUNCT
Assim - ADV
já - ADV
devolveram - VERB
todos - DET
os - DET
ganhos - NOUN
do - ADP
período - NOUN
da - ADP
pandemia - NOUN
. - PUNCT


##Entidades Nomeadas

In [64]:
#Tag
for ent in doc.ents:
  print(ent.text, " - ", ent.label_)

Magazine Luiza S.A.  -  ORG
Franca  -  LOC
Brasil  -  LOC


###Gerenciando Stop Words

In [65]:
for token in doc:
  if token.is_stop:
    print("Stop word:", token.text)

Stop word: As
Stop word: do
Stop word: de
Stop word: ao
Stop word: Assim
Stop word: já
Stop word: todos
Stop word: os
Stop word: do
Stop word: da


In [66]:
for words in nlp.Defaults.stop_words:
  print(words)

devem
nossa
pouco
seus
nossas
tanto
lhe
tu
vinte
agora
quinta
catorze
era
veja
quais
após
meu
lugar
somente
dezanove
estive
maior
que
estiveram
essas
te
atrás
daquele
alguns
terceiro
uma
fazem
possivelmente
tanta
sob
puderam
oito
nem
na
quieto
nível
tais
logo
cujo
esteve
depois
através
fazia
vinda
tipo
treze
ontem
somos
breve
geral
maioria
todos
vens
duas
eu
meses
lado
antes
vosso
exemplo
seria
estado
pontos
eita
mês
vêm
parte
tentei
porque
ver
nova
sistema
elas
quero
às
obrigada
ainda
pouca
qualquer
foram
vais
oitavo
naquela
daquela
inicio
onde
sou
diante
nunca
está
têm
sei
ela
estou
vários
tivemos
não
partir
qual
faz
nesta
pelo
próprio
algo
tuas
estas
possível
ter
num
dezasseis
minha
vossos
estava
isto
quinto
nenhuma
com
podem
posso
terceira
cá
meus
faço
sabe
seis
tão
tem
dar
pelos
estes
bem
nos
posição
para
demais
onze
pela
estão
dão
grandes
nossos
sim
tal
nove
primeira
temos
da
podia
deverá
ali
tentar
certamente
questão
outra
primeiro
quem
mesmo
enquanto
adeus
zero
certeza
a
relaçã

In [67]:
nlp.Defaults.stop_words.add("eita")

nlp.vocab['eira'].is_stop

False

In [68]:
token_lista = []
for token in doc:
  token_lista.append(token.text)

stop_lista = []
for words in nlp.Defaults.stop_words:
  stop_lista.append(words)

semstop = [word for word in token_lista if not word in stop_lista]


print(doc.text)
print(semstop)

As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia.
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'período', 'pandemia', '.']


### Vocab
- armazena lexemas
- palavras representadas por hashes

In [69]:
print("hash:", nlp.vocab.strings["dados"])
print("hash:", doc.vocab.strings["dados"])
print("string:", nlp.vocab.strings["6013848609874238634"])

hash: 6013848609874238634
hash: 6013848609874238634
string: 15189847787397396957


In [70]:
#lexemas, palavras que não eestão representadas com uma dependencia de contexto
lex = nlp.vocab["dados"]
print(lex.text, "-", lex.orth, "-", lex.is_alpha,"-",lex.is_lower)

dados - 6013848609874238634 - True - True


In [71]:

print(nlp("dados são uma nova forma de ver o mundo").vector)


[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.2420444

###  Similaridade

In [72]:
doc1 = nlp("ele viaja regularmente de carro")
doc2 = nlp("ele viaja, nunca de avião")

print(doc1.similarity(doc2))

0.9020987749099731


In [73]:
doc3 = nlp("é pave ou pacome")

tokenA = doc3[1]
tokenB = doc3[3]

print(tokenA.similarity(tokenB))


0.0


  print(tokenA.similarity(tokenB))


## Matcher

In [74]:
from spacy.matcher import Matcher

doc5 = nlp("Você pode ligar para (63) - 984021557 ou (41) 81322096")

#inicializando matcher
matcher = Matcher(nlp.vocab)
padrao = [{"ORTH": "("},
          {"SHAPE": "dd"},
          {"ORTH": ")"},
          {"ORTH": "-", "OP":"?"},
          {"IS_DIGIT": True}]

matcher.add("telefone", [padrao])
matches = matcher(doc5)

for match_id, start, end in matches:
  print(doc5[start:end])

(63) - 984021557
(41) 81322096


In [77]:
doc6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxercamos micro-organismos")

matcher = Matcher(nlp.vocab)
padrao1 = [{"LOWER": "micro-organismos"}]
padrao2 = [{"LOWER": "microorganismos"}]
padrao3 = [{"LOWER": "micro"},{"LOWER": "organismos"}]

matcher.add("padrao", [padrao1, padrao2, padrao3])
matches = matcher(doc6)

for id, inicio, fim in matches:
  print(doc6[inicio:fim])



micro organismos
MICROORGANISMOS
micro-organismos


## displacy

In [78]:
from spacy import displacy

displacy.render(doc,style="ent", jupyter=True)

In [88]:
doc.user_data['title'] = "Exemplo"
displacy.render(doc,style="dep", jupyter=True,
                options={'compact':True, 'distance': 60, 'color': 'FFFFFF', 'bg': '#000000'})

## Pipeline

In [93]:
print('Pipeline Normal:', nlp.pipe_names)

Pipeline Normal: ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [99]:
nlp.remove_pipe("tok2vec")

('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7de483a2fc50>)

In [94]:
print('Pipeline sem tokenizer:', nlp.pipe_names)

Pipeline sem tokenizer: ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [100]:
nlp.add_pipe("tok2vec", after='morphologizer')


<spacy.pipeline.tok2vec.Tok2Vec at 0x7de483970470>

In [101]:
print('Pipeline Normal:', nlp.pipe_names)

Pipeline Normal: ['morphologizer', 'tok2vec', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
