# Inicilizar com SPACY

## Baixar o Modelo em Português

In [2]:
!python -m spacy download "pt_core_news_lg"

Collecting pt-core-news-lg==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.6.0/pt_core_news_lg-3.6.0-py3-none-any.whl (568.2 MB)
     ---------------------------------------- 0.0/568.2 MB ? eta -:--:--
     -------------------------------------- 0.0/568.2 MB 660.6 kB/s eta 0:14:21
     ---------------------------------------- 0.1/568.2 MB 1.1 MB/s eta 0:09:01
     ---------------------------------------- 0.3/568.2 MB 2.2 MB/s eta 0:04:17
     ---------------------------------------- 1.1/568.2 MB 6.1 MB/s eta 0:01:33
     --------------------------------------- 3.4/568.2 MB 15.3 MB/s eta 0:00:37
     --------------------------------------- 5.9/568.2 MB 22.4 MB/s eta 0:00:26
      -------------------------------------- 8.6/568.2 MB 27.6 MB/s eta 0:00:21
      ------------------------------------- 11.6/568.2 MB 59.5 MB/s eta 0:00:10
      ------------------------------------- 14.4/568.2 MB 59.5 MB/s eta 0:00:10
     - --------------------

## Iniciando com Pipeline Spacy

carregar modelo médio de português

In [3]:
import spacy

nlp = spacy.load("pt_core_news_lg")
nlp

<spacy.lang.pt.Portuguese at 0x1cfd67b7d50>

In [4]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


Verificar conteúdo da pipelines do nlp

In [5]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [6]:
documento = nlp("As Ações da Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia")

len(documento.vocab)


375

In [7]:
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


Identifica as pontuações que estão fazendo parte da palavra e as que não estão

In [8]:
for token in documento:
    print(token.text)

As
Ações
da
Magazine
Luiza
S.A.
,
Franca
,
Brasil
,
acumularam
baixa
de
70
%
ao
ano
.
Assim
já
devolveram
todos
os
ganhos
do
período
da
pandemia


Identifica os links tb

In [9]:
documento2 = nlp("Alegações extraordinárias requerem evidências extraordinárias. Carl Sagan 'https://carlsagan.com")
for token in documento2:
    print(token.text)
del documento2

Alegações
extraordinárias
requerem
evidências
extraordinárias
.
Carl
Sagan
'
https://carlsagan.com


In [10]:
print(documento[3])

Magazine


In [11]:
print(documento[3:5])

Magazine Luiza


In [12]:
print(len(documento))

29


## Verificando os tipos de tokens


- Se é ou não Stop Word, Alfanumérico, Maiusculo, Pontuação, Número ou Sentença Inicial

In [13]:
print("Tokens: ", [token.text for token in documento])
print("Stop Word: ", [token.is_stop for token in documento])
print("Alfanumérico]: ", [token.is_alpha for token in documento])
print("Maiusculo: ", [token.is_upper for token in documento])
print("Pontuação: ", [token.is_punct for token in documento])
print("Número: ", [token.like_num for token in documento])
print("Sentença Inicial: ", [token.is_sent_start for token in documento])

Tokens:  ['As', 'Ações', 'da', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Stop Word:  [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, True, False, False, True, True, False, True, True, False, True, False, True, False]
Alfanumérico]:  [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, True, False, True, True, True, True, True, True, True, True, True, True]
Maiusculo:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, False, False, True

Formato das strings, inclusive dos números sendo bom para datas !! Máscaras de datas

In [14]:
print("Tokens: ", [token.text for token in documento])
print("Formato: ", [token.shape_ for token in documento])

Tokens:  ['As', 'Ações', 'da', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Formato:  ['Xx', 'Xxxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx']


In [15]:
for token in documento:
    if token.like_num:
        print("Número encontrado: ", token.text)
    if token.is_punct:
        print("Pontuação encontrada: ", token.text)

Pontuação encontrada:  ,
Pontuação encontrada:  ,
Pontuação encontrada:  ,
Número encontrado:  70
Pontuação encontrada:  %
Pontuação encontrada:  .


# Verificar as Part-of_speech que são as morfologias da palavra, ou seja, ADJ: adjetivo, ADV: advérbio entre outros

### GRAMÁTICA = sintaxe(Sujeito, frase, oração, período) U morfologia (classes gramáticais) U semântica (sentido)

<li>pos_ é a morfologia</li>
<li>dep_ é dependencia</li> 
<li>lemma_ é a sintaxe</li> 


In [16]:
for token in documento:
    print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)

As  -  DET  -  det  -  o  -  Xx
Ações  -  NOUN  -  nsubj  -  Ação  -  Xxxxx
da  -  ADP  -  case  -  de o  -  xx
Magazine  -  PROPN  -  nmod  -  Magazine  -  Xxxxx
Luiza  -  PROPN  -  flat:name  -  Luiza  -  Xxxxx
S.A.  -  PROPN  -  flat:name  -  S.A.  -  X.X.
,  -  PUNCT  -  punct  -  ,  -  ,
Franca  -  PROPN  -  conj  -  Franca  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
Brasil  -  PROPN  -  conj  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
acumularam  -  VERB  -  ROOT  -  acumular  -  xxxx
baixa  -  NOUN  -  obj  -  baixa  -  xxxx
de  -  ADP  -  case  -  de  -  xx
70  -  NUM  -  nummod  -  70  -  dd
%  -  SYM  -  nmod  -  %  -  %
ao  -  ADP  -  case  -  a o  -  xx
ano  -  NOUN  -  nmod  -  ano  -  xxx
.  -  PUNCT  -  punct  -  .  -  .
Assim  -  ADV  -  advmod  -  assim  -  Xxxxx
já  -  ADV  -  advmod  -  já  -  xx
devolveram  -  VERB  -  ROOT  -  devolver  -  xxxx
todos  -  DET  -  det  -  todo  -  xxxx
os  -  DET  -  det  -  o  -  xx
ganhos  -  NOUN  -  obj  -  ganho  -  x

## DESCRIÇÃO MORFOLÓFICA DA PALAVRA

In [17]:
for token in documento:
    print(token.text, " - ", token.morph)

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
Ações  -  Gender=Fem|Number=Plur
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
Magazine  -  Gender=Fem|Number=Sing
Luiza  -  Gender=Fem|Number=Sing
S.A.  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumularam  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano  -  Gender=Masc|Number=Sing
.  -  
Assim  -  
já  -  
devolveram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos  -  Gender=Masc|Number=Plur|PronType=Tot
os  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos  -  Gender=Masc|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
período  -  Gender=Masc|Number=Sing
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemia  -  Gender=Fem|Number=Sing


Trás informações um pouco mais refinadas dos tokens

In [18]:
for token in documento:
    print(token.text, " - ", token.tag_)

As  -  DET
Ações  -  NOUN
da  -  ADP
Magazine  -  PROPN
Luiza  -  PROPN
S.A.  -  PROPN
,  -  PUNCT
Franca  -  PROPN
,  -  PUNCT
Brasil  -  PROPN
,  -  PUNCT
acumularam  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM
ao  -  ADP
ano  -  NOUN
.  -  PUNCT
Assim  -  ADV
já  -  ADV
devolveram  -  VERB
todos  -  DET
os  -  DET
ganhos  -  NOUN
do  -  ADP
período  -  NOUN
da  -  ADP
pandemia  -  NOUN


## Entidade nomeadas

In [19]:
for ent in documento.ents:
    print(ent.text, " - ", ent.label_)

Ações da Magazine Luiza S.A.  -  MISC
Franca  -  LOC
Brasil  -  LOC


## Stop Words
Uma boa prática é retirar as stop words (palavras vazias e sem valor semântico) sendo as defaults do modelo que estamos usando

In [20]:
for token in documento:
    if token.is_stop:
        print("Stop word: ", token.text)

Stop word:  As
Stop word:  da
Stop word:  de
Stop word:  ao
Stop word:  Assim
Stop word:  já
Stop word:  todos
Stop word:  os
Stop word:  do
Stop word:  da


In [21]:
for words in nlp.Defaults.stop_words:
    print(words)

boa
maior
estiveram
apenas
pelo
estivestes
umas
tuas
ademais
diz
devem
vossos
máximo
novos
uma
vossas
ali
nós
desta
fora
dezanove
grandes
lhe
próxima
menor
mil
sabe
povo
treze
de
entre
em
seu
tens
nada
conhecida
cuja
onze
numa
usar
poderá
estou
vinda
teus
coisa
nosso
e
próprio
da
forma
fostes
nossos
quais
que
direita
saber
sempre
estivemos
obrigado
isso
sexta
seis
maiorias
baixo
embora
sétimo
dois
já
nenhuma
tanta
fazer
muito
algumas
mais
têm
aquele
números
temos
à
me
lado
sim
vens
dizer
aqueles
quê
vinte
inicio
nas
demais
talvez
isto
tivemos
pôde
vais
o
sexto
nessa
sobre
cinco
zero
ou
favor
três
final
for
no
quarto
disso
estás
desde
nunca
num
questão
oito
pois
corrente
está
sétima
essas
todo
contra
conselho
irá
daquela
exemplo
toda
quando
conhecido
lugar
menos
pouco
tempo
vêm
ontem
outra
tiveram
vem
contudo
veja
pontos
ter
esta
então
quinto
primeira
com
tarde
tentaram
através
cada
tiveste
ver
tipo
elas
aqui
logo
dessa
área
meses
parece
fazemos
um
tente
é
tal
grupo
vários
desse
assim
a

Podemos adicionar novas stop words

In [22]:
nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

In [23]:
nlp.vocab['eita'].is_stop

True

In [24]:
token_lista = []

for token in documento:
    token_lista.append(token.text)

stop_lista = []

for words in nlp.Defaults.stop_words:
    stop_lista.append(words)

semstop = [word for word in token_lista if not word in stop_lista]

print(documento.text)
print(semstop)

As Ações da Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia
['As', 'Ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'período', 'pandemia']


## Vocabulário
Cada palavra tem uma hash,  um lexeme, que a identifica.

In [25]:
print("Hash: ", nlp.vocab.strings["dados"])
print("Hash: ", documento.vocab.strings["dados"])
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [26]:
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


# Embeedings

Embeedings são representações da palavra através de vetores e matrizes, sendo assim o tamanho do vetor tem relação com a quantidade e cada posição do vetor tem uma relação com outra palavra.

In [27]:
print(nlp("dados").vector.shape)

(300,)


Os pesos da palavra "dados" com outras 300 palavras, esses valores foram obitidos através do processo de treinamento do modelo.

In [28]:
print(nlp("dados").vector)

[-1.8078e+00 -2.8421e+00 -5.5345e-01 -4.0565e+00 -2.3565e+00  4.7295e+00
 -3.3508e+00 -1.2036e+00 -5.3749e+00 -7.5768e-01 -2.0015e+00  5.3618e+00
  2.2789e-01  1.2136e+00 -1.4418e+00 -3.0621e+00  2.2060e+00  1.1943e+00
 -1.8689e+00 -5.9128e+00 -5.1929e-01  2.1897e+00 -2.4651e+00  1.7600e+00
 -5.6308e+00  1.0053e+00  7.3080e-01  2.0417e-01 -6.0370e+00  1.7474e+00
  2.0375e+00  2.7541e+00 -1.0423e+00  1.7632e+00 -1.4484e+00 -2.4344e+00
 -8.6094e-01  1.7867e+00 -4.9920e+00 -3.1162e+00 -5.3973e-01  2.4241e+00
  4.4410e-01 -4.7503e+00  2.1383e+00  3.8537e-01 -2.2418e+00  5.8104e+00
 -1.1731e+00  2.4686e-02 -1.8413e+00 -5.9321e+00 -7.0872e-03 -2.3093e+00
  5.5101e+00 -4.1795e-01  2.9754e+00  3.6709e-01 -8.0867e-01 -1.3751e+00
  4.8132e+00 -2.2835e+00 -2.0920e-01  1.2578e+00  4.3466e+00  1.3846e+00
 -1.5847e+00  3.3322e+00 -4.3669e+00  1.8883e+00 -1.2312e+00  3.7902e-01
  8.6331e-01 -4.0607e+00 -1.3444e+00  4.5210e+00  2.2995e-01 -5.9245e+00
 -2.0598e-01 -3.1810e+00 -3.8640e+00  7.2114e+00  3

In [30]:
print(nlp("dados são uma nova forma de ver o mundo").vector.shape)
print(nlp("dados são uma nova forma de ver o mundo").vector)

(300,)
[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.

## Similaridade de sentenças
Baseada em contexto, precisa do modelo large. Metrica usada é o cosseno valor entre 0 (menos semelhante) e 1 (mais semelhante).
Para melhorar a performace:
<li>sentenças menores (span)</li>
<li>Utilizar a função sense2vec</li>
<li>Remover stopwords, pontuações e pronomes</li>

In [31]:
documento1 = nlp("ela viaja regularmente de carro")
documento2 = nlp("ela viaja regularmente de avião")

documento1.similarity(documento2)

0.9537205385084845

se trocar as palavras de posição continua mesmo número

In [32]:
documento1 = nlp("ela viaja regularmente de carro")
documento2 = nlp("ela avião regularmente de viaja")

documento1.similarity(documento2)

0.9537206120007308

In [34]:
documento3 = nlp("Devenmos dizer comprimento ou cumprimento")
tokenA = documento3[2]
print(tokenA)
tokenB = documento3[4]
print(tokenB)
print(tokenA.similarity(tokenB))

comprimento
cumprimento
0.5804340839385986


In [36]:
documento4 = nlp("Ele pede descrição. Ele pede discrição")
partA = documento4[0:3]
print(partA)
partB = documento4[4:7]
print(partB)
print(partA.similarity(partB))

Ele pede descrição
Ele pede discrição
0.9630053639411926


## Matcher busca padrão
semelhante a expressão regular

**Temos várioas atributos e operadores dos tokens**

<p>ORTH busca texto literal</p>
<p>SHAPE busca um formato, dd digitos</p>
<p>OP operador qualificador (? pode ser qualquer coisa)</p>

In [49]:
from spacy.matcher import Matcher

matcher = Matcher(nlp.vocab)

#adicionar pedrão de um telefone
padrao = [{"ORTH": "("},{"SHAPE":"dd"}, {"ORTH": ")"}, {"ORTH": "-", "OP":"?"},{"IS_DIGIT": True}]

matcher.add("telefone",[padrao])

documento5 = nlp("Você pode ligar para (51) - 9964656570 ou (11) 12344988")


matches = matcher(documento5)
for id, inicio, fim in matches:
    print(documento5[inicio:fim])

(51) - 9964656570
(11) 12344988


In [53]:
documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)

padrao1 = [{"LOWER": "micro-organismos"}]
padrao2 = [{"LOWER": "microorganismos"}]
padrao3 = [{"LOWER": "micro"},{ "LOWER": "organismos"}]

matcher.add("padrao", [padrao1, padrao2, padrao3])

matches = matcher(documento6)
for id, inicio, fim in matches:
    print(documento6[inicio:fim])

micro organismos
MICROORGANISMOS
micro-organismos


## Displacy para visualização

In [65]:
from spacy import displacy
documento.user_data['title'] = "Exemplo"
displacy.render(documento, style="ent", jupyter=True)

In [55]:
displacy.render(documento, style="dep", jupyter=True)

In [62]:
displacy.render(documento, style="dep", jupyter=True,
                options={'compact':True, 'distance' : 80 , 'color' : "#FFFF", 'bg': '#000000', 'font': 'Arial'})

In [64]:

displacy.render(documento, style="dep", jupyter=True,
                options={'compact':False, 'distance' : 80 , 'color' : "#FFFF", 'bg': '#000000', 'font': 'Arial'})

## Gerenciamento de Pipeline
a pipeline roda assim que cria um documento mas tem o metodo Pipe que faz sob demanda (python Generator)

In [66]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


Remover etapa no pipeline

In [67]:
nlp.remove_pipe('tok2vec')
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


adicionar etapa no pipeline mudando a ordem

In [68]:
nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'tok2vec', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
