# Introdução ao spaCy




# Etapa 1: Instalação do spaCy

In [1]:
%pip install spacy==2.2.3

Collecting spacy==2.2.3
  Downloading spacy-2.2.3.tar.gz (5.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.9/5.9 MB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25l|^C
[?25canceled
[31mERROR: Operation cancelled by user[0m[31m
[0mNote: you may need to restart the kernel to use updated packages.


In [None]:
import spacy

spacy.__version__

'2.2.3'

In [None]:
!python -m spacy download pt

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pt_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.2.5/pt_core_news_sm-2.2.5.tar.gz (21.2 MB)
[K     |████████████████████████████████| 21.2 MB 1.2 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.7/dist-packages/pt_core_news_sm -->
/usr/local/lib/python3.7/dist-packages/spacy/data/pt
You can now load the model via spacy.load('pt')


# Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [None]:
pln = spacy.load("pt")
pln

<spacy.lang.pt.Portuguese at 0x7f63e602af50>

In [None]:
documento = pln("Estou aguardando o avião decolar aqui no AEROPORTO DE GUARULHOS")

In [None]:
for token in documento:
    print(token.text, token.pos_)

Estou AUX
aguardando VERB
o DET
avião NOUN
decolar ADJ
aqui ADV
no ADP
AEROPORTO PROPN
DE ADP
GUARULHOS PROPN


# Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [None]:
for token in documento:
    print(token.text, token.lemma_)

Estou Estou
aguardando aguardar
o o
avião avião
decolar decolar
aqui aqui
no o
AEROPORTO AEROPORTO
DE DE
GUARULHOS GUARULHOS


## Comparação stemização (NLTK) x lematização (spaCy)

In [None]:
#!pip install nltk --upgrade

In [None]:
import nltk

nltk.download("rslp")

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [None]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem("correrei")

'corr'

In [None]:
for token in documento:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aguardando aguardar aguard
o o o
avião avião avi
decolar decolar decol
aqui aqui aqu
no o no
AEROPORTO AEROPORTO aeroport
DE DE de
GUARULHOS GUARULHOS guarulh


# Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities
- NER: Location (LOC), Organization (ORG), Person (PER), Date (DAT)

---



In [None]:
texto = "a"

In [None]:
documento = pln(texto)

In [None]:
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

lula PER


In [None]:
from spacy import displacy

displacy.render(documento, style="ent", jupyter=True)

# Etapa 5: Parsing de dependências

- Relação pai-filho entre as palavras
- Útil para verificar o que é prioridade na *frase*

## Exemplo 1


In [None]:
from spacy import displacy

In [None]:
documento = pln("A eleição presidencial do Brasil será decidida entre Bolsonaro e Lula")

In [None]:
# displacy.serve(documento, style='dep')
displacy.render(documento, style="dep", jupyter=True, options={"distance": 90})

# Etapa 6: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

## Exemplo 1

In [None]:
p1 = pln("O ex-presidente Lula está à frente nas pesquisas")
p2 = pln("Comer lula está à frente nas pesquisas")

In [None]:
p1.similarity(p2)

  "__main__", mod_spec)


0.7792486747489373

In [None]:
p1.similarity(p3)

  "__main__", mod_spec)


0.11438403861728573

In [None]:
p2.similarity(p3)

  "__main__", mod_spec)


0.10068220889078307

In [None]:
texto1 = pln("Falo do Banco Santander")
texto2 = pln("Represento o Banco Santander")
texto3 = pln("Não tenho dinheiro")

In [None]:
texto1.similarity(texto2)

  "__main__", mod_spec)


0.8717254347647174

In [None]:
texto2.similarity(texto3)

  "__main__", mod_spec)


0.5651902334605363