# Introdução ao spaCy




# Etapa 1: Instalação do spaCy

In [6]:
!pip install spacy
#==2.2.3

Collecting spacy
  Downloading spacy-3.4.1-cp310-cp310-win_amd64.whl (11.7 MB)
Collecting langcodes<4.0.0,>=3.2.0
  Downloading langcodes-3.3.0-py3-none-any.whl (181 kB)
Collecting tqdm<5.0.0,>=4.38.0
  Using cached tqdm-4.64.0-py2.py3-none-any.whl (78 kB)
Collecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.2-py3-none-any.whl (27 kB)
Collecting thinc<8.2.0,>=8.1.0
  Downloading thinc-8.1.0-cp310-cp310-win_amd64.whl (1.3 MB)
Collecting spacy-loggers<2.0.0,>=1.0.0
  Downloading spacy_loggers-1.0.3-py3-none-any.whl (9.3 kB)
Collecting cymem<2.1.0,>=2.0.2
  Using cached cymem-2.0.6-cp310-cp310-win_amd64.whl (36 kB)
Collecting srsly<3.0.0,>=2.4.3
  Downloading srsly-2.4.4-cp310-cp310-win_amd64.whl (448 kB)
Collecting preshed<3.1.0,>=3.0.2
  Using cached preshed-3.0.6-cp310-cp310-win_amd64.whl (112 kB)
Collecting wasabi<1.1.0,>=0.9.1
  Using cached wasabi-0.10.1-py3-none-any.whl (26 kB)
Collecting catalogue<2.1.0,>=2.0.6
  Downloading catalogue-2.0.8-py3-none-any.whl (17 kB)
Collecting pa

You should consider upgrading via the 'C:\Users\mathe\PycharmProjects\Matias\venv\Scripts\python.exe -m pip install --upgrade pip' command.


In [7]:
import spacy
spacy.__version__

'3.4.1'

In [None]:
!python -m spacy download pt

# Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [None]:
pln = spacy.load('pt')
pln

In [None]:
documento = pln('Estou aguardando o avião decolar aqui no AEROPORTO DE GUARULHOS')

In [None]:
for token in documento:
  print(token.text, token.pos_)

# Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [None]:
for token in documento:
  print(token.text, token.lemma_)

## Comparação stemização (NLTK) x lematização (spaCy)

In [None]:
#!pip install nltk --upgrade

In [None]:
import nltk
nltk.download('rslp')

In [None]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('correrei')

In [None]:
for token in documento:
  print(token.text, token.lemma_, stemmer.stem(token.text))

# Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities
- NER: Location (LOC), Organization (ORG), Person (PER), Date (DAT)

---



In [None]:
texto = 'a'

In [None]:
documento = pln(texto)

In [None]:
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

In [None]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

# Etapa 5: Parsing de dependências

- Relação pai-filho entre as palavras
- Útil para verificar o que é prioridade na *frase*

## Exemplo 1


In [None]:
from spacy import displacy

In [None]:
documento = pln('A eleição presidencial do Brasil será decidida entre Bolsonaro e Lula')

In [None]:
#displacy.serve(documento, style='dep')
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

# Etapa 6: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

## Exemplo 1

In [None]:
p1 = pln("O ex-presidente Lula está à frente nas pesquisas")
p2 = pln("Comer lula está à frente nas pesquisas")

In [None]:
p1.similarity(p2)

In [None]:
p1.similarity(p3)

In [None]:
p2.similarity(p3)

In [None]:
texto1 = pln('Falo do Banco Santander')
texto2 = pln('Represento o Banco Santander')
texto3 = pln('Não tenho dinheiro')

In [None]:
texto1.similarity(texto2)

In [None]:
texto2.similarity(texto3)