# Exercícios spaCy

**Objetivo:**  
Exercicios em aula para conhecer mais da ferramenta spaCy.

**Bibliotecas:**
- NLTK
- Pandas
- spaCy

### Importando bibliotecas e baixando spaCy

In [None]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m86.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
from spacy import displacy
import pandas as pd
import nltk

In [None]:
pln = spacy.load('pt_core_news_sm')

### 1) Verifique versão, carregamento e pipes

Objetivo: Checar ambiente e visão geral do pipeline.

Tarefas:
- Imprima a versão do spaCy.
- Carregue o modelo em PT-BR e mostre os pipes com nlp.pipe_names.
- Texto de teste: “Hoje estudarei Processamento de Linguagem Natural na faculdade.”

In [None]:
print(spacy.__version__)
print(pln.pipe_names)
teste = pln('Hoje estudarei Processamento de Linguagem Natural na faculdade.')
print(teste)

3.8.11
['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
Hoje estudarei Processamento de Linguagem Natural na faculdade.


### 2) Tokenização e POS

Objetivo: Observar como o spaCy separa tokens e atribui classes gramaticais.

Tarefas:
- Tokenize e liste (token.text, token.pos_).
- Texto: “O professor apresentou exemplos claros na aula de PLN.”

In [None]:
texto2 = pln('O professor apresnetou exemplos claros na aula de PLN.')

for token in texto2:
  print(token.text, token.pos_)

O DET
professor NOUN
apresnetou VERB
exemplos NOUN
claros ADJ
na ADP
aula NOUN
de ADP
PLN PROPN
. PUNCT


### 3) Filtre nomes próprios

Objetivo: Praticar filtragem por categoria POS.

Tarefas:
- Liste apenas tokens com pos_ == 'PROPN'.
- Texto: “Ana viajou com Roberto para Florianópolis durante o feriado.”

In [None]:
texto3 = pln('Ana viajou com Roberto para Florianópolis durante o feriado.')

for token in texto3:
  if token.pos_ == 'PROPN':
    print(token.text, token.pos_)

Ana PROPN
Roberto PROPN
Florianópolis PROPN


### 4) Lematização

Objetivo: Comparar formas flexionadas e lemas.

Tarefas:
- Para cada token, imprima (token.text, token.lemma_).
- Texto: “compramos compraria compraram comprarão comprando”

In [None]:
texto4 = pln('compramos compraria compraram comprarão comprando')

for token in texto4:
  print(token.text, token.lemma_)

compramos compramos
compraria compraria
compraram comprar
comprarão comprar
comprando comprar


### 5) Stopwords

Objetivo: Praticar remoção de palavras de função.

Tarefas:
- Remova tokens que são stopwords e reconstrua a frase “limpa”.
- Texto: “Eu não tenho nada contra, mas às vezes é melhor esperar.”

In [None]:
texto5 = pln('Eu não tenho nada contra, mas às vezes é melhor esperar.')

for token in texto5:
  if not token.is_stop:
    print(token)

,
melhor
esperar
.


### 6) NER básico + visualização

Objetivo: Reconhecer entidades nomeadas em PT-BR.

Tarefas:
- Extraia entidades (ent.text, ent.label_).
- Opcional: visualize com displacy.render(doc, style='ent', jupyter=True).
- Texto: “A Apple lançou produtos em Cupertino em 2024 e planeja eventos no Brasil.”

In [None]:
texto6 = pln('A Apple lançou produtos em Cupertino em 2024 e planeja eventos no Brasil.')

for entidade in texto6.ents:
  print(entidade.text, entidade.label_)

displacy.render(texto6, style='ent', jupyter=True)

Apple ORG
Cupertino LOC
Brasil LOC


### 7) Similaridade entre palavras

Objetivo: Investigar proximidade semântica entre palavras.

Tarefas:
- Compare pares de tokens com token1.similarity(token2).
- Pares sugeridos: (“feliz”, “contente”), (“feliz”, “triste”), (“triste”, “deprimido”).

In [None]:
p1 = pln('feliz')
p2 = pln('contente')
p3 = pln('triste')
p4 = pln('deprimido')

print(p1.similarity(p2))
print(p1.similarity(p3))
print(p3.similarity(p4))

0.5661238431930542
0.14896716177463531
-0.030418669804930687


  print(p1.similarity(p2))
  print(p1.similarity(p3))
  print(p3.similarity(p4))


### 8) Lema vs. Stem (RSLP)

Objetivo: Entender diferenças entre lematização e stemming para PT-BR.

Tarefas:
- Monte um DataFrame com colunas: palavra, lemma_spacy, stem_rslp (NLTK).
- Use um conjunto misto: ['organização', 'organizar', 'organizado', 'analista', 'analisar', 'análise', 'fácil', 'facilmente'].
- Comente 3 casos em que stem e lema divergem e o impacto na análise

In [None]:
nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()
conjunto = ['andando', 'organizar', 'organizado', 'analista', 'analisar', 'análise', 'fácil', 'facilmente']
comparacao = []

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


In [None]:
for token in conjunto:
  token = pln(token)[0]
  palavra = token.text
  lematizacao = token.lemma_
  stemizacao = stemmer.stem(token.text)
  comparacao.append([palavra, lematizacao, stemizacao])

  df = pd.DataFrame(comparacao, columns=['palavra', 'lemma_spacy', 'stem_rslp (nltk)'])

print(df)

      palavra lemma_spacy stem_rslp (nltk)
0     andando       andar              and
1   organizar   organizar          organiz
2  organizado   organizar          organiz
3    analista    analista             anal
4    analisar    analisar           analis
5     análise    análiser           anális
6       fácil       fácil            fácil
7  facilmente  facilmente            facil


#### Comente 3 casos em que stem e lema divergem e o impacto na análise

no caso de organizar o lema mantem a palavra organizar enquanto o stem reduz a palavra pra organiz que não é uma palavra completa, isso pode reduzir a precisão de uma analise semântica.

Isso tambem acontece na palavra analisar que tambem é mantida no lemma e é reduzida para analis no stem. Usar o stem pode causar uma perda de informação já que a redução da palavra pode gerar ambiguidades

Facilmente segue o mesmo padrão dos anteriores e permanece igual no lema mas é reduzida para facil no stem.

### 9) Dependências: origem e destino

Objetivo: Usar relações de dependência para extrair slots (origem/destino).

Tarefas:
- Identifique origem e destino sem usar índices fixos (use heads, children e preposições).
- Texto: “Reserve passagens saindo de Congonhas e chegando em Recife amanhã cedo.”

In [None]:
texto9 = pln('Reserve passagens saindo de Congonhas e chegando em Recife amanhã cedo.')

for entidade in texto9.ents:
  for token in entidade:
    if token.head.text == 'saindo':
      print(f"Origem: {token.text}")
    if token.head.text == 'chegando':
      print(f"Destino: {token.text}")

Origem: Congonhas
Destino: Recife


### 10) Mapear objeto → local via dependências

Objetivo: Praticar navegação em dependências para relacionar substantivos.

Tarefas:
- Associe o objeto à localização com base em suas relações.
- Texto: “Precisamos de uma mesa para o restaurante e de um quarto para o hotel.”
- Imprima pares: mesa→restaurante, quarto→hotel.

In [None]:
texto10 = pln('Precisamos de uma mesa para o restaurante e de um quarto para o hotel.')

lugares = texto10[6], texto10[13]
objetos = texto10[3], texto10[10]
lugares, objetos

for local in lugares:
  for objeto in local.ancestors:
    if objeto in objetos:
      print("{} -> {}".format(objeto, local))
      break

mesa -> restaurante
quarto -> hotel


### 11) Ações vinculadas a lugares

Objetivo: Generalizar padrão de ações ligadas a locais.

Tarefas:
- Extraia pares lugar → verbo associado (ancestors/head).
- Texto: “Quais museus podemos visitar em Lisboa e o que podemos conhecer em Sintra?”

In [None]:
texto11 = pln('Quais museus podemos visitar em Lisboa e o que podemos conhecer em Sintra?')

lugares = texto11[5], texto11[12]
verbo = texto11[3], texto11[10]
lugares, verbo

for local in lugares:
  for acao in local.ancestors:
    if acao in verbo:
      print("O verbo {} esta associado a {}".format(acao, local))
      break

O verbo visitar esta associado a Lisboa
O verbo conhecer esta associado a Sintra


### 12) Similaridade de sentenças com ranking

Objetivo: Comparar semântica de sentenças curtas.

Tarefas:
- Dado o conjunto A, B, C, calcule similaridades A↔B e A↔C e explique resultados.
- A: “Quando será inaugurado o novo campus?”
- B: “O novo campus será inaugurado no próximo semestre.”
- C: “Quantas vagas restaram para o curso noturno?”

In [None]:
a = pln('Quando será inaugurado o novo campus?')
b = pln('O novo campus será inaugurado no próximo semestre.')
c = pln('Quantas vagas restaram para o curso noturno?')

print(f'A similaridade do texto A com o texto B é {a.similarity(b)}')
print(f'A similaridade do texto A com o texto C é {a.similarity(c)}')

A similaridade do texto A com o texto B é 0.8205576539039612
A similaridade do texto A com o texto C é 0.4572163224220276


  print(f'A similaridade do texto A com o texto B é {a.similarity(b)}')
  print(f'A similaridade do texto A com o texto C é {a.similarity(c)}')


### 13) Stopwords personalizadas (negadores e domínio)

Objetivo: Ajustar vocabulário às necessidades da tarefa.

Tarefas:
- Adicione 'curso' e 'prova' às stopwords e remova 'não' e 'nunca'.
- Reaplique em: “Eu não vou faltar à prova do curso, nunca!”
- Discuta como preservar negação influencia análises de sentimento.

In [None]:
texto13 = pln('Eu não vou faltar à prova do curso, nunca!')

pln.vocab["curso"].is_stop = True
pln.vocab["prova"].is_stop = True
pln.vocab["não"].is_stop = False
pln.vocab["nunca"].is_stop = False

print('Palavras que são stop words')
for token in texto13:
  if token.is_stop:
    print(token.text)

print('\nPalavras que não são stop words')
for token in texto13:
  if not token.is_stop:
    print(token.text)

Palavras que são stop words
Eu
à
prova
do
curso

Palavras que não são stop words
não
vou
faltar
,
nunca
!


### 14) Tokenização de casos especiais + limpeza com .is_right_punct

Objetivo: Analisar splits e aplicar filtro com .is_right_punct no pré-processamento.

Tarefas:
- Tokenize e liste tokens obtidos.
- Texto: “Promoção: e-commerce com frete grátis por R$ 1.299,90 — aproveite já!”
- Remova tokens de pontuação à direita usando token.is_right_punct e reconstrua o texto limpo.
- Comente se a tokenização ajuda ou atrapalha a extração de preço.

In [None]:
texto14 = pln('Promoção: e-commerce com frete grátis por R$ 1.299,90 — aproveite já!')
sem_pontuacao = []

for token in texto14:
  if not token.is_punct:
    sem_pontuacao.append(token.text)

print(' '.join(sem_pontuacao))

Promoção e-commerce com frete grátis por R$ 1.299,90 aproveite já
