# Dados



*   **Aluno**: Seu nome
*   **Matrícula**: Sua Matrícula



# Representação Vetorial de Textos em PLN

A linguagem humana é rica, ambígua e altamente contextual. No entanto, para que computadores consigam processar, comparar ou aprender com textos, é necessário traduzi-los para uma linguagem que as máquinas compreendam: **números**.

É aí que entram os **modelos vetoriais de representação textual**, que transformam palavras, frases ou documentos em **vetores numéricos**. Essa etapa é chamada de **vetorização**.

Neste laboratório, você vai explorar a evolução das representações vetoriais utilizadas no Processamento de Linguagem Natural (PLN), entendendo como passamos de abordagens simples, como **One-Hot Encoding**, para técnicas mais expressivas como **TF-IDF**, além de aplicar **métricas de similaridade** e algoritmos como o **KNN** para classificar textos.

Vamos colocar a mão na massa e ver na prática como representar textos como vetores e extrair sentido dessa nova forma de ver a linguagem!

---


## Imports

In [55]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd

## Funções

In [56]:
import numpy as np

def similaridade_cosseno(v1, v2):
    v1 = np.array(v1)
    v2 = np.array(v2)
    numerador = np.dot(v1, v2)
    denominador = np.linalg.norm(v1) * np.linalg.norm(v2)
    return numerador / denominador if denominador != 0 else 0.0

## Exemplo com DataSet Simples

Antes de começarmos a vetorização, precisamos de um conjunto de textos para trabalhar. Para isso, vamos utilizar um **mini-corpus com 15 frases curtas**, que simulam situações do cotidiano envolvendo animais, ambientes e clima.

Esse conjunto foi pensado para conter:
- Palavras repetidas e variações sutis (como "gato" e "gata", "chuva" e "molhado"),
- Frases com temas comuns (sofá, quintal, jardim),
- E expressões que nos permitem testar **similaridade**, **frequência** e **contexto**.

A ideia é que esse corpus nos ajude a enxergar, de forma prática, como diferentes técnicas de vetorização representam os textos e como elas capturam (ou não) relações entre palavras e frases.

In [57]:
corpus = [
    "o gato dorme no sofá, com o outro gato",
    "o cachorro late no quintal",
    "a gata correu pelo jardim, com a outra gata",
    "o sofá é confortável",
    "meu cachorro gosta de correr",
    "gatos e cachorros são animais domésticos",
    "o quintal e as árvores está molhado por causa da chuva",
    "choveu muito no final de semana",
    "meu gato gosta de dormir o dia todo",
    "animais gostam de brincar no jardim",
    "o dia está ensolarado e quente",
    "a chuva deixou tudo molhado",
    "meus animais dormem juntos no sofá",
    "o jardim tem flores e árvores e as árvores são frutíferas",
    "o cachorro de Maria subiu no sofá"
]


### **Vetorização de dados textuais**

Nesta seção, você deve executar três tipos diferentes de vetorização: o ***One-hot Encoding***, o ***Term Frequency* (TF)** e o ***Term Frequency-Inverse Document Frequency* (TF-IDF)**. Após descrever as características e o funcionamento dessas vetorizações, aplique-as aos documentos da variável **`response`** do conjunto de dados.

#### One Hot Encoding

A técnica de **One-Hot Encoding** é uma das formas mais simples de representar palavras como vetores. Nela, cada palavra do vocabulário é representada por um vetor binário com a mesma dimensão do vocabulário — e apenas uma posição é "1", indicando a presença da palavra.

Abaixo, aplicamos One-Hot Encoding para cada **palavra única** do nosso corpus.

In [58]:
# Inicializando o vetorizador com o binary = true para que as colunas geradas possuam um valor binário e não um valor de contagem
vectorizer_one_hot = CountVectorizer(binary=True)

In [59]:
# Vetorizando o dataset
one_hot_response = vectorizer_one_hot.fit_transform(corpus)

In [60]:
one_hot_response.shape

(15, 53)

In [61]:
# Gerando um dataframe com o dataset vetorizado
one_hot_df = pd.DataFrame(one_hot_response.toarray(), columns=vectorizer_one_hot.get_feature_names_out())

In [62]:
# Plotando o dataset vetorizado
one_hot_df

Unnamed: 0,animais,as,brincar,cachorro,cachorros,causa,choveu,chuva,com,confortável,...,quente,quintal,semana,sofá,subiu,são,tem,todo,tudo,árvores
0,0,0,0,0,0,0,0,0,1,0,...,0,0,0,1,0,0,0,0,0,0
1,0,0,0,1,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,1,0,0,0,0,0,0
4,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,1,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
6,0,1,0,0,0,1,0,1,0,0,...,0,1,0,0,0,0,0,0,0,1
7,0,0,0,0,0,0,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
9,1,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# Agora é sua vez

Utilizando um DataSet de comentários do IMDB, vamos transformar cada comentário em um vetor e calcular similaridades com métricas diferentes

In [63]:
url = 'https://raw.githubusercontent.com/Karthik-Bhaskar/Sentiment-Analysis/refs/heads/master/processed.csv'
df = pd.read_csv(url)
df = df.head(1000)
df.drop(columns=['Unnamed: 0'], inplace=True)
print('Quantidade de comentários', df.shape[0])
df.head()

Quantidade de comentários 1000


Unnamed: 0,review,sentiment
0,one reviewer mention watch oz episode youll ho...,1
1,wonderful little production film technique una...,1
2,thought wonderful way spend time hot summer we...,1
3,basically there family little boy jake think t...,0
4,petter matteis love time money visually stun f...,1


## 1. Para cada texto do dataset do IMDB, transforme-o em sua versão vetorizada binária.

In [64]:
df

Unnamed: 0,review,sentiment
0,one reviewer mention watch oz episode youll ho...,1
1,wonderful little production film technique una...,1
2,thought wonderful way spend time hot summer we...,1
3,basically there family little boy jake think t...,0
4,petter matteis love time money visually stun f...,1
...,...,...
995,nothing sacred ask ernie fosselius day everybo...,1
996,hat hate selfaware pretentious inanity masquer...,0
997,usually try professional constructive criticiz...,0
998,like go see film history class something like ...,0


In [65]:
#É possível vetorizar o informações do dataframe passando seu dataframe['nome_coluna'] como parâmetro para seu vetorizador
#Você pode utilizar o vetorizador presente no exemplo acima de nome e salvar os vetores na variável one_hot_response
#Recupere cada palavra resultante da vetorização. Dica: use a função get_feature_names_out() do seu vetorizador
one_hot_response = vectorizer_one_hot.fit_transform(df['review'])
one_hot_df = pd.DataFrame(one_hot_response.toarray(), columns=vectorizer_one_hot.get_feature_names_out())
words = vectorizer_one_hot.get_feature_names_out()
print(words[:10])

['aaargh' 'aaliyah' 'aamir' 'aaron' 'ab' 'abandon' 'abba' 'abbey' 'abbot'
 'abbott']


In [66]:
#Transforme seus vetores em um dataframe para trabalhar com essa estrutura de dados. Use os vetores da célula anterior e as palavras obtidas para criar o dataframe
#Você pode fazer isso chamando a classe pd.DataFrame(vetores.toarray(), columns=['nome de cada coluna'])


one_hot_df.head()

Unnamed: 0,aaargh,aaliyah,aamir,aaron,ab,abandon,abba,abbey,abbot,abbott,...,zone,zoo,zoology,zoom,zp,zu,zucker,zulu,zwick,zzzzzzzzzzzzzzzzzz
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [67]:
# Recupere o primeiro documento para a variável d1
# Você pode fazer isso, recuperando o elemento índice 0 no dataframe usando loc.

# Imprima quais palavras fazem parte do vetor de d1
# Para imprimir as palavras você pode percorrer cada posição desse vetor. Se ele for 1, então você pode manter sua palavra usando o atributo index do d1

d1 = one_hot_df.loc[0]

d1_words = [token for token, value in d1.items() if value == 1]

print(d1_words[:10])

['accustom', 'agenda', 'agreement', 'appeal', 'around', 'audience', 'away', 'awayi', 'become', 'bitch']


In [68]:
one_hot_df.iloc[1:]

Unnamed: 0,aaargh,aaliyah,aamir,aaron,ab,abandon,abba,abbey,abbot,abbott,...,zone,zoo,zoology,zoom,zp,zu,zucker,zulu,zwick,zzzzzzzzzzzzzzzzzz
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
996,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
997,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
998,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [69]:
# Encontre o id do documento mais similar ao documento d1 percorrendo o restante do dataframe e retorne seu índice
# Utilize o produto escalar e a similaridade do cosseno da função já disponível para achar os documentos similares por essas duas métricas
# Calcule cada similaridade separadamente e verifique se o documento retornado é igual

#Variáveis para armazenar o id e a similaridade do documento mais similar conforme a similaridade do cosseno
sim_cos = -1
id_sc = -1

#Variáveis para armazenar o id e a similaridade do documento mais similar conforme o produto escalar
prod_esc = -1
id_pe = -1

for idx, row in one_hot_df.iloc[1:].iterrows():

  #Calcule o produto escalar e salve o documento de maior similaridade
  #Você pode usar a função np.dot() passando seus vetores para calcular o produto escalar
  novo_esc = np.dot(d1, row)
  
  if novo_esc > prod_esc:
    prod_esc = novo_esc
    id_pe = idx


  #Calcule a Similaridade do cosseno e salve o documento de maior similaridade
  #Você pode usar a função de similaridade do cosseno presente no início deste notebook passando seus vetores
  novo_cos = similaridade_cosseno(d1, row)
  
  if novo_cos > sim_cos:
    sim_cos = novo_cos
    id_sc = idx


print(f"Produto escalar: {prod_esc}")
print("Id do documento:", id_pe)
print()
print(f"Similaridade do cosseno: {sim_cos:.4f}")
print("Id do documento:", id_sc)

Produto escalar: 32
Id do documento: 263

Similaridade do cosseno: 0.1604
Id do documento: 308


In [70]:
# Mostre as 10 primeiras palavras presentes do documento que possui maior similaridade conforme o produto escalar
# Você pode recuperar esse vetor usando o índice salvo em id_pe

d_sim_pe_aux = one_hot_df.loc[id_pe]
d_sim_pe_words = [token for token, value in d_sim_pe_aux.items() if value == 1]

print(d_sim_pe_words[:10])

['abandon', 'able', 'act', 'activity', 'al', 'alarm', 'allow', 'also', 'amaze', 'ambition']


In [71]:
# Mostre as 10 primeiras palavras presentes do documento retornado por possuir maior similaridade do cosseno
# Você pode recuperar esse vetor usando o índice salvo em id_sc
d_sim_cos_aux = one_hot_df.loc[id_sc]
d_sim_cos_words = [token for token, value in d_sim_cos_aux.items() if value == 1]
print(d_sim_cos_words[:10])

['action', 'case', 'character', 'cool', 'else', 'excuse', 'extreme', 'fall', 'fun', 'gratuitous']


In [72]:
#Implemente o cálculo da similaridade de Jaccard
#Lembre que a similaridade é calculada considerando |A intersect B|/|A union B|
#Você pode utilizar os recursos da classe set() do python

def similaridade_jaccard(v1: set, v2: set):
    
    intersection = v1.intersection(v2)
    union = v1.union(v2)

    len_intersection = len(intersection)
    len_union = len(union)

    if len_union == 0:
        return 0
    else:
        return len_intersection / len_union

In [73]:
# Calcule a similaridade de Jaccard entre os dois documentos mais similares conforme o produto escalar
# Dica: você pode utilizar a classe set() do python para transformar listas de palavras em conjuntos e aplicar suas operações
# Você pode usar as variáveis d_sim_pe_words e d1_words para verificar as palavras em cada documento
v1 = set(d_sim_pe_words)
v2 = set(d1_words)

jaccard = similaridade_jaccard(v1, v2)

print(f"Similaridade de Jaccard: {jaccard:.4f}")

Similaridade de Jaccard: 0.0764


In [74]:
# Calcule a similaridade de Jaccard entre os dois documentos retornados anteriormente em relação à d1
# Dica: você pode utilizar a classe set() do python para transformar listas de palavras em conjuntos e aplicar suas operações
# Você pode usar as variáveis d_sim_cos_words e d1_words para verificar as palavras em cada documento
v1 = set(d_sim_cos_words)
v2 = set(d1_words)

jaccard = similaridade_jaccard(v1, v2)

print(f"Similaridade de Jaccard: {jaccard:.4f}")

Similaridade de Jaccard: 0.0714


## 2. Agora vamos avançar para uma abordagem que permite representar **textos inteiros** como vetores: o modelo **Bag of Words (BoW)**.

A ideia do BoW é simples, mas poderosa:  
Cada documento (ou frase) é representado por um vetor que **conta quantas vezes cada palavra do vocabulário aparece** naquele texto.


Refaça os passos da etapa 1, agora utilizando a contagem de cada palavra!

In [75]:
#Gere um novo vetorizador e armazene na variável vectorizer_bow
#Você pode fazer isso utilizando a classe CountVectorizer() sem nenhum parâmetro
vectorizer_bow = CountVectorizer()

In [76]:
#É possível vetorizar o dataframe passando df['nome_coluna'] como parâmetro para seu vetorizador
#Armazene a vetorização na variável bow_response
#Recupere cada palavra resultante da vetorização. Dica: use a função get_feature_names_out() do seu vetorizador

bow_response = vectorizer_bow.fit_transform(df['review'])
bow_words = vectorizer_bow.get_feature_names_out()

print(bow_words[:10])

['aaargh' 'aaliyah' 'aamir' 'aaron' 'ab' 'abandon' 'abba' 'abbey' 'abbot'
 'abbott']


In [77]:
#Transforme seus vetores em um dataframe para trabalhar com essa estrutura de dados, use os vetores da célula anterior e as palavras obtidas
#Você pode fazer isso chamando a classe pd.DataFrame(vetores, columns=['nome de cada coluna'])
bow_df = pd.DataFrame(bow_response.toarray(), columns=vectorizer_bow.get_feature_names_out())

bow_df.head()

Unnamed: 0,aaargh,aaliyah,aamir,aaron,ab,abandon,abba,abbey,abbot,abbott,...,zone,zoo,zoology,zoom,zp,zu,zucker,zulu,zwick,zzzzzzzzzzzzzzzzzz
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [78]:
# Recupere o primeiro documento e armazene na variável bow_d1
# Você pode fazer isso recuperando o elemento índice 0 no dataframe usando a função loc.

# Imprima quais palavras fazem parte de bow_d1
# Para cada posição desse vetor, se ele for diferente de 0, então você pode manter essa palavra usando a variável index do bow_d1
bow_d1 = bow_df.loc[0]

bow_d1_words = [token for token, value in bow_d1.items() if value == 1]
print(bow_d1_words[:10])

['accustom', 'agenda', 'agreement', 'appeal', 'around', 'audience', 'away', 'awayi', 'become', 'bitch']


In [79]:
# Encontre os ids dos documentos mais similares ao documento d1 percorrendo o restante do dataframe e retorne seus índices
# Utilize o produto escalar e a similaridade do cosseno da função já disponível para achar os documentos similares por essas duas métricas
# Calcule cada similaridade separadamente e verifique se o documento retornado é igual
# Use a implementação da seção anterior

#Variáveis para armazenar o id do documento mais similar conforme a similaridade do cosseno
sim_cos = -1
id_sc = -1

#Variáveis para armazenar o id do documento mais similar conforme o produto escalar
prod_esc = -1
id_pe = -1

for idx, row in bow_df.iloc[1:].iterrows():
  
  novo_es = np.dot(row, bow_d1)
  
  if novo_es > prod_esc:
    prod_esc = novo_es
    id_pe = idx

  #Calcule o produto escalar e salve o documento de maior similaridade
  #Você pode usar a função np.dot() passando seus vetores para calcular o produto escalar
  
  novo_cs = similaridade_cosseno(row, bow_d1)
  
  if novo_cs > sim_cos:
    sim_cos = novo_cs
    id_sc = idx


  #Calcule a Similaridade do cosseno e salve o documento de maior similaridade
  #Você pode usar a função de similaridade do cosseno presente no início deste notebook passando seus vetores


print(f"Produto escalar: {prod_esc}")
print("Id do documento:", id_pe)
print()
print(f"Similaridade do cosseno: {sim_cos:.4f}")
print("Id do documento:", id_sc)

Produto escalar: 152
Id do documento: 804

Similaridade do cosseno: 0.3523
Id do documento: 804


In [80]:
# Mostre as 10 primeiras palavras presentes do documento retornado por possuir maior produto escalar
# Você pode recuperar esse vetor usando o índice salvo em id_pe

d_sim_pe = bow_df.loc[id_pe]
d_sim_pe_words = [token for token, value in d_sim_pe.items() if value != 0]

print(d_sim_pe_words[:10])

['absolutely', 'act', 'actor', 'afraid', 'agree', 'always', 'anyone', 'appalled', 'believe', 'best']


In [81]:
# Mostre as 10 primeiras palavras presentes do documento retornado por possuir maior similaridade do cosseno
# Você pode recuperar esse vetor usando o índice salvo em id_sc
d_sim_cos = bow_df.loc[id_sc]
d_sim_cos_words = [token for token, value in d_sim_cos.items() if value != 0]

print(d_sim_cos_words[:10])

['absolutely', 'act', 'actor', 'afraid', 'agree', 'always', 'anyone', 'appalled', 'believe', 'best']


## 3. 📊 TF-IDF (Term Frequency - Inverse Document Frequency)

Até agora, usamos a contagem para representar o peso de uma palavra em um documento.

Mas pense bem: palavras como "o", "e", "no", "de" aparecem o tempo todo em quase todos os textos. Mesmo que sejam frequentes, **elas não carregam muito significado específico**.

É aí que entra o **TF-IDF**: uma técnica que ajusta o TF penalizando palavras que são comuns em muitos documentos e destacando aquelas que são mais **específicas** de um documento.

##### 🧠 Como funciona o TF-IDF?

- **TF**: frequência relativa da palavra no documento.
- **IDF**: mede o quão rara (ou informativa) a palavra é em todo o corpus.
- O TF-IDF final é o produto entre esses dois valores.

O resultado é uma representação vetorial mais equilibrada, que valoriza as palavras **relevantes**, não apenas as **frequentes**.

Agora vamos aplicar isso ao nosso corpus!

In [82]:
#Crie o vetorizador dessa etapa. Você pode fazer isso utilizando a classe TfidfVectorizer() sem parâmetro.
#Crie seu vetorizador em uma variável chamada tfidf_vectorizer
tfidf_vectorizer = TfidfVectorizer()

In [83]:
#É possível vetorizar o dataframe passando df['nome_coluna'] como parâmetro para seu vetorizador
#Armazene a vetorização na variável tfidf_response
#Recupere cada palavra resultante da vetorização. Dica: use a função get_feature_names_out() do seu vetorizador
tfidf_response = tfidf_vectorizer.fit_transform(df['review'])
tfidf_words = tfidf_vectorizer.get_feature_names_out()

tfidf_words[:10]

array(['aaargh', 'aaliyah', 'aamir', 'aaron', 'ab', 'abandon', 'abba',
       'abbey', 'abbot', 'abbott'], dtype=object)

In [84]:
#Transforme seus vetores em um dataframe para trabalhar com essa estrutura de dados, use os vetores da célula anterior e as palavras obtidas
#Você pode fazer isso chamando a classe pd.DataFrame(vetores, columns=['nome de cada coluna'])

tfidf_df = pd.DataFrame(tfidf_response.toarray(), columns=tfidf_words)
tfidf_df.head()

Unnamed: 0,aaargh,aaliyah,aamir,aaron,ab,abandon,abba,abbey,abbot,abbott,...,zone,zoo,zoology,zoom,zp,zu,zucker,zulu,zwick,zzzzzzzzzzzzzzzzzz
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [85]:
# Recupere o primeiro documento e armazene na variável bow_d1
# Você pode fazer isso, recuperando o elemento índice 0 no dataframe.

# Imprima quais palavras fazem parte de seu vetor
# Para cada posição desse vetor, se ele for diferente de 0, então você pode manter sua palavra usando a variável index do tfidf_d1

tfidf_d1 = tfidf_df.loc[0]

tfidf_d1_words = [token for token, value in tfidf_d1.items() if value != 0]

print(tfidf_d1_words[:10])

['accustom', 'agenda', 'agreement', 'appeal', 'around', 'audience', 'away', 'awayi', 'become', 'bitch']


In [90]:
# Encontre os ids dos documentos mais similares ao documento d1 percorrendo o restante do dataframe e retorne seus índices
# Utilize o produto escalar e a similaridade do cosseno da função já disponível para achar os documentos similares por essas duas métricas
# Calcule cada similaridade separadamente e verifique se o documento retornado é igual
# Use a implementação da seção anterior

#Variáveis para armazenar o id do documento mais similar conforme a similaridade do cosseno
sim_cos = -1
id_sc = -1

#Variáveis para armazenar o id do documento mais similar conforme o produto escalar
prod_esc = -1
id_pe = -1

for idx, row in tfidf_df.iloc[1:].iterrows():

  #Calcule o produto escalar e salve o documento de maior similaridade
  #Você pode usar a função np.dot() passando seus vetores para calcular o produto escalar

  novo_escalar = np.dot(row, tfidf_d1)
  
  if novo_escalar > prod_esc:
    prod_esc = novo_escalar
    id_pe = idx
    
  novo_cosseno = similaridade_cosseno(row,tfidf_d1)
  
  if novo_cosseno > sim_cos:
    sim_cos = novo_cosseno
    id_sc = idx


  #Calcule a Similaridade do cosseno e salve o documento de maior similaridade
  #Você pode usar a função de similaridade do cosseno presente no início deste notebook passando seus vetores

print(f"Produto escalar: {prod_esc}")
print("Id do documento:", id_pe)
print()
print(f"Similaridade do cosseno: {sim_cos:.4f}")
print("Id do documento:", id_sc)

Produto escalar: 0.16070948359757772
Id do documento: 804

Similaridade do cosseno: 0.1607
Id do documento: 804


In [95]:
# Mostre as 10 primeiras palavras presentes do documento retornado por possuir maior produto escalar
# Você pode recuperar esse vetor usando o índice salvo em id_pe
d_sim_pe = tfidf_df.loc[id_pe]

d_sim_pe_words = [token for token, value in d_sim_pe.items() if value != 0]

print(d_sim_pe_words[:10])

['absolutely', 'act', 'actor', 'afraid', 'agree', 'always', 'anyone', 'appalled', 'believe', 'best']


In [96]:
# Mostre as 10 primeiras palavras presentes do documento retornado por possuir maior similaridade do cosseno
# Você pode recuperar esse vetor usando o índice salvo em id_sc
d_sim_cos = tfidf_df.loc[id_sc]

d_sim_cos_words = [token for token, value in d_sim_cos.items() if value != 0]
d_sim_cos_words[:10]

['absolutely',
 'act',
 'actor',
 'afraid',
 'agree',
 'always',
 'anyone',
 'appalled',
 'believe',
 'best']

#### **Perguntas**

1. **Ao se utilizar estratégias diferentes de vetorização, o resultado do documento mais similar se manteve igual? Justifique (considere a similaride do cosseno)**

2. **Ao se utilizar métricas de similaridade diferentes o resultado do documento mais similar se manteve igual? Justifique (considere qualquer forma de vetorização)**  


## KNN
O **k-NN (k-Nearest Neighbors)** é um algoritmo de classificação baseado em **proximidade**. Em PLN, usamos representações vetoriais dos textos para comparar semelhanças entre documentos.

A lógica do algoritmo é simples:

> Dado um novo texto, o k-NN procura os **k textos mais próximos** no conjunto de treinamento e decide a **classe mais comum** entre esses vizinhos.

A "proximidade" entre os textos vetorizados é determinada por uma **métrica de distância**, como:

- 🧮 **Distância Euclidiana** (métrica padrão)
- 📏 **Distância Manhattan** (soma das diferenças absolutas)
- 🧊 **Distância Chebyshev** (maior diferença em uma dimensão)

Essa abordagem nos permite:

- Classificar textos com base em exemplos anteriores
- Explorar como diferentes métricas de distância afetam os resultados
- Analisar se a **classificação faz sentido com base nas palavras presentes**

Neste experimento, vamos utilizar k-NN para prever o sentimento (positivo ou negativo) dos comentários vetorizados anteriormente.

In [97]:
# Defina aqui os rótulos, busque no dataset qual coluna carrega o sentimento do comentário
# Para acessar a coluna do dataframe basta utilizar dataframe['nome da coluna']
rotulos = df['sentiment']

print(rotulos)

0      1
1      1
2      1
3      0
4      1
      ..
995    1
996    0
997    0
998    0
999    0
Name: sentiment, Length: 1000, dtype: int64


In [99]:
# Defina aqui qual modelo vetorizado será utilizado, podendo ser o bow ou o td-idf que foi utilizado na etapa anterior
# Utilize a variável que já armazena os dados vetorizados e salve na variável textos

textos = bow_response

In [101]:
textos.shape

(1000, 17431)

In [102]:
# Separe aqui os textos na parte de treino e na parte de teste, deixando 20% dos dados para teste. Para isso utilize a função train_test_split()
# A função train_test_split() espera receber os textos, rótulos, test_size para separação em treino e teste e random_state. Use random_state=42 para evitar aleatoriedade
# Essa função retorna 4 informações: X_treino, X_teste, Y_treino, Y_teste

X_train, X_test, y_train, y_test = train_test_split(textos, rotulos, test_size=0.2, random_state=42)

In [103]:
# Trecho já pronto, não é necessário mudá-lo
metricas = ['euclidean', 'manhattan', 'chebyshev']

In [106]:
# Defina aqui o valor da quantidade de vizinhos proximos
# Sinta-se à vontade para experimentar e buscar os melhores valores de K
k = 10

In [107]:
#Não é necessário alterar esse trecho
for metrica in metricas:
    print(f"\n🔍 Distância: {metrica.upper()}")

    #Treinando o modelo
    knn = KNeighborsClassifier(n_neighbors=k, metric=metrica)
    knn.fit(X_train.toarray(), y_train)

    # Escolhendo um exemplo de teste
    X_exemplo = X_test[0]
    y_exemplo = y_test.iloc[0]
    texto_exemplo = df['review'][y_test.index[0]]

    # Classificando
    pred = knn.predict([X_exemplo.toarray()[0]])

    print(f"📌 Texto: {texto_exemplo}")
    print(f"✅ Classe real: {y_exemplo}")
    print(f"📈 Classe prevista: {pred[0]}")

    # Listando os K vizinhos mais próximos
    dist, idxs = knn.kneighbors([X_exemplo.toarray()[0]])
    print("👥 Documentos mais próximos:")
    for i, idx in enumerate(idxs[0]):
        viz_texto = df['review'].iloc[y_train.index[idx]]
        viz_label = y_train.iloc[idx]
        print(f"{i+1}. \"{viz_texto}\" → classe: {viz_label}")


🔍 Distância: EUCLIDEAN
📌 Texto: one best ensemble act film ive ever see isnt much plot act incredible see character change ever subtly undr influence rent villa italy love happiness film cast mesmerize spell much villa woman truly enchant
✅ Classe real: 1
📈 Classe prevista: 1
👥 Documentos mais próximos:
1. "film contain far much meaningless violence much shoot blood act seem unrealistic generally poor reason see film like old car" → classe: 0
2. "mystery men get stupidest film ive ever see film thought fabulous excellent impressive funny welldone nice see ridiculous super hero change able pull great ill definitely watch" → classe: 1
3. "unpretentious horror film probably destine become cult classic much much well scream ripoffs even hope come sequel" → classe: 1
4. "rating not begin express dull depress relentlessly bad movie" → classe: 0
5. "see film least time still excite act perfect romance joe jean keep edge seat plus still think bryan brown top brilliant film" → classe: 1
6. "fe

# Perguntas

Responda as duas perguntas seguintes considerando k = 3

**1 . Ao se utilizar métricas de distância diferentes, a classificação do documento é igual ao seu rótulo original? Se não, quais métricas resultam em classificação diferente?**

Resposta:

**2 . Algum documento se repete como mais similar independemente da métrica? Se sim? Quais palavras ele possui em comum com o documento original?**

Resposta:

Responda a pergunta a seguir considerando k maior ou igual a 10

**3 . Se aumentarmos k, a classificação do documento continua igual ao seu rótulo original independemente da métrica? Se não, qual métrica faz com que a classificação seja incorreta?**

Resposta:

**4 . Alguma métrica de distância apresentou um resultado de classificação consistente independentemente da vetorização e do tamanho de K? Se sim, qual?**

Resposta: