# Ejercicio k-Nearest Neighbor

## App Reviews
En este ejercicio vas a trabajar con una base de datos de reviews de una aplicación. Entre los datos podemos encontrar el texto de la review, las estrellas, así como el sentimiento del comentario (si es algo bueno o malo).

El objetivo es montar un algoritmo de clasificación que prediga el rating, en función del sentimiento del comentario y la cantidad de palabras empleadas en el mismo. Para ello tendrás que utilizar un algoritmo de tipo KNN.

## Importamos las librerías que vamos a utilizar

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score

## Leemos nuestro archivo de entrada `reviews_sentiment`

In [16]:
pd.set_option("max_colwidth", 200)

In [17]:
df = pd.read_csv("data/reviews_sentiment.csv", sep=";")
df

Unnamed: 0,Review Title,Review Text,wordcount,titleSentiment,textSentiment,Star Rating,sentimentValue
0,Sin conexión,"Hola desde hace algo más de un mes me pone sin conexión y no sale nada, antes me funcionaba correctamente.",23,negative,negative,1,-0.486389
1,faltan cosas,Han mejorado la apariencia pero no,20,negative,negative,1,-0.586187
2,Es muy buena lo recomiendo,Andres e puto amoooo,4,,negative,1,-0.602240
3,Version antigua,Me gustana mas la version anterior esta es mas complicada de usar hay gente cambiandosevpor esevmotivo gracias,17,,negative,1,-0.616271
4,Esta bien,Sin ser la biblia.... Esta bien,6,negative,negative,1,-0.651784
...,...,...,...,...,...,...,...
252,Muy buena aplicacion,Muy buena genial,3,positive,positive,5,2.814818
253,Buena,Genial,1,positive,positive,5,2.924393
254,Wuau,Genial,1,positive,positive,5,2.924393
255,Muy buena,Genial,1,positive,positive,5,2.924393


Para facilitar el ejercicio, las columnas que utilizaremos serán: wordcount con la cantidad de palabras utilizadas y sentimentValue con un valor entre -4 y 4 que indica si el comentario fue valorado como positivo o negativo

Nuestras etiquetas, serán las estrellas que dieron los usuarios a la app, que son valores discretos del 1 al 5

## Rápidas visualizaciones y análisis
Al menos realiza un análisis univariante y representa la distribución del rating. Realiza otras visualizaciones para ver la relación de tus datos.

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 257 entries, 0 to 256
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Review Title    257 non-null    object 
 1   Review Text     257 non-null    object 
 2   wordcount       257 non-null    int64  
 3   titleSentiment  231 non-null    object 
 4   textSentiment   257 non-null    object 
 5   Star Rating     257 non-null    int64  
 6   sentimentValue  257 non-null    float64
dtypes: float64(1), int64(2), object(4)
memory usage: 14.2+ KB


In [19]:
df.describe()

Unnamed: 0,wordcount,Star Rating,sentimentValue
count,257.0,257.0,257.0
mean,11.501946,3.420233,0.383849
std,13.159812,1.409531,0.897987
min,1.0,1.0,-2.276469
25%,3.0,3.0,-0.108144
50%,7.0,3.0,0.264091
75%,16.0,5.0,0.808384
max,103.0,5.0,3.264579


## Preparamos el dataset
Divide en train/test y escala las features en el rango [0, 1].

In [20]:
# Limpiar filas con datos faltantes
df = df.dropna()

# Seleccionar variables numéricas como features
X = df[['wordcount', 'sentimentValue']]  # Características
y = df['Star Rating']  # Variable objetivo

# Dividir en entrenamiento y prueba (80% / 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar los datos al rango [0, 1]
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)



## Creamos el Modelo
Entrena con un KNN y evalúa el error en train y en test

In [21]:
# Crear y entrenar el modelo KNN (usamos K=3 como ejemplo)
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train_scaled, y_train)

# Evaluar precisión en entrenamiento y prueba
train_accuracy = knn.score(X_train_scaled, y_train)
test_accuracy = knn.score(X_test_scaled, y_test)

print("Precisión en entrenamiento:", train_accuracy)
print("Precisión en prueba:", test_accuracy)


Precisión en entrenamiento: 0.9347826086956522
Precisión en prueba: 0.851063829787234


## Evalúa tu modelo

In [22]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))


NameError: name 'y_pred' is not defined

- Ejemplo: Clase 1 (reviews con 1 estrella): Precision 0.86 → De todas las veces que el modelo dijo "es 1", acertó el 86%.

- Recall 1.00 → De todas las reviews que en verdad eran "1", encontró el 100%.

- F1-score 0.92 → Promedio entre precision y recall. Bueno si está cerca de 1.

- Support 6 → Había 6 ejemplos reales de esta clase.
-------
- accuracy 0.85 → El modelo acertó el 85% del total de predicciones.

- macro avg: Promedio simple de precision/recall/F1 para todas las clases (no importa cuántos hay de cada clase).

- weighted avg: Promedio ponderado según cuántos ejemplos hay de cada clase (tiene en cuenta el desequilibrio).

## ¿Cómo obtener el mejor valor de k? Crea y evalúa nuevos modelos
¿Qué valor de k maximiza el accuracy? Representa todas las iteraciones en un scatterplot -> k vs accuracy

## Predice con nuevos datos.
Ejemplo: supongamos que nos llega una review de 5 palabras y sentimiento 1