# Ejercicio k-Nearest Neighbor

## App Reviews
En este ejercicio vas a trabajar con una base de datos de reviews de una aplicación. Entre los datos podemos encontrar el texto de la review, las estrellas, así como el sentimiento del comentario (si es algo bueno o malo).

El objetivo es montar un algoritmo de clasificación que prediga el rating, en función del sentimiento del comentario y la cantidad de palabras empleadas en el mismo. Para ello tendrás que utilizar un algoritmo de tipo KNN.

Los datos los encontraremos en el fichero `reviews_sentiment.csv`

In [2]:
import pandas as pd

data = pd.read_csv("C:/Users/rodri/OneDrive/Escritorio/DATA_SCIENCE/CODIGO_CLASES/TheBridge_DSPT_ML/Supervisado/Clasificación/Vecinos próximos/ejercicios/data/reviews_sentiment.csv", sep=";")
data

Unnamed: 0,Review Title,Review Text,wordcount,titleSentiment,textSentiment,Star Rating,sentimentValue
0,Sin conexión,Hola desde hace algo más de un mes me pone sin...,23,negative,negative,1,-0.486389
1,faltan cosas,Han mejorado la apariencia pero no,20,negative,negative,1,-0.586187
2,Es muy buena lo recomiendo,Andres e puto amoooo,4,,negative,1,-0.602240
3,Version antigua,Me gustana mas la version anterior esta es mas...,17,,negative,1,-0.616271
4,Esta bien,Sin ser la biblia.... Esta bien,6,negative,negative,1,-0.651784
...,...,...,...,...,...,...,...
252,Muy buena aplicacion,Muy buena genial,3,positive,positive,5,2.814818
253,Buena,Genial,1,positive,positive,5,2.924393
254,Wuau,Genial,1,positive,positive,5,2.924393
255,Muy buena,Genial,1,positive,positive,5,2.924393


In [4]:
# ESCALADO DE LOS DATOS 

In [3]:
from sklearn.preprocessing import StandardScaler

# Seleccionar las características y la etiqueta
X = data[['wordcount', 'sentimentValue']]
y = data['Star Rating']

# Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X) 

In [None]:
# Separar en conjuntos de entrenamiento y prueba 

In [5]:
from sklearn.model_selection import train_test_split

# Separar los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42) 

In [9]:
# Definir y crear el modelo KNN 

In [19]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Definir los parámetros para GridSearch
param_grid = {'n_neighbors': range(1, 21)} 

In [18]:
# Crear el modelo KNN
knn = KNeighborsClassifier() 
knn

In [20]:
# Crear modelo buscando un equilibrio entre las $k$ y la precisión (o métrica objetivo)

In [11]:
# GridSearch para encontrar el mejor valor de k
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train) 

In [17]:
# Mejor modelo
best_knn = grid_search.best_estimator_
best_knn 

In [16]:
# Predicciones
y_pred = best_knn.predict(X_test)
y_pred

array([4, 5, 1, 2, 1, 1, 5, 1, 3, 3, 3, 3, 2, 5, 3, 5, 3, 1, 5, 5, 1, 2,
       5, 5, 5, 1, 5, 5, 5, 5, 5, 5, 1, 5, 3, 1, 5, 2, 3, 1, 5, 2, 5, 3,
       3, 1, 4, 5, 1, 4, 5, 5], dtype=int64)

In [None]:
# Disponer un reporte de clasificación y matriz de confusión

In [21]:
# Matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred) 
conf_matrix

array([[ 9,  1,  0,  0,  0],
       [ 0,  2,  0,  0,  0],
       [ 3,  1, 10,  0,  0],
       [ 0,  1,  0,  3,  3],
       [ 0,  0,  0,  0, 19]], dtype=int64)

In [22]:
# Reporte de clasificación
class_report = classification_report(y_test, y_pred)

print("Mejor valor de k:", grid_search.best_params_)
print("\nMatriz de Confusión:\n", conf_matrix)
print("\nReporte de Clasificación:\n", class_report)

Mejor valor de k: {'n_neighbors': 1}

Matriz de Confusión:
 [[ 9  1  0  0  0]
 [ 0  2  0  0  0]
 [ 3  1 10  0  0]
 [ 0  1  0  3  3]
 [ 0  0  0  0 19]]

Reporte de Clasificación:
               precision    recall  f1-score   support

           1       0.75      0.90      0.82        10
           2       0.40      1.00      0.57         2
           3       1.00      0.71      0.83        14
           4       1.00      0.43      0.60         7
           5       0.86      1.00      0.93        19

    accuracy                           0.83        52
   macro avg       0.80      0.81      0.75        52
weighted avg       0.88      0.83      0.82        52



In [None]:
# Concluir con el modelo obtenido y su métrica de rendimiento

In [24]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Evaluación del modelo
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
print("Accuracy:", accuracy)
print("Classification Report:\n", report) 

Accuracy: 0.8269230769230769
Classification Report:
               precision    recall  f1-score   support

           1       0.75      0.90      0.82        10
           2       0.40      1.00      0.57         2
           3       1.00      0.71      0.83        14
           4       1.00      0.43      0.60         7
           5       0.86      1.00      0.93        19

    accuracy                           0.83        52
   macro avg       0.80      0.81      0.75        52
weighted avg       0.88      0.83      0.82        52



Para facilitar el ejercicio, las columnas que utilizaremos serán: **wordcount** con la cantidad de palabras utilizadas y **sentimentValue** con un valor entre -4 y 4 que indica si el comentario fue valorado como positivo o negativo

Nuestras etiquetas, serán las estrellas que dieron los usuarios a la app, que son valores discretos del 1 al 5. El campo se llama **Star Rating**

Pasos a seguir:

* Análisis inicial de los datos (visual)
* Escalado de los datos
* Separamos en train y test
* Crear modelo buscando un equilibrio entre las $k$ y la precisión (o métrica objetivo)
* Disponer un reporte de clasificación y matriz de confusión
* Concluir con el modelo obtenido y su métrica de rendimiento