# Clasificaci√≥n con el Algoritmo K Nearest Neighbors



**Objetivo:**
Aplicar el algoritmo de *K-Nearest Neighbors (KNN)* para clasificar rese√±as en funci√≥n de su n√∫mero de palabras y su valor de sentimiento.

**Contexto:**
Disponemos de un dataset `reviews_sentiment.csv` que contiene 257 registros con Opiniones de usuarios sobre una app (Reviews)
Cada rese√±a tiene asignado un n√∫mero de palabras (`wordcount`), una puntuaci√≥n de sentimiento (`sentimentValue`) y una valoraci√≥n global (`Star Rating`).

Para este ejercicio vamos a trabajar con **257 rese√±as de usuarios sobre una aplicaci√≥n**. Usaremos **dos columnas de datos** para alimentar nuestro algoritmo.

Solo emplearemos **dos caracter√≠sticas (features)** porque queremos poder **representarlas en un gr√°fico de dos dimensiones**. En un caso real, normalmente usar√≠amos **m√°s variables** para obtener resultados m√°s precisos, pero aqu√≠ lo hacemos con fines did√°cticos.

Las dos columnas que utilizaremos son:

* **wordcount**: la cantidad de palabras que tiene cada opini√≥n.
* **sentimentValue**: un valor que va de **-4 a 4** y que indica si el comentario tiene un tono **negativo o positivo**.

Como **etiquetas** (labels) usaremos las **estrellas** que los usuarios dieron a la app (de **1 a 5**). En general, **m√°s estrellas** suelen reflejar un **sentimiento positivo**, aunque no siempre coincide exactamente.


## 1. Importanci√≥n de librer√≠as

En este bloque de c√≥digo estamos **preparando el entorno de trabajo** importando todas las librer√≠as que usaremos:

* **pandas** y **numpy** ‚Üí para manejar y procesar los datos.
* **matplotlib** y **seaborn** ‚Üí para crear gr√°ficas y visualizar los resultados.
* Los comandos de configuraci√≥n (`%matplotlib inline`, `plt.rcParams`, `plt.style.use`) sirven para **mostrar las gr√°ficas dentro del notebook** y darles un estilo visual agradable.
* **scikit-learn (sklearn)** ‚Üí para trabajar con el algoritmo de *machine learning* (en este caso, el **K-Nearest Neighbors** o KNN), dividir los datos en conjuntos de entrenamiento y prueba, escalar variables y evaluar el modelo con m√©tricas como precisi√≥n, matriz de confusi√≥n y reporte de clasificaci√≥n.

En resumen, con este bloque dejamos listas las herramientas necesarias para manejar datos, graficar y entrenar nuestro modelo.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import matplotlib.patches as mpatches
import seaborn as sb

%matplotlib inline
plt.rcParams['figure.figsize'] = (16, 9)
plt.style.use('ggplot')

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

<div style="background-color:green;color:white">

## 2. Cargar y explorar los datos

Carga en un dataframe el reviews_sentiment.csv y muestra las primeras 10 filas. ¬øDe qu√© trata este dataset? Utiliza funciones de EDA para entender su contenido y sus opciones.

In [None]:
# Cargar el dataset

# Mostrar las primeras filas



In [None]:
# Mostrar la informaci√≥n del DataFrame



In [None]:
# mostrar estad√≠sticas descriptivas


<div style="background-color:green;color:white">

¬øQu√© representa cada variable del conjunto de datos?

¬øHay valores at√≠picos o ausentes que podr√≠an afectar al modelo?

In [None]:
# Mostrar histogramas de las caracter√≠sticas
df.hist()
plt.show()

In [None]:
# Mostrar gr√°fico de conteo de la columna 'wordcount'
sb.catplot(x='wordcount', data=df, kind='count', aspect=3, )


## 2. Preparaci√≥n de los datos

<div style="background-color:green;color:white">

### 2.1 Seleccionar las variables de entrada y salida

<div style="background-color:green;color:white">

### 2.2 Dividir en conjuntos de entrenamiento y prueba

<div style="background-color:green;color:white">

### 2.3 Normalizar los datos

El KNN se basa en distancias, por lo que es necesario escalar las variables con z-score

<div style="background-color:green;color:white">


## 3. Creaci√≥n del modelo

Entrenar el modelo KNN con 5 vecinos

In [None]:

# Crear modelo con K=5

# Entrenar el modelo



In [None]:
print('Accuracy of K-NN classifier on training set: {:.2f}'
      .format(knn.score(X_train, y_train)))
print('Accuracy of K-NN classifier on test set: {:.2f}'
      .format(knn.score(X_test, y_test)))

## 4.  Evaluar el modelo

In [None]:
y_pred = knn.predict(X_test_scaled)

print("Precisi√≥n del modelo:", accuracy_score(y_test, y_pred))
print("\nMatriz de confusi√≥n:\n", confusion_matrix(y_test, y_pred))
print("\nInforme de clasificaci√≥n:\n", classification_report(y_test, y_pred))



## 5. Gr√°ficos de la clasificaci√≥n obtenida

Ahora vamos a graficar los resultados de la clasificaci√≥n. Esta visualizaci√≥n nos permite ver de forma clara c√≥mo se distribuyen las predicciones en funci√≥n de las dos variables utilizadas.

Como solo usamos dos caracter√≠sticas (features), podemos representarlas en un gr√°fico 2D. Si tuvi√©ramos tres, podr√≠amos hacerlo en 3D, aunque en casos reales, con muchas m√°s dimensiones, lo importante no ser√≠a la visualizaci√≥n sino el rendimiento del modelo.

In [None]:
# Par√°metros
n_neighbors = 5
h = 0.05  # Paso de la malla (m√°s grande = menos resoluci√≥n)

# Creamos algunos datos de ejemplo (X, y)
# Sustituir por los reales
# X = datos con 2 caracter√≠sticas
# y = etiquetas de clase
# clf.fit(X, y) debe haberse hecho antes si ya tienes tus datos

# Colores m√°s contrastados y limpios
cmap_light = ListedColormap(['#FFCCCC', '#FFD580', '#FFFABF', '#B3E6FF', '#BFFFBF'])
cmap_bold  = ListedColormap(['#E60000', '#FF8000', '#CCCC00', '#0099CC', '#00B300'])

# Entrenamiento del clasificador
clf = KNeighborsClassifier(n_neighbors=n_neighbors, weights='distance')
clf.fit(X, y)

# Creamos la malla del plano para visualizar las fronteras de decisi√≥n
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))

# Predicci√≥n de la clase para cada punto de la malla
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Figura
plt.figure(figsize=(8, 6))

# Fondo coloreado por clases
plt.pcolormesh(xx, yy, Z, cmap=cmap_light, shading='auto')

# Puntos reales de entrenamiento
scatter = plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold,
                      edgecolor='k', s=50, alpha=0.9)

# L√≠mites del gr√°fico
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())

# Etiquetas autom√°ticas seg√∫n las clases detectadas
clases = np.unique(y)
colores = cmap_bold.colors[:len(clases)]
legend_patches = [mpatches.Patch(color=colores[i], label=f'Clase {clases[i]}') for i in range(len(clases))]
plt.legend(handles=legend_patches, title='Clases', loc='upper right')

# T√≠tulo
plt.title(f"Clasificaci√≥n KNN (K={n_neighbors}, pesos='distance')", fontsize=13)
plt.xlabel("Caracter√≠stica 1")
plt.ylabel("Caracter√≠stica 2")

plt.tight_layout()
plt.show()



En el gr√°fico se distinguen **cinco zonas** que muestran la relaci√≥n entre la **cantidad de palabras** (`wordcount`) y el **valor de sentimiento** (`sentimentValue`) de cada rese√±a.

![](img/knn-clasification-sectores.png)


Podemos interpretarlas as√≠:

* Una rese√±a con unas **20 palabras** y un **sentimiento cercano a 1** se ubicar√≠a en la zona **celeste**, correspondiente aproximadamente a una valoraci√≥n de **4 estrellas**.

A partir de estas regiones se pueden intuir algunos **patrones de comportamiento de los usuarios**:

* **1 estrella:** comentarios con **sentimiento negativo** y hasta **25 palabras**.
* **2 estrellas:** usuarios que **se extienden mucho** (hasta 100 palabras) y cuyo sentimiento var√≠a entre **negativo y ligeramente positivo**.
* **3 estrellas:** rese√±as **neutrales** (sentimiento cerca de 0) con unas **25 palabras** aproximadamente.
* **5 estrellas:** opiniones **muy positivas** (sentimiento desde 0.5 en adelante) y **breves**, con menos de **10 palabras**.

En conjunto, estas zonas permiten **visualizar c√≥mo las emociones y la extensi√≥n del texto influyen en la puntuaci√≥n final** que los usuarios otorgan a la aplicaci√≥n.


## 6. C√°lculo del mejor K

En el algoritmo KNN, el n√∫mero de vecinos (k) indica cu√°ntos puntos cercanos se tienen en cuenta para clasificar un nuevo dato.

Si k es muy peque√±o (por ejemplo, 1 o 2) ‚Üí el modelo se adapta demasiado a los datos de entrenamiento (sobreajuste).

Si k es muy grande ‚Üí el modelo se vuelve demasiado general y pierde precisi√≥n (subajuste).

Por eso probamos distintos valores de k y medimos cu√°l da mayor precisi√≥n en los datos de prueba.
El k que consigue el mejor equilibrio es el que ofrece mayor capacidad de generalizaci√≥n.

In [None]:
k_range = range(1, 20)
scores = []

for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    scores.append(knn.score(X_test_scaled, y_test))

plt.figure()
plt.plot(k_range, scores, marker='o')
plt.xlabel('N√∫mero de vecinos (k)')
plt.ylabel('Precisi√≥n')
plt.title('Evaluaci√≥n del modelo KNN')
plt.show()

best_k = k_range[scores.index(max(scores))]
print(f"Mejor valor de k: {best_k} con precisi√≥n {max(scores):.2f}")

En la gr√°fica vemos que con valores k=7 a k=14 es donde mayor precisi√≥n se logra.



## 7. C√°lculo de predicciones

Vamos a pedir al modelo KNN (clf) que haga una predicci√≥n del n√∫mero de estrellas para un nuevo punto con dos caracter√≠sticas:

- 5 ‚Üí Representa el n√∫mero de palabras (wordcount)

- 1.0 ‚Üí El valor del sentimiento (sentimentValue), muy positivo

In [None]:
print(clf.predict([[5, 1.0]]))

Esto significa que, seg√∫n los datos aprendidos,
una rese√±a con pocas palabras (5) pero sentimiento muy positivo (1.0)
probablemente obtendr√≠a una valoraci√≥n de 5 estrellas.

Ahora vamos a utilizar el m√©todo ``predict_proba`` que no devuelve la clase directamente, sino las probabilidades de pertenecer a cada una de las clases posibles.

In [None]:
print(clf.predict_proba([[20, 0.0]]))

En el ejemplo, para una rese√±a con **20 palabras** y un **sentimiento neutro (0.0)**, el resultado fue:

| Estrellas | Probabilidad |
| --------- | ------------ |
| ‚≠ê 1       | 0.4%         |
| ‚≠ê 2       | 2.5%         |
| ‚≠ê 3       | **97.1%**    |
| ‚≠ê 4       | 0%           |
| ‚≠ê 5       | 0%           |

El modelo calcula la **probabilidad de que una rese√±a pertenezca a cada categor√≠a de estrellas** (de 1 a 5) seg√∫n sus caracter√≠sticas.

El modelo considera que esa rese√±a tiene una **alt√≠sima probabilidad (97%) de corresponder a 3 estrellas**, lo que indica una **valoraci√≥n intermedia o neutral**.

En resumen, cuando el comentario no expresa ni sentimientos muy positivos ni negativos y tiene una extensi√≥n media, el modelo predice una calificaci√≥n **moderada (3 estrellas)**.


## **Ejercicio : Diagn√≥stico de diabetes con KNN**

### üéØ Objetivo

Entrenar un modelo de **clasificaci√≥n supervisada** usando el algoritmo **K-Nearest Neighbors (KNN)** para predecir si una persona presenta **diabetes (1)** o no (0), seg√∫n distintas medidas cl√≠nicas.

---

### üìò Contexto

El dataset `diabetes.csv` contiene observaciones m√©dicas de mujeres mayores de 21 a√±os con las siguientes variables:

| Variable                 | Descripci√≥n                                |
| ------------------------ | ------------------------------------------ |
| Pregnancies              | N√∫mero de embarazos                        |
| Glucose                  | Nivel de glucosa en sangre                 |
| BloodPressure            | Presi√≥n arterial diast√≥lica                |
| SkinThickness            | Espesor del pliegue cut√°neo (mm)           |
| Insulin                  | Nivel de insulina (mu U/ml)                |
| BMI                      | √çndice de masa corporal                    |
| DiabetesPedigreeFunction | Factor hereditario (riesgo gen√©tico)       |
| Age                      | Edad (a√±os)                                |
| Outcome                  | 1 = tiene diabetes / 0 = no tiene diabetes |


---
<div style="background-color:green;color:white">

## Paso 1. Cargar y explorar los datos

In [None]:
# mostrar la informaci√≥n del DataFrame


In [None]:
# Eliminar valores repetidos en cada columna



In [None]:
# Mostrar estad√≠sticas descriptivas


In [None]:
# Verificar valores nulos en el DataFrame


<div style="background-color:green;color:white">

**Preguntas:**

* ¬øHay datos repetidos o nulos?
* ¬øExisten outliers?
* Hay m√°s proporci√≥n de clase 0 (no diabetes) que con clase 1 (con diabetes 1)

<div style="background-color:green;color:white">

### Paso 2. Seleccionar variables relevantes

Eliminar la columna (axis=1) Outcome de X y dejar en y solo la columna Outcome

<div style="background-color:green;color:white">

### Paso 3. Dividir en entrenamiento y prueba

Asegurarse de manenter la misma proporci√≥n de clases con el par√°metro stratify

<div style="background-color:green;color:white">

### Paso 4. Normalizar los datos

KNN depende de las distancias, as√≠ que es importante escalar las variables:


<div style="background-color:green;color:white">

###  Paso 5. Entrenar el modelo con un valor inicial de K

<div style="background-color:green;color:white">

**Preguntas:**

* ¬øLa precisi√≥n es parecida entre entrenamiento y prueba?
* ¬øQu√© pasar√≠a si usas un valor de *k* m√°s alto o m√°s bajo?

### Paso 6. Buscar el mejor valor de K

In [None]:
import matplotlib.pyplot as plt

k_range = range(1, 21)
scores = []

for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    scores.append(knn.score(X_test_scaled, y_test))

plt.plot(k_range, scores, marker='o')
plt.xlabel('N√∫mero de vecinos (k)')
plt.ylabel('Precisi√≥n (accuracy)')
plt.title('B√∫squeda del mejor valor de k')
plt.show()

best_k = k_range[scores.index(max(scores))]
print(f"Mejor k: {best_k} con precisi√≥n {max(scores):.2f}")

<div style="background-color:green;color:white">

### Paso 7. Entrenar de nuevo el modelo con el valor √≥ptimo de K


In [None]:
# Entrenar el modelo final con el mejor valor de k encontrado


<div style="background-color:green;color:white">

### Paso 8. Evaluar el modelo de clasificaci√≥n

Una vez entrenado el modelo con el mejor valor de k, debemos comprobar c√≥mo de bien distingue entre pel√≠culas exitosas y no exitosas.

#### 1. Matriz de confusi√≥n

<div style="background-color:green;color:white">

#### 2. Informe de clasificaci√≥n

<div style="background-color:green;color:white">

#### 3. Precisi√≥n general

<div style="background-color:green;color:white">

**Reflexi√≥n**

1. ¬øQu√© variables parecen influir m√°s en el diagn√≥stico (glucosa, IMC, edad...)?
2. ¬øQu√© valor de *k* produjo mejores resultados?
3. ¬øQu√© tipo de errores comete el modelo (falsos positivos o negativos)?
4. ¬øPor qu√© crees que es importante normalizar los datos antes de usar KNN?

<div style="background-color:green;color:white">

### Paso 8. redicci√≥n de nuevos pacientes

Una vez entrenado y evaluado el modelo KNN, queremos utilizarlo para diagnosticar nuevos casos cl√≠nicos.

Disponemos de dos pacientes cuyas caracter√≠sticas m√©dicas han sido registradas.

Tu tarea consiste en predecir si cada uno de ellos presenta diabetes o no seg√∫n los valores introducidos.

### üßç‚Äç‚ôÄÔ∏è **Paciente 1**

* **Embarazos:** 5
* **Glucosa:** 165
* **Presi√≥n arterial:** 85
* **Espesor de piel:** 25
* **Insulina:** 130
* **IMC:** 35.5
* **Pedigree:** 0.63
* **Edad:** 45

üëâ Se sospecha que presenta s√≠ntomas de diabetes.

---

### üßç‚Äç‚ôÇÔ∏è **Paciente 2**

* **Embarazos:** 1
* **Glucosa:** 90
* **Presi√≥n arterial:** 70
* **Espesor de piel:** 20
* **Insulina:** 85
* **IMC:** 22.5
* **Pedigree:** 0.35
* **Edad:** 28

üëâ Se sospecha que **no presenta diabetes**.

# Webgrafia

* [Documentaci√≥n scikit-learn](https://scikit-learn.org/stable/modules/neighbors.html#classification)
* [Wikipedia](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm)
* [Libro "Hands on Machine Learning with ScikitLearn, Keras y TensorFlow" de Aurelien Geron y su repositorio de ejemplos ](https://github.com/ageron/handson-ml)
* [Aprende ML de Juan Ignacio Bagnato](https://www.aprendemachinelearning.com/clasificar-con-k-nearest-neighbor-ejemplo-en-python/)
* [Curso de Tirtjakupto Sarkar](https://github.com/tirthajyoti/Machine-Learning-with-Python)
* [DataCamp](https://www.datacamp.com/)


# Licencia

[Attributon-ShacerAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/)

Puedes utilizar libremente este material, con las siguientes condiciones:

* Atribuir la autor√≠a a este documento.
* Si lo utilizas y haces cambios, deber√°s liberarlo tambi√©n bajo la misma licencia.