# 📘 Ejemplo conceptual de K-NN: Elección del valor de K
Este notebook demuestra cómo afecta la elección del parámetro **K** en el algoritmo **K-Nearest Neighbors**, utilizando un ejemplo simple: predecir si un estudiante aprobará un examen según las horas de estudio.

Exploraremos dos casos:
- **K = 1** (sobreajuste)
- **K = 6** (subajuste)

In [None]:
# Importamos librerías necesarias
import matplotlib.pyplot as plt
import numpy as np

## Datos del problema
- Cada punto representa un estudiante y si aprobó el examen (1 = Sí, 0 = No)
- Queremos predecir el resultado de un nuevo estudiante que estudió 4.5 horas

In [None]:
# Datos de entrenamiento
horas_estudio = np.array([1, 2, 3, 4, 5, 6, 7])
aprobado = np.array([0, 0, 1, 1, 1, 1, 0])  # 0 = No, 1 = Sí
nuevo_estudiante = 4.5

## Función para simular K-NN
Esta función selecciona los K vecinos más cercanos y predice según la mayoría.

In [None]:
def prediccion_knn(k):
    distancias = np.abs(horas_estudio - nuevo_estudiante)
    vecinos_idx = np.argsort(distancias)[:k]
    vecinos_clases = aprobado[vecinos_idx]
    prediccion = np.round(np.mean(vecinos_clases))  # mayoría simple
    return vecinos_idx, vecinos_clases, prediccion

## Visualización del resultado
Se muestran los puntos conocidos y la predicción para el nuevo estudiante, con K=1 y K=6.

## 🔍 Analicemos el impacto del valor de K con un ejemplo

**Problema:** Queremos predecir si un estudiante aprobará un examen, en base a las horas de estudio.

Supongamos que tenemos una pequeña base de datos con estas observaciones:

| Horas de estudio | Aprobó examen |
|------------------|----------------|
| 1                | ❌ No          |
| 2                | ❌ No          |
| 3                | ✅ Sí          |
| 4                | ✅ Sí          |
| 5                | ✅ Sí          |
| 6                | ✅ Sí          |
| 7                | ❌ No          |

Ahora vamos a predecir el resultado para un estudiante que estudió **4.5 horas**.

---

### 📌 Caso 1: K = 1 → Sobreajuste

Con **K = 1**, el modelo considera solo al vecino más cercano.

En este caso, el punto más cercano es **5 horas**, cuyo resultado fue “✅ Sí”.

➡ El modelo predice **Sí**, basándose en un solo vecino.

**Problema:** si ese vecino estuviera mal etiquetado (ruido), la predicción fallaría.  
Esto es **sobreajuste**: el modelo se ajusta demasiado a detalles específicos y pierde generalidad.

---

### 📌 Caso 2: K = 6 → Subajuste

Ahora probamos con **K = 6** (consideramos los 6 vecinos más cercanos).

Resultados:

- 4 vecinos son “✅ Sí”
- 2 vecinos son “❌ No”

➡ El modelo predice “✅ Sí”… pero está muy cerca del empate.

¿Y si fueran 3 y 3? El modelo podría confundirse.  
¿Y si K fuera aún mayor? Consideraría incluso valores alejados (como el de 1 hora), diluyendo patrones reales.

Esto es **subajuste**: el modelo generaliza tanto que pierde precisión en los límites entre clases.

---

### ✅ ¿Cuál es el mejor valor de K?

Una práctica recomendada es **graficar el error de validación** para diferentes valores de K y elegir el que **minimiza la tasa de error** sin caer en sobreajuste o subajuste.

📈 *Imagen sugerida*:  
Gráfico con el eje X como el valor de K (1, 2, 3… 15)  
Eje Y como el error de validación.  
🔵 Punto mínimo indica el valor óptimo de K.


### 📌 Caso 1: K = 1 → Sobreajuste

Con **K = 1**, el modelo considera solo al vecino más cercano.

En este ejemplo, el nuevo estudiante que estudió **4.5 horas** es clasificado según el estudiante más cercano: el que estudió **5 horas** y **sí aprobó**.

✅ **Resultado:** El modelo predice “✔ Sí”.

🔴 **Peligro:** Si ese único vecino estuviera mal etiquetado, toda la predicción sería incorrecta.

🧠 Esto es un caso típico de **sobreajuste (overfitting)**: el modelo se adapta demasiado a casos específicos y puede perder capacidad de generalización.


In [None]:
# Visualización para K=1
fig, ax = plt.subplots(figsize=(10, 4))

# Dibujar puntos existentes
for i in range(len(horas_estudio)):
    color = 'green' if aprobado[i] == 1 else 'red'
    ax.scatter(horas_estudio[i], 0, color=color, s=100)
    ax.text(horas_estudio[i], 0.05, f"{horas_estudio[i]}h", ha='center')

# Punto a predecir
ax.scatter(nuevo_estudiante, 0.05, color='blue', marker='*', s=200, label="Nuevo estudiante (4.5h)")

# Conexión con vecinos para K=1
vecinos_k1, _, pred_k1 = prediccion_knn(1)
for idx in vecinos_k1:
    ax.plot([nuevo_estudiante, horas_estudio[idx]], [0.05, 0], linestyle='--', alpha=0.6)

resultado_k1 = '✔ Sí' if pred_k1 == 1 else '✘ No'
ax.text(8, -0.1, f"Predicción con K=1: {resultado_k1}", fontsize=10)

ax.set_title("K-NN con K = 1")
ax.set_xlabel("Horas de estudio")
ax.get_yaxis().set_visible(False)
ax.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


### 📌 Caso 2: K = 6 → Subajuste

Ahora el modelo considera los **6 vecinos más cercanos** al nuevo estudiante de 4.5 horas.

📊 De esos 6:
- 4 vecinos aprobaron (verde)
- 2 no aprobaron (rojo)

✅ **Resultado:** El modelo también predice “✔ Sí”, pero ya no está tan seguro.  
Si el valor de **K fuera mayor**, podrían entrar vecinos cada vez más alejados y con clases mezcladas.

🧠 Esto representa un caso de **subajuste (underfitting)**: el modelo es tan general que pierde precisión en zonas con límites más sutiles entre clases.


In [None]:
# Visualización para K=6
fig, ax = plt.subplots(figsize=(10, 4))

# Dibujar puntos existentes
for i in range(len(horas_estudio)):
    color = 'green' if aprobado[i] == 1 else 'red'
    ax.scatter(horas_estudio[i], 0, color=color, s=100)
    ax.text(horas_estudio[i], 0.05, f"{horas_estudio[i]}h", ha='center')

# Punto a predecir
ax.scatter(nuevo_estudiante, 0.05, color='blue', marker='*', s=200, label="Nuevo estudiante (4.5h)")

# Conexión con vecinos para K=6
vecinos_k6, _, pred_k6 = prediccion_knn(6)
for idx in vecinos_k6:
    ax.plot([nuevo_estudiante, horas_estudio[idx]], [0.05, 0], linestyle='--', alpha=0.6)

resultado_k6 = '✔ Sí' if pred_k6 == 1 else '✘ No'
ax.text(8, -0.1, f"Predicción con K=6: {resultado_k6}", fontsize=10)

ax.set_title("K-NN con K = 6")
ax.set_xlabel("Horas de estudio")
ax.get_yaxis().set_visible(False)
ax.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


### 🎯 ¿Cuántos vecinos necesitas para tomar una buena decisión?

Esta visualización muestra cómo el algoritmo **K-Nearest Neighbors (K-NN)** analiza un nuevo dato —el estudiante azul que estudió 4.5 horas— comparándolo con su entorno más cercano.

Cada círculo representa un caso real:
- 🔴 En rojo, estudiantes que **no aprobaron**
- 🟢 En verde, estudiantes que **sí aprobaron**
- 🔵 El punto azul representa al **nuevo estudiante** cuya clasificación queremos predecir.

Al variar el valor de **K**, el modelo puede:
- Centrarse demasiado en un solo vecino → **Sobreajuste (overfitting)**
- Considerar demasiados vecinos → **Subajuste (underfitting)**

En esta imagen se visualiza el caso de **K = 6**, donde se conectan los seis vecinos más cercanos al nuevo estudiante. Esto puede diluir diferencias relevantes entre clases, afectando la precisión del modelo.

✅ **Conclusión:** Elegir el valor de K adecuado es clave para lograr un modelo balanceado, que generalice bien y no sea ni demasiado rígido ni demasiado flexible.
