# K-Nearest Neighbors Regressor (KNN)

En este notebook entrenamos y evaluamos un **modelo de regresi√≥n basado en vecinos cercanos (KNN-Regressor)**.  
Este algoritmo predice el valor de una observaci√≥n en funci√≥n de la media de los valores de sus **k vecinos m√°s cercanos**.

üîπ Caracter√≠sticas principales:
- Es un modelo **basado en distancias**, no asume relaciones lineales entre variables.
- Requiere que los datos est√©n **escalados**, porque las magnitudes afectan directamente al c√°lculo de distancias.
- El hiperpar√°metro clave es **k** (n√∫mero de vecinos), que controla el sesgo y la varianza del modelo.


## **Paso 1. Importar librer√≠as**

In [None]:
# ===================================
# 1. Importar librer√≠as
# ===================================
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns


## **Paso 2. Cargar datasets procesados (escalados) y divis√≥n para entrenamiento**

Usamos el dataset escalado porque KNN calcula distancias entre observaciones y ser√≠a injusto que variables con magnitudes grandes dominaran el c√°lculo.

Si una variable tuviera valores mucho m√°s grandes que las dem√°s (ej. PIB vs. mortalidad), dominar√≠a la distancia, sesgando el modelo.

Por eso cargamos el dataset **escalado** (`features_scaled.csv`), generado en el notebook `EDA_processed.ipynb` con `StandardScaler`.  

Esto asegura que todas las variables tengan media 0 y varianza 1, evitando que variables con unidades m√°s grandes (por ejemplo PIB o gasto sanitario) dominen a otras m√°s peque√±as.


**Divisi√≥n en entrenamiento y validaci√≥n**

En este bloque:

- Separamos el dataset en **conjunto de entrenamiento (80%)** y **conjunto de validaci√≥n (20%)**.  
Esto nos permite entrenar el modelo con una parte de los datos y luego evaluar su rendimiento en datos que no ha visto antes.


De esta manera, podremos comparar los algoritmos de forma justa y evitar errores de entrenamiento.

- x = todas las columnas salvo la variable objetivo.
- y = la variable objetivo.
- train_test_split divide los datos en:
  - x_train, y_train (80%) ‚Üí para entrenar el modelo.
  - x_valid, y_valid (20%) ‚Üí para validar el modelo. 
  - random_state=42 ‚Üí asegura que la divisi√≥n sea reproducible.

Este paso es obligatorio para poder comparar modelos en condiciones.

In [None]:
# ===================================
# 2. Cargar datasets escalados
# ===================================
X = pd.read_csv("../data/processed/features_scaled.csv")
y = pd.read_csv("../data/processed/target_y.csv").squeeze()

# ===================================
# Divisi√≥n en train/valid
# ===================================
X_train, X_valid, y_train, y_valid = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("Tama√±o entrenamiento:", X_train.shape, y_train.shape)
print("Tama√±o validaci√≥n:", X_valid.shape, y_valid.shape)


## **Paso 3. Entrenar y evaluar modelo (baseline con k=5)**

Entrenamos un modelo **KNN con k=5 vecinos** (valor por defecto habitual).  
Calculamos las m√©tricas principales para evaluar su rendimiento:

- **RMSE**: ra√≠z del error cuadr√°tico medio.  
- **MAE**: error absoluto medio.  
- **R¬≤**: porcentaje de varianza explicada por el modelo.  


In [None]:
# ===================================
# 3. Entrenar y evaluar modelo baseline
# ===================================
knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(X_train, y_train)

preds = knn.predict(X_valid)

rmse = np.sqrt(mean_squared_error(y_valid, preds))
mae = mean_absolute_error(y_valid, preds)
r2 = r2_score(y_valid, preds)

print("üìä KNN Regressor (k=5)")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")


## **Paso 4. Curva de validaci√≥n para distintos valores de k**

Probamos diferentes valores de **k** (de 1 a 20) y evaluamos el error en validaci√≥n.

Interpretaci√≥n del gr√°fico:
- **k peque√±o (1‚Äì3)**: el modelo es muy flexible pero se sobreajusta al ruido ‚Üí error bajo en entrenamiento pero alto en validaci√≥n.  
- **k grande (>15)**: el modelo es m√°s estable pero pierde precisi√≥n ‚Üí se vuelve demasiado "suavizado".  
- El mejor k se encuentra en el punto donde el **error de validaci√≥n es m√≠nimo**.  


In [None]:
# ===================================
# 4. Curva de validaci√≥n para distintos k
# ===================================
errors = []
neighbors = range(1, 21)

for k in neighbors:
    model = KNeighborsRegressor(n_neighbors=k)
    model.fit(X_train, y_train)
    preds_valid = model.predict(X_valid)
    rmse_k = np.sqrt(mean_squared_error(y_valid, preds_valid))
    errors.append(rmse_k)


plt.figure(figsize=(8,5))
plt.plot(neighbors, errors, marker="o")
plt.xlabel("N√∫mero de vecinos (k)")
plt.ylabel("RMSE en validaci√≥n")
plt.title("Curva de validaci√≥n KNN")
plt.show()


## **Paso 5. Entrenamiento final y evaluaci√≥n de KNN para calcular m√©tricas


**Entrenamiento con el mekor **k**

Despu√©s de explorar con el KNN Regressor c√≥mo var√≠a el error en funci√≥n de k (n√∫mero de vecinos), necesitamos entrenar el modelo con el mejor k, para predecir y calcular m√©tricas (RMSE, MAE y R¬≤).

- Seleccionamos el mejor valor de `k` a partir de la curva de validaci√≥n (m√≠nimo error en validaci√≥n).  
- Entrenamos un modelo KNN con ese valor √≥ptimo y evaluamos sus predicciones sobre el conjunto de validaci√≥n.

üìä Las m√©tricas que obtenemos son:
- **RMSE**: error cuadr√°tico medio (ra√≠z), penaliza m√°s los errores grandes.  
- **MAE**: error absoluto medio, m√°s robusto ante outliers.  
- **R¬≤**: proporci√≥n de la variabilidad explicada por el modelo (idealmente cercano a 1).

üìñ Interpretaci√≥n de las m√©tricas

Cuando entrenamos el KNN Regressor con el mejor k, obtenemos 3 m√©tricas clave:

- **RMSE (Root Mean Squared Error)**:
      - Es la ra√≠z del error cuadr√°tico medio. Penaliza mucho los errores grandes.
      - Un RMSE bajo indica que las predicciones est√°n cercanas a los valores reales.
    Si el RMSE es significativamente menor que el rango t√≠pico de la variable objetivo (vida media en a√±os), es se√±al de buen ajuste.

- **MAE (Mean Absolute Error)**:
      - Es la media del error absoluto. M√°s robusto frente a outliers que el RMSE.
      - Indica cu√°ntos "a√±os" (de esperanza de vida) se equivoca, de media, el modelo.
    Si, por ejemplo, da 2.1, significa que el modelo suele errar en ¬±2 a√±os, lo cual puede ser bastante aceptable.

- **R¬≤ (Coeficiente de determinaci√≥n)**:
      - Mide la proporci√≥n de la varianza explicada por el modelo.
      - Valores cercanos a 1 implican que el modelo explica bien los datos.
    Un valor en torno a 0.9 o m√°s ser√≠a muy bueno; valores bajos (<0.5) indicar√≠an que el modelo no capta bien las relaciones.

üëâ En resumen: si KNN devuelve m√©tricas similares o mejores que regresi√≥n lineal y comparables a Random Forest/XGBoost, puede ser un candidato fuerte. Pero si empeora, ser√° menos competitivo.

Esto nos permitir√° comparar KNN con el resto de modelos en el notebook de comparativa final.


In [None]:
# ===================================
# 5. Entrenamiento final y evaluaci√≥n de KNN
# ===================================
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Escogemos el mejor k (m√≠nimo error en validaci√≥n)
best_k = errors.index(min(errors)) + 1
print(f"‚úÖ Mejor n√∫mero de vecinos (k): {best_k}")

# Entrenar modelo con ese k
knn_final = KNeighborsRegressor(n_neighbors=best_k)
knn_final.fit(X_train, y_train)

# Predicciones
preds_knn = knn_final.predict(X_valid)

# M√©tricas
rmse = np.sqrt(mean_squared_error(y_valid, preds_knn))
mae = mean_absolute_error(y_valid, preds_knn)
r2 = r2_score(y_valid, preds_knn)

print("\nüìä KNN Regressor (modelo final)")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")


## **Paso 6. Gr√°fico de predicciones vs valores reales (KNN Regressor)**

Este gr√°fico es clave:

- Si los puntos se concentran **cerca de la l√≠nea roja discontinua (y = x)**, significa que las predicciones del modelo son bastante precisas y se acercan bien a los valores reales.  
- La **dispersi√≥n alrededor de la l√≠nea** indica errores en las predicciones: cuanto m√°s lejos est√° un punto de la recta, mayor es la diferencia entre lo predicho y lo real.  
- Si aparece un **patr√≥n sistem√°tico** (por ejemplo, subestimar en valores altos o sobreestimar en valores bajos), refleja una limitaci√≥n del modelo para generalizar en esas regiones.  
- Una **dispersi√≥n amplia y sin patr√≥n claro** puede indicar que el modelo no est√° captando bien la complejidad de los datos y que ser√≠a necesario ajustar el hiperpar√°metro `k` (n√∫mero de vecinos).  

üëâ **En resumen**:  
- Una nube de puntos bien alineada con la recta implica **buen ajuste**.  
- Una dispersi√≥n notable sugiere **errores relevantes**.  
- Patrones de sub/sobreestimaci√≥n muestran que el KNN podr√≠a necesitar **ajuste de par√°metros** o que no es el algoritmo m√°s adecuado para el dataset.  


In [None]:
# ===================================
# 6. Visualizaci√≥n: predicciones vs valores reales
# ===================================
plt.figure(figsize=(6,6))
plt.scatter(y_valid, preds_knn, alpha=0.5)
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], "r--")
plt.xlabel("Valores reales (y_valid)")
plt.ylabel("Predicciones (KNN)")
plt.title("Predicciones vs Reales - KNN Regressor")
plt.show()


## **Paso 7. Optimizaci√≥n del hiperpar√°metro k en KNN Regressor con GridSearchCV

El par√°metro m√°s importante en **KNN Regressor** es `n_neighbors` (el n√∫mero de vecinos considerados para predecir un valor).  
- Un `k` muy bajo (pocos vecinos) hace que el modelo sea muy sensible al ruido ‚Üí **sobreajuste (overfitting)**.  
- Un `k` muy alto (muchos vecinos) suaviza demasiado las predicciones ‚Üí **subajuste (underfitting)**.  

Usaremos **GridSearchCV** para probar distintos valores de `k` y encontrar el que minimiza el error.  


In [None]:
# ===================================
# 7. GridSearchCV para optimizar KNN
# ===================================
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsRegressor

# Definimos la rejilla de b√∫squeda
param_grid = {"n_neighbors": list(range(2, 31))}  # probamos k de 2 a 30

knn = KNeighborsRegressor()
grid_search = GridSearchCV(
    knn, 
    param_grid, 
    cv=5, 
    scoring="neg_root_mean_squared_error", 
    n_jobs=-1
)

grid_search.fit(X_train, y_train)

print("üìä Mejor par√°metro k encontrado:", grid_search.best_params_)
print(f"Mejor RMSE validaci√≥n: {-grid_search.best_score_:.3f}")


## üìå Interpretaci√≥n de los resultados de GridSearchCV en KNN

El mejor valor encontrado para el par√°metro `k` fue:

- **k = 3**
- **RMSE validaci√≥n ‚âà 2.958**

### üîé Lectura:
- Un valor tan bajo de `k` significa que el modelo est√° utilizando √∫nicamente **3 vecinos m√°s cercanos** para hacer cada predicci√≥n.  
- Esto indica que los datos **tienen suficiente estructura local** como para que pocos vecinos sean representativos.  
- Sin embargo, tambi√©n es un indicio de que el modelo puede ser **sensible al ruido** (overfitting), ya que predice fuertemente influenciado por los vecinos m√°s cercanos.  

### ‚úÖ Conclusi√≥n:
- El rendimiento (RMSE ‚âà 2.96) es **aceptable**, aunque no tan bueno como los modelos m√°s potentes como **Random Forest o XGBoost**, que capturan relaciones m√°s complejas.  
- Este resultado nos confirma que **KNN puede servir como baseline no lineal**, pero no es el modelo m√°s robusto para este dataset.  

üëâ Lo interesante ser√° ver en el **notebook comparativo** c√≥mo se posiciona KNN frente al resto de algoritmos.


## üìä Curva de validaci√≥n: RMSE vs. n√∫mero de vecinos (k)

Este gr√°fico nos muestra c√≥mo cambia el error (RMSE) en validaci√≥n al variar el n√∫mero de vecinos `k`.  

- Una curva en **forma de U** es habitual. Muestra c√≥mo evoluciona el error (RMSE) en validaci√≥n seg√∫n el n√∫mero de vecinos (`k`) del modelo **KNN Regressor**: 
  - Con **k muy bajo** (ej. 1-3), el modelo tiende a **sobreajustar** (overfitting).  
  - Con **k muy alto** (ej. 50+), el modelo tiende a **subajustar** (underfitting), ya que promedia demasiados vecinos.  
  - La **l√≠nea roja discontinua en k=3** marca el punto donde el RMSE es m√≠nimo, indica el **k √≥ptimo** seg√∫n validaci√≥n.
  - Este valor indica que, para nuestro dataset, el modelo alcanza su mejor rendimiento considerando **3 vecinos m√°s cercanos**.  
  - A la izquierda de k=3, el modelo tiene tendencia a **sobreajustar**: se adapta demasiado al ruido de los datos y el error aumenta.  
  - A la derecha de k=3, el error empieza a crecer porque el modelo **subajusta**: al promediar demasiados vecinos, pierde la capacidad de capturar patrones locales.  

En conclusi√≥n, **k=3 ofrece el equilibrio √≥ptimo entre sesgo y varianza** en este dataset, seg√∫n la m√©trica RMSE.


In [None]:
# ===================================
# 8. Curva de validaci√≥n RMSE vs k
# ===================================
k_values = range(1, 31)
rmse_scores = []

for k in k_values:
    knn = KNeighborsRegressor(n_neighbors=k)
    knn.fit(X_train, y_train)
    preds = knn.predict(X_valid)
    rmse = np.sqrt(mean_squared_error(y_valid, preds))
    rmse_scores.append(rmse)

plt.figure(figsize=(8,5))
plt.plot(k_values, rmse_scores, marker="o")
plt.axvline(3, color="red", linestyle="--", label="Mejor k=3")
plt.title("Curva de validaci√≥n: RMSE vs k")
plt.xlabel("N√∫mero de vecinos (k)")
plt.ylabel("RMSE")
plt.legend()
plt.show()


## **Paso 9. Comparaci√≥n de m√©tricas seg√∫n el n√∫mero de vecinos (k)**

Hasta ahora hemos evaluado solo el **RMSE** en la curva de validaci√≥n.  
Sin embargo, es √∫til observar tambi√©n c√≥mo evolucionan otras m√©tricas como el **MAE** y el **R¬≤** al variar `k`.

Esto nos permite:
- Confirmar si el valor √≥ptimo de `k` es consistente en todas las m√©tricas.  
- Entender mejor el comportamiento del modelo:  
  - **RMSE** penaliza m√°s los errores grandes.  
  - **MAE** mide el error medio absoluto, m√°s robusto a outliers.  
  - **R¬≤** indica la proporci√≥n de varianza explicada por el modelo.  

El siguiente gr√°fico muestra la evoluci√≥n de estas tres m√©tricas a medida que aumentamos `k`.

Este gr√°fico nos dar√° una visi√≥n conjunta:
- Confirmar√° que k=3 es √≥ptimo no solo en RMSE, sino tambi√©n si se mantiene bajo en MAE y razonable en R¬≤.
- Si alguna m√©trica se comporta diferente, se deber√° a una limitaci√≥n del modelo.

In [None]:
# ===================================
# Comparaci√≥n de m√©tricas con distintos k
# ===================================
from sklearn.metrics import r2_score

k_values = range(1, 21)
rmse_list, mae_list, r2_list = [], [], []

for k in k_values:
    knn = KNeighborsRegressor(n_neighbors=k)
    knn.fit(X_train, y_train)
    preds = knn.predict(X_valid)
    
    rmse_list.append(np.sqrt(mean_squared_error(y_valid, preds)))
    mae_list.append(mean_absolute_error(y_valid, preds))
    r2_list.append(r2_score(y_valid, preds))

# Graficar resultados
plt.figure(figsize=(10,6))
plt.plot(k_values, rmse_list, marker="o", label="RMSE")
plt.plot(k_values, mae_list, marker="s", label="MAE")
plt.plot(k_values, r2_list, marker="^", label="R¬≤")
plt.axvline(best_k, color="red", linestyle="--", label=f"Mejor k={best_k}")

plt.title("Evoluci√≥n de m√©tricas seg√∫n k en KNN Regressor")
plt.xlabel("N√∫mero de vecinos (k)")
plt.ylabel("Valor de la m√©trica")
plt.legend()
plt.grid(True)
plt.show()




# ===================================
# Salvar m√©tricas en CSV
# ===================================

# ===================================
# Funci√≥n para guardar m√©tricas estandarizadas
# ===================================
def save_results(model_name, y_true, y_pred, filepath):
    """
    Calcula m√©tricas (RMSE, MAE, R¬≤) y guarda en CSV estandarizado.
    """
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    results = pd.DataFrame([{
        "Modelo": model_name,
        "RMSE": rmse,
        "MAE": mae,
        "R¬≤": r2
    }])

    results.to_csv(filepath, index=False)
    print(f"‚úÖ Resultados de {model_name} guardados en {filepath}")
    return results



# ===================================
# Guardar m√©tricas finales de KNN (mejor k)
# ===================================


results_knn = save_results(
    "KNN (k=3)",
    y_valid,
    preds_knn,
    "../data/results_knn.csv"
)

print("üìä Resultados finales KNN (mejor k)")
print(f"Mejor k: {best_k}")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")
print("‚úÖ Resultados guardados en data/results_knn.csv")



## **Paso 10. Conclusiones**

- El rendimiento de KNN depende **fuertemente** de `k`.  
- Este modelo necesita datos **escalados**.  
- Funciona bien en datasets peque√±os y de baja dimensionalidad, pero en grandes puede ser costoso porque calcula distancias con todos los puntos.  



üëâ En resumen: si KNN devuelve m√©tricas similares o mejores que regresi√≥n lineal y comparables a Random Forest/XGBoost, puede ser un candidato fuerte. Pero si empeora, ser√° menos competitivo.


Compararemos este modelo con los dem√°s (Lineal, √Årboles, Random Forest, XGBoost, Ridge, Lasso, Elastic Net) en el notebook de **Comparaci√≥n Final de Modelos**.