<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/5_Aprendizaje_supervisado/4_KNN_y_Arboles.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# üßë‚Äçü§ù‚ÄçüßëKNN, üå≥ √Årboles de Decisi√≥n y üéõÔ∏è B√∫squeda de Hiperpar√°metros

**Objetivos de Aprendizaje**

Al finalizar este notebook, los estudiantes ser√°n capaces de:

1.  **Entender la intuici√≥n** detr√°s de dos modelos de clasificaci√≥n no param√©tricos: **K-Nearest Neighbors (KNN)** y **√Årboles de Decisi√≥n**.
2. **Comprender el concepto de hiperpar√°metro** y la necesidad de optimizarlo.
3.  **Aplicar** los conceptos de **Validaci√≥n Cruzada** (como t√©cnica de evaluaci√≥n robusta) y **Grid Search** (como t√©cnica de optimizaci√≥n de hiperpar√°metros).
4.  **Extraer y comparar** la importancia de las variables (`feature importance`) de ambos modelos.

**Introducci√≥n**

Imaginemos que somos analistas de riesgo en un banco. Nuestra tarea es decidir si aprobamos o no una nueva tarjeta de cr√©dito a un solicitante. ¬øQu√© informaci√≥n usar√≠amos? Probablemente mirar√≠amos su nivel de ingresos, su historial de pagos, su edad, su nivel educativo, etc.

Intuitivamente, har√≠amos dos cosas:

1.  **Buscar clientes similares:** Comparar√≠amos al nuevo solicitante con clientes que ya tenemos. Si se parece mucho a un grupo de clientes que siempre pagan a tiempo, es probable que √©l tambi√©n sea un buen cliente. Esta es la l√≥gica detr√°s de **KNN**.
2.  **Crear reglas de decisi√≥n:** Podr√≠amos establecer una serie de preguntas. Por ejemplo: "¬øEl solicitante tiene un historial de pagos sin retrasos? **Si es as√≠**, ¬øsu l√≠mite de cr√©dito solicitado es menor a sus ingresos mensuales? **Si es as√≠**, APROBAR". Este proceso secuencial de preguntas es la base de los **√Årboles de Decisi√≥n**.

Pero, ¬øcu√°ntos "vecinos similares" debemos considerar? ¬øQu√© tan "profundas" o complejas deben ser nuestras reglas? Estas "perillas" que ajustamos en nuestros modelos se llaman **hiperpar√°metros**. Elegir el valor correcto para estas perillas es crucial, y para ello usaremos una t√©cnica fundamental: **Grid Search**.

**IMPORTANTE:**

- KNN y √°rboles de decisi√≥n son modelos no param√©tricos, ya que no asumen ninguna forma funcional (a diferencia de Regresi√≥n Lineal donde se asume una l√≠nea recta). La estructura del modelo es flexible y se adapta completamente a los datos que observa y la complejidad del modelo no es fija, sino que crece a medida que se agregan m√°s datos.

- Ambos resuelven tanto problemas de regresi√≥n como de clasificaci√≥n (vamos a ver un ejemplo de regresi√≥n y en el taller van a trabajar un ejemplo de clasificaci√≥n).

## 1. Preparaci√≥n del Entorno y Datos

### 1.1. Carga de Librer√≠as

Importamos las herramientas necesarias. Noten que usamos las versiones `Regressor` de los modelos y m√©tricas de regresi√≥n.

In [None]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsRegressor  # <--- Versi√≥n de Regresi√≥n
from sklearn.tree import DecisionTreeRegressor, plot_tree # <--- Versi√≥n de Regresi√≥n
from sklearn.metrics import mean_squared_error, r2_score # <--- M√©tricas de Regresi√≥n
from sklearn.inspection import permutation_importance # <--- Para Feature Importance

### Mejorar visualizaci√≥n de dataframes y gr√°ficos

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

# Configuraciones para una mejor visualizaci√≥n
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

### 1.2. Carga y Exploraci√≥n de Datos

**Contexto del Caso: Prediciendo la Demanda de Bicicletas Compartidas**

Somos consultores para la ciudad de Se√∫l. El gobierno quiere optimizar el sistema de bicicletas compartidas. Para reubicar las bicicletas eficientemente y planificar el mantenimiento, necesitan un modelo que prediga la **demanda de bicicletas (cu√°ntas se alquilar√°n)** en una hora determinada.

Tenemos un dataset con datos hist√≥ricos por hora que incluye:
* **Informaci√≥n temporal:** Fecha, Hora.
* **Informaci√≥n clim√°tica:** Temperatura, Humedad, Velocidad del Viento, Lluvia, Nieve, etc.
* **Contexto del d√≠a:** Si es festivo o un d√≠a laborable.

**Nuestro Objetivo:** Predecir la variable `Rented Bike Count` (un n√∫mero continuo). A diferencia de la clase anterior (predecir una categor√≠a s√≠/no), este es un **problema de regresi√≥n**.

**Variables:**

- Date: Fecha
- Rented Bike Count: N√∫mero de bicicletas alquiladas  --> **Esta es la variable objetivo**
- Hour: Hora
- Temperature(¬∞C): Temperatura
- Humidity(%): Humedad
- Wind speed (m/s): Velocidad del viento
- Visibility (10m): Visibilidad
- Dew point temperature(¬∞C): Temperatura del punto de roc√≠o
- Solar Radiation (MJ/m2): Radiaci√≥n solar
- Rainfall(mm): Lluvia
- Snowfall (cm): Nevada
- Seasons: Estaciones
- Holiday: D√≠a festivo
- Functioning Day: D√≠a con prestaci√≥n del servicio

In [None]:
# Cargamos el dataset. Usamos un link directo para que el notebook sea reproducible.
# Este CSV tiene un problema de codificaci√≥n, as√≠ que especificamos encoding='latin1'
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00560/SeoulBikeData.csv"
df = pd.read_csv(url, encoding='latin1')

# Vistazo inicial
display(df.head())

In [None]:
# Revisamos la informaci√≥n y tipos de datos
df.info()

In [None]:
df.describe()

In [None]:
df['Seasons'].value_counts()

In [None]:
df['Holiday'].value_counts()

In [None]:
df['Functioning Day'].value_counts()

### 1.3. Limpieza y Preparaci√≥n de Variables (Preprocessing)

1.  **Convertir la fecha:** La columna `Date` es un `object` (texto). La convertiremos a formato `datetime` para extraer el mes y el d√≠a de la semana.
2.  **Manejar Categ√≥ricas:** Las columnas `Seasons`, `Holiday` y `Functioning Day` son categ√≥ricas y `scikit-learn` no las entiende como texto. Usaremos **One-Hot Encoding**.
3.  **Definir X e y:** Separar nuestras variables predictoras (X) de nuestra variable objetivo (y).

In [None]:
# 1. Convertir la fecha
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')

In [None]:
# 2. Extraer nuevas caracter√≠sticas de la fecha
df['Month'] = df['Date'].dt.month
df['DayOfWeek'] = df['Date'].dt.dayofweek # 0=Lunes, 6=Domingo
df.sample(5)

In [None]:
# 3. Definir variable objetivo (y) y predictoras (X)
y = df['Rented Bike Count']
y.head()

In [None]:
# Quitamos la variable objetivo y la fecha original (que ya no necesitamos)
X = df.drop(columns=['Rented Bike Count', 'Date'])
X.head()

### 1.4. Definir el `Pipeline` de Preprocesamiento

Para manejar correctamente las variables num√©ricas (que deben ser escaladas) y las categ√≥ricas (que deben ser codificadas), usamos un `ColumnTransformer`. Esto asegura que el escalamiento solo se aplique a los n√∫meros y el One-Hot-Encoding solo a las categor√≠as.

In [None]:
# Identificar columnas num√©ricas y categ√≥ricas
numerical_features = X.select_dtypes(include=['int64', 'float64']).columns.drop('Hour') # Hour es m√°s como una categor√≠a
categorical_features = X.select_dtypes(include=['object']).columns.tolist() + ['Hour', 'Month', 'DayOfWeek'] # Tratamos Hora, Mes y D√≠a como categ√≥ricas

print(f"Columnas Num√©ricas ({len(numerical_features)}): {numerical_features.tolist()}")
print(f"Columnas Categ√≥ricas ({len(categorical_features)}): {categorical_features}")

# Crear transformadores
# 1. Para variables num√©ricas: Estandarizar (media 0, varianza 1)
numeric_transformer = StandardScaler()

# 2. Para variables categ√≥ricas: One-Hot Encoding
categorical_transformer = OneHotEncoder(handle_unknown='ignore') # Ignora categor√≠as no vistas en el test set

# Combinar transformadores con ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numerical_features),
        ('cat', categorical_transformer, categorical_features)
    ])

### 1.5. Divisi√≥n de Datos (Train/Test Split)

Separamos nuestros datos en entrenamiento y prueba. Es crucial que hagamos esto *antes* de la validaci√≥n cruzada.

In [None]:
# Dividir en entrenamiento (80%) y prueba (20%)
# En regresi√≥n, 'stratify' no se usa. Usamos random_state para reproducibilidad.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tama√±o del conjunto de entrenamiento: {X_train.shape}")
print(f"Tama√±o del conjunto de prueba: {X_test.shape}")

## 2. K-Nearest Neighbors (KNN): "Los similares se comportan de forma similar"

La idea de KNN es simple: para clasificar un nuevo punto u observaci√≥n, buscamos en los datos de entrenamiento los **'k' puntos m√°s cercanos**. La clasificaci√≥n o el valor de la variable objetivo del nuevo punto ser√° el de la mayor√≠a de sus 'k' vecinos.

¬øC√≥mo funciona?

1.  Encuentra los `k` puntos m√°s similares en los datos de entrenamiento (basado en las variables predictoras).
2.  **Calcula el promedio** de la variable objetivo.
3.  Ese promedio es la predicci√≥n.


Link video explicativo: https://www.youtube.com/watch?v=z3140gOhuVI

**IMPORTANTE:** KNN se basa en medir distancias, por tanto, es obligatorio estandarizar o normalizar las variables predictoras o independientes.



Vamos a construir un primer modelo con un valor arbitrario de `k`, por ejemplo, `k=5`.

In [None]:
# Es crucial usar un `Pipeline` para que el preprocesamiento (escalado y encoding) se aplique correctamente
# antes de que el modelo KNN calcule las distancias.

# 1. Crear el pipeline completo: (Preprocessor + Modelo)
knn_pipeline_base = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', KNeighborsRegressor(n_neighbors=5)) # Usamos k=5 como base
])

# 2. Entrenar el pipeline
knn_pipeline_base.fit(X_train, y_train)

# 3. Realizar predicciones en Train y Test
y_pred_knn_base = knn_pipeline_base.predict(X_test)

# 4. Evaluar el rendimiento
rmse_knn_base = np.sqrt(mean_squared_error(y_test, y_pred_knn_base))
r2_knn_base = r2_score(y_test, y_pred_knn_base)

print("--- KNN Regressor Base (k=5) ---")
print(f"RMSE test: {rmse_knn_base:.2f} bicicletas")
print(f"R-cuadrado test: {r2_knn_base:.4f}")

**Interpretaci√≥n:**
* **R-cuadrado (R¬≤):** Nos dice que nuestro modelo base explica aproximadamente el **79%** de la variabilidad en la demanda de bicicletas. Pero... ¬øes `k=5` el valor √≥ptimo? Y, ¬øes 0.79 un valor real o ese valor depende de nuestra divisi√≥n de datos?

## 3. √Årboles de Decisi√≥n

Un √°rbol de decisi√≥n aprende una serie de reglas `if/else` para segmentar los datos y hacer una predicci√≥n. Su gran ventaja es que podemos visualizarlo y entender exactamente c√≥mo toma sus decisiones, lo que hace que su mayor fortaleza sea la interpretabilidad.

¬øC√≥mo funciona?

El objetivo del √°rbol es encontrar la mejor pregunta (una partici√≥n) para dividir un grupo grande y ruidoso en dos nuevos subgrupos que sean lo m√°s homog√©neos (o "puros") posible internamente, es decir que los valores dentro del grupo tengan baja varianza.

De esta forma, va dividiendo los datos con reglas, hasta que ya no hay m√°s divisiones (se llega a una hoja final).

Cuando un nuevo dato llega a una hoja final, la predicci√≥n es el **promedio** de la variable objetivo de todas las observaciones que cayeron en esa misma hoja durante el entrenamiento.

Link video explicativo: https://www.youtube.com/watch?v=z5rmY-LV7ME

In [None]:
# 1. Crear el pipeline para el √Årbol de Decisi√≥n
# No ponemos restricciones (ej. max_depth=None) para ver el sobreajuste
tree_pipeline_base = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', DecisionTreeRegressor(random_state=42))
])

# 2. Entrenar el pipeline
tree_pipeline_base.fit(X_train, y_train)

# 3. Realizar predicciones en el Test set
y_pred_tree_base = tree_pipeline_base.predict(X_test)

# 4. Evaluar el rendimiento
rmse_tree_base = np.sqrt(mean_squared_error(y_test, y_pred_tree_base))
r2_tree_base = r2_score(y_test, y_pred_tree_base)

print("--- Decision Tree Regressor Base (sin podar) ---")
print(f"RMSE test: {rmse_tree_base:.2f} bicicletas")
print(f"R-cuadrado test: {r2_tree_base:.4f}")

**Interpretaci√≥n:** El R¬≤ es de 0.82. El √°rbol sin podar parece memorizar patrones muy espec√≠ficos (sobreajuste), lo que le da un rendimiento decente en este caso. Pero de nuevo, ¬øtuvimos suerte?

Visualicemos sus reglas de negocio.

In [None]:
# Visualizar el √°rbol (solo las primeras capas para que sea legible)

# Necesitamos los nombres de las caracter√≠sticas DESPU√âS del preprocesamiento
# Extraemos los nombres del preprocesador DENTRO del pipeline ya entrenado
feature_names = tree_pipeline_base.named_steps['preprocessor'].get_feature_names_out()

plt.figure(figsize=(25, 12))
plot_tree(
    tree_pipeline_base.named_steps['model'], # Extraemos el modelo del pipeline
    max_depth=3,
    feature_names=feature_names,
    filled=True,
    fontsize=10,
    precision=1, # Decimales para mostrar en 'value'
    rounded=True
)
plt.title("Visualizaci√≥n √Årbol de Regresi√≥n (primeras 3 capas)")
plt.show()

**Actividad Pr√°ctica: Traducir una Regla**

Miremos la visualizaci√≥n:
* **Nodo Ra√≠z:** La primera divisi√≥n es `num__Temprerature <= -0.1`. Esto pr√°cticamente separa la temperatura en bajo cero y sobre cero.
* **Valor (`value`):** Observen que el `value` en cada nodo es el **promedio de `Rented Bike Count`**. El promedio general (en la ra√≠z) es de 704.8 bicicletas.

**Regla de Negocio (Rama izquierda):**

"Si la temperatura es menor a -0.1 grados y no es oto√±o y la tempereatura es menor a -0,8 grados y no son las 8 de la ma√±ana, entonces la demanda promedio predicha es de 211 bicicletas.

Esto tiene perfecto sentido econ√≥mico: en d√≠as fr√≠os, fuera de las horas pico, la demanda es baja.

## 4. Evaluando la Robustez con Validaci√≥n Cruzada (`cross_val_score`)

Hasta ahora, hemos evaluado nuestros modelos en *una sola* divisi√≥n de prueba (el 20% que separamos al inicio). ¬øQu√© pasa si esa divisi√≥n fue particularmente "f√°cil" o "dif√≠cil" por pura suerte?

La **Validaci√≥n Cruzada** resuelve esto. En lugar de una sola divisi√≥n, dividimos nuestro `X_train` en (por ejemplo) 5 "folds" (pliegues).

El proceso es:
1.  Entrenar en los pliegues 1, 2, 3, 4 y probar en el 5.
2.  Entrenar en los pliegues 1, 2, 3, 5 y probar en el 4.
3.  ...y as√≠ sucesivamente.

Al final, obtenemos 5 scores (uno por cada pliegue). El **promedio** de estos scores es una medida mucho m√°s robusta y confiable del rendimiento real del modelo.

La herramienta para hacer esto r√°pidamente es `cross_val_score`.

![Validacion_Cruzada](https://drive.google.com/uc?id=1D7-4PHpfdOK3IQ4PIEQqR8WHEafhLO0g)

In [None]:
print("--- Iniciando Validaci√≥n Cruzada para KNN Base (k=5) ---")

# 1. Usamos cross_val_score en nuestro pipeline base de KNN
# Lo corremos sobre TODOS los datos de ENTRENAMIENTO (X_train, y_train)
# cv=5 significa 5 folds
# scoring='r2' es nuestra m√©trica de inter√©s
knn_cv_scores = cross_val_score(
    knn_pipeline_base, # Nuestro modelo base con k=5
    X_train,
    y_train,
    cv=5,
    scoring='r2',
    n_jobs=-1
)

print(f"Scores de cada fold (KNN): {knn_cv_scores}")
print(f"R¬≤ Promedio (Robusto): {knn_cv_scores.mean():.4f}")
print(f"R¬≤ Desv. Est√°ndar: {knn_cv_scores.std():.4f}")

In [None]:
print("--- Iniciando Validaci√≥n Cruzada para √Årbol Base (sin podar) ---")

# 2. Repetimos para nuestro pipeline base de √Årbol de Decisi√≥n
tree_cv_scores = cross_val_score(
    tree_pipeline_base, # Nuestro modelo base sin podar
    X_train,
    y_train,
    cv=5,
    scoring='r2',
    n_jobs=-1
)

print(f"Scores de cada fold (√Årbol): {tree_cv_scores}")
print(f"R¬≤ Promedio (Robusto): {tree_cv_scores.mean():.4f}")
print(f"R¬≤ Desv. Est√°ndar: {tree_cv_scores.std():.4f}")

**Recuerda** que cada score se calcul√≥ sobre un subconjunto de validaci√≥n que el modelo no us√≥ para entrenar en esa ronda espec√≠fica, por eso el promedio de estos scores es una medida robusta y confiable del rendimiento del modelo.

**Interpretaci√≥n:**
* **KNN (k=5):** El R¬≤ robusto es **0.79**, similar que el que obtuvimos en nuestro `test set` inicial. Esto nos dice que el modelo es estable.
* **√Årbol (sin podar):** El R¬≤ robusto es **0.79**. Es m√°s bajo que el 0.82 que obtuvimos en el `test set`. Esto sugiere que el √°rbol sin podar es m√°s "inestable" y sensible a c√≥mo se dividen los datos.

Ahora que sabemos c√≥mo *evaluar* de forma robusta, podemos pasar a *optimizar*.

## 5. B√∫squeda de Hiperpar√°metros √ìptimos con B√∫squeda de Grilla (`GridSearchCV`)

**Hiperpar√°metro**

Es una "perilla" o un ajuste de configuraci√≥n que nosotros, como analistas, debemos definir antes de que un modelo de machine learning comience a entrenar.

Es una configuraci√≥n externa que controla c√≥mo el modelo va a aprender.

Ejemplos:
- El valor de k en KNN
- La profundidad m√°xima de un √Årbol de Decisi√≥n
- La tasa de aprendizaje en una red neuronal

**Par√°metro**

Es un valor interno que el modelo aprende durante el entrenamiento a partir de los datos.

Ejemplos:
- Los coeficientes (beta) en una regresi√≥n lineal
- Las reglas de divisi√≥n ("si Temperatura < 10...") que encuentra un √°rbol.



Sabemos que `k=5` o un √°rbol `sin podar` fueron elecciones arbitrarias. ¬øC√≥mo encontramos el mejor `k` o la mejor `max_depth`?

Podr√≠amos hacer un `cross_val_score` a mano para `k=3`, luego para `k=5`, `k=7`... y comparar los promedios. Pero esto es tedioso.

`GridSearchCV` hace exactamente eso: **automatiza la B√∫squeda en Grilla (Grid Search) usando Validaci√≥n Cruzada (Cross-Validation) como m√©todo de evaluaci√≥n.**

Le damos:
1.  Un modelo (pipeline).
2.  Una "grilla" de hiperpar√°metros para probar (ej. `k: [3, 5, 7, 11]`).

`GridSearchCV` probar√° *cada* valor de la grilla, le har√° una Validaci√≥n Cruzada (ej. `cv=5`), calcular√° el score promedio, y al final nos dir√° cu√°l hiperpar√°metro tuvo el mejor promedio.

### 5.1. Encontrando el `k` √ìptimo para KNN Regressor

In [None]:
# 1. Re-creamos el pipeline (esto es buena pr√°ctica)
knn_pipe_cv = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', KNeighborsRegressor())
])

# 2. Definir la grilla de hiperpar√°metros a probar
# OJO: Usamos 'model__n_neighbors' porque el modelo se llama 'model' dentro del pipeline
param_grid_knn = {
    'model__n_neighbors': [3, 5, 7, 11, 15] # Probaremos estos valores de k
}

# 3. Configurar GridSearchCV
grid_knn = GridSearchCV(
    knn_pipe_cv,
    param_grid_knn,
    cv=5, # 5 folds de validaci√≥n cruzada
    scoring='r2', # M√©trica a optimizar: R-cuadrado
    n_jobs=-1, # Usar todos los procesadores
    verbose=1
)

# 4. Ejecutar la b√∫squeda (sobre los datos de ENTRENAMIENTO)
print("Iniciando GridSearchCV para KNN...")
grid_knn.fit(X_train, y_train)
print("GridSearchCV para KNN completado.")

# 5. Mostrar los resultados
print(f"\nMejor hiperpar√°metro 'k': {grid_knn.best_params_}")
print(f"Mejor score R¬≤ de validaci√≥n cruzada: {grid_knn.best_score_:.4f}")

**Visualicemos los resultados** para entender c√≥mo al cambiar `k` cambia el rendimiento.

In [None]:
# Extraer los resultados de la b√∫squeda
results_knn = pd.DataFrame(grid_knn.cv_results_)

plt.figure(figsize=(12, 6))
plt.plot(results_knn['param_model__n_neighbors'], results_knn['mean_test_score'], marker='o')
plt.title("Rendimiento de KNN vs. Valor de 'k'")
plt.xlabel("k (N√∫mero de Vecinos)")
plt.ylabel("Accuracy Promedio en Validaci√≥n Cruzada")
plt.xticks(np.arange(3, 30, 2))
plt.show()

### 5.2. Encontrando la Profundidad √ìptima para el √Årbol de Decisi√≥n

In [None]:
# 1. Re-creamos el pipeline
tree_pipe_cv = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', DecisionTreeRegressor(random_state=42))
])

# 2. Definir la grilla de hiperpar√°metros
param_grid_tree = {
    'model__max_depth': [3, 5, 7, 10, 15],       # Qu√© tan profundo puede crecer
    'model__min_samples_leaf': [10, 20, 50, 100] # M√≠nimo de muestras en una hoja
}

# 3. Configurar GridSearchCV
grid_tree = GridSearchCV(
    tree_pipe_cv,
    param_grid_tree,
    cv=5,
    scoring='r2',
    n_jobs=-1,
    verbose=1
)

# 4. Ejecutar la b√∫squeda
print("Iniciando GridSearchCV para √Årbol de Decisi√≥n...")
grid_tree.fit(X_train, y_train)
print("GridSearchCV para √Årbol de Decisi√≥n completado.")

# 5. Mostrar los resultados
print(f"\nMejores hiperpar√°metros: {grid_tree.best_params_}")
print(f"Mejor score R¬≤ de validaci√≥n cruzada: {grid_tree.best_score_:.4f}")

**Interpretaci√≥n de la B√∫squeda:**
* **KNN:** El R¬≤ √≥ptimo (alrededor de 0.763) se encontr√≥ con `k=5`. Nuestro `k` base estaba cerca.
* **√Årbol:** El R¬≤ √≥ptimo (alrededor de 0.81) se encontr√≥ con `max_depth=10` y `min_samples_leaf=10`. Esto es mucho mejor que el KNN y nos da un modelo "podado" que generaliza mejor que el √°rbol sin restricciones.

**Nota:** GridSearchCV tiene un costo computacional alto, por lo que no se usa para Big Data. En ese caso se divide el conjunto de datos en 3 partes:
- Train Set (ej. 70%): Para entrenar el modelo.
- Validation Set (ej. 15%): Para ajustar los hiperpar√°metros.
- Test Set (ej. 15%): Para dar el reporte final de rendimiento sobre datos nuevos.

## 6. Evaluaci√≥n Final y Variables Relevantes

### 6.1. Evaluaci√≥n Final en el `Test Set`

Ahora usamos nuestros modelos optimizados (los `best_estimator_` de GridSearchCV) para hacer predicciones finales en el `test set`, nuestro set de datos que hemos guardado hasta ahora.

In [None]:
# Obtener los mejores modelos encontrados
best_knn_model = grid_knn.best_estimator_
best_tree_model = grid_tree.best_estimator_

# Predecir en el Test set
y_pred_knn_final = best_knn_model.predict(X_test)
y_pred_tree_final = best_tree_model.predict(X_test)

# Calcular R¬≤ finales
r2_knn_final = r2_score(y_test, y_pred_knn_final)
r2_tree_final = r2_score(y_test, y_pred_tree_final)

print("--- Comparaci√≥n de Rendimiento Final (R¬≤) en Test Set ---")
print(f"R¬≤ KNN Base (k=5) en Test:     {r2_knn_base:.4f}")
print(f"R¬≤ KNN √ìptimo (k=5) en Test:   {r2_knn_final:.4f}\n")

print(f"R¬≤ √Årbol Base (sin podar) en Test:  {r2_tree_base:.4f}")
print(f"R¬≤ √Årbol √ìptimo (podado) en Test: {r2_tree_final:.4f}")

**Conclusi√≥n:** ¬°El √Årbol de Decisi√≥n optimizado es nuestro ganador! Con un R¬≤ de **~0.81**, explica el 81% de la variabilidad de la demanda de bicicletas en datos nunca antes vistos. La optimizaci√≥n mejor√≥ su rendimiento significativamente.


### 6.2. ¬øCu√°les son las Variables M√°s Relevantes?

Saber qu√© modelo predice mejor es bueno. Saber qu√© variables usa es lo que permite tomar **decisiones de negocio**.

#### Para √Årboles de Decisi√≥n (F√°cil)
Los √°rboles calculan la importancia de una variable (`feature_importance_`) midiendo cu√°nto reduce la impureza (o el error, en este caso) cada vez que se usa esa variable para una divisi√≥n. Es un subproducto directo de su entrenamiento.

In [None]:
# 1. Extraer el modelo de √°rbol del pipeline
tree_model_final = best_tree_model.named_steps['model']

# 2. Extraer los nombres de las caracter√≠sticas del preprocesador
feature_names = best_tree_model.named_steps['preprocessor'].get_feature_names_out()

# 3. Obtener las importancias
importances = tree_model_final.feature_importances_

# 4. Combinar en un DataFrame y mostrar las 15 m√°s importantes
tree_importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance': importances
}).sort_values(by='Importance', ascending=False)

print("--- Importancia de Variables (√Årbol de Decisi√≥n) ---")
display(tree_importance_df.head(15))

# 5. Graficar
plt.figure(figsize=(10, 8))
sns.barplot(x='Importance', y='Feature', data=tree_importance_df.head(15))
plt.title('Top 15 Variables M√°s Importantes (√Årbol de Decisi√≥n)')
plt.show()

**Interpretaci√≥n Econ√≥mica (√Årbol):**
El modelo nos dice que los predictores m√°s potentes de la demanda son:
1.  **`num__Temperature(C)`:** La temperatura es, por lejos, el factor m√°s importante.
2.  **`num__Humidity(%)`:** La humedad tambi√©n es un factor clave.
3.  **`cat__Functioning Day_Yes`:** Si el servicio est√° operativo o no (¬°obvio, pero confirma que el modelo tiene sentido!)
4.  **`cat__Hour_18`:** La hora pico de las 6 PM.

La administraci√≥n de la ciudad deber√≠a centrar sus modelos de predicci√≥n y operaciones en el **clima** y las **horas pico**.

#### Para KNN (M√°s Complejo: Usando `Permutation Importance`)

KNN no tiene un atributo `.feature_importances_`. Su l√≥gica no se basa en coeficientes o cortes, sino en distancias. La "importancia" es impl√≠cita.

Para saber qu√© variables le importan a *cualquier* modelo (incluido KNN), usamos la **Importancia por Permutaci√≥n**.

**Intuici√≥n:**
1.  Calculamos el R¬≤ del modelo en el `test set` (ya lo tenemos: ~0.79).
2.  Tomamos *una sola columna* (ej. `Temperatura`) y "barajamos" (permutamos) sus valores aleatoriamente, rompiendo su relaci√≥n con la demanda de bicicletas.
3.  Volvemos a calcular el R¬≤ con esta columna "rota".
4.  Si el R¬≤ cae **mucho**, significa que el modelo depend√≠a fuertemente de esa variable. Esa variable es **importante**.
5.  Repetimos esto para todas las variables.

In [None]:
print("Calculando Importancia por Permutaci√≥n para KNN (puede tardar un momento)...")

# 1. Usamos permutation_importance en el modelo entrenado y el test set
# NOTA: Le pasamos el pipeline (best_knn_model) y los datos en crudo (X_test)
# El pipeline se encargar√° de preprocesar los datos internamente.
perm_importance = permutation_importance(
    best_knn_model,
    X_test,
    y_test,
    n_repeats=10,
    random_state=42,
    n_jobs=-1,
    scoring='r2'
)

# 2. Extraer los nombres de las caracter√≠sticas
# (Usamos los nombres de las columnas ORIGINALES, ya que permutation_importance
# con un pipeline prueba la importancia de las caracter√≠sticas de entrada)
feature_names = X_test.columns

# 3. Combinar en un DataFrame
knn_importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance_mean': perm_importance.importances_mean, # Ca√≠da promedio del R¬≤
    'Importance_std': perm_importance.importances_std
}).sort_values(by='Importance_mean', ascending=False)

print("\n--- Importancia de Variables (KNN por Permutaci√≥n) ---")
display(knn_importance_df.head(15))

# 4. Graficar
plt.figure(figsize=(10, 8))
sns.barplot(x='Importance_mean', y='Feature', data=knn_importance_df.head(15))
plt.title('Top 15 Variables M√°s Importantes (KNN por Permutaci√≥n)')
plt.xlabel('Ca√≠da promedio en R¬≤ (Importancia)')
plt.show()

## 7. Conclusiones de la Clase

1.  **Modelos Intuitivos para Regresi√≥n:** KNN y los √Årboles de Decisi√≥n se adaptan perfectamente a problemas de regresi√≥n. En lugar de "votar" por una clase, **promedian** el valor de sus vecinos (KNN) o de los miembros de su hoja (√Årboles).

2.  **CV vs. GridSearch:** Hemos separado dos conceptos clave:
    * **Validaci√≥n Cruzada (`cross_val_score`)** es una t√©cnica para *evaluar* robustamente un modelo con hiperpar√°metros fijos (ej. ¬øqu√© tan bueno es mi modelo con k=5?).
    * **B√∫squeda de Grilla (`GridSearchCV`)** es una t√©cnica para *optimizar* hiperpar√°metros, que *usa* la validaci√≥n cruzada internamente para comparar cu√°l es el mejor.

3.  **Preprocesamiento es Clave:** Vimos c√≥mo un `Pipeline` y un `ColumnTransformer` son esenciales para manejar de forma robusta las variables num√©ricas (escalado) y categ√≥ricas (one-hot encoding), especialmente para modelos sensibles a la distancia como KNN.

4.  **Importancia de las Variables:** Aprendimos dos formas de obtenerla:
    * **Directa (√Årboles):** Usando el atributo `.feature_importances_`.
    * **Agn√≥stica (Para KNN y otros):** Usando `permutation_importance`, que mide el impacto en el rendimiento del modelo al "romper" una variable.