<a href="https://colab.research.google.com/github/apchavezr/16.-Aprendizaje-Profundo-para-Ciencia-de-Datos/blob/main/GridSearch_CaliforniaHousing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ajuste de hiperparámetros con GridSearchCV

## Objetivo
Evaluar combinaciones de hiperparámetros en un modelo de árbol de regresión usando el conjunto de datos California Housing. Se utilizará `GridSearchCV` para seleccionar la mejor configuración basada en validación cruzada.

In [1]:
# Importar librerías necesarias
from sklearn.datasets import fetch_california_housing
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split, GridSearchCV
import pandas as pd

## Paso 1: cargar los datos y dividirlos

In [2]:
# Cargar el conjunto de datos California Housing
X, y = fetch_california_housing(return_X_y=True)

# División en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42)

## Paso 2: definir el modelo base y el espacio de búsqueda

In [3]:
# Modelo base
model = DecisionTreeRegressor(random_state=42)

# Espacio de búsqueda de hiperparámetros
param_grid = {
    'max_depth': [3, 5, 10],
    'min_samples_split': [2, 5, 10]
}

## Paso 3: aplicar GridSearchCV

In [4]:
# Configuración del GridSearch con validación cruzada de 5 folds
grid = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
grid.fit(X_train, y_train)

# Extraer los mejores parámetros
best_params = grid.best_params_
print("Mejores parámetros:", best_params)

Mejores parámetros: {'max_depth': 10, 'min_samples_split': 10}


## Paso 4: mostrar los resultados

In [5]:
# Mostrar resultados detallados
results_df = pd.DataFrame(grid.cv_results_)
results_df = results_df[['param_max_depth', 'param_min_samples_split', 'mean_test_score']]
results_df.sort_values(by='mean_test_score', ascending=False)

Unnamed: 0,param_max_depth,param_min_samples_split,mean_test_score
8,10,10,0.678019
7,10,5,0.665532
6,10,2,0.662309
4,5,5,0.615593
3,5,2,0.615312
5,5,10,0.614967
0,3,2,0.524227
1,3,5,0.524227
2,3,10,0.524227


## Interpretación

*  El mejor desempeño del modelo, medido por el promedio de R² en validación cruzada (mean_test_score), se obtuvo con la combinación max_depth = 10 y min_samples_split = 10, alcanzando un valor de 0.6780. Esto indica que, en promedio, el modelo fue capaz de explicar aproximadamente el 67.8 % de la variabilidad en los datos de validación.

* Se observa que aumentar la profundidad del árbol (hasta 10) mejora el rendimiento respecto a configuraciones más superficiales (max_depth = 3 o 5), lo que sugiere que el problema requiere una mayor capacidad de modelado para capturar relaciones no lineales en los datos.

* La configuración óptima también requiere que se realicen divisiones internas del árbol solo cuando haya al menos 10 muestras, lo cual puede ayudar a reducir el sobreajuste al evitar nodos muy específicos.

* Este procedimiento con GridSearchCV permite comparar de forma sistemática múltiples combinaciones de hiperparámetros y seleccionar la más adecuada con base en un criterio de desempeño validado. Es especialmente útil en contextos donde se busca maximizar la capacidad de generalización del modelo.