<a href="https://colab.research.google.com/github/apchavezr/16.-Aprendizaje-Profundo-para-Ciencia-de-Datos/blob/main/RandomSearch_CaliforniaHousing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Búsqueda aleatoria de hiperparámetros con RandomizedSearchCV

## Objetivo
Aplicar `RandomizedSearchCV` para ajustar hiperparámetros en un modelo de árbol de regresión utilizando el conjunto de datos California Housing.

In [1]:
# Importar librerías necesarias
from sklearn.datasets import fetch_california_housing
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from scipy.stats import randint
import pandas as pd

## Paso 1: cargar y dividir el conjunto de datos

In [2]:
# Cargar datos
X, y = fetch_california_housing(return_X_y=True)

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42)

## Paso 2: definir el modelo y el espacio de búsqueda aleatoria

In [3]:
# Modelo base
model = DecisionTreeRegressor(random_state=42)

# Espacio de búsqueda aleatoria
param_dist = {
    'max_depth': randint(3, 15),
    'min_samples_split': randint(2, 20)
}

## Paso 3: aplicar RandomizedSearchCV

In [4]:
# Configuración de la búsqueda aleatoria
random_search = RandomizedSearchCV(
    estimator=model,
    param_distributions=param_dist,
    n_iter=10,
    cv=5,
    random_state=42)

# Entrenar modelo
random_search.fit(X_train, y_train)

# Mostrar mejores parámetros
print("Mejores parámetros:", random_search.best_params_)

Mejores parámetros: {'max_depth': 9, 'min_samples_split': 16}


## Paso 4: visualizar los resultados

In [5]:
# Resultados ordenados por rendimiento
results_df = pd.DataFrame(random_search.cv_results_)
results_df = results_df[['param_max_depth', 'param_min_samples_split', 'mean_test_score']]
results_df.sort_values(by='mean_test_score', ascending=False)

Unnamed: 0,param_max_depth,param_min_samples_split,mean_test_score
0,9,16,0.687514
7,10,13,0.68153
8,8,3,0.680242
6,8,3,0.680242
3,12,12,0.66914
2,7,8,0.666595
5,10,4,0.663105
1,13,9,0.656814
4,13,5,0.639948
9,14,2,0.617529


## Interpretación
- `RandomizedSearchCV` permite explorar eficientemente un espacio amplio de combinaciones de hiperparámetros mediante muestreo aleatorio.
- Es especialmente útil cuando el número de combinaciones posibles es grande y se desea reducir el costo computacional.
- El mejor modelo es aquel que obtiene el mayor `mean_test_score`, el cual representa el promedio de R² en validación cruzada.