# B√∫squeda de Hiperpar√°metros con SGDRegressor

Este notebook realiza la b√∫squeda de hiperpar√°metros para un modelo SGDRegressor (Stochastic Gradient Descent Regressor) con las siguientes caracter√≠sticas:

- Carga de datos de entrenamiento desde archivos CSV
- B√∫squeda de hiperpar√°metros con Grid Search
- Validaci√≥n cruzada para evaluaci√≥n robusta
- Divisi√≥n para validaci√≥n (15% del conjunto de entrenamiento)
- Visualizaci√≥n de m√©tricas de regresi√≥n para los mejores modelos
- An√°lisis comparativo de los top 3 modelos

**Autor:** ML Engineer  
**Fecha:** 6 de Septiembre, 2025

## 1. Importar Librer√≠as Requeridas

Importar todas las librer√≠as necesarias para el an√°lisis, modelado y visualizaci√≥n.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import (
    GridSearchCV, 
    train_test_split, 
    cross_val_score, 
    StratifiedShuffleSplit
)
from sklearn.metrics import (
    mean_squared_error, 
    mean_absolute_error, 
    r2_score, 
    explained_variance_score,
    accuracy_score
)
from sklearn.preprocessing import StandardScaler
import joblib
from datetime import datetime
import os
import json

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

print("‚úì Librer√≠as importadas exitosamente!")
print(f"Pandas versi√≥n: {pd.__version__}")
print(f"NumPy versi√≥n: {np.__version__}")
print(f"Scikit-learn disponible para GridSearchCV y SGDRegressor")

‚úì Librer√≠as importadas exitosamente!
Pandas versi√≥n: 2.3.2
NumPy versi√≥n: 2.3.2
Scikit-learn disponible para GridSearchCV y SGDRegressor


## 2. Cargar Datos de Entrenamiento

Cargar las caracter√≠sticas y variables objetivo desde los archivos CSV generados en el proceso de preparaci√≥n de datos.

In [2]:
# Definir rutas de los archivos
X_train_path = '../data/train/X_train.csv'
y_train_path = '../data/train/y_train.csv'

print("CARGA DE DATOS DE ENTRENAMIENTO")
print("=" * 50)

# Cargar caracter√≠sticas (X_train)
try:
    X_train_full = pd.read_csv(X_train_path)
    print(f"‚úì Caracter√≠sticas cargadas desde: {X_train_path}")
    print(f"  ‚Ä¢ Forma: {X_train_full.shape}")
    print(f"  ‚Ä¢ Caracter√≠sticas: {X_train_full.shape[1]}")
except FileNotFoundError:
    raise FileNotFoundError(f"Archivo no encontrado: {X_train_path}")

# Cargar variable objetivo (y_train)
try:
    y_train_full = pd.read_csv(y_train_path)
    # Si es un DataFrame con una columna, convertir a Series
    if isinstance(y_train_full, pd.DataFrame):
        y_train_full = y_train_full.iloc[:, 0]
    print(f"‚úì Variable objetivo cargada desde: {y_train_path}")
    print(f"  ‚Ä¢ Forma: {y_train_full.shape}")
except FileNotFoundError:
    raise FileNotFoundError(f"Archivo no encontrado: {y_train_path}")

print(f"\n‚úì Datos cargados exitosamente!")
print(f"Total de registros: {len(X_train_full):,}")

CARGA DE DATOS DE ENTRENAMIENTO
‚úì Caracter√≠sticas cargadas desde: ../data/train/X_train.csv
  ‚Ä¢ Forma: (91199, 18)
  ‚Ä¢ Caracter√≠sticas: 18
‚úì Variable objetivo cargada desde: ../data/train/y_train.csv
  ‚Ä¢ Forma: (91199,)

‚úì Datos cargados exitosamente!
Total de registros: 91,199


## 3. Divisi√≥n para Validaci√≥n

Crear una divisi√≥n del 15% del conjunto de entrenamiento para validaci√≥n final.

In [3]:
# Divisi√≥n para validaci√≥n (15% del dataset)
print("DIVISI√ìN PARA VALIDACI√ìN")
print("=" * 50)

validation_size = 0.15
random_state = 42

# Realizar la divisi√≥n
X_train, X_val, y_train, y_val = train_test_split(
    X_train_full, 
    y_train_full, 
    test_size=validation_size, 
    random_state=random_state,
    shuffle=True
)

print(f"Divisi√≥n completada:")
print(f"  ‚Ä¢ Conjunto de entrenamiento: {len(X_train):,} registros ({(1-validation_size)*100:.0f}%)")
print(f"  ‚Ä¢ Conjunto de validaci√≥n: {len(X_val):,} registros ({validation_size*100:.0f}%)")

# Verificar las estad√≠sticas en ambos conjuntos
print(f"\nEstad√≠sticas del conjunto de entrenamiento:")
print(f"  ‚Ä¢ Media: {y_train.mean():.4f}")
print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {y_train.std():.4f}")
print(f"  ‚Ä¢ Rango: [{y_train.min()}, {y_train.max()}]")

print(f"\nEstad√≠sticas del conjunto de validaci√≥n:")
print(f"  ‚Ä¢ Media: {y_val.mean():.4f}")
print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {y_val.std():.4f}")
print(f"  ‚Ä¢ Rango: [{y_val.min()}, {y_val.max()}]")

print(f"\n‚úì Divisi√≥n completada exitosamente!")

DIVISI√ìN PARA VALIDACI√ìN
Divisi√≥n completada:
  ‚Ä¢ Conjunto de entrenamiento: 77,519 registros (85%)
  ‚Ä¢ Conjunto de validaci√≥n: 13,680 registros (15%)

Estad√≠sticas del conjunto de entrenamiento:
  ‚Ä¢ Media: 33.2631
  ‚Ä¢ Desviaci√≥n est√°ndar: 22.3362
  ‚Ä¢ Rango: [0, 100]

Estad√≠sticas del conjunto de validaci√≥n:
  ‚Ä¢ Media: 33.4199
  ‚Ä¢ Desviaci√≥n est√°ndar: 22.2555
  ‚Ä¢ Rango: [0, 100]

‚úì Divisi√≥n completada exitosamente!


## 5. Configuraci√≥n de B√∫squeda de Hiperpar√°metros

Definir la grilla de hiperpar√°metros y configurar GridSearchCV para SGDRegressor.

In [4]:
# Configuraci√≥n de la grilla de hiperpar√°metros para SGDRegressor
print("CONFIGURACI√ìN DE GRILLA DE HIPERPAR√ÅMETROS")
print("=" * 50)

# Definir la grilla de hiperpar√°metros
param_grid = {
    'loss': ['squared_error', 'huber', 'epsilon_insensitive', 'squared_epsilon_insensitive'],
    'penalty': ['l2', 'l1', 'elasticnet'],
    'alpha': [0.0001, 0.001, 0.01, 0.1, 1.0],  # Par√°metro de regularizaci√≥n
    'l1_ratio': [0.15, 0.5, 0.7, 0.9],  # Solo para elasticnet
    'learning_rate': ['constant', 'optimal', 'invscaling', 'adaptive'],
    'eta0': [0.001, 0.01, 0.1, 1.0],  # Tasa de aprendizaje inicial
    'max_iter': [1000, 5000, 10000]
}

print(f"Grilla de hiperpar√°metros definida:")
total_combinations = 1
for param, values in param_grid.items():
    print(f"  ‚Ä¢ {param}: {values}")
    total_combinations *= len(values)

print(f"\nTotal de combinaciones: {total_combinations:,}")
print(f"‚ö†Ô∏è Nota: Algunas combinaciones pueden no ser v√°lidas (ej: l1_ratio solo aplica para elasticnet)")

# Configurar validaci√≥n cruzada
cv_folds = 5
print(f"Validaci√≥n cruzada: {cv_folds} folds")
print(f"Estimaci√≥n de entrenamientos: ~{total_combinations * cv_folds // 4:,} (considerando combinaciones v√°lidas)")

CONFIGURACI√ìN DE GRILLA DE HIPERPAR√ÅMETROS
Grilla de hiperpar√°metros definida:
  ‚Ä¢ loss: ['squared_error', 'huber', 'epsilon_insensitive', 'squared_epsilon_insensitive']
  ‚Ä¢ penalty: ['l2', 'l1', 'elasticnet']
  ‚Ä¢ alpha: [0.0001, 0.001, 0.01, 0.1, 1.0]
  ‚Ä¢ l1_ratio: [0.15, 0.5, 0.7, 0.9]
  ‚Ä¢ learning_rate: ['constant', 'optimal', 'invscaling', 'adaptive']
  ‚Ä¢ eta0: [0.001, 0.01, 0.1, 1.0]
  ‚Ä¢ max_iter: [1000, 5000, 10000]

Total de combinaciones: 11,520
‚ö†Ô∏è Nota: Algunas combinaciones pueden no ser v√°lidas (ej: l1_ratio solo aplica para elasticnet)
Validaci√≥n cruzada: 5 folds
Estimaci√≥n de entrenamientos: ~14,400 (considerando combinaciones v√°lidas)


In [5]:
# Configurar GridSearchCV
print("CONFIGURACI√ìN DE GRIDSEARCHCV")
print("=" * 50)

# Crear el modelo base
sgd_model = SGDRegressor(random_state=42, tol=1e-3)

# Configurar GridSearchCV
grid_search = GridSearchCV(
    estimator=sgd_model,
    param_grid=param_grid,
    cv=cv_folds,
    scoring='neg_mean_squared_error',  # M√©trica principal para optimizaci√≥n
    n_jobs=-1,  # Usar todos los cores disponibles
    verbose=1,  # Mostrar progreso
    return_train_score=True,
    error_score='raise'  # Lanzar error si hay problemas
)

print(f"‚úì GridSearchCV configurado:")
print(f"  ‚Ä¢ Estimador: SGDRegressor")
print(f"  ‚Ä¢ M√©trica de scoring: neg_mean_squared_error")
print(f"  ‚Ä¢ Folds de CV: {cv_folds}")
print(f"  ‚Ä¢ Paralelizaci√≥n: Todos los cores disponibles")
print(f"  ‚Ä¢ Tolerancia: 1e-3")

print(f"\nüöÄ Listo para ejecutar b√∫squeda de hiperpar√°metros...")

CONFIGURACI√ìN DE GRIDSEARCHCV
‚úì GridSearchCV configurado:
  ‚Ä¢ Estimador: SGDRegressor
  ‚Ä¢ M√©trica de scoring: neg_mean_squared_error
  ‚Ä¢ Folds de CV: 5
  ‚Ä¢ Paralelizaci√≥n: Todos los cores disponibles
  ‚Ä¢ Tolerancia: 1e-3

üöÄ Listo para ejecutar b√∫squeda de hiperpar√°metros...


## 6. Ejecuci√≥n de B√∫squeda de Hiperpar√°metros

Ejecutar GridSearchCV para encontrar los mejores hiperpar√°metros.

In [6]:
# Ejecutar b√∫squeda de hiperpar√°metros
print("üîç INICIANDO B√öSQUEDA DE HIPERPAR√ÅMETROS")
print("=" * 50)
print(f"Inicio: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("Esto puede tomar varios minutos...\n")

# Ejecutar grid search
start_time = datetime.now()

try:
    grid_search.fit(X_train, y_train)
    end_time = datetime.now()
    duration = end_time - start_time
    
    print(f"\n‚úì B√∫squeda de hiperpar√°metros completada!")
    print(f"Tiempo total: {duration}")
    print(f"Fin: {end_time.strftime('%Y-%m-%d %H:%M:%S')}")
    
except Exception as e:
    print(f"\n‚ùå Error durante la b√∫squeda: {e}")
    print("Reintentando con configuraci√≥n m√°s conservadora...")
    
    # Configuraci√≥n m√°s conservadora si hay errores
    conservative_param_grid = {
        'loss': ['squared_error', 'huber'],
        'penalty': ['l2', 'l1'],
        'alpha': [0.001, 0.01, 0.1],
        'learning_rate': ['optimal', 'constant'],
        'eta0': [0.01, 0.1],
        'max_iter': [5000, 10000]
    }
    
    grid_search_conservative = GridSearchCV(
        estimator=sgd_model,
        param_grid=conservative_param_grid,
        cv=cv_folds,
        scoring='neg_mean_squared_error',
        n_jobs=-1,
        verbose=1,
        return_train_score=True
    )
    
    grid_search_conservative.fit(X_train, y_train)
    grid_search = grid_search_conservative  # Usar el resultado conservador
    end_time = datetime.now()
    duration = end_time - start_time
    
    print(f"\n‚úì B√∫squeda completada con configuraci√≥n conservadora!")
    print(f"Tiempo total: {duration}")

üîç INICIANDO B√öSQUEDA DE HIPERPAR√ÅMETROS
Inicio: 2025-09-06 13:06:59
Esto puede tomar varios minutos...

Fitting 5 folds for each of 11520 candidates, totalling 57600 fits


KeyboardInterrupt: 

In [None]:
# Analizar resultados de la b√∫squeda
print("RESULTADOS DE LA B√öSQUEDA DE HIPERPAR√ÅMETROS")
print("=" * 50)

# Mejores hiperpar√°metros
print(f"Mejores hiperpar√°metros encontrados:")
for param, value in grid_search.best_params_.items():
    print(f"  ‚Ä¢ {param}: {value}")

print(f"\nMejor score (CV): {-grid_search.best_score_:.6f} (MSE)")
print(f"RMSE del mejor modelo: {np.sqrt(-grid_search.best_score_):.6f}")

# Obtener el mejor modelo
best_model = grid_search.best_estimator_
print(f"\n‚úì Mejor modelo obtenido y listo para evaluaci√≥n")

# Informaci√≥n adicional sobre convergencia
print(f"\nInformaci√≥n del mejor modelo:")
print(f"  ‚Ä¢ Iteraciones hasta convergencia: {best_model.n_iter_}")
print(f"  ‚Ä¢ Coeficientes activos: {np.count_nonzero(best_model.coef_)} de {len(best_model.coef_)}")

## 7. An√°lisis de los Top 3 Modelos

Analizar y comparar las m√©tricas de los 3 mejores modelos encontrados.

In [None]:
# Obtener los top 3 modelos
print("AN√ÅLISIS DE LOS TOP 3 MODELOS")
print("=" * 50)

# Crear DataFrame con todos los resultados
results_df = pd.DataFrame(grid_search.cv_results_)

# Ordenar por mejor score y obtener top 3
top_3_results = results_df.nlargest(3, 'mean_test_score')

print(f"Top 3 configuraciones de hiperpar√°metros:")
print("=" * 40)

top_3_models = []
top_3_params = []

for i, (idx, row) in enumerate(top_3_results.iterrows(), 1):
    params = row['params']
    score = row['mean_test_score']
    std = row['std_test_score']
    
    print(f"\nModelo #{i}:")
    print(f"  MSE Score: {-score:.6f} (¬±{std:.6f})")
    print(f"  RMSE: {np.sqrt(-score):.6f}")
    print(f"  Par√°metros: {params}")
    
    # Crear y entrenar el modelo con estos par√°metros
    model = SGDRegressor(random_state=42, tol=1e-3, **params)
    model.fit(X_train_scaled, y_train)
    top_3_models.append(model)
    top_3_params.append(params)
    
    # Informaci√≥n adicional sobre el modelo
    print(f"  Iteraciones: {model.n_iter_}")
    print(f"  Coeficientes no-cero: {np.count_nonzero(model.coef_)}")

print(f"\n‚úì Top 3 modelos entrenados y listos para evaluaci√≥n")

## 8. Evaluaci√≥n de M√©tricas de Regresi√≥n

Calcular y comparar m√©tricas de regresi√≥n para los top 3 modelos en el conjunto de validaci√≥n.

In [None]:
# Calcular m√©tricas para los top 3 modelos
print("EVALUACI√ìN DE M√âTRICAS EN CONJUNTO DE VALIDACI√ìN")
print("=" * 50)

metrics_results = []

for i, model in enumerate(top_3_models, 1):
    # Predicciones en conjunto de validaci√≥n
    y_pred = model.predict(X_val_scaled)
    
    # Calcular m√©tricas de regresi√≥n
    mse = mean_squared_error(y_val, y_pred)
    mae = mean_absolute_error(y_val, y_pred)
    r2 = r2_score(y_val, y_pred)
    explained_var = explained_variance_score(y_val, y_pred)
    rmse = np.sqrt(mse)
    
    # Para accuracy, convertir predicciones a clases binarias
    # Asumiendo que la variable objetivo es binaria (0 o 1)
    y_pred_binary = (y_pred > 0.5).astype(int)
    y_val_binary = (y_val > 0.5).astype(int)
    accuracy = accuracy_score(y_val_binary, y_pred_binary)
    
    # Guardar resultados
    metrics = {
        'Modelo': f'Modelo #{i}',
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R¬≤': r2,
        'Explained Variance': explained_var,
        'Accuracy': accuracy,
        'Par√°metros': str(top_3_params[i-1])
    }
    metrics_results.append(metrics)
    
    print(f"\nModelo #{i} - M√©tricas en Validaci√≥n:")
    print(f"  ‚Ä¢ MSE: {mse:.6f}")
    print(f"  ‚Ä¢ RMSE: {rmse:.6f}")
    print(f"  ‚Ä¢ MAE: {mae:.6f}")
    print(f"  ‚Ä¢ R¬≤: {r2:.6f}")
    print(f"  ‚Ä¢ Explained Variance: {explained_var:.6f}")
    print(f"  ‚Ä¢ Accuracy: {accuracy:.6f}")
    
    # An√°lisis adicional de predicciones
    print(f"  ‚Ä¢ Rango de predicciones: [{y_pred.min():.3f}, {y_pred.max():.3f}]")
    print(f"  ‚Ä¢ Media de predicciones: {y_pred.mean():.3f}")

# Crear DataFrame con todas las m√©tricas
metrics_df = pd.DataFrame(metrics_results)
print(f"\n‚úì M√©tricas calculadas para todos los modelos")

## 9. Visualizaci√≥n de M√©tricas de Regresi√≥n

Crear gr√°ficos comparativos de las m√©tricas de regresi√≥n para los top 3 modelos.

In [None]:
# Crear visualizaciones de las m√©tricas
print("CREANDO VISUALIZACIONES DE M√âTRICAS")
print("=" * 50)

# Configurar el tama√±o de la figura
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Comparaci√≥n de M√©tricas de Regresi√≥n - Top 3 Modelos SGDRegressor', 
             fontsize=16, fontweight='bold')

# Definir m√©tricas para visualizar
metrics_to_plot = ['MSE', 'MAE', 'R¬≤', 'Explained Variance', 'Accuracy', 'RMSE']
colors = ['skyblue', 'lightcoral', 'lightgreen']

# Crear gr√°fico para cada m√©trica
for idx, metric in enumerate(metrics_to_plot):
    row = idx // 3
    col = idx % 3
    ax = axes[row, col]
    
    # Extraer valores de la m√©trica
    values = [metrics_results[i][metric] for i in range(3)]
    models = [f'Modelo #{i+1}' for i in range(3)]
    
    # Crear gr√°fico de barras
    bars = ax.bar(models, values, color=colors, alpha=0.7, edgecolor='black')
    
    # Configurar el gr√°fico
    ax.set_title(f'{metric}', fontsize=12, fontweight='bold')
    ax.set_ylabel(metric)
    ax.grid(True, alpha=0.3)
    
    # A√±adir valores en las barras
    for bar, value in zip(bars, values):
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height,
                f'{value:.4f}', ha='center', va='bottom', fontsize=10)
    
    # Ajustar l√≠mites para mejor visualizaci√≥n
    if metric in ['R¬≤', 'Explained Variance', 'Accuracy']:
        ax.set_ylim(min(0, min(values) * 1.1), max(1, max(values) * 1.1))
    else:
        ax.set_ylim(0, max(values) * 1.1)

plt.tight_layout()
plt.show()

print("‚úì Visualizaciones creadas exitosamente")

In [None]:
# Crear tabla comparativa de m√©tricas
print("TABLA COMPARATIVA DE M√âTRICAS")
print("=" * 50)

# Mostrar tabla con m√©tricas
display_df = metrics_df[['Modelo', 'MSE', 'RMSE', 'MAE', 'R¬≤', 'Explained Variance', 'Accuracy']].copy()

# Formatear n√∫meros para mejor lectura
for col in ['MSE', 'RMSE', 'MAE', 'R¬≤', 'Explained Variance', 'Accuracy']:
    display_df[col] = display_df[col].round(6)

print("Resumen de m√©tricas para los top 3 modelos:")
display(display_df)

# Identificar el mejor modelo para cada m√©trica
print("\nMejor modelo por m√©trica:")
print("-" * 30)
for metric in ['MSE', 'RMSE', 'MAE', 'R¬≤', 'Explained Variance', 'Accuracy']:
    if metric in ['MSE', 'RMSE', 'MAE']:  # Menor es mejor
        best_idx = display_df[metric].idxmin()
    else:  # Mayor es mejor
        best_idx = display_df[metric].idxmax()
    
    best_model = display_df.loc[best_idx, 'Modelo']
    best_value = display_df.loc[best_idx, metric]
    print(f"‚Ä¢ {metric}: {best_model} ({best_value:.6f})")

## 10. An√°lisis de Validaci√≥n Cruzada

Realizar validaci√≥n cruzada adicional en el mejor modelo para verificar su robustez.

In [None]:
# Validaci√≥n cruzada del mejor modelo
print("VALIDACI√ìN CRUZADA DEL MEJOR MODELO")
print("=" * 50)

best_model = top_3_models[0]  # El primer modelo ya es el mejor

# Definir m√©tricas para validaci√≥n cruzada
cv_metrics = {
    'neg_mean_squared_error': 'MSE',
    'neg_mean_absolute_error': 'MAE',
    'r2': 'R¬≤',
    'explained_variance': 'Explained Variance'
}

cv_results = {}

print(f"Realizando validaci√≥n cruzada con {cv_folds} folds...\n")

for scoring, metric_name in cv_metrics.items():
    scores = cross_val_score(best_model, X_train_scaled, y_train, 
                           cv=cv_folds, scoring=scoring)
    
    # Para m√©tricas negativas, convertir a positivas
    if 'neg_' in scoring:
        scores = -scores
    
    cv_results[metric_name] = scores
    
    print(f"{metric_name}:")
    print(f"  ‚Ä¢ Media: {scores.mean():.6f}")
    print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {scores.std():.6f}")
    print(f"  ‚Ä¢ Rango: [{scores.min():.6f}, {scores.max():.6f}]")
    print(f"  ‚Ä¢ Coeficiente de variaci√≥n: {(scores.std()/scores.mean())*100:.2f}%")
    print()

# Evaluar estabilidad del modelo
stability_score = np.mean([cv_results[m].std() for m in cv_results])
print(f"‚úì Validaci√≥n cruzada completada")
print(f"Puntuaci√≥n de estabilidad promedio: {stability_score:.6f}")
print(f"El modelo muestra {'alta' if stability_score < 0.05 else 'moderada' if stability_score < 0.1 else 'baja'} estabilidad")

## 11. An√°lisis de Predicciones vs Valores Reales

Crear visualizaciones para comparar predicciones vs valores reales.

In [None]:
# An√°lisis de predicciones vs valores reales
print("AN√ÅLISIS DE PREDICCIONES VS VALORES REALES")
print("=" * 50)

# Crear figura con subplots para los 3 modelos
fig, axes = plt.subplots(1, 3, figsize=(18, 6))
fig.suptitle('Predicciones vs Valores Reales - Top 3 Modelos SGDRegressor', 
             fontsize=16, fontweight='bold')

for i, model in enumerate(top_3_models):
    ax = axes[i]
    
    # Hacer predicciones
    y_pred = model.predict(X_val_scaled)
    
    # Crear scatter plot
    ax.scatter(y_val, y_pred, alpha=0.6, color=colors[i])
    
    # L√≠nea perfecta (y = x)
    min_val = min(y_val.min(), y_pred.min())
    max_val = max(y_val.max(), y_pred.max())
    ax.plot([min_val, max_val], [min_val, max_val], 'r--', lw=2, label='Predicci√≥n perfecta')
    
    # Configurar el gr√°fico
    ax.set_xlabel('Valores Reales')
    ax.set_ylabel('Predicciones')
    ax.set_title(f'Modelo #{i+1}\nR¬≤ = {r2_score(y_val, y_pred):.4f}')
    ax.grid(True, alpha=0.3)
    ax.legend()
    
    # A√±adir l√≠nea de tendencia
    z = np.polyfit(y_val, y_pred, 1)
    p = np.poly1d(z)
    ax.plot(y_val, p(y_val), "b--", alpha=0.8, label=f'Tendencia (m={z[0]:.3f})')
    ax.legend()

plt.tight_layout()
plt.show()

print("‚úì Gr√°ficos de predicciones vs valores reales creados")

In [None]:
# An√°lisis de residuos para el mejor modelo
print("AN√ÅLISIS DE RESIDUOS DEL MEJOR MODELO")
print("=" * 50)

best_model = top_3_models[0]
y_pred_best = best_model.predict(X_val_scaled)
residuals = y_val - y_pred_best

# Crear figura con an√°lisis de residuos
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('An√°lisis de Residuos - Mejor Modelo SGDRegressor', fontsize=16, fontweight='bold')

# 1. Residuos vs Predicciones
axes[0, 0].scatter(y_pred_best, residuals, alpha=0.6)
axes[0, 0].axhline(y=0, color='r', linestyle='--')
axes[0, 0].set_xlabel('Predicciones')
axes[0, 0].set_ylabel('Residuos')
axes[0, 0].set_title('Residuos vs Predicciones')
axes[0, 0].grid(True, alpha=0.3)

# 2. Histograma de residuos
axes[0, 1].hist(residuals, bins=30, alpha=0.7, edgecolor='black')
axes[0, 1].set_xlabel('Residuos')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].set_title('Distribuci√≥n de Residuos')
axes[0, 1].grid(True, alpha=0.3)

# 3. Q-Q plot de residuos
from scipy import stats
stats.probplot(residuals, dist="norm", plot=axes[1, 0])
axes[1, 0].set_title('Q-Q Plot de Residuos')
axes[1, 0].grid(True, alpha=0.3)

# 4. Residuos vs Valores Reales
axes[1, 1].scatter(y_val, residuals, alpha=0.6)
axes[1, 1].axhline(y=0, color='r', linestyle='--')
axes[1, 1].set_xlabel('Valores Reales')
axes[1, 1].set_ylabel('Residuos')
axes[1, 1].set_title('Residuos vs Valores Reales')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estad√≠sticas de residuos
print(f"Estad√≠sticas de residuos:")
print(f"  ‚Ä¢ Media: {residuals.mean():.6f}")
print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {residuals.std():.6f}")
print(f"  ‚Ä¢ Sesgo: {stats.skew(residuals):.6f}")
print(f"  ‚Ä¢ Curtosis: {stats.kurtosis(residuals):.6f}")
print(f"  ‚Ä¢ Test de normalidad (Shapiro-Wilk): {stats.shapiro(residuals.sample(min(5000, len(residuals))))[1]:.6f}")

## 12. Guardar Resultados y Modelos

Guardar el mejor modelo y los resultados de la b√∫squeda de hiperpar√°metros.

In [None]:
# Guardar resultados y modelos
print("GUARDANDO RESULTADOS Y MODELOS")
print("=" * 50)

# Crear directorio para resultados
results_dir = '../models/sgdregressor_results'
os.makedirs(results_dir, exist_ok=True)

# Guardar el scaler (muy importante para SGDRegressor)
scaler_path = os.path.join(results_dir, 'feature_scaler.joblib')
joblib.dump(scaler, scaler_path)
print(f"‚úì Scaler guardado: {scaler_path}")

# Guardar el mejor modelo
best_model_path = os.path.join(results_dir, 'best_sgdregressor_model.joblib')
joblib.dump(best_model, best_model_path)
print(f"‚úì Mejor modelo guardado: {best_model_path}")

# Guardar todos los top 3 modelos
for i, model in enumerate(top_3_models, 1):
    model_path = os.path.join(results_dir, f'top_{i}_model.joblib')
    joblib.dump(model, model_path)
    print(f"‚úì Modelo #{i} guardado: {model_path}")

# Guardar resultados de grid search
grid_results_path = os.path.join(results_dir, 'grid_search_results.joblib')
joblib.dump(grid_search, grid_results_path)
print(f"‚úì Resultados de Grid Search guardados: {grid_results_path}")

# Guardar m√©tricas en CSV
metrics_path = os.path.join(results_dir, 'model_metrics.csv')
metrics_df.to_csv(metrics_path, index=False)
print(f"‚úì M√©tricas guardadas: {metrics_path}")

# Crear resumen del experimento
experiment_summary = {
    'timestamp': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'algorithm': 'SGDRegressor',
    'original_dataset_size': len(X_train_full),
    'training_size': len(X_train),
    'validation_size': len(X_val),
    'features_count': X_train.shape[1],
    'cv_folds': cv_folds,
    'scaling_applied': 'StandardScaler',
    'best_params': grid_search.best_params_,
    'best_cv_score': float(grid_search.best_score_),
    'best_model_iterations': int(best_model.n_iter_),
    'search_duration': str(duration),
    'validation_metrics': {
        'mse': float(metrics_results[0]['MSE']),
        'rmse': float(metrics_results[0]['RMSE']),
        'mae': float(metrics_results[0]['MAE']),
        'r2': float(metrics_results[0]['R¬≤']),
        'explained_variance': float(metrics_results[0]['Explained Variance']),
        'accuracy': float(metrics_results[0]['Accuracy'])
    }
}

summary_path = os.path.join(results_dir, 'experiment_summary.json')
with open(summary_path, 'w') as f:
    json.dump(experiment_summary, f, indent=2)
print(f"‚úì Resumen del experimento guardado: {summary_path}")

## 13. Resumen Final

Resumen completo del experimento de b√∫squeda de hiperpar√°metros.

In [None]:
# Resumen final del experimento
print("üéâ EXPERIMENTO DE B√öSQUEDA DE HIPERPAR√ÅMETROS COMPLETADO")
print("=" * 60)

print(f"üìä ESTAD√çSTICAS DEL EXPERIMENTO:")
print(f"  ‚Ä¢ Algoritmo utilizado: SGDRegressor")
print(f"  ‚Ä¢ Dataset original: {len(X_train_full):,} registros")
print(f"  ‚Ä¢ Conjunto de entrenamiento: {len(X_train):,} registros")
print(f"  ‚Ä¢ Conjunto de validaci√≥n: {len(X_val):,} registros")
print(f"  ‚Ä¢ N√∫mero de caracter√≠sticas: {X_train.shape[1]}")
print(f"  ‚Ä¢ Escalado aplicado: StandardScaler")

print(f"\nüîç B√öSQUEDA DE HIPERPAR√ÅMETROS:")
print(f"  ‚Ä¢ Folds de validaci√≥n cruzada: {cv_folds}")
print(f"  ‚Ä¢ Tiempo total de b√∫squeda: {duration}")
print(f"  ‚Ä¢ Mejor convergencia: {best_model.n_iter_} iteraciones")

print(f"\nüèÜ MEJORES RESULTADOS:")
print(f"  ‚Ä¢ Mejores hiperpar√°metros: {grid_search.best_params_}")
print(f"  ‚Ä¢ Mejor CV Score (MSE): {-grid_search.best_score_:.6f}")
print(f"  ‚Ä¢ RMSE del mejor modelo: {np.sqrt(-grid_search.best_score_):.6f}")

# Mostrar las mejores m√©tricas en validaci√≥n
best_metrics = metrics_results[0]
print(f"\nüìà M√âTRICAS EN VALIDACI√ìN (MEJOR MODELO):")
print(f"  ‚Ä¢ MSE: {best_metrics['MSE']:.6f}")
print(f"  ‚Ä¢ RMSE: {best_metrics['RMSE']:.6f}")
print(f"  ‚Ä¢ MAE: {best_metrics['MAE']:.6f}")
print(f"  ‚Ä¢ R¬≤: {best_metrics['R¬≤']:.6f}")
print(f"  ‚Ä¢ Explained Variance: {best_metrics['Explained Variance']:.6f}")
print(f"  ‚Ä¢ Accuracy: {best_metrics['Accuracy']:.6f}")

print(f"\nüîß CARACTER√çSTICAS DEL MODELO:")
print(f"  ‚Ä¢ Coeficientes activos: {np.count_nonzero(best_model.coef_)} de {len(best_model.coef_)}")
print(f"  ‚Ä¢ Algoritmo de optimizaci√≥n: Stochastic Gradient Descent")
print(f"  ‚Ä¢ Funci√≥n de p√©rdida: {best_model.loss}")
print(f"  ‚Ä¢ Regularizaci√≥n: {best_model.penalty}")

print(f"\nüíæ ARCHIVOS GENERADOS:")
print(f"  ‚Ä¢ Scaler: {scaler_path}")
print(f"  ‚Ä¢ Mejor modelo: {best_model_path}")
print(f"  ‚Ä¢ Top 3 modelos: {results_dir}/top_*_model.joblib")
print(f"  ‚Ä¢ Resultados completos: {grid_results_path}")
print(f"  ‚Ä¢ M√©tricas: {metrics_path}")
print(f"  ‚Ä¢ Resumen: {summary_path}")

print(f"\n‚úÖ Experimento completado exitosamente!")
print(f"‚úÖ El modelo SGDRegressor est√° optimizado y listo para implementaci√≥n!")
print(f"‚ö†Ô∏è Recordatorio: Usar el scaler guardado para preprocessar nuevos datos")