In [None]:
import pandas as pd

import itertools
import random

from joblib import Parallel, delayed, dump
import multiprocessing
import logging
import sys
import warnings
import time

from sklearn.pipeline import Pipeline
from sklearn.metrics import get_scorer
from xgboost import XGBRegressor
from sklearn.neural_network import MLPRegressor
import numpy as np
from sklearn.ensemble import RandomForestRegressor

**La siguiente celda sirve para ver la cantidad de n√∫cleos en la CPU**, para que sepan en cuantos trabajos dividir las tareas. La idea es realizar tantos procesos paralelos como n√∫cleos tenga nuestra CPU (el dataset es chico, asique dudo que haya problemas con la RAM, pero si nos quedamos sin RAM, hay que paralelizar en menos procesos que la cantidad de n√∫cleos, o no hacerlo en absoluto). Esto es para que podamos hacer b√∫squedas m√°s exhaustivas en menos tiempo. Entiendo que scikit-learn no aprovecha GPU (seg√∫n chat GPT), pero XGBoost si üëÄ (@fede, pero si lo quer√©s aprovechar tendr√≠as que cambiar la funci√≥n, e indicarlo en un argumento al instanciar la clase$^1$).

$^1$ no entiendo mucho de GPUs, capaz vos entend√©s m√°s pero comparto lo que le√≠ por si sirve.

In [2]:
print(f"Available CPU cores: {multiprocessing.cpu_count()}")

Available CPU cores: 4


## Funci√≥n para entrenar y evaluar

In [3]:
def optimizador_hiperparametros(nombre, config, X_train, y_train, X_val, y_val, nombre_dataset, metrica,
                                busqueda='random', random_state=42, n_iter=20, n_jobs=1):
    """
    Funci√≥n para optimizar los hiperpar√°metros de un modelo dado sobre el conjunto
    entrenamiento. La evaluaci√≥n para decidir el mejor modelo se realiza sobre el conjunto de validaci√≥n
    (no se hace cross validation). La b√∫squeda en el espacio dehiperpar√°metros puede realizarse con random
    search o grid search.
    
    Esta funci√≥n trabaja con clases de modelos de sklearn, xgboost o similares (deben soportar los m√©todos
    fit y predict).
    
    Se exporta el mejor modelo obtenido con el nombre en './{nombre}_{nombre_dataset}.joblib'.
    
    La funci√≥n devuelve el mejor modelo obtenido en la b√∫squeda realizada, sus hiperpar√°metros su score
    obtenido.
    
    Se tiene opci√≥n de paralelizar los entrenamientos en los n√∫cleos de la CPU.
    
    Pa√°metros:
    ----------
        nombre : str
            nombre con el que se identifica al modelo. Se utilizar√° en el nombre de la variables
            
        config : dict
            Diccionario con la configuraci√≥n del modelo. Debe tener los siguientes pares de clave - valor:
                - 'modelo' : Instancia b√°sica del modelo a probar. Debe ser un objeto de sklearn, xgboost o
                alguna librer√≠a af√≠n.
                'params' : diccionario. Sus claves son los nombres de los hiperpar√°metros (dados en la
                documentaci√≥n de la clase de clasificador / regresor que se utilice) y sus valores
                corresponden a listas con los rangos o valores a ensayar.
                    
        X_train : pandas.DataFrame
            Dataframe del conjunto entrenamiento (sin variable objetivo).
        y_train : pandas.DataFrame | pandas.Serie
            Dataframe con los valores de la variable objetivo del conjunto de entrenamiento.
        X_val : pandas.DataFrame
            Dataframe con las muestras del conjunto de validaci√≥n (sin variable objetivo).
        y_val : pandas.DataFrame | pandas.Serie
            Dataframe con los valores de la variable objetivo del conjunto de validaci√≥n.
            
        nombre_dataset : str
            Nombre con el que se identifica al dataset. Se utilizar√° como sufijo en el nombre final del modelo
            para identificar con qu√© dataset se entren√≥.
            
        metrica : str
            M√©trica a utilizar. Consultar opciones v√°lidas en
            https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-string-names. Esta funci√≥n
            utiliza m√©tricas negativas.
            
        busqueda : str, default='random'
            La forma en que se realizar√° la b√∫squeda de hiperpar√°metros √≥ptimos en el espacio de
            hiperpar√°metros. Opciones:
                - 'random' : random search
                - 'grid' : grid search.
                
        random_state : int, default=42
            Valor semilla para la elecci√≥n aleatoria en caso de usar random search.
            Se fija para reproducibilidad.
            
        n_iter : int, default=20
            Cantidad m√°xima de combinaciones de valores de hiperpar√°metros a probar en caso de que se use random
            search.
            
        n_jobs : int, default=1
            Cantidad de trabajos a correr en paralelo.
            
    Devuelve:
    ---------
        best_model : sklearn | xgboost model
            M√≥delo con hiperpar√°metros √≥ptimos seg√∫n b√∫squeda realizada.
        
        best_params : dict
            Diccionario con pares clave - valor dados por los nombres de los hiperpar√°metros ingresados en
            config['params'] y sus valores √≥ptimos.
            
        best_score : float
            Score obtenido por el modelo √≥ptimo (valor de la m√©trica sobre X_test).
    """
    start_time = time.time()
    print(f"üöÄ Iniciando entrenamiento para: {nombre}")
    
    scorer = get_scorer(metrica)
    
    param_space = config["params"]
    all_param_combinations = list(itertools.product(*param_space.values()))
    param_keys = list(param_space.keys())
    
    total_combinations = 1
    for v in param_space.values():
        total_combinations *= len(v)
    n_iter_ajustado = min(8, total_combinations)

    # Random o grid
    if busqueda == 'grid':
        candidates = all_param_combinations
    elif busqueda == 'random':
        random.seed(random_state)
        candidates = random.sample(all_param_combinations,
                                   min(n_iter, len(all_param_combinations)))
    else:
        raise ValueError("busqueda debe ser 'random' o 'grid'.")
        
    # Funci√≥n auxiliar para entrenar y evaluar un modelo
    def _fit_and_score(params):
        param_dict = dict(zip(param_keys, params))
        pipeline = Pipeline([('clf', config["modelo"].set_params(**param_dict))])
        pipeline.fit(X_train, y_train)
        score = scorer(pipeline, X_val, y_val)
        return param_dict, score, pipeline
    
    # Paralelizar entrenamiento
    results = Parallel(n_jobs=n_jobs)(
        delayed(_fit_and_score)(params) for params in candidates
    )
        
    # Seleccionar el mejor
    best_params, best_score, best_model = max(results, key=lambda x: x[1])
    best_score = -best_score
            
    print(f"‚úÖ {nombre}: b√∫squeda finalizada.")
    print(f"üèÜ Mejor score en validaci√≥n: {best_score:.4f}")
    print(f"üìå Mejores hiperpar√°metros: {best_params}")

    elapsed = time.time() - start_time
    print(f"‚è±Ô∏è Tiempo entrenando {nombre}: {elapsed:.2f} segundos")

    # Guardar modelo
    dump(best_model, f"./models/{nombre}_{nombre_dataset}.joblib")

    return best_model, best_params, best_score

## Importo datasets

In [4]:
## Importamos los datasets A

# Etiquetas
y_A_train = pd.read_csv("./A_sets/y_train_inicial.csv")
y_A_test = pd.read_csv("./A_sets/y_test_inicial.csv")
# Datos escaleados
X_A_train_scaled = pd.read_csv("./A_sets/x_A_train_norm.csv")
X_A_test_scaled = pd.read_csv("./A_sets/x_A_test_norm.csv")
# Datos estandarizados
X_A_train_std = pd.read_csv("./A_sets/x_A_train_std.csv")
X_A_test_std = pd.read_csv("./A_sets/x_A_test_std.csv")

In [5]:
## Importamos los datasets B

# Etiquetas
y_B_train = pd.read_csv("./B_sets/y_train_inicial.csv")
y_B_test = pd.read_csv("./B_sets/y_test_inicial.csv")
# Datos escaleados
X_B_train_scaled = pd.read_csv("./B_sets/x_B_train_norm.csv")
X_B_test_scaled = pd.read_csv("./B_sets/x_B_test_norm.csv")
# Datos estandarizados
X_B_train_std = pd.read_csv("./B_sets/x_B_train_std.csv")
X_B_test_std = pd.read_csv("./B_sets/x_B_test_std.csv")

In [6]:
## Defino diccinario para iterar sobre los datasets

datasets_dict = {
    'A_scaled' : {'x_train':X_A_train_scaled, 'y_train':y_A_train, 'x_test':X_A_test_scaled, 'y_test':y_A_test},
    'A_std' : {'x_train':X_A_train_std, 'y_train':y_A_train, 'x_test':X_A_test_std, 'y_test':y_A_test},
    'B_scaled' : {'x_train':X_B_train_scaled, 'y_train':y_B_train, 'x_test':X_B_test_scaled, 'y_test':y_B_test},
    'B_std' : {'x_train':X_B_train_std, 'y_train':y_B_train, 'x_test':X_B_test_std, 'y_test':y_B_test},
}

---
## Ejemplos de uso

### Regresi√≥n polinomial

In [7]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import numpy as np

polynomial_reg_config = {
    "modelo": Pipeline([
        ("poly", PolynomialFeatures()),
        ("linreg", LinearRegression())
    ]),
    "params": {
        "poly__degree": np.arange(1, 3),
        "poly__interaction_only": [True, False],
        "poly__include_bias": [True, False],
        "linreg__positive": [True, False]
    }
}

In [8]:
resultados = {}

for set_conjuntos, set_dict in datasets_dict.items():
    print(f'====================\nDataset {set_conjuntos}\n====================')
    best_model, best_params, best_score = optimizador_hiperparametros(nombre='Regresor_Polinomico',
                                                                      config=polynomial_reg_config,
                                                                      X_train=set_dict['x_train'],
                                                                      y_train=set_dict['y_train'],
                                                                      X_val=set_dict['x_test'],
                                                                      y_val=set_dict['y_test'],
                                                                      nombre_dataset=set_conjuntos,
                                                                      metrica='neg_root_mean_squared_error',
                                                                      busqueda='random',
                                                                      random_state=42,
                                                                      n_iter=20,
                                                                      n_jobs=4)
    resultados[set_conjuntos] = {'mejor_modelo' : best_model,
                                 'mejores_params' : best_params,
                                 'mejor_score' : best_score
                                }
    print("\n")

Dataset A_scaled
üöÄ Iniciando entrenamiento para: Regresor_Polinomico


‚úÖ Regresor_Polinomico: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 10.4708
üìå Mejores hiperpar√°metros: {'poly__degree': np.int64(1), 'poly__interaction_only': True, 'poly__include_bias': False, 'linreg__positive': False}
‚è±Ô∏è Tiempo entrenando Regresor_Polinomico: 6.26 segundos


Dataset A_std
üöÄ Iniciando entrenamiento para: Regresor_Polinomico
‚úÖ Regresor_Polinomico: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 10.4708
üìå Mejores hiperpar√°metros: {'poly__degree': np.int64(1), 'poly__interaction_only': True, 'poly__include_bias': True, 'linreg__positive': False}
‚è±Ô∏è Tiempo entrenando Regresor_Polinomico: 0.81 segundos


Dataset B_scaled
üöÄ Iniciando entrenamiento para: Regresor_Polinomico
‚úÖ Regresor_Polinomico: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 10.5060
üìå Mejores hiperpar√°metros: {'poly__degree': np.int64(1), 'poly__interaction_only': True, 'poly__include_bias': False, 'linreg__positive': False}
‚è±Ô∏è Tiempo entrenando 

---
### LASSO

In [28]:
from sklearn.linear_model import Lasso
import numpy as np

lasso_config = {
    "modelo": Pipeline([
        ("poly", PolynomialFeatures()),
        ("linreg", Lasso(random_state=42))
    ]),
    "params": {
        "poly__degree": np.arange(1, 6),
        "poly__interaction_only": [True, False],
        "poly__include_bias": [True, False],
        "linreg__positive": [True, False],
        "linreg__alpha": np.logspace(-4, 4, num=9, base=10)
    }
}

In [29]:
resultados = {}

for set_conjuntos, set_dict in datasets_dict.items():
    print(f'====================\nDataset {set_conjuntos}\n====================')
    best_model, best_params, best_score = optimizador_hiperparametros(nombre='LASSO',
                                                                      config=lasso_config,
                                                                      X_train=set_dict['x_train'],
                                                                      y_train=set_dict['y_train'],
                                                                      X_val=set_dict['x_test'],
                                                                      y_val=set_dict['y_test'],
                                                                      nombre_dataset=set_conjuntos,
                                                                      metrica='neg_root_mean_squared_error',
                                                                      busqueda='random',
                                                                      random_state=42,
                                                                      n_iter=20,
                                                                      n_jobs=4)
    resultados[set_conjuntos] = {'mejor_modelo' : best_model,
                                 'mejores_params' : best_params,
                                 'mejor_score' : best_score
                                }
    print("\n")

Dataset A_scaled
üöÄ Iniciando entrenamiento para: LASSO


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


‚úÖ LASSO: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 10.4202
üìå Mejores hiperpar√°metros: {'poly__degree': np.int64(1), 'poly__interaction_only': False, 'poly__include_bias': True, 'linreg__positive': False, 'linreg__alpha': np.float64(0.01)}
‚è±Ô∏è Tiempo entrenando LASSO: 376.89 segundos


Dataset A_std
üöÄ Iniciando entrenamiento para: LASSO


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


KeyboardInterrupt: 

---

### XGBoost

#### Uso con XGBoost (espacio reducido, pruebas r√°pidas)

In [30]:
xgboost_reducido_config = {
    "modelo": XGBRegressor(
        objective="reg:squarederror",
        random_state=42,
        n_jobs=1,
        verbosity=0
    ),
    "params": {
        "n_estimators": [100, 200],
        "max_depth": [3, 5],
        "learning_rate": [0.05, 0.1]
    }
}

In [31]:
resultados = {}

for set_conjuntos, set_dict in datasets_dict.items():
    print(f'====================\nDataset {set_conjuntos}\n====================')
    best_model, best_params, best_score = optimizador_hiperparametros(nombre='XGBoost',
                                                                      config=xgboost_reducido_config,
                                                                      X_train=set_dict['x_train'],
                                                                      y_train=set_dict['y_train'],
                                                                      X_val=set_dict['x_test'],
                                                                      y_val=set_dict['y_test'],
                                                                      nombre_dataset=set_conjuntos,
                                                                      metrica='neg_root_mean_squared_error',
                                                                      busqueda='random',
                                                                      random_state=42,
                                                                      n_iter=20,
                                                                      n_jobs=4)
    resultados[set_conjuntos] = {'mejor_modelo': best_model,
                                 'mejores_params': best_params,
                                 'mejor_score': best_score
                                }
    print("\n")

Dataset A_scaled
üöÄ Iniciando entrenamiento para: XGBoost


‚úÖ XGBoost: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.8887
üìå Mejores hiperpar√°metros: {'n_estimators': 200, 'max_depth': 3, 'learning_rate': 0.1}
‚è±Ô∏è Tiempo entrenando XGBoost: 6.22 segundos


Dataset A_std
üöÄ Iniciando entrenamiento para: XGBoost
‚úÖ XGBoost: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.8887
üìå Mejores hiperpar√°metros: {'n_estimators': 200, 'max_depth': 3, 'learning_rate': 0.1}
‚è±Ô∏è Tiempo entrenando XGBoost: 1.69 segundos


Dataset B_scaled
üöÄ Iniciando entrenamiento para: XGBoost
‚úÖ XGBoost: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 7.1646
üìå Mejores hiperpar√°metros: {'n_estimators': 200, 'max_depth': 3, 'learning_rate': 0.05}
‚è±Ô∏è Tiempo entrenando XGBoost: 1.69 segundos


Dataset B_std
üöÄ Iniciando entrenamiento para: XGBoost
‚úÖ XGBoost: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 7.1646
üìå Mejores hiperpar√°metros: {'n_estimators': 200, 'max_depth': 3, 'learning_rate': 0.05}
‚è±Ô∏è Tie

#### Uso con XGBoost (espacio completo)

In [32]:
from xgboost import XGBRegressor

xgboost_config = {
    "modelo": XGBRegressor(
        objective="reg:squarederror",
        random_state=42,
        n_jobs=1,  # el paralelismo lo controla la funci√≥n externa
        verbosity=0
    ),
    "params": {
        "n_estimators": [100, 200, 300],
        "max_depth": [3, 5, 7, 9],
        "learning_rate": [0.01, 0.05, 0.1, 0.2],
        "subsample": [0.6, 0.8, 1.0],
        "colsample_bytree": [0.6, 0.8, 1.0],
        "reg_alpha": [0, 0.1, 1, 10],   # L1 regularization
        "reg_lambda": [1, 10, 50]       # L2 regularization
    }
}

In [33]:
resultados = {}

for set_conjuntos, set_dict in datasets_dict.items():
    print(f'====================\nDataset {set_conjuntos}\n====================')
    best_model, best_params, best_score = optimizador_hiperparametros(nombre='XGBoost',
                                                                      config=xgboost_config,
                                                                      X_train=set_dict['x_train'],
                                                                      y_train=set_dict['y_train'],
                                                                      X_val=set_dict['x_test'],
                                                                      y_val=set_dict['y_test'],
                                                                      nombre_dataset=set_conjuntos,
                                                                      metrica='neg_root_mean_squared_error',
                                                                      busqueda='random',
                                                                      random_state=42,
                                                                      n_iter=20,
                                                                      n_jobs=4)
    resultados[set_conjuntos] = {'mejor_modelo': best_model,
                                 'mejores_params': best_params,
                                 'mejor_score': best_score
                                }
    print("\n")


Dataset A_scaled
üöÄ Iniciando entrenamiento para: XGBoost
‚úÖ XGBoost: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.3140
üìå Mejores hiperpar√°metros: {'n_estimators': 100, 'max_depth': 7, 'learning_rate': 0.1, 'subsample': 0.8, 'colsample_bytree': 1.0, 'reg_alpha': 0.1, 'reg_lambda': 1}
‚è±Ô∏è Tiempo entrenando XGBoost: 8.45 segundos


Dataset A_std
üöÄ Iniciando entrenamiento para: XGBoost
‚úÖ XGBoost: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.3140
üìå Mejores hiperpar√°metros: {'n_estimators': 100, 'max_depth': 7, 'learning_rate': 0.1, 'subsample': 0.8, 'colsample_bytree': 1.0, 'reg_alpha': 0.1, 'reg_lambda': 1}
‚è±Ô∏è Tiempo entrenando XGBoost: 8.58 segundos


Dataset B_scaled
üöÄ Iniciando entrenamiento para: XGBoost
‚úÖ XGBoost: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.3687
üìå Mejores hiperpar√°metros: {'n_estimators': 100, 'max_depth': 5, 'learning_rate': 0.1, 'subsample': 0.8, 'colsample_bytree': 1.0, 'reg_alpha': 0.1, 'reg_lam

---
### Red Neuronal

In [None]:

red_neuronal_config = {
    "modelo": MLPRegressor(random_state=42, max_iter=1000),
    "params": {
        "hidden_layer_sizes": [(32,), (64,), (64, 32), (64, 32, 16), (128, 64, 32, 16), (128, 64, 32)],
        "activation": ["relu"],
        "solver": ["adam"],
    }
}

In [None]:
resultados_nn = {}

for set_conjuntos, set_dict in datasets_dict.items():
    print(f'====================\nDataset {set_conjuntos}\n====================')
    # Convertimos y a 1D para evitar el warning
    y_train = set_dict['y_train'].values.ravel()
    y_test = set_dict['y_test'].values.ravel()
    best_model_nn, best_params_nn, best_score_nn = optimizador_hiperparametros(nombre='Neural_Network',
                                                                      config=red_neuronal_config,
                                                                      X_train=set_dict['x_train'],
                                                                      y_train=set_dict['y_train'],
                                                                      X_val=set_dict['x_test'],
                                                                      y_val=set_dict['y_test'],
                                                                      nombre_dataset=set_conjuntos,
                                                                      metrica='neg_root_mean_squared_error',
                                                                      busqueda='grid',
                                                                      random_state=42,
                                                                      n_iter=20,
                                                                      n_jobs=multiprocessing.cpu_count())
    resultados_nn[set_conjuntos] = {'mejor_modelo' : best_model_nn,
                                 'mejores_params' : best_params_nn,
                                 'mejor_score' : best_score_nn
                                }
    print("\n")

---
### Random Forest

In [None]:

rf_config = {
    "modelo": RandomForestRegressor(random_state=42),
    "params": {
        "n_estimators": [100, 500, 800],
        "max_depth": [None, 5, 10],
        "min_samples_split": [2, 5, 10],
    }
}

In [12]:
resultados = {}

for set_conjuntos, set_dict in datasets_dict.items():
    print(f'====================\nDataset {set_conjuntos}\n====================')
    best_model, best_params, best_score = optimizador_hiperparametros(
                                              nombre='RandomForest',
                                              config=rf_config,
                                              X_train=set_dict['x_train'],
                                              y_train=set_dict['y_train'].values.ravel(),
                                              X_val=set_dict['x_test'],
                                              y_val=set_dict['y_test'].values.ravel(),
                                              nombre_dataset=set_conjuntos,
                                              metrica='neg_root_mean_squared_error',
                                              busqueda='grid',   # grid para probar todas las combinaciones
                                              random_state=42,
                                              n_iter=20,
                                              n_jobs=4)
    resultados[set_conjuntos] = {
        'mejor_modelo' : best_model,
        'mejores_params' : best_params,
        'mejor_score' : best_score
    }
    print("\n")

Dataset A_scaled
üöÄ Iniciando entrenamiento para: RandomForest
‚úÖ RandomForest: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.9764
üìå Mejores hiperpar√°metros: {'n_estimators': 800, 'max_depth': None, 'min_samples_split': 2}
‚è±Ô∏è Tiempo entrenando RandomForest: 51.00 segundos


Dataset A_std
üöÄ Iniciando entrenamiento para: RandomForest
‚úÖ RandomForest: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.9902
üìå Mejores hiperpar√°metros: {'n_estimators': 800, 'max_depth': None, 'min_samples_split': 2}
‚è±Ô∏è Tiempo entrenando RandomForest: 50.11 segundos


Dataset B_scaled
üöÄ Iniciando entrenamiento para: RandomForest
‚úÖ RandomForest: b√∫squeda finalizada.
üèÜ Mejor score en validaci√≥n: 6.9717
üìå Mejores hiperpar√°metros: {'n_estimators': 800, 'max_depth': None, 'min_samples_split': 2}
‚è±Ô∏è Tiempo entrenando RandomForest: 49.28 segundos


Dataset B_std
üöÄ Iniciando entrenamiento para: RandomForest
‚úÖ RandomForest: b√∫squeda finalizada.
üèÜ Mejor