# Optimización hiperparámetors XGBoost

In [6]:
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy  as np

In [7]:
mi_dir = '/home/xavi/Escritorio/midirectorio/'
# Cargar un subconjunto del train
df = pd.read_csv(f'{mi_dir}DATA/train_scaffold.csv')
sub_train = df.sample(frac =0.3, random_state=42)# selección de variables objetivos y separación de los datos

#Identificación de variables
target = 'peakwavs_max'
features = [col for col in df.columns if col not in ['smiles', 'solvent', 'source', 'scaffold', target]]

# Dividir en conjunto de entrenamiento y prueba
x = sub_train[features]
y = sub_train[target]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=30)


In [None]:
# 2. Definir el espacio de búsqueda de hiperparámetros
param_grid = {
    'max_depth': [7, 9, 10, 11],  # Profundidad máxima del árbol
    'learning_rate': [0.01, 0.1],  # Tasa de aprendizaje
    'n_estimators': [200, 400, 500],  # Número de árboles
    'subsample': [0.8, 1.0],  # Submuestra de datos para cada árbol
    'colsample_bytree': [1.0],  # Submuestra de características por árbol
    'gamma': [0, 0.1],  # Reducción mínima de pérdida para hacer una partición
}

# 3. Configurar Grid Search
xgb_model = XGBRegressor(tree_method='hist', objective='reg:squarederror', random_state=42)

grid_search = GridSearchCV(estimator=xgb_model, 
                           param_grid=param_grid,
                           scoring='neg_mean_squared_error', 
                           cv=3, verbose=5, 
                           n_jobs=-1)

# 4. Entrenar el modelo con Grid Search
grid_search.fit(x_train, y_train)

In [None]:
# 5. Mostrar los mejores hiperparámetros encontrados
print("Mejores hiperparámetros encontrados:")
print(grid_search.best_params_)

# 6. Evaluar el modelo con los mejores hiperparámetros
best_model = grid_search.best_estimator_
y_pred = best_model.predict(x_test)
mae = mean_absolute_error(y_test, y_pred)
print(f"Error Absoluto Medio (MAE) en el conjunto de prueba: {mae:.4f}")