

### Generación de Modelos Predictivos

Este notebook se encarga de generar modelos predictivos.  Se puede correr en Google Colab o en el iMac.

Para usarlo en Google Colab, usar tipo_a_usar='GPU'
Para usarlo en el imac, usar tipo_a_usar='CPU'



In [1]:
tipo_a_usar='CPU'

In [2]:
import pandas as pd


In [3]:
if tipo_a_usar =='GPU':
  from google.colab import drive
  drive.mount('/content/drive')

Los datos de origen es el mismo sea desde Google Colab o desde el iMac.  La diferencia es que el primero usar referencia a Google Drive y el otro acceso directo desde el sistema operativo

In [4]:
if tipo_a_usar =='GPU':
  dfbase = pd.read_pickle('/content/drive/MyDrive//Innovaciones Tecnológicas Aplicadas/Universidad Autónoma de Occidente/GoogleColab/checkPoints/DATOS_LIMPIOS.pkl')

if tipo_a_usar == 'CPU':
  dfbase = pd.read_pickle('checkpoints/DATOS_LIMPIOS.pkl')


In [5]:
df = dfbase.copy()
df = df[df['LABEL']!=-1]

X = df.drop('LABEL', axis=1)  # Reemplaza 'target_column' con el nombre de tu columna objetivo
y = df['LABEL']  # Reemplaza 'target_column' con el nombre de tu columna objetivo

In [6]:
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import make_scorer, accuracy_score, roc_auc_score

# Dividir los datos en conjuntos de entrenamiento (train) y prueba (test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir los hiperparámetros a ajustar y sus posibles valores para XGBoost
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [3, 4, 5],
    'learning_rate': [0.01, 0.1, 0.2],
    'min_child_weight': [1, 2, 3],
}

# Crear el modelo XGBoost
modelo_xgb = xgb.XGBClassifier(random_state=42)

# Definir las métricas que deseas evaluar durante la búsqueda en cuadrícula
scoring = {
    'accuracy': make_scorer(accuracy_score),
    'roc_auc': make_scorer(roc_auc_score)
}

# Realizar la búsqueda en cuadrícula con validación cruzada en el conjunto de entrenamiento
grid_search = GridSearchCV(estimator=modelo_xgb, param_grid=param_grid, cv=5, scoring=scoring, n_jobs=-1, refit='roc_auc')
grid_search.fit(X_train, y_train)

# Obtener el DataFrame de resultados de la búsqueda en cuadrícula
resultados_df = pd.DataFrame(grid_search.cv_results_)

# Encontrar la fila con el mejor resultado de ROC-AUC
mejor_roc_auc_idx = resultados_df['mean_test_roc_auc'].idxmax()

# Extraer los hiperparámetros correspondientes al mejor resultado
mejores_hiperparametros = resultados_df.loc[mejor_roc_auc_idx, ['param_n_estimators', 'param_max_depth',
                                                              'param_learning_rate', 'param_min_child_weight']]

# Mostrar los mejores hiperparámetros
print("Mejores hiperparámetros encontrados:")
print(mejores_hiperparametros.to_dict())

# Obtener el modelo con los mejores hiperparámetros
mejor_modelo_xgb = grid_search.best_estimator_

# Evaluar el modelo en el conjunto de prueba
y_pred = mejor_modelo_xgb.predict(X_test)
accuracy_test = accuracy_score(y_test, y_pred)
roc_auc_test = roc_auc_score(y_test, y_pred)

# Mostrar los resultados en el conjunto de prueba
print("Precisión (Accuracy) en prueba:", accuracy_test)
print("ROC-AUC en prueba:", roc_auc_test)




Mejores hiperparámetros encontrados:
{'param_n_estimators': 200, 'param_max_depth': 5, 'param_learning_rate': 0.2, 'param_min_child_weight': 1}
Precisión (Accuracy) en prueba: 0.9236583522297808
ROC-AUC en prueba: 0.8893753103005169


In [9]:
resultados_df.to_excel('GBT_resultados.xlsx')