## Carga de librerías

In [11]:
import os
import pandas as pd
import xgboost as xgb
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

## Carga de datos

In [12]:
# Ruta de ubicación de los datos
ruta = os.path.abspath('../data/modelos_entrenamiento/')

# Cargar los datos
X_train = pd.read_csv(os.path.join(ruta, 'X_train.csv'))
y_train = pd.read_csv(os.path.join(ruta, 'y_train.csv')).values.ravel()
X_val = pd.read_csv(os.path.join(ruta, 'X_val.csv'))
y_val = pd.read_csv(os.path.join(ruta, 'y_val.csv')).values.ravel()
X_test = pd.read_csv(os.path.join(ruta, 'X_test.csv'))
y_test = pd.read_csv(os.path.join(ruta, 'y_test.csv')).values.ravel()

## Inicializar el clasificador XG Boost

In [13]:
# Inicializar el clasificador XGBoost
model = xgb.XGBClassifier(
    objective='binary:logistic',  # Problema de clasificación binaria
    eval_metric='logloss',  # Métrica de evaluación (puede ser logloss para problemas de clasificación binaria)
    use_label_encoder=False,  # Evitar advertencias del uso del codificador de etiquetas obsoleto
    n_estimators=100,  # Número de árboles en el modelo
    learning_rate=0.1,  # Tasa de aprendizaje
    max_depth=6,  # Profundidad máxima de los árboles
    random_state=42  # Para reproducibilidad
)

## Ajustar el modelo con los datos de entrenamiento

In [15]:
# Ajustar el modelo con los datos de entrenamiento
model.fit(X_train, y_train, 
          eval_set=[(X_val, y_val)], 
          #early_stopping_rounds=10,  # Detenerse si la métrica no mejora en 10 iteraciones
          verbose=100)  # Imprimir información cada 100 iteraciones


[0]	validation_0-logloss:0.61077


Parameters: { "use_label_encoder" } are not used.



[99]	validation_0-logloss:0.10071


## Calcular métricas de evaluación

In [16]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Hacer predicciones y calcular probabilidades para el conjunto de prueba
y_test_pred = model.predict(X_test)
y_test_pred_proba = model.predict_proba(X_test)[:, 1]

# Calcular métricas de evaluación para el conjunto de prueba
accuracy_test = accuracy_score(y_test, y_test_pred)
precision_test = precision_score(y_test, y_test_pred)
recall_test = recall_score(y_test, y_test_pred)
f1_test = f1_score(y_test, y_test_pred)
roc_auc_test = roc_auc_score(y_test, y_test_pred_proba)

# Imprimir resultados para el conjunto de prueba
print(f'Conjunto de Prueba:')
print(f'Accuracy: {accuracy_test:.2f}')
print(f'Precision: {precision_test:.2f}')
print(f'Recall: {recall_test:.2f}')
print(f'F1 Score: {f1_test:.2f}')
print(f'ROC AUC Score: {roc_auc_test:.2f}')

# Hacer predicciones y calcular probabilidades para el conjunto de entrenamiento
y_train_pred = model.predict(X_train)
y_train_pred_proba = model.predict_proba(X_train)[:, 1]

# Calcular métricas de evaluación para el conjunto de entrenamiento
accuracy_train = accuracy_score(y_train, y_train_pred)
precision_train = precision_score(y_train, y_train_pred)
recall_train = recall_score(y_train, y_train_pred)
f1_train = f1_score(y_train, y_train_pred)
roc_auc_train = roc_auc_score(y_train, y_train_pred_proba)

# Imprimir resultados para el conjunto de entrenamiento
print(f'\nConjunto de Entrenamiento:')
print(f'Accuracy: {accuracy_train:.2f}')
print(f'Precision: {precision_train:.2f}')
print(f'Recall: {recall_train:.2f}')
print(f'F1 Score: {f1_train:.2f}')
print(f'ROC AUC Score: {roc_auc_train:.2f}')


Conjunto de Prueba:
Accuracy: 0.96
Precision: 0.97
Recall: 0.94
F1 Score: 0.95
ROC AUC Score: 0.99

Conjunto de Entrenamiento:
Accuracy: 0.97
Precision: 0.97
Recall: 0.94
F1 Score: 0.96
ROC AUC Score: 1.00


In [10]:
#from xgboost import XGBClassifier
#from sklearn.model_selection import train_test_split
#from sklearn.metrics import accuracy_score
#from sklearn.metrics import recall_score, f1_score, roc_auc_score
#import pandas as pd

#df = pd.read_csv('airline_passenger_satisfaction_cleaned.csv')

#X = df.drop('satisfaction', axis=1)

# Definir y (la columna objetivo)
#y = df['satisfaction']
# Dividir los datos en conjunto de entrenamiento (80%) y prueba (20%)
#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar el modelo XGBClassifier
#model = XGBClassifier(n_estimators=500, learning_rate=0.1, max_depth=6, use_label_encoder=False, eval_metric='logloss')

# Entrenar el modelo
#model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
#y_pred = model.predict(X_test)

# Evaluar el modelo
#accuracy = accuracy_score(y_test, y_pred)
#print(f"Exactitud del modelo XGBoost en el conjunto de prueba: {accuracy:.2f}")

#xgboost_train_preds = model.predict(X_train)
#xgboost_test_preds = model.predict(X_test)
#xgboost_train_proba = model.predict_proba(X_train)[:, 1]
#xgboost_test_proba = model.predict_proba(X_test)[:, 1]

#xgboost_train_recall = recall_score(y_train, xgboost_train_preds)
#xgboost_test_recall = recall_score(y_test, xgboost_test_preds)
#xgboost_train_f1 = f1_score(y_train, xgboost_train_preds)
#xgboost_test_f1 = f1_score(y_test, xgboost_test_preds)
#xgboost_train_auc = roc_auc_score(y_train, xgboost_train_proba)
#xgboost_test_auc = roc_auc_score(y_test, xgboost_test_proba)

#print(f"XGBoost - Recall en Entrenamiento: {xgboost_train_recall:.2f}")
#print(f"XGBoost - Recall en Prueba: {xgboost_test_recall:.2f}")
#print(f"XGBoost - F1 Score en Entrenamiento: {xgboost_train_f1:.2f}")
#print(f"XGBoost - F1 Score en Prueba: {xgboost_test_f1:.2f}")
#print(f"XGBoost - AUC en Entrenamiento: {xgboost_train_auc:.2f}")
#print(f"XGBoost - AUC en Prueba: {xgboost_test_auc:.2f}")
