In [1]:
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
import matplotlib.pyplot as plt
import pandas as pd
#from sklearn.metrics import recall_score, f1_score, roc_auc_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, classification_report

import os


In [2]:

# Especificar la ruta a la carpeta que contiene los archivos CSV
ruta = os.path.abspath('../data/modelos_entrenamiento/')

# Cargar los datos desde los archivos CSV en DataFrames
X_train = pd.read_csv(os.path.join(ruta, 'X_train.csv'))
y_train = pd.read_csv(os.path.join(ruta, 'y_train.csv'))
X_val = pd.read_csv(os.path.join(ruta, 'X_val.csv'))
y_val = pd.read_csv(os.path.join(ruta, 'y_val.csv'))
X_test = pd.read_csv(os.path.join(ruta, 'X_test.csv'))
y_test = pd.read_csv(os.path.join(ruta, 'y_test.csv'))

# Verificar que las dimensiones de X e y coincidan para cada conjunto de datos
assert X_train.shape[0] == y_train.shape[0], "Error: El número de filas en X_train y y_train no coincide."
assert X_val.shape[0] == y_val.shape[0], "Error: El número de filas en X_val y y_val no coincide."
assert X_test.shape[0] == y_test.shape[0], "Error: El número de filas en X_test y y_test no coincide."

# Verificar que las columnas tengan nombres correctos y consistentes
assert 'satisfaction' in y_train.columns, "Error: El archivo y_train.csv debe tener una columna llamada 'satisfaction'."
assert 'satisfaction' in y_val.columns, "Error: El archivo y_val.csv debe tener una columna llamada 'satisfaction'."
assert 'satisfaction' in y_test.columns, "Error: El archivo y_test.csv debe tener una columna llamada 'satisfaction'."

print("Todos los archivos tienen un número de filas coincidente entre características y etiquetas, y la columna objetivo es 'satisfaction'.")

# Separar las características (X) de la variable objetivo (y)
# Aquí asumimos que X_train, X_val, y X_test ya son DataFrames que contienen solo las características
# Si estos DataFrames incluyen la columna 'satisfaction', habría que eliminarla.

# Separar la variable objetivo (y)
y_train = y_train['satisfaction']
y_val = y_val['satisfaction']
y_test = y_test['satisfaction']

print("Características y etiquetas separadas correctamente.")


Todos los archivos tienen un número de filas coincidente entre características y etiquetas, y la columna objetivo es 'satisfaction'.
Características y etiquetas separadas correctamente.


In [3]:
# Inicializar el modelo CatBoostClassifier
model = CatBoostClassifier(iterations=500, depth=6, learning_rate=0.1, verbose=100)

# Entrenar el modelo
model.fit(X_train, y_train)

# Evaluar el modelo en el conjunto de prueba
accuracy = model.score(X_test, y_test)
print(f"Exactitud del modelo en el conjunto de prueba: {accuracy:.2f}")


catboost_train_preds = model.predict(X_train)
catboost_test_preds = model.predict(X_test)
catboost_train_proba = model.predict_proba(X_train)[:, 1]
catboost_test_proba = model.predict_proba(X_test)[:, 1]

catboost_train_recall = recall_score(y_train, catboost_train_preds)
catboost_test_recall = recall_score(y_test, catboost_test_preds)
catboost_train_f1 = f1_score(y_train, catboost_train_preds)
catboost_test_f1 = f1_score(y_test, catboost_test_preds)
catboost_train_auc = roc_auc_score(y_train, catboost_train_proba)
catboost_test_auc = roc_auc_score(y_test, catboost_test_proba)

print(f"CatBoost - Recall en Entrenamiento: {catboost_train_recall:.2f}")
print(f"CatBoost - Recall en Prueba: {catboost_test_recall:.2f}")
print(f"CatBoost - F1 Score en Entrenamiento: {catboost_train_f1:.2f}")
print(f"CatBoost - F1 Score en Prueba: {catboost_test_f1:.2f}")
print(f"CatBoost - AUC en Entrenamiento: {catboost_train_auc:.2f}")
print(f"CatBoost - AUC en Prueba: {catboost_test_auc:.2f}")

0:	learn: 0.5642258	total: 141ms	remaining: 1m 10s
100:	learn: 0.0954957	total: 1.63s	remaining: 6.45s
200:	learn: 0.0812890	total: 2.96s	remaining: 4.41s
300:	learn: 0.0732948	total: 4.28s	remaining: 2.83s
400:	learn: 0.0675110	total: 5.56s	remaining: 1.37s
499:	learn: 0.0624786	total: 6.86s	remaining: 0us
Exactitud del modelo en el conjunto de prueba: 0.96
CatBoost - Recall en Entrenamiento: 0.96
CatBoost - Recall en Prueba: 0.94
CatBoost - F1 Score en Entrenamiento: 0.97
CatBoost - F1 Score en Prueba: 0.96
CatBoost - AUC en Entrenamiento: 1.00
CatBoost - AUC en Prueba: 1.00
