In [4]:
import pandas as pd
import numpy as np
import pickle
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score,
    f1_score, roc_auc_score, confusion_matrix
)



In [7]:
X_test = pd.read_csv("../data/processed/X_test.csv")
y_test = pd.read_csv("../data/processed/y_test.csv").squeeze()

In [9]:
#####################
# cargo los modelos #
#####################

# En principio solo iba a poner el mejor que es el LightGBM pero finalmente lo hare de los dos

with open("../data/models/modelo_lgbm.pkl", "rb") as f:
    modelo_lgbm = pickle.load(f)

with open("../data/models/modelo_rf.pkl", "rb") as f:
    modelo_rf = pickle.load(f)


In [14]:
#########################
# Funcion de evaluacion #
#########################

def evaluar_modelo(modelo, X, y, nombre):
    pred = modelo.predict(X)
    prob = modelo.predict_proba(X)[:, 1]

    print(f"\nResultados en TEST {nombre}")
    print("Accuracy:", accuracy_score(y, pred))
    print("Precision:", precision_score(y, pred))
    print("Recall:", recall_score(y, pred))
    print("F1 Score:", f1_score(y, pred))
    print("ROC AUC:", roc_auc_score(y, prob))
    print("Matriz de confusión:\n", confusion_matrix(y, pred))


In [15]:
#############################
# Evaluación de los modelos #
#############################

evaluar_modelo(modelo_lgbm, X_test, y_test, "LightGBM")
evaluar_modelo(modelo_rf, X_test, y_test, "Random Forest")



Resultados en TEST LightGBM
Accuracy: 0.8712850994056159
Precision: 0.7757916241062308
Recall: 0.6502568493150684
F1 Score: 0.7074988355845365
ROC AUC: 0.9243762700579174
Matriz de confusión:
 [[6983  439]
 [ 817 1519]]

Resultados en TEST Random Forest
Accuracy: 0.8634966181594589
Precision: 0.7865296803652968
Recall: 0.5898972602739726
F1 Score: 0.6741682974559687
ROC AUC: 0.9151570453723288
Matriz de confusión:
 [[7048  374]
 [ 958 1378]]


He probado los dos modelos en test y ambos se han comportado de forma coherente con la validación. El modelo LightGBM ha conseguido el mejor equilibrio entre todas las métricas, especialmente en F1 Score y ROC AUC, por lo que lo selecciono como modelo final para producción.
