<a href="https://colab.research.google.com/github/Cristian1308/Project-Machine-Learning/blob/main/Modelado_Random_Forest.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Se importan las librerías necesarias para manejo de datos, entrenamiento de modelo, validación cruzada y métricas de evaluación.

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Se carga el dataset desde Google Drive.

In [3]:
df = pd.read_csv("/content/drive/MyDrive/Datasets/Exploratorio/card_transdata.csv")

Se separan las variables predictoras (X) y la variable objetivo (y, indicador de fraude).

In [4]:
X = df.drop("fraud", axis=1)
y = df["fraud"]

Se divide el dataset en entrenamiento (80%) y prueba (20%) de forma estratificada, manteniendo la proporción de clases.

In [6]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

Se instancia un modelo Random Forest con 100 árboles y semilla fija para reproducibilidad.

In [7]:
modelo_rf = RandomForestClassifier(n_estimators=100, random_state=42)

Se realiza validación cruzada estratificada con 5 particiones, evaluando con la métrica ROC-AUC.

In [8]:
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = cross_val_score(modelo_rf, X_train, y_train, cv=kfold, scoring='roc_auc')

Se imprimen los resultados promedio y la desviación estándar de la métrica ROC-AUC en la validación cruzada.

In [9]:
print("----- Validación cruzada (ROC-AUC) -----")
print(f"ROC-AUC promedio en validación cruzada: {cv_scores.mean():.4f}")
print(f"Desviación estándar: {cv_scores.std():.4f}")

----- Validación cruzada (ROC-AUC) -----
ROC-AUC promedio en validación cruzada: 1.0000
Desviación estándar: 0.0000


Se entrena el modelo con los datos de entrenamiento.

In [10]:
modelo_rf.fit(X_train, y_train)

Se hacen predicciones sobre el conjunto de test:

In [11]:
y_pred = modelo_rf.predict(X_test)
y_prob = modelo_rf.predict_proba(X_test)[:, 1]

Se calculan varias métricas de evaluación en el conjunto test

In [12]:
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_prob)

Se imprime el resumen de desempeño del modelo sobre el conjunto de test

In [14]:
print("\n----- Evaluación del modelo Random Forest ----")
print(f"Accuracy     : {accuracy:.4f}")
print(f"Precision    : {precision:.4f}")
print(f"Recall       : {recall:.4f}")
print(f"F1-Score     : {f1:.4f}")
print(f"ROC-AUC      : {roc_auc:.4f}")


----- Evaluación del modelo Random Forest ----
Accuracy     : 1.0000
Precision    : 1.0000
Recall       : 0.9997
F1-Score     : 0.9998
ROC-AUC      : 1.0000
