<a href="https://colab.research.google.com/github/Cristian1308/Project-Machine-Learning/blob/main/Entrenamiento_con_3_variables_Random_Forest.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Se importan las librerías necesarias para el entrenamiento

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

Importamos el DataSet desde Google Drive

In [2]:
df = pd.read_csv("/content/drive/MyDrive/Datasets/Exploratorio/card_transdata.csv")

Se seleccionan solo 3 variables

In [3]:
variables = ['ratio_to_median_purchase_price', 'online_order', 'distance_from_home']
X = df[variables]
y = df["fraud"]

Se divide el dataset en entrenamiento (80%) y prueba (20%) manteniendo la proporción de clases (stratify=y).

In [4]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

Se instancia un modelo Random Forest con 100 árboles y semilla para reproducibilidad.



In [5]:
modelo_rf = RandomForestClassifier(n_estimators=100, random_state=42)

Se aplica validación cruzada estratificada (5 particiones), evaluando el modelo con la métrica ROC-AUC.

In [6]:
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = cross_val_score(modelo_rf, X_train, y_train, cv=kfold, scoring='roc_auc')

Se imprimen los resultados de validación cruzada: promedio y variabilidad de ROC-AUC

In [7]:
print("----- Validación cruzada (ROC-AUC) -----")
print(f"ROC-AUC promedio: {cv_scores.mean():.4f}")
print(f"Desviación estándar: {cv_scores.std():.4f}")

----- Validación cruzada (ROC-AUC) -----
ROC-AUC promedio: 0.9623
Desviación estándar: 0.0009


Se entrena el modelo con los datos de entrenamiento.

In [8]:
modelo_rf.fit(X_train, y_train)

Se generan predicciones

In [9]:
y_pred = modelo_rf.predict(X_test)
y_prob = modelo_rf.predict_proba(X_test)[:, 1]

Se calculan las métricas de rendimiento

In [10]:
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_prob)

Se imprimen las métricas de evaluación

In [11]:
print("\n----- Evaluación del modelo Random Forest -----")
print(f"Accuracy     : {accuracy:.4f}")
print(f"Precision    : {precision:.4f}")
print(f"Recall       : {recall:.4f}")
print(f"F1-Score     : {f1:.4f}")
print(f"ROC-AUC      : {roc_auc:.4f}")


----- Evaluación del modelo Random Forest -----
Accuracy     : 0.9726
Precision    : 0.8330
Recall       : 0.8589
F1-Score     : 0.8457
ROC-AUC      : 0.9638
