# Análisis de Transacciones Fraudulentas con ANN

- Marco Antonio Jurado carnet 20308
#### Fecha: 24/5/2024

### Resumen
Este proyecto tiene como objetivo la detección de transacciones fraudulentas utilizando el modelo de Machine Learning ANN. El análisis incluye:

- Entrenamiento del modelo
- Evaluación del modelo
- Visualización de resultados

### Contenido
1. Entrenamiento del Modelo
2. Evaluación del Modelo
3. Conclusiones y Trabajo Futuro

In [16]:
#!pip install lightgbm
#!pip install --upgrade lightgbm
#!pip install category_encoders
#!pip install geopy

In [17]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score, confusion_matrix, roc_curve, auc, ConfusionMatrixDisplay
import matplotlib.pyplot as plt
import os
import shutil

Abrimos los datasets de cada mes que ya hemos balanceado

In [18]:
input_dir = 'final_datasets'

En este caso vamos a cargar los set de datos individuales de cada mes que hemos generado en previos pasos

In [19]:
# Diccionario para almacenar los datasets
monthly_datasets = {}

# Listar todos los archivos en el directorio
for file_name in os.listdir(input_dir):
    if file_name.startswith('resampled_data_') and file_name.endswith('.csv'):
        # Construir el path completo del archivo
        file_path = os.path.join(input_dir, file_name)

        # Extraer la fecha del nombre del archivo
        date_str = file_name[len('resampled_data_'):-4]
        month = pd.to_datetime(date_str, format='%Y_%m')

        # Cargar el dataset
        monthly_datasets[month] = pd.read_csv(file_path)
        print(f"Dataset para {month.strftime('%Y-%m')} cargado desde: {file_path}")

Dataset para 2019-01 cargado desde: final_datasets\resampled_data_2019_01.csv
Dataset para 2019-02 cargado desde: final_datasets\resampled_data_2019_02.csv
Dataset para 2019-03 cargado desde: final_datasets\resampled_data_2019_03.csv
Dataset para 2019-04 cargado desde: final_datasets\resampled_data_2019_04.csv
Dataset para 2019-05 cargado desde: final_datasets\resampled_data_2019_05.csv
Dataset para 2019-06 cargado desde: final_datasets\resampled_data_2019_06.csv
Dataset para 2019-07 cargado desde: final_datasets\resampled_data_2019_07.csv
Dataset para 2019-08 cargado desde: final_datasets\resampled_data_2019_08.csv
Dataset para 2019-09 cargado desde: final_datasets\resampled_data_2019_09.csv
Dataset para 2019-10 cargado desde: final_datasets\resampled_data_2019_10.csv
Dataset para 2019-11 cargado desde: final_datasets\resampled_data_2019_11.csv
Dataset para 2019-12 cargado desde: final_datasets\resampled_data_2019_12.csv
Dataset para 2020-01 cargado desde: final_datasets\resampled_dat

### Entrenamiento no incremental

Vamos a configurar el modelo

In [20]:
# Configuración del modelo ANN
def create_ann_model(input_dim):
    model = Sequential()
    model.add(Dense(64, input_dim=input_dim, activation='relu'))
    model.add(Dense(32, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

Vamos a combinar la data en un solo set para hacer el entrenamiento no incremental. Aqui tenemos que tener nuestras variables X y Y respectivamente para poder hacer el entrenamiento.

In [21]:
combined_data = pd.concat(monthly_datasets.values())
X = combined_data.drop(['is_fraud'], axis=1)
y = combined_data['is_fraud']
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.3, random_state=42)

Carpetas necesarias para los outputs

In [22]:
folder_path = 'ANN_combined_performance'
roc_folder = os.path.join(folder_path, 'roc_curves')
conf_matrix_folder = os.path.join(folder_path, 'conf_matrices')
metrics_folder = os.path.join(folder_path, 'metrics_texts')

for path in [folder_path, roc_folder, conf_matrix_folder, metrics_folder]:
    if os.path.exists(path):
        shutil.rmtree(path)
    os.makedirs(path)

Entrenemos...

In [23]:
# Escalar los datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)

# Crear y entrenar el modelo ANN
model = create_ann_model(X_train.shape[1])
model.fit(X_train, y_train, epochs=10, batch_size=64, verbose=1)

# Calcular métricas
y_pred = model.predict(X_val)
y_pred_binary = (y_pred >= 0.5).astype(int)
f1 = f1_score(y_val, y_pred_binary)
accuracy = accuracy_score(y_val, y_pred_binary)
precision = precision_score(y_val, y_pred_binary)
recall = recall_score(y_val, y_pred_binary)
cm = confusion_matrix(y_val, y_pred_binary)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10

KeyboardInterrupt: 

Generamos los resultados del entrenamiento. Empezamos con la curva ROC

In [None]:
fpr, tpr, _ = roc_curve(y_val, y_pred)
roc_auc = auc(fpr, tpr)
plt.figure(figsize=(10, 5))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve for Combined Data')
plt.legend(loc="lower right")
plt.savefig(os.path.join(roc_folder, 'roc_curve_combined.png'))
plt.close()

Matriz de confusión

In [None]:
plt.figure(figsize=(6, 5))
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap=plt.cm.Blues)
plt.title('Confusion Matrix for Combined Data')
plt.savefig(os.path.join(conf_matrix_folder, 'conf_matrix_combined.png'))
plt.close()

Metricas F1, Precisión, Efectividad y Recall

In [None]:
metrics_file_path = os.path.join(metrics_folder, 'model_metrics.txt')
with open(metrics_file_path, 'w') as metrics_file:
    metrics_file.write("Metrics for Combined Data:\n")
    metrics_file.write(f"F1 Score: {f1:.2f}\n")
    metrics_file.write(f"Accuracy: {accuracy:.2f}\n")
    metrics_file.write(f"Precision: {precision:.2f}\n")
    metrics_file.write(f"Recall: {recall:.2f}\n")
    metrics_file.write(f"Confusion Matrix:\n{cm}\n\n")

print("Revisa las carpetas dentro de 'ANN_combined_performance' para ver el desempeño del modelo.")

### Entrenamiento incremental
Vamos a configurar el modelo inicial

In [None]:
# Configuración del modelo ANN
def create_ann_model(input_dim):
    model = Sequential()
    model.add(Dense(64, input_dim=input_dim, activation='relu'))
    model.add(Dense(32, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

Carpetas necesarias para tener los outputs generados del entrenamiento y validación

In [None]:
# Configurar directorios
folder_path = 'ANN_incremental_performance'
roc_folder = os.path.join(folder_path, 'roc_curves')
conf_matrix_folder = os.path.join(folder_path, 'conf_matrices')
metrics_folder = os.path.join(folder_path, 'metrics_texts')

# Asegurarse de que las carpetas estén limpias
for path in [folder_path, roc_folder, conf_matrix_folder, metrics_folder]:
    if os.path.exists(path):
        shutil.rmtree(path)
    os.makedirs(path)

In [None]:
metrics_file_path = os.path.join(metrics_folder, 'model_metrics.txt')
with open(metrics_file_path, 'w') as metrics_file:
    month_count = 0  # Contador para el reentrenamiento

    # Iterar sobre cada segmento mensual
    for name, month_data in monthly_datasets.items():
        print(f"Entrenando con datos de: {name}")

        # Dividir los datos en entrenamiento y validación
        X = month_data.drop(['is_fraud'], axis=1)
        y = month_data['is_fraud']
        X_train_month, X_val_month, y_train_month, y_val_month = train_test_split(
            X, y, test_size=0.3, random_state=42)

        # Escalar los datos
        scaler = StandardScaler()
        X_train_month = scaler.fit_transform(X_train_month)
        X_val_month = scaler.transform(X_val_month)

        # Reestablecer el modelo cada 3 meses
        if month_count % 3 == 0:
            model = create_ann_model(X_train_month.shape[1])

        # Entrenamiento con validación
        model.fit(X_train_month, y_train_month, epochs=5, batch_size=64, verbose=1)

        # Incrementar el contador de meses
        month_count += 1

        # Calcular métricas
        y_pred = model.predict(X_val_month)
        y_pred_binary = (y_pred >= 0.5).astype(int)
        f1 = f1_score(y_val_month, y_pred_binary)
        accuracy = accuracy_score(y_val_month, y_pred_binary)
        precision = precision_score(y_val_month, y_pred_binary)
        recall = recall_score(y_val_month, y_pred_binary)
        cm = confusion_matrix(y_val_month, y_pred_binary)

        # Graficar ROC
        fpr, tpr, _ = roc_curve(y_val_month, y_pred)
        roc_auc = auc(fpr, tpr)
        plt.figure(figsize=(10, 5))
        plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
        plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
        plt.xlim([0.0, 1.0])
        plt.ylim([0.0, 1.05])
        plt.xlabel('False Positive Rate')
        plt.ylabel('True Positive Rate')
        plt.title(f'ROC Curve for {name.strftime("%B %Y")}')
        plt.legend(loc="lower right")
        plt.savefig(os.path.join(roc_folder, f'roc_curve_{name.strftime("%Y_%m")}.png'))
        plt.close()

        # Graficar matriz de confusión
        plt.figure(figsize=(6, 5))
        disp = ConfusionMatrixDisplay(confusion_matrix=cm)
        disp.plot(cmap=plt.cm.Blues)
        plt.title(f'Confusion Matrix for {name.strftime("%B %Y")}')
        plt.savefig(os.path.join(conf_matrix_folder, f'conf_matrix_{name.strftime("%Y_%m")}.png'))
        plt.close()

        # Escribir métricas en el archivo
        metrics_file.write(f"Metrics for {name.strftime('%B %Y')}:\n")
        metrics_file.write(f"F1 Score: {f1:.2f}\n")
        metrics_file.write(f"Accuracy: {accuracy:.2f}\n")
        metrics_file.write(f"Precision: {precision:.2f}\n")
        metrics_file.write(f"Recall: {recall:.2f}\n")
        metrics_file.write(f"Confusion Matrix:\n{cm}\n\n")

print("Revisa las carpetas dentro de 'ANN_incremental_performance' para ver el desempeño de los modelos.")

Entrenando con datos de: 2019-01-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-02-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-03-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-04-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-05-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-06-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-07-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-08-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-09-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-10-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2019-11-01 00:00:00
Epoch

  fig, ax = plt.subplots()


Entrenando con datos de: 2020-09-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


  plt.figure(figsize=(10, 5))
  plt.figure(figsize=(6, 5))


Entrenando con datos de: 2020-10-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2020-11-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Entrenando con datos de: 2020-12-01 00:00:00
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Revisa las carpetas dentro de 'ANN_incremental_performance' para ver el desempeño de los modelos.


<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>

<Figure size 600x500 with 0 Axes>