In [11]:
from utils import print_score
from preprocess import preprocess_fraud_data

from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix, precision_recall_curve, roc_auc_score, f1_score, auc, precision_score, recall_score, accuracy_score

from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import make_pipeline as make_imb_pipeline

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [3]:
ruta = "./data/dataset_balanceado.csv"
df = pd.read_csv(ruta)

data = preprocess_fraud_data(df)

X_train = data['X_train']
X_val = data['X_val']
X_test = data['X_test']
y_train = data['y_train']
y_val = data['y_val']
y_test = data['y_test']

**Modelos SVM Base (`kernel='linear', 'rbf'`)**

In [18]:
svm_lineal = SVC(kernel='linear', random_state=42)

svm_lineal.fit(X_train, y_train)

print_score(svm_lineal, X_train, y_train, X_val, y_val, train=True)
print_score(svm_lineal, X_train, y_train, X_val, y_val, train=False)

Train Result:
Accuracy Score: 90.91%
_______________________________________________
CLASSIFICATION REPORT:
                     0      1  accuracy    macro avg  weighted avg
precision     0.909091    0.0  0.909091     0.454545      0.826446
recall        1.000000    0.0  0.909091     0.500000      0.909091
f1-score      0.952381    0.0  0.909091     0.476190      0.865801
support    6000.000000  600.0  0.909091  6600.000000   6600.000000
_______________________________________________
Confusion Matrix: 
 [[6000    0]
 [ 600    0]]

Validation Result:
Accuracy Score: 90.91%
_______________________________________________
CLASSIFICATION REPORT:
                     0      1  accuracy    macro avg  weighted avg
precision     0.909091    0.0  0.909091     0.454545      0.826446
recall        1.000000    0.0  0.909091     0.500000      0.909091
f1-score      0.952381    0.0  0.909091     0.476190      0.865801
support    2000.000000  200.0  0.909091  2200.000000   2200.000000
_____________

In [19]:
svm = SVC(kernel='rbf', random_state=42)

svm.fit(X_train, y_train)

print_score(svm, X_train, y_train, X_val, y_val, train=True)
print_score(svm, X_train, y_train, X_val, y_val, train=False)

Train Result:
Accuracy Score: 90.91%
_______________________________________________
CLASSIFICATION REPORT:
                     0      1  accuracy    macro avg  weighted avg
precision     0.909091    0.0  0.909091     0.454545      0.826446
recall        1.000000    0.0  0.909091     0.500000      0.909091
f1-score      0.952381    0.0  0.909091     0.476190      0.865801
support    6000.000000  600.0  0.909091  6600.000000   6600.000000
_______________________________________________
Confusion Matrix: 
 [[6000    0]
 [ 600    0]]

Validation Result:
Accuracy Score: 90.91%
_______________________________________________
CLASSIFICATION REPORT:
                     0      1  accuracy    macro avg  weighted avg
precision     0.909091    0.0  0.909091     0.454545      0.826446
recall        1.000000    0.0  0.909091     0.500000      0.909091
f1-score      0.952381    0.0  0.909091     0.476190      0.865801
support    2000.000000  200.0  0.909091  2200.000000   2200.000000
_____________

> Tanto los modelos SVM con kernel lineal como con kernel RBF, sin ningún manejo de desequilibrio de clases, no logran identificar ninguna transacción fraudulenta, clasifica todas las instancias como la clase mayoritaria (transacciones legítimas), lo que lleva a un alto puntaje de exactitud (accuracy) que es engañoso debido al desequilibrio de clases, lo cual confirma que es necesario aplicar técnicas para abordar el desequilibrio de clases.

**Modelos con `class_weight='balanced'`**

Se entrena SVM con ajuste de pesos automáticos, class_weight='balanced' le asigna un mayor peso a las clases minoritarias de forma automática.

In [20]:
svm_base = SVC(kernel='linear', class_weight='balanced', random_state=42)

svm_base.fit(X_train, y_train)

print_score(svm_base, X_train, y_train, X_val, y_val, train=True)
print_score(svm_base, X_train, y_train, X_val, y_val, train=False)

Train Result:
Accuracy Score: 51.30%
_______________________________________________
CLASSIFICATION REPORT:
                     0           1  accuracy    macro avg  weighted avg
precision     0.919073    0.101038   0.51303     0.510056      0.844707
recall        0.509167    0.551667   0.51303     0.530417      0.513030
f1-score      0.655298    0.170795   0.51303     0.413046      0.611252
support    6000.000000  600.000000   0.51303  6600.000000   6600.000000
_______________________________________________
Confusion Matrix: 
 [[3055 2945]
 [ 269  331]]

Validation Result:
Accuracy Score: 48.32%
_______________________________________________
CLASSIFICATION REPORT:
                     0           1  accuracy    macro avg  weighted avg
precision     0.910561    0.092254  0.483182     0.501408      0.836170
recall        0.478500    0.530000  0.483182     0.504250      0.483182
f1-score      0.627335    0.157153  0.483182     0.392244      0.584591
support    2000.000000  200.000000 

In [21]:
svm_base = SVC(kernel='rbf', class_weight='balanced', random_state=42)

svm_base.fit(X_train, y_train)

print_score(svm_base, X_train, y_train, X_val, y_val, train=True)
print_score(svm_base, X_train, y_train, X_val, y_val, train=False)

Train Result:
Accuracy Score: 68.42%
_______________________________________________
CLASSIFICATION REPORT:
                     0           1  accuracy    macro avg  weighted avg
precision     0.971353    0.196648  0.684242     0.584000      0.900925
recall        0.672500    0.801667  0.684242     0.737083      0.684242
f1-score      0.794761    0.315824  0.684242     0.555292      0.751221
support    6000.000000  600.000000  0.684242  6600.000000   6600.000000
_______________________________________________
Confusion Matrix: 
 [[4035 1965]
 [ 119  481]]

Validation Result:
Accuracy Score: 60.23%
_______________________________________________
CLASSIFICATION REPORT:
                     0           1  accuracy    macro avg  weighted avg
precision     0.906137    0.085890  0.602273     0.496013      0.831569
recall        0.627500    0.350000  0.602273     0.488750      0.602273
f1-score      0.741507    0.137931  0.602273     0.439719      0.686636
support    2000.000000  200.000000 

> El modelo SVM con `kernel='linear'`, al incorporar el hiperparámetro `class_weight='balanced'`, logra mejorar la detección de la clase minoritaria (fraude), pero a costa de incrementar significativamente los falsos positivos, esto ocurre porque al balancear los pesos de las clases, el modelo recibe una penalización mucho mayor por clasificar un fraude como legítimo, por lo que tiende a expandir la frontera de decisión hacia la clase mayoritaria para capturar más fraudes, lo cual da como resultado que algunas transacciones legítimas que están cerca de la frontera, donde la función de decisión se aproxima al umbral por defecto (0.5) son clasificadas erróneamente como fraude.
>
> Este mismo comportamiento se observa en el modelo SVM con `kernel='rbf'`, aunque con algunas diferencias, el SVM lineal, al tener una frontera de decisión más simple, tiende a sobrecompensar más agresivamente el desbalance, lo que le permite identificar un mayor número de fraudes (mayor recall), pero también genera más falsos positivos que el modelo con kernel RBF, por otro lado, el SVM RBF, al modelar una frontera más compleja y no lineal, logra un mejor compromiso entre precisión y recall, evitando clasificar tan fácilmente como fraude a observaciones legítimas cercanas a la frontera.

**Undersampling**

In [24]:
print("Distribución original:", np.bincount(y_train))

undersampler = RandomUnderSampler(random_state=42)
X_under, y_under = undersampler.fit_resample(X_train, y_train)

print("Distribución después de undersampling:", np.bincount(y_under))

model_under = SVC(kernel='linear', random_state=42)
model_under.fit(X_under, y_under)

print_score(model_under, X_under, y_under, X_val, y_val, train=True)
print_score(model_under, X_train, y_train, X_val, y_val, train=False)

Distribución original: [6000  600]
Distribución después de undersampling: [600 600]
Train Result:
Accuracy Score: 55.08%
_______________________________________________
CLASSIFICATION REPORT:
                    0           1  accuracy    macro avg  weighted avg
precision    0.549433    0.552316  0.550833     0.550874      0.550874
recall       0.565000    0.536667  0.550833     0.550833      0.550833
f1-score     0.557108    0.544379  0.550833     0.550743      0.550743
support    600.000000  600.000000  0.550833  1200.000000   1200.000000
_______________________________________________
Confusion Matrix: 
 [[339 261]
 [278 322]]

Validation Result:
Accuracy Score: 48.59%
_______________________________________________
CLASSIFICATION REPORT:
                     0           1  accuracy    macro avg  weighted avg
precision     0.912631    0.094159  0.485909     0.503395      0.838224
recall        0.480500    0.540000  0.485909     0.510250      0.485909
f1-score      0.629545    0.1603

> Se aplicó `RandomUnderSampler` para balancear las clases en el conjunto de entrenamiento, reduciendo la clase mayoritaria (transacciones legítimas) a 600 muestras, igualando así la clase minoritaria (fraudes), aunque este enfoque mejora la simetría del conjunto de entrenamiento y permite al modelo aprender de manera equitativa ambas clases, también elimina una gran cantidad de información relevante de la clase mayoritaria, lo cual perjudica la generalización y provoca que en validación genere muchos falsos positivos.

**SMOTE**

In [None]:
smote = SMOTE(random_state=42)
X_smote, y_smote = smote.fit_resample(X_train, y_train)

print("Distribución después de SMOTE:", y_smote.value_counts())

model_smote = SVC(kernel='linear', random_state=42)
model_smote.fit(X_smote, y_smote)

print_score(model_smote, X_smote, y_smote, X_val, y_val, train=True)
print_score(model_smote, X_train, y_train, X_val, y_val, train=False)

Distribución después de SMOTE: IsFraud
0    6000
1    6000
Name: count, dtype: int64
Train Result:
Accuracy Score: 61.97%
_______________________________________________
CLASSIFICATION REPORT:
                     0            1  accuracy     macro avg  weighted avg
precision     0.637495     0.605931  0.619667      0.621713      0.621713
recall        0.554833     0.684500  0.619667      0.619667      0.619667
f1-score      0.593299     0.642824  0.619667      0.618061      0.618061
support    6000.000000  6000.000000  0.619667  12000.000000  12000.000000
_______________________________________________
Confusion Matrix: 
 [[3329 2671]
 [1893 4107]]

Validation Result:
Accuracy Score: 54.77%
_______________________________________________
CLASSIFICATION REPORT:
                     0           1  accuracy    macro avg  weighted avg
precision     0.910875    0.093142  0.547727     0.502009      0.836536
recall        0.557000    0.455000  0.547727     0.506000      0.547727
f1-score    

> Se aplicó la técnica de oversampling SMOTE para generar ejemplos sintéticos de la clase minoritaria (fraudes), obteniendo un conjunto de entrenamiento balanceado con 6000 ejemplos de cada clase, durante el entrenamiento el modelo logró un desempeño balanceado, lo que indica que el modelo pudo aprender patrones representativos de la clase fraude a partir de los ejemplos sintéticos, sin embargo, al evaluar el modelo sobre un conjunto de validación con la distribución real de clases (altamente desbalanceada), se observó una caída en la precisión hacia la clase de fraude, debido a la cantidad de falsos positivos (886), esto se debe a que el modelo fue entrenado con un conjunto balanceado y por tanto tiende a sobreestimar la presencia de fraudes en el conjunto de validación, donde en realidad los fraudes son mucho menos frecuentes.

**Oversampling**

In [28]:
print("Distribución original:", np.bincount(y_train))

oversampler = RandomOverSampler(random_state=42)
X_over, y_over = oversampler.fit_resample(X_train, y_train)

print("Distribución después de oversampling:", np.bincount(y_over))

model_over = SVC(kernel='linear', random_state=42)
model_over.fit(X_over, y_over)

print_score(model_over, X_over, y_over, X_val, y_val, train=True)
print_score(model_over, X_train, y_train, X_val, y_val, train=False)


Distribución original: [6000  600]
Distribución después de oversampling: [6000 6000]
Train Result:
Accuracy Score: 53.23%
_______________________________________________
CLASSIFICATION REPORT:
                     0            1  accuracy     macro avg  weighted avg
precision     0.533368     0.531205   0.53225      0.532286      0.532286
recall        0.515500     0.549000   0.53225      0.532250      0.532250
f1-score      0.524282     0.539956   0.53225      0.532119      0.532119
support    6000.000000  6000.000000   0.53225  12000.000000  12000.000000
_______________________________________________
Confusion Matrix: 
 [[3093 2907]
 [2706 3294]]

Validation Result:
Accuracy Score: 48.73%
_______________________________________________
CLASSIFICATION REPORT:
                     0           1  accuracy    macro avg  weighted avg
precision     0.910546    0.092267  0.487273     0.501407      0.836157
recall        0.483500    0.525000  0.487273     0.504250      0.487273
f1-score    

> Se aplicó `RandomOverSampler` para balancear el conjunto de entrenamiento, duplicando instancias reales de la clase minoritaria (fraudes) hasta igualar el número de transacciones legítimas, esta técnica no genera nuevos patrones, sino que replica observaciones existentes, lo que puede llevar a un sobreajuste leve a ejemplos duplicados, en entrenamiento el modelo mostró un desempeño equilibrado, aunque con métricas más bajas que con SMOTE.
>
> En validación presentó un comportamiento similar al de `undersampling`, alto número de falsos positivos (1033) y una precisión para la clase fraude muy baja (9.2%), a pesar de mantener un *recall* de (0.525), esto se debe a que el modelo, al haber aprendido con un conjunto artificialmente balanceado, tiende a sobreestimar la probabilidad de fraude cuando se enfrenta a la distribución real desbalanceada.