# <center> PREPROCESAMIENTO

## IMPORTANTE
A partir de nuestro análisis exploratorio de datos (EDA), hemos observado un notable desbalance en la variable objetivo (Class). Este desbalance es especialmente significativo en la clase 1, que representa los casos de fraude. Es crucial tener en cuenta esta desigualdad en la distribución de las clases, ya que puede afectar el rendimiento de los modelos de aprendizaje automático que se desarrollen posteriormente.

In [1]:
# Importación de librerias
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from imblearn.under_sampling import RandomUnderSampler
from imblearn.combine import SMOTEENN
from imblearn.over_sampling import SMOTE
from collections import Counter

# Importamos data
df = pd.read_csv('../data/raw/creditcard.csv', sep = ',')

In [2]:
# Definimos X e y
X = df.drop('Class', axis = 1)
y = df['Class']

# Spliteamos data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

# Realizamos el SMOTE + Undersampling
smote = SMOTE(sampling_strategy=0.5)
rus = RandomUnderSampler(sampling_strategy=0.8)

X_train_smote, y_train_smote = smote.fit_resample(X_train,y_train)
X_train_rus, y_train_rus = rus.fit_resample(X_train_smote,y_train_smote)
print(Counter(y_train_rus))

Counter({0: 124380, 1: 99504})


In [3]:
y_train_rus.value_counts()

Class
0    124380
1     99504
Name: count, dtype: int64

Hemos implementado las técnicas de SMOTE y UnderSampling para mitigar el desbalance en las clases de nuestro conjunto de datos. Como resultado, ahora contamos con 124380 registros de la clase 0 (No fraude) y 99504 registros de la clase 1 (Fraude). Este equilibrio en la distribución de las clases es fundamental para mejorar la efectividad de los modelos de aprendizaje automático que se desarrollen a partir de estos datos.

In [4]:

# Concatenamos datos de train y test
train = pd.concat([X_train_rus, y_train_rus], axis=1)
test = pd.concat([X_test, y_test], axis=1)

# Guardamos archivos en data
train.to_csv('../data/processed/train.csv', index=False)
test.to_csv('../data/processed/test.csv', index=False)