### Pré-processamento dos Dados

In [2]:
# Importando bibliotecas
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE

In [3]:
# Carregando o dataset
df = pd.read_csv('../data/creditcard.csv')
print("Formato original:", df.shape)

Formato original: (284807, 31)


In [4]:
# Normalização das colunas 'Time' e 'Amount'
scaler = StandardScaler()
df['Time_scaled'] = scaler.fit_transform(df[['Time']])
df['Amount_scaled'] = scaler.fit_transform(df[['Amount']])

In [5]:
# Removendo colunas originais não escaladas
df.drop(['Time', 'Amount'], axis=1, inplace=True)

In [6]:
# Separando features (X) e target (y)
X = df.drop('Class', axis=1)
y = df['Class']

In [7]:
# Separação entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

In [8]:
print("Treino:", X_train.shape, "Teste:", X_test.shape)

Treino: (227845, 30) Teste: (56962, 30)


In [9]:
# Aplicando SMOTE no conjunto de treino para balancear as classes
smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

In [10]:
# Verificando balanceamento após SMOTE
print("Distribuição antes do SMOTE:")
print(y_train.value_counts())
print("\nDistribuição após SMOTE:")
print(pd.Series(y_train_res).value_counts())

Distribuição antes do SMOTE:
Class
0    227451
1       394
Name: count, dtype: int64

Distribuição após SMOTE:
Class
0    227451
1    227451
Name: count, dtype: int64


In [None]:
# Salvando os dados prontos (opcional)
# X_train_res.to_csv('../data/X_train_resampled.csv', index=False)
# y_train_res.to_csv('../data/y_train_resampled.csv', index=False)