
# EDA — Credit Card Fraud Detection


Este notebook contém a **Análise Exploratória de Dados (EDA)** orientada a Data Science para o dataset de detecção de fraudes em cartão de crédito.

**Objetivos**:
- Entender distribuições e desbalanceamento da variável target `Class`.
- Investigar a distribuição de `Amount` e relações com `Class`.
- Verificar correlações e relações entre features (V1..V28 somando à engineering).
- Produzir visualizações que suportem escolhas de modelagem.

> Observação: execute as células em ordem. Este notebook assume que o arquivo `data/creditcard.csv` está disponível no diretório do projeto.


In [4]:

import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA

sns.set(style="whitegrid")
#DATA_PATH = os.path.join("credit_card_ml_project/data","creditcard.csv")
DATA_PATH = os.path.join("..", "credit_card_ml_project", "data", "creditcard.csv")
print("Reading data from", DATA_PATH)
df = pd.read_csv(DATA_PATH)
df.shape


Reading data from credit_card_ml_project/data/creditcard.csv


FileNotFoundError: [Errno 2] No such file or directory: 'credit_card_ml_project/data/creditcard.csv'

In [None]:

# Quick look
display(df.head())
print("\nData types:\n", df.dtypes)
print("\nMissing values per column:\n", df.isnull().sum())
print("\nClass distribution:\n", df['Class'].value_counts(normalize=False))
print("\nClass distribution (relative):\n", df['Class'].value_counts(normalize=True))


In [None]:

# Amount distributions and log transform
df['log_amount'] = np.log1p(df['Amount'])
fig, axes = plt.subplots(1,2, figsize=(14,4))
sns.histplot(df['Amount'], bins=50, ax=axes[0])
axes[0].set_title('Amount distribution (raw)')
sns.histplot(df['log_amount'], bins=50, ax=axes[1])
axes[1].set_title('Amount distribution (log1p)')
plt.show()

# Boxplot amount by class
plt.figure(figsize=(8,4))
sns.boxplot(x='Class', y='log_amount', data=df)
plt.title('Log-Amount by Class (0 = non-fraud, 1 = fraud)')
plt.show()


In [None]:

# Class counts
plt.figure(figsize=(6,4))
sns.countplot(x='Class', data=df)
plt.title('Class distribution (0 = non-fraud, 1 = fraud)')
plt.show()

# Percentage of fraud
fraud_pct = df['Class'].mean() * 100
print(f"Percentage of fraud: {fraud_pct:.4f}%")


In [2]:

# Correlation matrix for first 15 features (V1..V15 + Amount + Time)
cols = [c for c in df.columns if c.startswith('V')] + ['Amount','log_amount','Time']
cols = cols[:20]
corr = df[cols].corr()
plt.figure(figsize=(12,10))
sns.heatmap(corr, cmap='coolwarm', center=0)
plt.title('Correlation matrix (subset of features)')
plt.show()


NameError: name 'df' is not defined

In [None]:

# PCA to visualize separability (using V1..V28 if present)
vcols = [c for c in df.columns if c.startswith('V')][:28]
X = df[vcols].fillna(0).values
pca = PCA(n_components=2, random_state=42)
Xp = pca.fit_transform(X)
plt.figure(figsize=(8,6))
sns.scatterplot(x=Xp[:,0], y=Xp[:,1], hue=df['Class'], palette=['C0','C1'], alpha=0.6, s=20)
plt.title('PCA 2D of V-features colored by Class')
plt.xlabel('PC1'); plt.ylabel('PC2')
plt.legend(title='Class')
plt.show()

print("Explained variance ratio (PC1, PC2):", pca.explained_variance_ratio_[:2])


In [None]:

# If you have a trained model artifact, you can inspect feature importance.
# Example (uncomment and adapt if model artifact exists):
# import joblib
# art = joblib.load('models/model.joblib')
# model = art['model'] if isinstance(art, dict) else art
# if hasattr(model, 'feature_importances_'):
#     import numpy as np
#     imp = model.feature_importances_
#     names = art['features'] if isinstance(art, dict) and 'features' in art else df.columns.drop('Class')
#     idx = np.argsort(imp)[-20:][::-1]
#     plt.figure(figsize=(8,6))
#     sns.barplot(x=imp[idx], y=[names[i] for i in idx])
#     plt.title('Feature importance (from trained model)')
#     plt.show()
print('If you trained the model, uncomment code to plot feature importances.')



## Interpretação e decisões de modelagem


- O dataset apresenta **desbalanceamento acentuado** (classe 1 muito rara). Por isso, **métricas como ROC-AUC, Precision, Recall e F1-score** são mais informativas que acurácia.


- A transformação `log1p(Amount)` reduz assimetria e é útil em comparações entre classes.


- PCA demonstra visualmente a separabilidade (ou ausência dela) nas duas primeiras componentes — isso ajuda a decidir entre modelos lineares e baseados em árvores.


- Modelos baseados em gradiente (XGBoost, LightGBM) geralmente funcionam muito bem em dados tabulares e toleram bem features com diferentes escalas e outliers; além disso permitem extrair importância de features para explicar decisões.


- Recomenda-se usar **validação estratificada** e ajustar `scale_pos_weight` (ou usar técnicas de amostragem) para lidar com o desbalanceamento.


