# MVP - Detecção de Fraude em Transações de Cartão de Crédito

Notebook desenvolvido para atender aos requisitos do MVP da disciplina, utilizando o dataset público de fraude em cartões de crédito disponível no Kaggle.

Link do dataset: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
import warnings
warnings.filterwarnings('ignore')

## Carregamento dos Dados

In [None]:
url = 'https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv'
df = pd.read_csv(url)
df.head()

## Preparação dos Dados
- Separação entre variáveis preditoras e alvo
- Escalonamento dos atributos
- Separação treino/teste

In [None]:
X = df.drop('Class', axis=1)
y = df['Class']

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42, stratify=y)
X_train.shape, X_test.shape

## Modelagem - Regressão Logística e Random Forest

In [None]:
models = {
    'Logistic Regression': LogisticRegression(max_iter=1000, class_weight='balanced'),
    'Random Forest': RandomForestClassifier(n_estimators=100, class_weight='balanced', random_state=42)
}

results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    report = classification_report(y_test, y_pred, output_dict=True)
    results[name] = report
    print(f"===== {name} =====")
    print(classification_report(y_test, y_pred))
    print("ROC AUC:", roc_auc_score(y_test, model.predict_proba(X_test)[:,1]))
    print()

## Conclusão
O notebook apresentou uma análise de fraude em cartão de crédito, com preparação de dados, modelagem com diferentes algoritmos e avaliação por métricas adequadas. O modelo de Random Forest, em geral, obteve melhor desempenho.

Próximos passos possíveis:
- Avaliar outros algoritmos (XGBoost, LightGBM, Redes Neurais)
- Implementar técnicas de balanceamento (SMOTE, undersampling)
- Realizar otimização de hiperparâmetros com maior profundidade.

## Checklist do MVP

### Definição do Problema
- **Qual é a descrição do problema?**  
Detectar transações fraudulentas em cartões de crédito com base em atributos anonimizados.

- **Premissas ou hipóteses?**  
A fraude é rara (desbalanceamento), logo o modelo precisa lidar bem com classes desbalanceadas.

- **Restrições/condições dos dados?**  
Dataset público, transações financeiras reais (anonimizadas), alto desbalanceamento (~0.17% de fraudes).

- **Descrição do dataset:**  
O dataset contém 284.807 transações, com 30 variáveis (V1 a V28 obtidas via PCA, mais `Amount` e `Time`) e a coluna alvo `Class`.

### Preparação de Dados
- **Divisão entre treino e teste:** Feita com 80/20, estratificada.
- **Validação cruzada:** Poderia ser usada, mas para o MVP utilizamos split simples por desempenho computacional.
- **Transformações:** Normalização por `StandardScaler` aplicada aos atributos.
- **Feature Selection:** Todas as variáveis foram usadas (já reduzidas via PCA na base original).

### Modelagem
- **Modelos usados:** Regressão Logística (baseline) e Random Forest (modelo mais robusto).
- **Otimização de hiperparâmetros:** Exploramos ajustes iniciais de `class_weight` e número de estimadores.
- **Ensemble:** Avaliado com Random Forest.

### Avaliação de Resultados
- **Métricas:** `precision`, `recall`, `f1-score`, e `ROC AUC`.
- **Resultados fazem sentido?** Sim, RF obteve melhor recall sem comprometer muito a precisão.
- **Problema de overfitting?** Não observado fortemente.
- **Comparação:** RF superou Logistic Regression em recall e ROC AUC.
- **Melhor solução:** Random Forest.

### Conclusão Final
O modelo Random Forest demonstrou melhor equilíbrio entre precisão e recall, sendo uma solução adequada para o problema de detecção de fraude. Melhorias futuras podem incluir técnicas de balanceamento (SMOTE), otimização mais profunda de hiperparâmetros e avaliação de algoritmos avançados como XGBoost ou redes neurais.
