<a href="https://colab.research.google.com/github/alexlopespereira/machine_learning/blob/main/Notebooks/Aula3/Aula3_02_Fraude.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Detecção de Fraude em Cartões de Crédito com Validação Cruzada (5 Folds)

Neste notebook, utilizamos o dataset de Fraude em Cartões de Crédito para treinar um modelo de rede neural utilizando o `MLPClassifier` do scikit-learn. O fluxo do notebook inclui:
- Carregamento do dataset
- Preparação dos dados
- Configuração da validação cruzada
- Treinamento e avaliação do modelo em 5 folds
- Agregação dos resultados

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report, accuracy_score

## Carregamento do Dataset

O dataset de Fraude em Cartões de Crédito (por exemplo, `creditcard.csv`) deve estar na mesma pasta deste notebook. Ele contém informações sobre transações, onde a coluna `Class` indica se a transação é fraudulenta (1) ou legítima (0).

In [None]:
# Carrega o dataset de fraude em cartões de crédito
df = pd.read_csv("https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv")

# Visualiza as primeiras linhas do dataset
print("Visualização do dataset:")
print(df.head())

Visualização do dataset:
   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -0.110474  0.066928  0.128539   
1  0.085102 -0.255425  ... -0.225775 -0.638672  0.101288 -0.339846  0.167170   
2  0.247676 -1.514654  ...  0.247998  0.771679  0.909412 -0.689281 -0.327642   
3  0.377436 -1.387024  ... -0.108300  0.005274 -0.190321 -1.175575  0.647376   
4 -0.270533  0.817739  ... -0.009431  0.798278 -0.137458  0.141267 -0.206010   

       

## Preparação dos Dados

Separamos as features (todas as colunas, exceto `Class`) da variável alvo e verificamos a distribuição das classes para entender o desbalanceamento do dataset.

In [None]:
# Separa as features e a variável alvo
X = df.drop(columns=['Class']).values
y = df['Class'].values

# Exibe a distribuição das classes
print("\nDistribuição das classes:")
print(pd.Series(y).value_counts())

## Configuração da Validação Cruzada com 5 Folds

Utilizamos o `StratifiedKFold` para manter a proporção das classes em cada fold. Para cada um dos 5 folds, realizamos os seguintes passos:
1. Dividimos os dados em conjunto de treino e teste para o fold atual.
2. Aplicamos a padronização dos dados com `StandardScaler` (ajustado apenas no conjunto de treino).
3. Treinamos o modelo `MLPClassifier` com duas camadas ocultas.
4. Avaliamos o modelo e armazenamos a acurácia de cada fold.

In [None]:
# Configura a validação cruzada com 5 folds
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) # O que significam os argumentos dessa classe

# Lista para armazenar as acurácias de cada fold
acc_scores = []

fold = 1
for train_index, test_index in skf.split(X, y):
    print(f"\n=== Fold {fold} ===")

    # Separação dos dados para o fold atual
    X_train_fold, X_test_fold = X[train_index], X[test_index]
    y_train_fold, y_test_fold = y[train_index], y[test_index]

    # Padronização dos dados utilizando StandardScaler
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train_fold) #por que fazer o fit em cada iteração?
    X_test_scaled = scaler.transform(X_test_fold)

    # Definição e treinamento do modelo MLPClassifier
    model = MLPClassifier(hidden_layer_sizes=(64, 32), #Essa quantidade de neuronios está apropriada?
                          activation='relu', # O que significa este argumento?
                          solver='adam', # O que significa este argumento?
                          max_iter=200, # O que significa este argumento?
                          random_state=42,
                          early_stopping=True) # O que significa este argumento?

    model.fit(X_train_scaled, y_train_fold)

    # Avaliação do modelo para o fold atual
    y_pred_fold = model.predict(X_test_scaled)
    acc = accuracy_score(y_test_fold, y_pred_fold)
    acc_scores.append(acc) # Por que colocar a acurácia numa lista?

    print(f"Acurácia no Fold {fold}: {acc:.4f}")
    print(f"Relatório de Classificação do Fold {fold}:\n{classification_report(y_test_fold, y_pred_fold)}")

    fold += 1

## Resultados Agregados

Após a validação cruzada, calculamos a acurácia média dos 5 folds para ter uma visão geral do desempenho do modelo.

In [None]:
# Calcula a acurácia média
mean_accuracy = np.mean(acc_scores) # por que calcular a acurácia média
# Onde está o modelo que chega nesta acurácia?
print("========================================")
print(f"Acurácias de cada fold: {acc_scores}")
print(f"Acurácia média nos 5 folds: {mean_accuracy:.4f}")

# Exercício 1
### Altere o experimento para usar o método ```cross_validate``` em vez da classe ```StratifiedKFold```

# Exercício 2
### Implemente um Pipeline. Inclua um ColumnTransformer no pipeline. E retreine o modelo.

In [None]:
#Teste várias variações dos hyperparâmetros

# Exercício 3
### Faça uma otimização de hiperparâmetros utilizando um método de busca automatizado, pipelines e validação cruzada.