# **Importação das Bibliotecas**
Esta célula importa as bibliotecas necessárias para o projeto, incluindo pandas, NumPy, TensorFlow e bibliotecas do Scikit-learn.


In [2]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, roc_auc_score

# **Carregamento dos Dados**
Nesta etapa, os dados do dataset `creditcard.csv` são carregados para um DataFrame pandas.


In [3]:
# Carregar os dados
df = pd.read_csv('/content/drive/MyDrive/PonderadaS4M11/creditcard.csv')

In [4]:
df.head()

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0


# **Separação dos Dados em Features e Rótulos**
Aqui, os dados são separados em variáveis independentes (`X`) e o rótulo (`y`).


In [5]:
# Seprando os dados
X = df.drop('Class', axis=1)
y = df['Class']

# **Divisão dos Dados em Treino e Teste**
Os dados são divididos em conjuntos de treino e teste usando a função `train_test_split`.


In [6]:
# Dividndo entre treino e teste
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# **Definição do Modelo**
Nesta célula, é definida a arquitetura do modelo de rede neural, com a função `create_model`.


In [7]:
# Definindo Modelo
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

def create_model(optimizer='adam'):
    model = Sequential([
        Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
        Dense(32, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer=optimizer, loss='binary_crossentropy', metrics=['accuracy'])
    return model

# **Treinamento do Modelo**
O modelo é treinado utilizando os dados de treino, com uma função de callback de `EarlyStopping` para evitar overfitting.


In [8]:
# Treinando modelo4+
from tensorflow.keras.callbacks import EarlyStopping

model = create_model()
history = model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2, callbacks=[EarlyStopping(monitor='val_loss', patience=3)])


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/10
[1m4985/4985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 3ms/step - accuracy: 0.9956 - loss: 7.1095 - val_accuracy: 0.9982 - val_loss: 0.5965
Epoch 2/10
[1m4985/4985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 2ms/step - accuracy: 0.9963 - loss: 1.8620 - val_accuracy: 0.9982 - val_loss: 0.0355
Epoch 3/10
[1m4985/4985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 3ms/step - accuracy: 0.9981 - loss: 0.0812 - val_accuracy: 0.9982 - val_loss: 0.0270
Epoch 4/10
[1m4985/4985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 2ms/step - accuracy: 0.9983 - loss: 0.0207 - val_accuracy: 0.9982 - val_loss: 0.0213
Epoch 5/10
[1m4985/4985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 2ms/step - accuracy: 0.9984 - loss: 0.0162 - val_accuracy: 0.9982 - val_loss: 0.0134
Epoch 6/10
[1m4985/4985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m13s[0m 3ms/step - accuracy: 0.9983 - loss: 0.0127 - val_accuracy: 0.9981 - val_loss: 0.0140
Epoch 7/10

# **Avaliação do Modelo**
Nesta seção, o modelo é avaliado com base nas previsões feitas no conjunto de teste. As métricas incluem a AUC-ROC e o relatório de classificação.


In [9]:
# Avaliando o modelo
from sklearn.metrics import classification_report, roc_auc_score

# Prever com o modelo treinado
y_pred_prob = model.predict(X_test)
y_pred = (y_pred_prob > 0.5).astype(int)

# Avaliar o modelo
report = classification_report(y_test, y_pred)
auc_roc = roc_auc_score(y_test, y_pred_prob)

print(report)
print(f'AUC-ROC: {auc_roc}')


[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85307
           1       0.00      0.00      0.00       136

    accuracy                           1.00     85443
   macro avg       0.50      0.50      0.50     85443
weighted avg       1.00      1.00      1.00     85443

AUC-ROC: 0.4972295132666169


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


# **Otimização de Hiperparâmetros com Grid Search**
Nesta célula, implementamos uma busca em grade (grid search) manual para otimizar os hiperparâmetros `optimizer` e `batch_size`. Testamos várias combinações desses parâmetros para identificar a configuração que oferece o melhor desempenho em termos de AUC-ROC. O modelo que obtém a melhor pontuação AUC-ROC no conjunto de teste é selecionado como o melhor modelo.


In [14]:
from sklearn.metrics import roc_auc_score

def grid_search(X_train, y_train, X_test, y_test):
    best_score = 0
    best_params = {}
    best_model = None
    best_roc_auc = 0

    for optimizer in ['adam', 'rmsprop']:
        for batch_size in [16, 32, 64]:
            # Criar e treinar o modelo
            model = create_model(optimizer=optimizer)
            model.fit(X_train, y_train, epochs=10, batch_size=batch_size, verbose=0)

            # Avaliar o modelo no conjunto de treino
            score = model.evaluate(X_train, y_train, verbose=0)[1]

            # Prever no conjunto de teste
            y_pred_prob = model.predict(X_test)
            roc_auc = roc_auc_score(y_test, y_pred_prob)

            # Verificar se é o melhor modelo até agora
            if roc_auc > best_roc_auc:
                best_score = score
                best_params = {'optimizer': optimizer, 'batch_size': batch_size}
                best_model = model
                best_roc_auc = roc_auc

    return best_model, best_params, best_roc_auc

# Executar a busca
best_model, best_params, best_roc_auc = grid_search(X_train, y_train, X_test, y_test)

print(f"Melhores parâmetros: {best_params}")
print(f"AUC-ROC com os melhores parâmetros: {best_roc_auc}")


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 1ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 1ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 1ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step
Melhores parâmetros: {'optimizer': 'rmsprop', 'batch_size': 32}
AUC-ROC com os melhores parâmetros: 0.8006164930951809


# **Avaliação do Desempenho do Melhor Modelo**
Aqui, utilizamos o melhor modelo encontrado pela grid search para fazer previsões no conjunto de teste. Geramos um relatório de classificação (`classification_report`) para avaliar métricas como precisão, recall e F1-score. Além disso, comparamos o desempenho do modelo otimizado com os parâmetros encontrados pela busca em grade.


In [15]:
from sklearn.metrics import classification_report

y_pred_best = (best_model.predict(X_test) > 0.5).astype(int)
report_best = classification_report(y_test, y_pred_best)
print("Desempenho com os melhores parâmetros:")
print(report_best)

[1m2671/2671[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 1ms/step
Desempenho com os melhores parâmetros:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85307
           1       0.56      0.44      0.49       136

    accuracy                           1.00     85443
   macro avg       0.78      0.72      0.75     85443
weighted avg       1.00      1.00      1.00     85443



1. Desempenho Inicialmente Ruim:
Baixa AUC-ROC: O primeiro modelo teve uma AUC-ROC de aproximadamente 0.497, o que é próximo de 0.5, sugerindo que o modelo não estava conseguindo distinguir entre as classes.
Problemas com Classes Desbalanceadas: No primeiro cenário, o modelo teve dificuldade em prever a classe minoritária (1), com F1-score muito baixo, o que pode ocorrer especialmente em problemas com classes desbalanceadas.
2. Melhoria no Desempenho:
Ajustes ou Otimizações: No segundo resultado, há uma melhoria significativa no desempenho, especialmente na previsão da classe minoritária (1). A precisão aumentou, e o F1-score para a classe 1 foi muito melhor. Isso resultou em uma AUC-ROC mais elevada.
Melhores Hiperparâmetros: A mudança pode ter sido causada pela escolha de melhores hiperparâmetros, como o optimizer ou o batch_size, que podem ter ajudado o modelo a aprender melhor a distinção entre as classes.
3. Classes Desbalanceadas:
Impacto no Modelo: A natureza desbalanceada do conjunto de dados (com muitas mais instâncias da classe 0 em comparação com a classe 1) pode fazer com que o modelo tenha uma alta acurácia geral, mas baixa capacidade de prever a classe minoritária.
4. Possíveis Melhorias:
Estratégias de Balanceamento: Considerar técnicas como amostragem (over-sampling da classe minoritária, under-sampling da classe majoritária) ou a aplicação de técnicas como SMOTE (Synthetic Minority Over-sampling Technique).
Ajuste de Threshold: Testar diferentes limiares de decisão além do padrão de 0.5 para otimizar a precisão ou recall.
Custom Loss Function: Implementar uma função de perda customizada que penalize mais os erros na classe minoritária.