In [None]:
# @title Prepara√ß√£o de Dados (Autoencoder)

import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
import os


# --- Defini√ß√£o do Caminho ---
DATA_PATH = '/data/mocks'


# Arquivos de entrada do Integrante 1 (Contrato de Interface)
X_TRAIN_FILE = os.path.join(DATA_PATH, 'X_train_processed.csv')
Y_TRAIN_FILE = os.path.join(DATA_PATH, 'Y_train.csv')


# --- 1. Carregamento dos Dados ---
print("1. Carregando dados de treino (Features e R√≥tulos)...")
X_train_full = pd.read_csv(X_TRAIN_FILE)
Y_train_full = pd.read_csv(Y_TRAIN_FILE)


# Garantir que o r√≥tulo seja uma s√©rie para f√°cil indexa√ß√£o
y_train_series = Y_train_full['Class']


# Relat√≥rio inicial
print(f"Dimens√£o Total do Conjunto de Treino Recebido: {X_train_full.shape}")
print(f"Distribui√ß√£o de Classes no Treino (Completo):\n{y_train_series.value_counts()}")


# --- 2. Filtro de Classe (Classe 0) ---
print("\n2. Filtrando o conjunto para manter APENAS a Classe 0 (Normal)...")

# Cria uma m√°scara booleana para selecionar apenas as observa√ß√µes normais (Classe 0)
mask_normal = (y_train_series == 0)

# Aplica a m√°scara para obter apenas os dados normais (Normais = Classe 0)
X_normal = X_train_full[mask_normal]
y_normal = y_train_series[mask_normal] # R√≥tulos dos dados normais (todos s√£o 0)

X_anomaly_check = X_train_full[~mask_normal] # Isso √© apenas a classe 1 (fraude)

print(f"Total de Transa√ß√µes Normais (Classe 0): {X_normal.shape[0]}")
print(f"Total de Anomalias (Classe 1): {X_anomaly_check.shape[0]}")


# --- 3. Divis√£o Interna: Treino Puro vs. Valida√ß√£o Interna ---

# Usaremos uma propor√ß√£o de 70% para Treino Puro e 30% dos Normais restantes
# para o Conjunto de Valida√ß√£o. Adicionaremos as anomalias neste conjunto.

TEST_SIZE = 0.3  # 30% para o conjunto de Valida√ß√£o Interna
RANDOM_STATE = 42 # Para garantir reprodutibilidade

# Divide a base normal (Classe 0) em duas partes
X_train_pure, X_val_normal, y_train_pure, y_val_normal = train_test_split(
    X_normal,
    y_normal,
    test_size=TEST_SIZE,
    random_state=RANDOM_STATE
)

# --- 4. Montagem do Conjunto de Valida√ß√£o Interna ---
print("\n4. Montando o Conjunto de Valida√ß√£o Interna (Cont√©m 0s e 1s)...")

# O conjunto de valida√ß√£o interna deve conter amostras Normais E An√¥malas
# para que possamos monitorar o desempenho de classifica√ß√£o/separa√ß√£o durante a tunagem.
X_val_combined = pd.concat([X_val_normal, X_anomaly_check], ignore_index=True)
y_val_combined = pd.concat([y_val_normal, y_train_series[~mask_normal]], ignore_index=True)

# Relat√≥rio Final
print("\n--- RESUMO FINAL DOS CONJUNTOS INTERNOS ---")
print(f"1. Conjunto de Treino PURO (AE.fit()): {X_train_pure.shape}")
print(f"   -> Cont√©m APENAS Classe: {y_train_pure.unique()}")
print(f"2. Conjunto de Valida√ß√£o INTERNA (Monitoramento): {X_val_combined.shape}")
print(f"   -> Cont√©m Classe 0 e Classe 1: {y_val_combined.value_counts().to_dict()}")

# Os objetos prontos para a pr√≥xima fase s√£o: X_train_pure (para fit) e X_val_combined/y_val_combined (para tunagem)
# X_train_pure √© o que voc√™ usar√° no model.fit(X_train_pure, X_train_pure, ...)

In [None]:
# @title Treinamento e Otimiza√ß√£o da Arquitetura

import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.metrics import average_precision_score, roc_auc_score
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# --- Configura√ß√µes Iniciais ---
# Se estiver no Colab/Jupyter, certifique-se de que os objetos da Fase 1 (X_train_pure, X_val_combined, y_val_combined)
# est√£o na mem√≥ria. Se n√£o, carregue-os ou rode a c√©lula da Fase 1 novamente.

# Par√¢metros Fixos
INPUT_DIM = X_train_pure.shape[1] # N√∫mero de features (30 no mock)
RANDOM_SEED = 42
tf.random.set_seed(RANDOM_SEED)
np.random.seed(RANDOM_SEED)

# --- Defini√ß√£o do Espa√ßo de Busca (Grid Search) ---
# Vamos testar diferentes tamanhos de gargalo e taxas de aprendizado
param_grid = {
    'encoding_dim': [4, 8, 16], # Tamanho do Gargalo (Bottleneck)
    'learning_rate': [0.01, 0.001],
    'epochs': [50], # Fixo, controlado pelo Early Stopping
    'batch_size': [32, 64]
}

# --- Fun√ß√£o para Construir o Autoencoder ---
def build_autoencoder(input_dim, encoding_dim):
    """
    Cria um Autoencoder simples: Input -> Encoder -> Bottleneck -> Decoder -> Output
    """
    input_layer = Input(shape=(input_dim,))

    # Encoder (Compress√£o)
    # Adicionamos uma camada intermedi√°ria para dar profundidade (opcional, mas bom)
    encoded = Dense(int(input_dim * 0.75), activation='relu')(input_layer)

    # Bottleneck (Gargalo)
    bottleneck = Dense(encoding_dim, activation='relu')(encoded)

    # Decoder (Reconstru√ß√£o)
    decoded = Dense(int(input_dim * 0.75), activation='relu')(bottleneck)
    output_layer = Dense(input_dim, activation='linear')(decoded) # Linear ou Sigmoid dependendo da normaliza√ß√£o (0-1 -> Sigmoid)
    # Nota: Se seus dados forem Padronizados (StandardScaler, m√©dia 0), use 'linear'.
    # Se forem Normalizados (MinMax, 0 a 1), use 'sigmoid'. Vamos assumir 'sigmoid' para o mock (0-1).

    autoencoder = Model(inputs=input_layer, outputs=output_layer)
    return autoencoder

# --- Loop de Treinamento e Valida√ß√£o (Grid Search Manual) ---
results = []

print(f"Iniciando Grid Search com {len(param_grid['encoding_dim']) * len(param_grid['learning_rate']) * len(param_grid['batch_size'])} combina√ß√µes...")

for encoding_dim in param_grid['encoding_dim']:
    for lr in param_grid['learning_rate']:
        for batch in param_grid['batch_size']:

            print(f"\n--- Testando: Gargalo={encoding_dim}, LR={lr}, Batch={batch} ---")

            # 1. Construir Modelo
            autoencoder = build_autoencoder(INPUT_DIM, encoding_dim)

            # 2. Compilar (Otimizador Adam + MSE Loss)
            optimizer = tf.keras.optimizers.Adam(learning_rate=lr)
            autoencoder.compile(optimizer=optimizer, loss='mean_squared_error')

            # 3. Early Stopping (Monitorar Valida√ß√£o Interna)
            # Nota: No fit, usaremos X_val_combined como validation_data.
            # O Keras calcular√° o loss (reconstru√ß√£o) nele.
            # Como X_val_combined tem anomalias, o loss de valida√ß√£o ser√° naturalmente mais alto que o treino,
            # mas o Early Stopping ainda funciona para detectar quando a rede para de aprender o padr√£o geral.
            early_stop = EarlyStopping(
                monitor='val_loss',
                patience=5,
                mode='min',
                restore_best_weights=True,
                verbose=0
            )

            # 4. Treinar (Apenas com X_train_pure - Classe 0)
            history = autoencoder.fit(
                X_train_pure, X_train_pure, # Entrada = Sa√≠da (Reconstru√ß√£o)
                epochs=param_grid['epochs'][0],
                batch_size=batch,
                shuffle=True,
                validation_data=(X_val_combined, X_val_combined),
                callbacks=[early_stop],
                verbose=0 # Silencioso para n√£o poluir o output
            )

            # 5. Avaliar Performance no Conjunto de Valida√ß√£o Interna
            # Gerar reconstru√ß√µes
            reconstructions = autoencoder.predict(X_val_combined, verbose=0)

            # Calcular Erro de Reconstru√ß√£o (MSE) por amostra
            # loss = mean((X - X_hat)^2, axis=1)
            mse = np.mean(np.power(X_val_combined - reconstructions, 2), axis=1)

            # Calcular M√©tricas de Detec√ß√£o (AUC-PR √© a mais importante para desbalanceado)
            # y_val_combined s√£o os r√≥tulos verdadeiros (0 ou 1)
            auc_pr = average_precision_score(y_val_combined, mse)
            auc_roc = roc_auc_score(y_val_combined, mse)

            print(f"   -> Val Loss Final: {history.history['val_loss'][-1]:.4f}")
            print(f"   -> AUC-PR (Valida√ß√£o): {auc_pr:.4f}")

            # Guardar resultados
            results.append({
                'encoding_dim': encoding_dim,
                'learning_rate': lr,
                'batch_size': batch,
                'auc_pr': auc_pr,
                'auc_roc': auc_roc,
                'model': autoencoder # Guardar o objeto do modelo (cuidado com mem√≥ria em loops grandes)
            })

# --- Sele√ß√£o do Melhor Modelo ---
# Ordenar por AUC-PR decrescente
results_df = pd.DataFrame(results)
best_run = results_df.sort_values(by='auc_pr', ascending=False).iloc[0]

print("\n=============================================")
print("üèÜ MELHOR MODELO ENCONTRADO")
print("=============================================")
print(f"Gargalo (Bottleneck): {best_run['encoding_dim']}")
print(f"Learning Rate: {best_run['learning_rate']}")
print(f"Batch Size: {best_run['batch_size']}")
print(f"AUC-PR (Valida√ß√£o): {best_run['auc_pr']:.4f}")
print(f"AUC-ROC (Valida√ß√£o): {best_run['auc_roc']:.4f}")

# Recuperar o melhor modelo treinado
best_autoencoder = best_run['model']

# --- Salvar o Modelo (Opcional) ---
# best_autoencoder.save('best_autoencoder_model.h5')

# --- Visualiza√ß√£o do Erro de Reconstru√ß√£o (Melhor Modelo) ---
# Vamos plotar a distribui√ß√£o dos erros para Normais vs Anomalias no conjunto de valida√ß√£o
reconstructions_val = best_autoencoder.predict(X_val_combined, verbose=0)
mse_val = np.mean(np.power(X_val_combined - reconstructions_val, 2), axis=1)

error_df = pd.DataFrame({'reconstruction_error': mse_val, 'true_class': y_val_combined})

plt.figure(figsize=(10, 6))
plt.title("Distribui√ß√£o do Erro de Reconstru√ß√£o (Valida√ß√£o Interna)")
for label in [0, 1]:
    subset = error_df[error_df['true_class'] == label]
    plt.hist(subset['reconstruction_error'], bins=50, alpha=0.6, label=f"Classe {label}", density=True)

plt.xlabel("Erro de Reconstru√ß√£o (MSE)")
plt.ylabel("Densidade")
plt.legend()
plt.show()

In [None]:
# @title Gera√ß√£o do Score Final (Conjunto de Teste)

import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.metrics import precision_recall_curve, confusion_matrix, classification_report
import matplotlib.pyplot as plt
import os

# --- Configura√ß√µes Iniciais ---
# Se estiver no Colab/Jupyter, certifique-se de que o 'best_autoencoder' da Fase 2 est√° na mem√≥ria.
# Se n√£o, carregue o modelo salvo: best_autoencoder = tf.keras.models.load_model('best_autoencoder_model.h5')

# Par√¢metros
DATA_PATH = 'data/mocks' # ou 'data/processed'
OUTPUT_PATH = 'outputs'

if not os.path.exists(OUTPUT_PATH):
    os.makedirs(OUTPUT_PATH)

# Arquivos de Teste (Contrato de Interface)
X_TEST_FILE = os.path.join(DATA_PATH, 'X_test_processed.csv')
Y_TEST_FILE = os.path.join(DATA_PATH, 'Y_test.csv')
IDS_TEST_FILE = os.path.join(DATA_PATH, 'ids_test.csv')

# --- 1. Carregamento dos Dados de Teste ---
print("1. Carregando dados de Teste...")
X_test = pd.read_csv(X_TEST_FILE)
y_test = pd.read_csv(Y_TEST_FILE)['Class'] # Gabarito (apenas para definir threshold √≥timo, n√£o para treino!)
ids_test = pd.read_csv(IDS_TEST_FILE)['id']

print(f"Dimens√£o do Teste: {X_test.shape}")

# --- 2. Gera√ß√£o do Anomaly Score (Erro de Reconstru√ß√£o) ---
print("\n2. Calculando Anomaly Score (Erro de Reconstru√ß√£o)...")

# Passar o X_test pelo melhor modelo
reconstructions_test = best_autoencoder.predict(X_test, verbose=0)

# Calcular MSE (Mean Squared Error) por amostra
# Score = m√©dia do erro quadrado de todas as features daquela transa√ß√£o
anomaly_scores = np.mean(np.power(X_test - reconstructions_test, 2), axis=1)

print(f"Scores calculados. Min: {anomaly_scores.min():.4f}, Max: {anomaly_scores.max():.4f}")

# --- 3. Defini√ß√£o do Threshold √ìtimo (Usando Precision-Recall) ---
print("\n3. Definindo Threshold √ìtimo...")

# Como os dados s√£o desbalanceados, a Curva Precision-Recall √© melhor que a ROC para achar o corte.
precision, recall, thresholds = precision_recall_curve(y_test, anomaly_scores)

# Estrat√©gia: Encontrar o threshold que maximiza o F1-Score
# F1 = 2 * (Precision * Recall) / (Precision + Recall)
f1_scores = 2 * (precision * recall) / (precision + recall + 1e-10) # 1e-10 evita divis√£o por zero
best_idx = np.argmax(f1_scores)
best_threshold = thresholds[best_idx]
best_f1 = f1_scores[best_idx]

print(f"Threshold √ìtimo encontrado: {best_threshold:.4f}")
print(f"F1-Score Estimado no Ponto √ìtimo: {best_f1:.4f}")

# Plotar Curva Precision-Recall com o ponto √≥timo
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, marker='.', label='Autoencoder')
plt.scatter(recall[best_idx], precision[best_idx], marker='o', color='red', label='Best Threshold', zorder=10)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Curva Precision-Recall (Sele√ß√£o de Threshold)')
plt.legend()
plt.show()

# --- 4. Gera√ß√£o da Classifica√ß√£o Final (Is Anomaly?) ---
print("\n4. Gerando Classifica√ß√£o Final...")

# Aplica o threshold: Se score > threshold, √© anomalia (1)
predictions = (anomaly_scores > best_threshold).astype(int)

# Relat√≥rio de Classifica√ß√£o
print("\n--- Relat√≥rio de Performance no Teste ---")
print(classification_report(y_test, predictions, target_names=['Normal', 'Fraude']))

# Matriz de Confus√£o
cm = confusion_matrix(y_test, predictions)
print(f"Matriz de Confus√£o:\n{cm}")

# --- 5. Exporta√ß√£o (Formato Contrato de Interface) ---
print("\n5. Exportando resultados para 'outputs/'...")

# Criar DataFrame final conforme contrato
df_output = pd.DataFrame({
    'id': ids_test,
    'anomaly_score': anomaly_scores, # Score cont√≠nuo (Crucial para AUC-ROC do Int. 1)
    'is_anomaly': predictions        # Predi√ß√£o bin√°ria baseada no seu threshold
})

# Salvar
output_file = os.path.join(OUTPUT_PATH, 'autoencoder_predictions.csv')
df_output.to_csv(output_file, index=False)

print(f"‚úÖ Arquivo salvo com sucesso: {output_file}")
print("Exemplo das primeiras linhas:")
print(df_output.head())