In [None]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, roc_auc_score, classification_report, confusion_matrix, precision_recall_curve, f1_score, roc_curve
from binary_lund_tree import BinaryLundTree  # Importando o modelo correto

In [None]:
# Definir caminhos das pastas
desired_events_folder = "Z2JetsToNuNu"  # Pasta com datasets de eventos desejados
undesired_events_folder = "Z2JetsToNuNu_Negative"  # Pasta com datasets de eventos indesejados

In [None]:
# Função para carregar múltiplos arquivos CSV de uma pasta e adicionar rótulo
def load_csv_files(folder_path, label):
    all_files = [f for f in os.listdir(folder_path) if f.endswith(".csv")]
    df_list = [pd.read_csv(os.path.join(folder_path, f)) for f in all_files]
    for df in df_list:
        df["event_label"] = label  # Adicionar rótulo de evento desejado ou não
    return pd.concat(df_list, ignore_index=True)

In [None]:
# Carregar os dados dos eventos
desired_df = load_csv_files(desired_events_folder, label=1)  # Eventos desejados
undesired_df = load_csv_files(undesired_events_folder, label=0)  # Eventos indesejados

In [None]:
# Combinar os datasets em um único dataframe
full_data = pd.concat([desired_df, undesired_df], ignore_index=True)

In [None]:
# Selecionar todas as features do arquivo CSV
lund_features = list(full_data.columns)
lund_features.remove("event_label")  # Remover a variável alvo

In [None]:
X = full_data[lund_features]
y = full_data["event_label"]

In [None]:
# Tratar valores ausentes
X.replace('None', np.nan, inplace=True)  # Substituir 'None' por NaN
X.fillna(X.mean(), inplace=True)

In [None]:
# Normalizar os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# Dividir treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

In [None]:
# Configuração do modelo Binary Lund Tree
model = BinaryLundTree(
    num_layers=4,  # Número de camadas da GNN
    hidden_dim=64,  # Tamanho dos vetores ocultos
    learning_rate=0.001,  # Taxa de aprendizado
    batch_size=128,  # Tamanho do lote
    epochs=50  # Número de épocas
)  # Ajuste de hiperparâmetros
history = model.fit(X_train, y_train, validation_data=(X_test, y_test))

In [None]:
# Fazer previsões
y_pred = model.predict(X_test)
y_pred_prob = model.predict_proba(X_test)[:, 1]  # Probabilidade para ROC-AUC

In [None]:
# Avaliar desempenho
accuracy = accuracy_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_pred_prob)
report = classification_report(y_test, y_pred)

In [None]:
# Plotar a curva de perda (Loss) ao longo das épocas
plt.figure(figsize=(8, 6))
plt.plot(history.history['loss'], label='Treinamento', color='blue')
plt.plot(history.history['val_loss'], label='Validação', color='red')
plt.xlabel("Épocas")
plt.ylabel("Loss")
plt.title("Evolução da Perda ao Longo do Treinamento")
plt.legend()
plt.grid()
plt.show()

print(f"Acurácia do modelo: {accuracy:.4f}")

In [None]:
# Calcular a curva ROC
fpr, tpr, _ = roc_curve(y_test, y_pred_prob)

# Plotar a curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f"AUC = {roc_auc:.4f}", color='blue')
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("Curva ROC")
plt.legend()
plt.grid()
plt.show()

print(f"ROC-AUC Score: {roc_auc:.4f}")

In [None]:
# Matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=["Negative", "Positive"], yticklabels=["Negative", "Positive"])
plt.xlabel("Predito")
plt.ylabel("Real")
plt.title("Matriz de Confusão")
plt.show()

In [None]:
# Calcular a curva Precision-Recall
precision, recall, _ = precision_recall_curve(y_test, y_pred_prob)

# Plotar a curva Precision-Recall
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, label=f"F1-score = {f1_score(y_test, y_pred):.4f}", color='green')
plt.xlabel("Recall")
plt.ylabel("Precision")
plt.title("Curva Precision-Recall")
plt.legend()
plt.grid()
plt.show()

In [None]:
print("Relatório de Classificação:\n", report)