In [None]:
%pip install -r requirements.txt

In [10]:
import pandas as pd
import xgboost as xgb
import shap
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

In [None]:
# Carregar os dados do CSV
df = pd.read_csv(
    "../Preprocess/arquivo_completo.csv",
    sep=",",
    low_memory=False,
)

# Mapear a coluna 'class' para 0 e 1
df["class"] = df["class"].map({"normal": 0, "attack": 1})

# Aplicar Label Encoding para colunas categóricas (tipo object)
label_encoders = {}
for column in df.columns:
    if df[column].dtype == "object":
        le = LabelEncoder()
        df[column] = le.fit_transform(df[column].astype(str))
        label_encoders[column] = le

# Separar as variáveis independentes e a variável dependente
X = df.drop("class", axis=1)
y = df["class"]

# Dividir o dataset em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

model = xgb.XGBClassifier()
model.fit(X_train, y_train)

# Explicabilidade do modelo com SHAP
explainer = shap.Explainer(model)
shap_values = explainer(X_train)

y_pred = model.predict(X_test)

# Plotagem do gráfico SHAP
shap.summary_plot(shap_values, X_train)

# Calculando o F1 Score
f1 = f1_score(y_test, y_pred, average="weighted")

print(f"O F1 Score do modelo é: {f1}")

In [5]:
# train_df = pd.read_csv("arquivo_completo.csv", sep=",")

In [6]:
# # Obter o nome da última coluna
# ultima_coluna = train_df.columns[-1]
# print("O nome da última coluna é:", ultima_coluna)

O nome da última coluna é: class


In [None]:
# if 'class' not in train_df.columns:
#     print("A coluna 'class' não está presente no dataframe.")
# else:
#     print("A coluna 'class' está presente no dataframe.")

# print("Colunas presentes no dataframe:", train_df.columns)

In [None]:
# train_df['class'].dtype