In [None]:
import sqlite3
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import LabelEncoder

In [None]:
# carregando dados do sqlite
conn = sqlite3.connect("../sqlite_loader/siem_logs.db")
df = pd.read_sql_query("SELECT * FROM siem_logs", conn)
conn.close()

print("Data loaded successfully")
print(df.head())

In [None]:
# pré processamento básico
# remover colunas irrelevantes para o modelo ou dificeis de processar diretamente
# a ideia é manter apenas algumas features simples
features = ['event_type','status','device','location']
df_clean = df[features].copy()

# codificar as variaveis categóricas
le_dict = {}
for col in df_clean.columns:
    le = LabelEncoder()
    df_clean[col] = le.fit_transform(df_clean[col])
    le_dict[col] = le

print("Data after encoding: ")
print(df_clean.head())

In [None]:
# aplicando isolation forest
model = IsolationForest(n_estimators=100, contamination=0.1, random_state=42)
df['anomaly_pred'] = model.fit_predict(df_clean)

# -1 indica anomalia, 1 indica normal
df['is_anomaly'] = df['anomaly_pred'] == -1

In [None]:
# visualização simples
plt.figure(figsize=(8,4))
sns.countplot(x='is_anomaly', data=df)
plt.title("Distribuição de logs anômalos vs normais")
plt.xlabel("é anômalo?")
plt.ylabel("quantidade")
plt.xticks([0,1], ["Normal", "Anômalo"])
plt.tight_layout()
plt.show()

In [None]:
# mostrar alguns logs considerados anômalos
print("Exemplos de logs anômalos: ")
print(df[df['is_anomaly']].head())