In [1]:
# Célula 1: Importações e Conexão
import pandas as pd
from sqlalchemy import create_engine
import warnings

# Ignora avisos futuros para manter a saída limpa
warnings.filterwarnings('ignore')

# String de conexão para o nosso banco de dados PostgreSQL que está rodando no Docker
db_url = "postgresql://imunno_user:imunno_password@localhost:5432/imunno_db"

# Cria a "ponte" de conexão usando SQLAlchemy
engine = create_engine(db_url)

print("Conexão com o banco de dados pronta.")

Conexão com o banco de dados pronta.


In [2]:
# Célula 2: Carregar Dados

# Carrega os dados da tabela 'events' (arquivos)
try:
    df_files = pd.read_sql("SELECT * FROM events", engine)
    print(f"Carregados {len(df_files)} eventos de arquivo.")
    display(df_files.head())
except Exception as e:
    print(f"Erro ao carregar eventos de arquivo: {e}")

# Carrega os dados da tabela 'process_events' (processos)
try:
    df_processes = pd.read_sql("SELECT * FROM process_events", engine)
    print(f"\nCarregados {len(df_processes)} eventos de processo.")
    display(df_processes.head())
except Exception as e:
    print(f"Erro ao carregar eventos de processo: {e}")

Carregados 2 eventos de arquivo.


Unnamed: 0,id,agent_id,hostname,file_path,file_hash_sha256,event_type,event_timestamp,threat_score,analysis_findings,created_at
0,1,agent-001,eafb6912a1af,/data/dropper.php,e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b93...,CREATE,2025-07-09 11:29:53.634971+00:00,0,,2025-07-09 11:29:53.662944+00:00
1,2,agent-001,eafb6912a1af,/data/dropper.php,8964b1f85c243ff72fa90751a9a0c67f74dec920907432...,MODIFY,2025-07-09 11:29:58.680908+00:00,40,[Funcao perigosa 'shell_exec' ou 'passthru'],2025-07-09 11:29:58.681750+00:00



Carregados 0 eventos de processo.


Unnamed: 0,id,agent_id,hostname,event_timestamp,process_id,parent_id,command,username,created_at,threat_score


In [3]:
# Célula 3: Engenharia de Features
import json

print("Enriquecendo dados...")

# --- Features para eventos de arquivo ---
def contar_achados(findings_json):
    if findings_json is None: return 0
    try:
        return len(json.loads(findings_json))
    except (json.JSONDecodeError, TypeError):
        return 0

if not df_files.empty:
    df_files['num_findings'] = df_files['analysis_findings'].apply(contar_achados)
    df_files['is_php'] = df_files['file_path'].str.endswith('.php').astype(int)

# --- Features para eventos de processo ---
def checar_downloader(command):
    return 1 if command and ('curl' in command or 'wget' in command) else 0

if not df_processes.empty:
    df_processes['is_downloader'] = df_processes['command'].apply(checar_downloader)
    df_processes['is_root'] = df_processes['username'].str.contains('root').astype(int)

print("Novas características (features) criadas com sucesso!")

Enriquecendo dados...
Novas características (features) criadas com sucesso!


In [4]:
# Célula 4: Treinamento e Avaliação do Modelo
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
import joblib

# Por enquanto, focaremos apenas nos eventos de arquivo, que já têm uma pontuação.
df_treinamento = df_files.copy()

# Se não tivermos dados, não podemos treinar.
if not df_treinamento.empty:
    # Criando a coluna "alvo" para o modelo aprender
    df_treinamento['target'] = (df_treinamento['threat_score'] >= 40).astype(int)

    # Definindo as features e o target
    features = df_treinamento[['threat_score', 'num_findings', 'is_php']]
    target = df_treinamento['target']

    # Dividindo os dados para um teste justo
    X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.3, random_state=42)

    # Criando e Treinando o modelo
    print("Iniciando treinamento do modelo RandomForestClassifier...")
    rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
    rf_model.fit(X_train, y_train)
    print("Treinamento concluído!")

    # Avaliando o Desempenho
    if not X_test.empty:
        print("\nAvaliando o modelo no conjunto de teste...")
        predictions = rf_model.predict(X_test)
        print("\nRelatório de Classificação:")
        print(classification_report(y_test, predictions, zero_division=0))
        print("\nMatriz de Confusão:")
        print(confusion_matrix(y_test, predictions))
    else:
        print("\nNão há dados de teste suficientes para uma avaliação.")

    # Salvando o novo cérebro
    new_model_filename = 'imunno_classifier.joblib'
    joblib.dump(rf_model, new_model_filename)
    print(f"\nNovo modelo de classificação salvo como: {new_model_filename}")
else:
    print("Não há dados de eventos de arquivo para treinar um modelo.")

Iniciando treinamento do modelo RandomForestClassifier...
Treinamento concluído!

Avaliando o modelo no conjunto de teste...

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00       0.0
           1       0.00      0.00      0.00       1.0

    accuracy                           0.00       1.0
   macro avg       0.00      0.00      0.00       1.0
weighted avg       0.00      0.00      0.00       1.0


Matriz de Confusão:
[[0 0]
 [1 0]]

Novo modelo de classificação salvo como: imunno_classifier.joblib
