In [4]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Imunno System - Treinamento do Modelo de IA\n",
    "\n",
    "Este notebook é o nosso \"laboratório de IA\". Ele se conecta ao banco de dados do Imunno System, carrega os dados de eventos coletados, treina um modelo de detecção de anomalias e o salva para ser usado pelo `imunno-ml-service`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Célula 1: Importações e Conexão\n",
    "import pandas as pd\n",
    "from sqlalchemy import create_engine\n",
    "import warnings\n",
    "\n",
    "# Ignora avisos futuros para manter a saída limpa\n",
    "warnings.filterwarnings('ignore')\n",
    "\n",
    "# --- CORREÇÃO IMPORTANTE ---\n",
    "# String de conexão para o nosso banco de dados PostgreSQL que está rodando no Docker.\n",
    "# Dentro da rede do Docker, o hostname do serviço de banco de dados é o nome do serviço\n",
    "# definido no docker-compose.yml, que é 'imunno_postgres', e não 'localhost'.\n",
    "db_url = \"postgresql://imunno_user:imunno_password@imunno_postgres:5432/imunno_db\"\n",
    "\n",
    "try:\n",
    "    # Cria a \"ponte\" de conexão usando SQLAlchemy\n",
    "    engine = create_engine(db_url)\n",
    "    print(\"Conexão com o banco de dados pronta.\")\n",
    "except Exception as e:\n",
    "    print(f\"Falha ao conectar ao banco de dados: {e}\")\n",
    "    engine = None"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Célula 2: Carregamento dos Dados (Versão Robusta)\n",
    "print(\"Carregando dados das tabelas 'file_events' e 'process_events'...\")\n",
    "\n",
    "# --- CORREÇÃO IMPORTANTE ---\n",
    "# Vamos garantir que os DataFrames sempre existam, mesmo se as tabelas estiverem vazias.\n",
    "\n",
    "if engine:\n",
    "    try:\n",
    "        # Carrega os eventos de arquivo\n",
    "        query_files = \"SELECT * FROM file_events\"\n",
    "        df_files = pd.read_sql_query(query_files, engine)\n",
    "        print(f\"Carregados {len(df_files)} eventos de arquivo.\")\n",
    "    except Exception as e:\n",
    "        print(f\"Não foi possível carregar eventos de arquivo (tabela pode estar vazia): {e}\")\n",
    "        # Se falhar, cria um DataFrame vazio com as colunas esperadas para o script não quebrar\n",
    "        df_files = pd.DataFrame(columns=['threat_score', 'file_size', 'file_path'])\n",
    "\n",
    "    try:\n",
    "        # Carrega os eventos de processo\n",
    "        query_processes = \"SELECT * FROM process_events\"\n",
    "        df_processes = pd.read_sql_query(query_processes, engine)\n",
    "        print(f\"Carregados {len(df_processes)} eventos de processo.\")\n",
    "    except Exception as e:\n",
    "        print(f\"Não foi possível carregar eventos de processo (tabela pode estar vazia): {e}\")\n",
    "        df_processes = pd.DataFrame(columns=['command', 'username'])\n",
    "else:\n",
    "    print(\"Sem conexão com o banco de dados. Criando DataFrames vazios.\")\n",
    "    df_files = pd.DataFrame(columns=['threat_score', 'file_size', 'file_path'])\n",
    "    df_processes = pd.DataFrame(columns=['command', 'username'])\n",
    "\n",
    "print(\"Carregamento de dados concluído.\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Célula 3: Engenharia de Features (Adaptada para Dados Vazios)\n",
    "print(\"Enriquecendo dados...\")\n",
    "\n",
    "# Verifica se df_files não está vazio antes de tentar criar features\n",
    "if not df_files.empty:\n",
    "    df_files['is_php'] = df_files['file_path'].str.endswith('.php').astype(int)\n",
    "    df_files['is_js'] = df_files['file_path'].str.endswith('.js').astype(int)\n",
    "    # Garante que as colunas existam mesmo que não haja dados para preencher\n",
    "    features = df_files[['threat_score', 'file_size', 'is_php', 'is_js']]\n",
    "else:\n",
    "    # Se não houver dados, cria um DataFrame de features vazio para o resto do script não quebrar\n",
    "    features = pd.DataFrame(columns=['threat_score', 'file_size', 'is_php', 'is_js'])\n",
    "\n",
    "print(\"Novas características (features) criadas com sucesso!\")\n",
    "features.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Célula 4: Treinamento do Modelo (Adaptado para Dados Vazios)\n",
    "from sklearn.ensemble import IsolationForest\n",
    "import joblib\n",
    "\n",
    "print(\"Preparando para treinar o modelo de Detecção de Anomalia (Isolation Forest)...\")\n",
    "\n",
    "# --- CORREÇÃO IMPORTANTE ---\n",
    "# Só tentamos treinar o modelo se tivermos de fato algum dado.\n",
    "if not features.empty and len(features) > 0:\n",
    "    print(f\"Treinando modelo com {len(features)} amostras...\")\n",
    "    \n",
    "    # Inicializa o modelo\n",
    "    # Contamination='auto' é uma boa escolha para começar\n",
    "    model = IsolationForest(contamination='auto', random_state=42)\n",
    "\n",
    "    # Treina o modelo com nossas features\n",
    "    model.fit(features)\n",
    "\n",
    "    print(\"Modelo treinado com sucesso!\")\n",
    "\n",
    "    # Salva o modelo treinado para ser usado pelo nosso serviço de API\n",
    "    model_filename = 'imunno_model.joblib'\n",
    "    joblib.dump(model, model_filename)\n",
    "\n",
    "    print(f\"Modelo salvo com sucesso no arquivo: {model_filename}\")\n",
    "else:\n",
    "    print(\"Não há dados suficientes para treinar um novo modelo. Pulando o treinamento.\")\n",
    "    # Opcional: poderíamos criar um modelo 'dummy' ou garantir que um modelo antigo exista.\n",
    "    # Por agora, simplesmente não criar o arquivo é suficiente para o teste inicial.\n",
    "    pass"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Fim do Treinamento\n",
    "\n",
    "Se todas as células foram executadas, um novo arquivo `imunno_model.joblib` foi criado (ou o treinamento foi pulado se não havia dados). Este arquivo contém o \"cérebro\" do nosso sistema de IA e deve ser usado pelo `imunno-ml-service`."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}


NameError: name 'null' is not defined

Carregados 2 eventos de arquivo.


Unnamed: 0,id,agent_id,hostname,file_path,file_hash_sha256,event_type,event_timestamp,threat_score,analysis_findings,created_at
0,1,agent-001,eafb6912a1af,/data/dropper.php,e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b93...,CREATE,2025-07-09 11:29:53.634971+00:00,0,,2025-07-09 11:29:53.662944+00:00
1,2,agent-001,eafb6912a1af,/data/dropper.php,8964b1f85c243ff72fa90751a9a0c67f74dec920907432...,MODIFY,2025-07-09 11:29:58.680908+00:00,40,[Funcao perigosa 'shell_exec' ou 'passthru'],2025-07-09 11:29:58.681750+00:00



Carregados 0 eventos de processo.


Unnamed: 0,id,agent_id,hostname,event_timestamp,process_id,parent_id,command,username,created_at,threat_score


Enriquecendo dados...
Novas características (features) criadas com sucesso!


Iniciando treinamento do modelo RandomForestClassifier...
Treinamento concluído!

Avaliando o modelo no conjunto de teste...

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00       0.0
           1       0.00      0.00      0.00       1.0

    accuracy                           0.00       1.0
   macro avg       0.00      0.00      0.00       1.0
weighted avg       0.00      0.00      0.00       1.0


Matriz de Confusão:
[[0 0]
 [1 0]]

Novo modelo de classificação salvo como: imunno_classifier.joblib
