# üîç Anomalyzer - Pipeline Completo de Detec√ß√£o de Anomalias

Este notebook executa todo o pipeline do projeto Anomalyzer:
1. **Pr√©-processamento** dos dados NSL-KDD
2. **Treinamento** do modelo RandomForest
3. **Avalia√ß√£o** e visualiza√ß√£o dos resultados

**Compat√≠vel com:** Google Colab e VS Code

---

## ‚öôÔ∏è Configura√ß√£o do Ambiente (Google Colab)

In [None]:
# Detecta se est√° rodando no Google Colab
import sys
import os

try:
    import google.colab
    IN_COLAB = True
    print("üåê Detectado: Google Colab")
except:
    IN_COLAB = False
    print("üíª Detectado: Ambiente Local")

# Se estiver no Colab, clona o reposit√≥rio
if IN_COLAB:
    print("\nüì• Clonando reposit√≥rio do GitHub...")
    
    # Remove o diret√≥rio se j√° existir
    !rm -rf Anomalyzer
    
    # Clona o reposit√≥rio
    !git clone https://github.com/int16t/Anomalyzer.git
    
    # Muda para o diret√≥rio do projeto
    os.chdir('Anomalyzer')
    
    print("‚úÖ Reposit√≥rio clonado com sucesso!")
    print(f"üìÇ Diret√≥rio atual: {os.getcwd()}")
else:
    print("‚úÖ Usando ambiente local")

In [None]:
# Instala as depend√™ncias
if IN_COLAB:
    print("\nüì¶ Instalando depend√™ncias...")
    !pip install -q -r requirements.txt
    print("‚úÖ Depend√™ncias instaladas!")

# Anomalyzer - Pipeline Completo de Detec√ß√£o de Anomalias

Este notebook executa todo o pipeline do projeto Anomalyzer:
1. **Pr√©-processamento** dos dados NSL-KDD
2. **Treinamento** do modelo RandomForest
3. **Avalia√ß√£o** e visualiza√ß√£o dos resultados
---

## 1. Importa√ß√£o de Bibliotecas e M√≥dulos

In [None]:
import sys
from pathlib import Path

# Configura o diret√≥rio base baseado no ambiente
if IN_COLAB:
    BASE_DIR = Path.cwd()
else:
    BASE_DIR = Path.cwd().parent

# Adiciona o diret√≥rio src ao path para importar os m√≥dulos
sys.path.insert(0, str(BASE_DIR / 'src'))

print(f"üìÇ BASE_DIR: {BASE_DIR}")
print(f"üìÇ Diret√≥rio de m√≥dulos: {BASE_DIR / 'src'}")

# Importa os m√≥dulos do projeto
from preprocessamento import preprocess
from treinamento import treinar_modelo, salvar_modelo
from avaliacao import (
    avaliar_modelo,
    plotar_barras_confusao,
    plotar_heatmap_confusao,
    salvar_grafico_distribuicao_classes,
    plot_precision_recall_f1
)
from utils import titulo

print("‚úÖ M√≥dulos importados com sucesso!")

: 

## üìÅ 2. Configura√ß√£o dos Caminhos dos Dados

In [None]:
# Define os caminhos dos arquivos de dados
train_path = BASE_DIR / 'data' / 'NSL_KDD_Train.csv'
test_path = BASE_DIR / 'data' / 'NSL_KDD_Test.csv'

print(f"üìÇ Diret√≥rio base: {BASE_DIR}")
print(f"üìÑ Arquivo de treino: {train_path}")
print(f"üìÑ Arquivo de teste: {test_path}")
print(f"\n‚úÖ Treino existe: {train_path.exists()}")
print(f"‚úÖ Teste existe: {test_path.exists()}")

## üé® 3. Exibir T√≠tulo do Projeto

In [None]:
titulo()

## üîß 4. Pr√©-processamento dos Dados

Esta etapa realiza:
- Carregamento dos dados
- Limpeza (remo√ß√£o de nulos e duplicatas)
- Convers√£o de r√≥tulos (normal=0, ataque=1)
- Codifica√ß√£o de vari√°veis categ√≥ricas (One-Hot Encoding)
- Normaliza√ß√£o dos dados num√©ricos

In [None]:
X_train, y_train, X_test, y_test, scaler, test_df = preprocess(train_path, test_path)

print(f"\nüìä Shape dos dados:")
print(f"   X_train: {X_train.shape}")
print(f"   X_test:  {X_test.shape}")
print(f"   y_train: {y_train.shape}")
print(f"   y_test:  {y_test.shape}")

## ü§ñ 5. Treinamento do Modelo RandomForest

Treina um classificador RandomForest com os seguintes hiperpar√¢metros:
- **n_estimators**: 300 √°rvores
- **max_depth**: Sem limite
- **class_weight**: Balanceado
- **n_jobs**: -1 (usa todos os n√∫cleos do processador)

In [None]:
modelo = treinar_modelo(X_train, y_train)

## üíæ 6. Salvar o Modelo Treinado

In [None]:
salvar_modelo(modelo)

## üìä 7. An√°lise Explorat√≥ria - Distribui√ß√£o de Classes

In [None]:
salvar_grafico_distribuicao_classes(test_df)

## üéØ 8. Avalia√ß√£o do Modelo

Calcula as m√©tricas de desempenho:
- **F1-Score**
- **Precision** e **Recall**
- **Matriz de Confus√£o**
- **Relat√≥rio de Classifica√ß√£o**

In [None]:
cm, y_pred, f1 = avaliar_modelo(modelo, X_test, y_test)

print(f"\nüéØ F1-Score Final: {f1:.4f}")

## üìà 9. Visualiza√ß√µes dos Resultados

### 9.1 Gr√°fico de Barras - Matriz de Confus√£o

In [None]:
plotar_barras_confusao(cm)

### 9.2 Heatmap - Matriz de Confus√£o

In [None]:
plotar_heatmap_confusao(cm)

### 9.3 Curva Precision-Recall-F1

In [None]:
plot_precision_recall_f1(y_test, y_pred)

## ‚úÖ 10. Resumo Final

Pipeline executado com sucesso! üéâ

**Arquivos gerados:**
- üìÅ `models/modelo_randomforest.pkl` - Modelo treinado
- üìÅ `reports/figures/` - Gr√°ficos de avalia√ß√£o

**Pr√≥ximos passos:**
- Ajustar hiperpar√¢metros para melhorar o desempenho
- Testar outros algoritmos (XGBoost, SVM, etc.)
- Implementar valida√ß√£o cruzada
- Criar sistema de predi√ß√£o em tempo real

In [None]:
print("="*60)
print("üéâ PIPELINE ANOMALYZER CONCLU√çDO COM SUCESSO! üéâ".center(60))
print("="*60)