# Exploración del ML Detector

## Objetivo
Este notebook explora y visualiza el funcionamiento del sistema de detección de amenazas basado en Machine Learning.

## ¿Qué hace este notebook?
- **Instancia el `ThreatDetector`**: Usa el código real del proyecto sin duplicarlo
- **Genera datos sintéticos**: Crea muestras de tráfico normal y anómalo para entrenamiento
- **Entrena modelos ML**: Ejecuta algoritmos KMeans, LOF y OneClassSVM
- **Visualiza resultados**: Proyecta datos 6D a 2D usando PCA para análisis visual
- **Evalúa detección**: Prueba la capacidad de detección con muestras de prueba

## Casos de uso que simula:
- **Tráfico normal**: Patrones típicos de red con variabilidad natural
- **DDoS**: Alto volumen de paquetes desde pocas IPs
- **Port Scanning**: Muchos puertos únicos desde pocas IPs  
- **Data Exfiltration**: Alto volumen de bytes con pocos puertos

## Requisitos
Instalar dependencias de desarrollo: `pip install -r applications/ml-detector/requirements-dev.txt`

## 1. Configuración del entorno

**¿Qué hace esta sección?**
- Configura las rutas para importar el código del proyecto ML Detector
- Desactiva el entrenamiento automático para tener control manual
- Configura matplotlib para visualizaciones de alta calidad

**¿Por qué es importante?**
- Permite usar el código real del detector sin duplicarlo
- Evita entrenamientos automáticos que podrían interferir con la exploración
- Asegura que las visualizaciones se muestren correctamente en el notebook

In [None]:
# Configurar ruta para importar módulos del proyecto
import sys, os
from pathlib import Path

# Asume que este notebook vive en applications/ml-detector/notebooks
nb_dir = Path.cwd()
app_dir = nb_dir.parent  # applications/ml-detector
sys.path.insert(0, str(app_dir))

# Desactivar entrenamiento/baseline automáticos para exploración reproducible
# Esto permite controlar manualmente cuándo entrenar los modelos
os.environ['TRAINING_ENABLED'] = 'false'
os.environ['BASELINE_ENABLED'] = 'false'
os.environ.setdefault('MODEL_PATH', '/tmp/models')

# Configurar matplotlib para visualizaciones de alta calidad
%config InlineBackend.figure_format = 'retina'
%matplotlib inline

## 2. Inicialización del detector

**¿Qué hace esta sección?**
- Importa las librerías necesarias para análisis de datos y visualización
- Crea una instancia del `ThreatDetector` real del proyecto
- Verifica el estado inicial del detector (sin entrenar)

**Librerías utilizadas:**
- `numpy`: Operaciones numéricas y matrices
- `matplotlib.pyplot`: Gráficos y visualizaciones
- `seaborn`: Visualizaciones estadísticas avanzadas
- `sklearn.decomposition.PCA`: Reducción de dimensionalidad
- `detector.ThreatDetector`: Clase principal del sistema de detección

In [None]:
# Importar el detector y dependencias
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA

# Importar la clase principal del sistema de detección
from detector import ThreatDetector

# Crear instancia del detector (inicialmente sin entrenar)
detector = ThreatDetector()
print(f"¿Detector entrenado? {detector.is_trained}")

# El detector maneja automáticamente la inicialización de modelos:
# - KMeans para clustering de patrones normales
# - LocalOutlierFactor (LOF) para detección de outliers
# - OneClassSVM para clasificación de una clase

## 3. Generación de datos sintéticos

**¿Qué hace esta sección?**
- Crea funciones para generar datos de tráfico de red sintéticos
- Simula patrones de tráfico normal y diferentes tipos de amenazas
- Utiliza distribuciones estadísticas realistas para cada tipo de tráfico

**Tipos de tráfico simulado:**

### Tráfico Normal
- **Paquetes/segundo**: ~50 (distribución normal)
- **Bytes/segundo**: ~50,000 (distribución normal)
- **IPs únicas**: 5-20 (variedad típica)
- **Puertos únicos**: 3-10 (aplicaciones comunes)
- **Ratio TCP**: 60-80% (protocolo predominante)
- **Paquetes SYN**: 10-50 (conexiones normales)

### Amenazas Simuladas
1. **DDoS**: Alto volumen de paquetes, pocas IPs origen
2. **Port Scanning**: Muchos puertos únicos, pocas IPs
3. **Data Exfiltration**: Alto volumen de bytes, pocos puertos

In [None]:
# Generar datos sintéticos: tráfico normal y anomalías

def gen_normal(n=300, seed=42):
    """
    Genera datos de tráfico de red normal.
    
    Simula patrones típicos de red empresarial con:
    - Volumen moderado de tráfico
    - Variabilidad natural en las métricas
    - Distribuciones gaussianas para realismo
    """
    rng = np.random.default_rng(seed)
    return [
        {
            'packets_per_second': float(rng.normal(50, 10)),      # Tráfico moderado
            'bytes_per_second': float(rng.normal(50000, 10000)),  # ~50KB/s típico
            'unique_ips': int(rng.integers(5, 20)),               # Diversidad normal
            'unique_ports': int(rng.integers(3, 10)),             # Aplicaciones comunes
            'tcp_ratio': float(rng.uniform(0.6, 0.8)),            # TCP predominante
            'syn_packets': int(rng.integers(10, 50)),             # Conexiones normales
        } for _ in range(n)
    ]

def gen_anomalies(n=60, seed=123):
    """
    Genera datos de tráfico anómalo que representan diferentes amenazas.
    
    Tipos de amenazas simuladas:
    - Modo 0 (DDoS): Alto volumen de paquetes, pocas IPs
    - Modo 1 (Port Scan): Muchos puertos, pocas IPs  
    - Modo 2 (Data Exfil): Alto volumen de bytes, pocos puertos
    """
    rng = np.random.default_rng(seed)
    data = []
    for _ in range(n):
        mode = rng.integers(0, 3)  # Seleccionar tipo de amenaza aleatoriamente
        
        if mode == 0:  # DDoS-like: volumen extremo, origen concentrado
            d = {
                'packets_per_second': float(rng.normal(2000, 200)),    # 40x más paquetes
                'bytes_per_second': float(rng.normal(2e6, 2e5)),       # 40x más bytes
                'unique_ips': int(rng.integers(1, 5)),                 # Pocas IPs origen
                'unique_ports': int(rng.integers(1, 3)),               # Pocos puertos
                'tcp_ratio': float(rng.uniform(0.7, 1.0)),             # Alto TCP
                'syn_packets': int(rng.integers(500, 1200))            # Muchos SYN
            }
        elif mode == 1:  # Port-scan-like: exploración de puertos
            d = {
                'packets_per_second': float(rng.normal(200, 30)),      # Tráfico moderado
                'bytes_per_second': float(rng.normal(1e5, 2e4)),       # Bytes moderados
                'unique_ips': int(rng.integers(1, 3)),                 # Pocas IPs origen
                'unique_ports': int(rng.integers(30, 200)),            # MUCHOS puertos
                'tcp_ratio': float(rng.uniform(0.4, 0.9)),             # TCP variable
                'syn_packets': int(rng.integers(50, 150))              # SYN moderado
            }
        else:  # Exfiltration-like: transferencia masiva de datos
            d = {
                'packets_per_second': float(rng.normal(120, 20)),      # Tráfico moderado
                'bytes_per_second': float(rng.normal(6e6, 5e5)),       # MUCHOS bytes
                'unique_ips': int(rng.integers(1, 4)),                 # Pocas IPs
                'unique_ports': int(rng.integers(1, 5)),               # Pocos puertos
                'tcp_ratio': float(rng.uniform(0.85, 1.0)),            # Casi todo TCP
                'syn_packets': int(rng.integers(20, 60))               # SYN normal
            }
        data.append(d)
    return data

# Generar datasets: 400 muestras normales + 80 anomalías
normal = gen_normal(400)
anoms = gen_anomalies(80)
print(f"Generados: {len(normal)} muestras normales, {len(anoms)} anomalías")

## 4. Entrenamiento del detector

**¿Qué hace esta sección?**
- Alimenta al detector con datos de tráfico normal únicamente
- Entrena los modelos de machine learning usando patrones normales
- Verifica que el entrenamiento fue exitoso

**Proceso de entrenamiento:**
1. **Extracción de características**: Convierte datos crudos en vectores numéricos
2. **Normalización**: Escala las características para optimizar el rendimiento
3. **Entrenamiento de modelos**: Ajusta KMeans, LOF y OneClassSVM
4. **Validación**: Confirma que los modelos están listos para detección

**¿Por qué solo datos normales?**
Los algoritmos de detección de anomalías aprenden qué es "normal" y detectan desviaciones de estos patrones.

In [None]:
# Alimentar datos normales al detector y entrenar modelos

print("Procesando datos normales...")
# El detector extrae características y las almacena internamente
for i, d in enumerate(normal):
    detector.extract_features(d)
    if (i + 1) % 100 == 0:
        print(f"Procesadas {i + 1}/{len(normal)} muestras")

print("\nEntrenando modelos de machine learning...")
# Entrena KMeans, LOF y OneClassSVM con los datos normales acumulados
detector.train_models()

print(f"✅ Entrenamiento completado. Detector entrenado: {detector.is_trained}")

# Verificar que los modelos fueron entrenados correctamente
print(f"📊 Muestras de entrenamiento: {len(detector.features)}")
print(f"🎯 Clusters KMeans: {detector.kmeans.n_clusters}")
print(f"🔍 Vecinos LOF: {detector.lof.n_neighbors}")

## 5. Preparación de datos para visualización

**¿Qué hace esta sección?**
- Convierte los datos de tráfico a matrices numéricas para análisis
- Combina datos normales y anómalos en un dataset unificado
- Aplica PCA para reducir dimensiones de 6D a 2D para visualización

**Vector de características (6 dimensiones):**
1. `packets_per_second`: Volumen de paquetes
2. `bytes_per_second`: Volumen de datos  
3. `unique_ips`: Diversidad de direcciones IP
4. `unique_ports`: Diversidad de puertos
5. `tcp_ratio`: Proporción de tráfico TCP
6. `syn_packets`: Número de paquetes de inicio de conexión

**¿Por qué PCA?**
PCA (Principal Component Analysis) nos permite visualizar datos multidimensionales en un gráfico 2D manteniendo la mayor variabilidad posible.

In [None]:
# Convertir datos a matrices numéricas y aplicar PCA

def to_vec(d):
    """Convierte un diccionario de métricas de tráfico a vector numérico."""
    return [
        d.get('packets_per_second', 0),    # Dimensión 0: Volumen de paquetes
        d.get('bytes_per_second', 0),      # Dimensión 1: Volumen de bytes
        d.get('unique_ips', 0),            # Dimensión 2: Diversidad de IPs
        d.get('unique_ports', 0),          # Dimensión 3: Diversidad de puertos
        d.get('tcp_ratio', 0.5),           # Dimensión 4: Proporción TCP
        d.get('syn_packets', 0),           # Dimensión 5: Paquetes SYN
    ]

# Crear matrices de datos
Xn = np.array([to_vec(d) for d in normal])    # 400 x 6: datos normales
Xa = np.array([to_vec(d) for d in anoms])     # 80 x 6: datos anómalos
X = np.vstack([Xn, Xa])                       # 480 x 6: dataset completo
y = np.array([0]*len(Xn) + [1]*len(Xa))       # Etiquetas: 0=normal, 1=anómalo

print(f"Dataset shape: {X.shape}")
print(f"Normal: {len(Xn)} muestras, Anómalos: {len(Xa)} muestras")

# Aplicar escalado usando el scaler del detector entrenado
# Esto asegura consistencia con el modelo en producción
Xs = detector.scaler.transform(X) if hasattr(detector.scaler, 'mean_') else X

# Proyección PCA: 6D → 2D para visualización
# PCA encuentra las 2 direcciones de mayor variabilidad en los datos
pca = PCA(n_components=2, random_state=0)
Z = pca.fit_transform(Xs)

print(f"Datos proyectados a 2D: {Z.shape}")
print(f"Varianza explicada por PC1: {pca.explained_variance_ratio_[0]:.3f}")
print(f"Varianza explicada por PC2: {pca.explained_variance_ratio_[1]:.3f}")
print(f"Varianza total explicada: {pca.explained_variance_ratio_.sum():.3f}")

# Mostrar primeras muestras proyectadas
print(f"\nPrimeras 3 muestras en espacio PCA:")
print(Z[:3])

## 6. Visualización: Distribución de datos normales vs anómalos

**¿Qué hace esta visualización?**
- Muestra la separación entre tráfico normal y anómalo en el espacio 2D (PCA)
- Usa colores para distinguir: azul = normal, rojo = anómalo
- Permite evaluar visualmente qué tan separables son los patrones

**¿Qué esperamos ver?**
- **Datos normales (azul)**: Agrupados en una región compacta
- **Datos anómalos (rojo)**: Dispersos en regiones alejadas del cluster normal
- **Separación clara**: Indica que los algoritmos ML podrán distinguir amenazas

**Interpretación:**
- Si hay solapamiento significativo → detección más difícil
- Si hay separación clara → detección más confiable

In [None]:
# Visualización: distribución de datos normales vs anómalos

plt.figure(figsize=(10, 6))

# Crear scatter plot con colores diferenciados
sns.scatterplot(x=Z[:,0], y=Z[:,1], hue=y, 
               palette={0: 'tab:blue', 1: 'tab:red'}, 
               s=30, alpha=0.7)

# Personalizar el gráfico
plt.title('Proyección PCA: Tráfico Normal vs Amenazas', fontsize=14, fontweight='bold')
plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%} varianza)', fontsize=12)
plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%} varianza)', fontsize=12)

# Personalizar leyenda
handles, labels = plt.gca().get_legend_handles_labels()
plt.legend(handles, ['Normal', 'Amenaza'], title='Tipo de Tráfico', 
          title_fontsize=12, fontsize=11)

# Agregar grid para mejor lectura
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Estadísticas de separación
normal_center = Z[y==0].mean(axis=0)
anomaly_center = Z[y==1].mean(axis=0)
separation_distance = np.linalg.norm(normal_center - anomaly_center)

print(f"📍 Centro datos normales: PC1={normal_center[0]:.2f}, PC2={normal_center[1]:.2f}")
print(f"📍 Centro datos anómalos: PC1={anomaly_center[0]:.2f}, PC2={anomaly_center[1]:.2f}")
print(f"📏 Distancia de separación: {separation_distance:.2f}")

## 7. Análisis de clustering con KMeans

**¿Qué hace esta visualización?**
- Muestra cómo KMeans agrupa los datos en clusters
- Visualiza los centros de los clusters como marcas X negras
- Colorea cada punto según su asignación de cluster

**¿Cómo funciona KMeans en el detector?**
1. **Entrenamiento**: Solo con datos normales, identifica patrones comunes
2. **Clustering**: Agrupa datos similares en K clusters (típicamente K=3-5)
3. **Detección**: Calcula distancia de nuevas muestras a centros de clusters
4. **Umbral**: Si distancia > umbral → posible amenaza

**¿Qué buscamos?**
- **Datos normales**: Cerca de los centros de clusters
- **Datos anómalos**: Lejos de todos los centros de clusters
- **Centros**: Representan los patrones típicos de tráfico normal

In [None]:
# Visualización de clusters KMeans y sus centros

# Obtener asignaciones de cluster para todos los datos
labels = detector.kmeans.predict(Xs)

# Proyectar centros de clusters de 6D a 2D para visualización
centers_6d = detector.kmeans.cluster_centers_  # Centros en espacio original
centers_2d = pca.transform(centers_6d)         # Centros proyectados a PCA

plt.figure(figsize=(10, 6))

# Scatter plot coloreado por cluster asignado
sns.scatterplot(x=Z[:,0], y=Z[:,1], hue=labels, 
               palette='tab10', s=25, alpha=0.7, legend=False)

# Marcar centros de clusters
plt.scatter(centers_2d[:,0], centers_2d[:,1], 
           c='black', s=200, marker='x', linewidths=3,
           label='Centros de Clusters', zorder=5)

# Personalizar gráfico
plt.title('KMeans: Clustering de Patrones de Tráfico', fontsize=14, fontweight='bold')
plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%} varianza)', fontsize=12)
plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%} varianza)', fontsize=12)
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Análisis de cluster assignments
print("📊 Análisis de asignaciones de cluster:")
for cluster_id in range(detector.kmeans.n_clusters):
    cluster_mask = labels == cluster_id
    normal_in_cluster = np.sum(cluster_mask[:len(Xn)])
    anomaly_in_cluster = np.sum(cluster_mask[len(Xn):])
    total_in_cluster = np.sum(cluster_mask)
    
    print(f"Cluster {cluster_id}: {total_in_cluster} muestras "
          f"({normal_in_cluster} normales, {anomaly_in_cluster} anómalas)")

## 8. Mapas de calor: LOF y One-Class SVM

**¿Qué hace esta sección?**
- Crea mapas de calor mostrando las "puntuaciones de decisión" de cada algoritmo
- Visualiza cómo cada modelo ve el espacio de características
- Compara las regiones que cada algoritmo considera normales vs anómalas

**Local Outlier Factor (LOF):**
- **Función**: Detecta outliers basándose en densidad local
- **Interpretación**: Valores positivos = normal, negativos = outlier
- **Visualización**: Mapa de calor donde rojo = más anómalo

**One-Class SVM:**
- **Función**: Crea una frontera alrededor de datos normales
- **Interpretación**: Valores positivos = dentro de la frontera (normal)
- **Visualización**: Mapa de calor donde verde = normal, púrpura = anómalo

**¿Cómo leer los mapas?**
- **Regiones claras**: Donde el modelo es muy confiado en su decisión
- **Regiones de transición**: Donde el modelo es menos seguro
- **Puntos superpuestos**: Nuestros datos reales para validar las predicciones

In [None]:
# Mapas de calor de algoritmos de detección: LOF y One-Class SVM

def grid_scores(model_decision_fn, Z_data, steps=120):
    """
    Crea una grilla 2D y calcula scores de decisión para visualización.
    
    Args:
        model_decision_fn: Función de decisión del modelo
        Z_data: Datos proyectados en 2D (PCA)
        steps: Resolución de la grilla
    
    Returns:
        xx, yy: Coordenadas de la grilla
        zz: Scores de decisión en cada punto de la grilla
    """
    # Definir límites de la grilla basados en los datos
    x_min, x_max = Z_data[:,0].min()-1, Z_data[:,0].max()+1
    y_min, y_max = Z_data[:,1].min()-1, Z_data[:,1].max()+1
    
    # Crear grilla uniforme
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, steps), 
                         np.linspace(y_min, y_max, steps))
    grid = np.c_[xx.ravel(), yy.ravel()]
    
    # Convertir de PCA 2D de vuelta a espacio 6D escalado
    Xs_grid = pca.inverse_transform(grid)
    
    # Calcular scores de decisión y reformatear para visualización
    zz = model_decision_fn(Xs_grid).reshape(xx.shape)
    return xx, yy, zz

# === LOCAL OUTLIER FACTOR (LOF) ===
print("🔍 Generando mapa de calor para Local Outlier Factor...")
xx, yy, zz_lof = grid_scores(lambda Xs_: detector.lof.decision_function(Xs_), Z)

plt.figure(figsize=(12, 5))

# Subplot 1: LOF decision function
plt.subplot(1, 2, 1)
contour = plt.contourf(xx, yy, zz_lof, levels=20, cmap='coolwarm', alpha=0.8)
scatter = plt.scatter(Z[:,0], Z[:,1], c=y, cmap='bwr', s=20, 
                     edgecolor='white', linewidth=0.5, alpha=0.8)
plt.colorbar(contour, label='LOF Score (+ = normal, - = outlier)')
plt.title('LOF: Detección basada en Densidad Local', fontsize=12, fontweight='bold')
plt.xlabel('PC1'); plt.ylabel('PC2')
plt.grid(True, alpha=0.3)

# === ONE-CLASS SVM ===
print("🎯 Generando mapa de calor para One-Class SVM...")
xx, yy, zz_svm = grid_scores(lambda Xs_: detector.svm.decision_function(Xs_), Z)

# Subplot 2: One-Class SVM
plt.subplot(1, 2, 2)
contour = plt.contourf(xx, yy, zz_svm, levels=20, cmap='PiYG', alpha=0.8)
scatter = plt.scatter(Z[:,0], Z[:,1], c=y, cmap='bwr', s=20, 
                     edgecolor='white', linewidth=0.5, alpha=0.8)
plt.colorbar(contour, label='SVM Score (+ = normal, - = outlier)')
plt.title('One-Class SVM: Frontera de Decisión', fontsize=12, fontweight='bold')
plt.xlabel('PC1'); plt.ylabel('PC2')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estadísticas de los modelos
print("\n📈 Estadísticas de los algoritmos:")
lof_scores = detector.lof.decision_function(Xs)
svm_scores = detector.svm.decision_function(Xs)

print(f"LOF - Normal promedio: {lof_scores[:len(Xn)].mean():.3f}, "
      f"Anómalo promedio: {lof_scores[len(Xn):].mean():.3f}")
print(f"SVM - Normal promedio: {svm_scores[:len(Xn)].mean():.3f}, "
      f"Anómalo promedio: {svm_scores[len(Xn):].mean():.3f}")

## 9. Pruebas de detección en tiempo real

**¿Qué hace esta sección?**
- Prueba el endpoint de detección del sistema con muestras específicas
- Compara una muestra normal vs una muestra anómala
- Muestra la respuesta completa del sistema incluyendo confianza y tipos de amenaza

**Componentes de la respuesta:**
- **threat_detected**: Boolean indicando si se detectó amenaza
- **confidence**: Nivel de confianza (0.0-1.0)
- **threat_types**: Lista de tipos de amenaza detectados
- **scores**: Detalles de puntuación por método (reglas + ML)

**Tipos de amenaza que puede detectar:**
- `ddos`: Ataques de denegación de servicio
- `port_scan`: Escaneo de puertos
- `data_exfil`: Exfiltración de datos
- `ml_high_risk`, `ml_medium_risk`: Clasificaciones por ML

In [None]:
# Pruebas de detección usando el endpoint interno del detector

# Seleccionar muestras representativas para testing
test_normal = normal[0]      # Primera muestra normal
test_anomaly = anoms[0]      # Primera muestra anómala

samples = [
    ("🟢 TRÁFICO NORMAL", test_normal),
    ("🔴 TRÁFICO ANÓMALO", test_anomaly)
]

print("🧪 PRUEBAS DE DETECCIÓN EN TIEMPO REAL")
print("=" * 60)

for label, sample in samples:
    print(f"\n{label}")
    print("-" * 30)
    
    # Mostrar métricas de entrada
    print("📊 Métricas de entrada:")
    for key, value in sample.items():
        if isinstance(value, float):
            print(f"  {key}: {value:.2f}")
        else:
            print(f"  {key}: {value}")
    
    # Ejecutar detección
    result = detector.detect(sample)
    
    # Mostrar resultado de detección
    print(f"\n🎯 Resultado de detección:")
    print(f"  Amenaza detectada: {'SÍ' if result['threat_detected'] else 'NO'}")
    print(f"  Nivel de confianza: {result['confidence']:.2f}")
    
    if result['threat_types']:
        print(f"  Tipos de amenaza: {', '.join(result['threat_types'])}")
    
    if result['scores']:
        print(f"  Scores detallados:")
        for method, score in result['scores'].items():
            print(f"    {method}: {score}")
    
    print("=" * 60)

# Análisis de rendimiento rápido
print("\n📈 ANÁLISIS DE RENDIMIENTO RÁPIDO")
print("-" * 40)

# Probar con más muestras para estadísticas
test_samples = normal[:10] + anoms[:10]
test_labels = [0]*10 + [1]*10

correct_detections = 0
for i, (sample, expected) in enumerate(zip(test_samples, test_labels)):
    result = detector.detect(sample)
    detected = 1 if result['threat_detected'] else 0
    if detected == expected:
        correct_detections += 1

accuracy = correct_detections / len(test_samples)
print(f"Precisión en muestra pequeña: {accuracy:.2f} ({correct_detections}/{len(test_samples)})")

## 🎉 Conclusiones del análisis

### Lo que hemos aprendido:

1. **Separabilidad de datos**: Los algoritmos pueden distinguir entre tráfico normal y anómalo
2. **Efectividad de modelos**: Cada algoritmo (KMeans, LOF, SVM) aporta una perspectiva diferente
3. **Visualización PCA**: Permite entender cómo "ve" el sistema los patrones de tráfico
4. **Sistema híbrido**: Combina reglas determinísticas con machine learning para mayor precisión

### Próximos pasos para mejorar:

- **Datos reales**: Reemplazar datos sintéticos con tráfico real capturado por eBPF
- **Ajuste de hiperparámetros**: Optimizar configuraciones de los modelos
- **Nuevas características**: Agregar métricas adicionales (latencia, protocolos, etc.)
- **Evaluación completa**: Métricas de precision, recall, F1-score con datasets más grandes

### Uso en producción:

El detector entrenado se integra con:
- **eBPF Monitor**: Captura métricas de red en tiempo real
- **API REST**: Endpoint `/detect` para evaluación de tráfico
- **Prometheus**: Métricas de rendimiento y alertas
- **Grafana**: Dashboards de visualización y monitoreo