# Exploraci√≥n del ML Detector

## Objetivo
Este notebook explora y visualiza el funcionamiento del sistema de detecci√≥n de amenazas basado en Machine Learning.

## ¬øQu√© hace este notebook?
- **Instancia el `ThreatDetector`**: Usa el c√≥digo real del proyecto sin duplicarlo
- **Genera datos sint√©ticos**: Crea muestras de tr√°fico normal y an√≥malo para entrenamiento
- **Entrena modelos ML**: Ejecuta algoritmos KMeans, LOF y OneClassSVM
- **Visualiza resultados**: Proyecta datos 6D a 2D usando PCA para an√°lisis visual
- **Eval√∫a detecci√≥n**: Prueba la capacidad de detecci√≥n con muestras de prueba

## Casos de uso que simula:
- **Tr√°fico normal**: Patrones t√≠picos de red con variabilidad natural
- **DDoS**: Alto volumen de paquetes desde pocas IPs
- **Port Scanning**: Muchos puertos √∫nicos desde pocas IPs  
- **Data Exfiltration**: Alto volumen de bytes con pocos puertos

## Requisitos
Instalar dependencias de desarrollo: `pip install -r applications/ml-detector/requirements-dev.txt`

## 1. Configuraci√≥n del entorno

**¬øQu√© hace esta secci√≥n?**
- Configura las rutas para importar el c√≥digo del proyecto ML Detector
- Desactiva el entrenamiento autom√°tico para tener control manual
- Configura matplotlib para visualizaciones de alta calidad

**¬øPor qu√© es importante?**
- Permite usar el c√≥digo real del detector sin duplicarlo
- Evita entrenamientos autom√°ticos que podr√≠an interferir con la exploraci√≥n
- Asegura que las visualizaciones se muestren correctamente en el notebook

In [None]:
# Configurar ruta para importar m√≥dulos del proyecto
import sys, os
from pathlib import Path

# Asume que este notebook vive en applications/ml-detector/notebooks
nb_dir = Path.cwd()
app_dir = nb_dir.parent  # applications/ml-detector
sys.path.insert(0, str(app_dir))

# Desactivar entrenamiento/baseline autom√°ticos para exploraci√≥n reproducible
# Esto permite controlar manualmente cu√°ndo entrenar los modelos
os.environ['TRAINING_ENABLED'] = 'false'
os.environ['BASELINE_ENABLED'] = 'false'
os.environ.setdefault('MODEL_PATH', '/tmp/models')

# Configurar matplotlib para visualizaciones de alta calidad
%config InlineBackend.figure_format = 'retina'
%matplotlib inline

## 2. Inicializaci√≥n del detector

**¬øQu√© hace esta secci√≥n?**
- Importa las librer√≠as necesarias para an√°lisis de datos y visualizaci√≥n
- Crea una instancia del `ThreatDetector` real del proyecto
- Verifica el estado inicial del detector (sin entrenar)

**Librer√≠as utilizadas:**
- `numpy`: Operaciones num√©ricas y matrices
- `matplotlib.pyplot`: Gr√°ficos y visualizaciones
- `seaborn`: Visualizaciones estad√≠sticas avanzadas
- `sklearn.decomposition.PCA`: Reducci√≥n de dimensionalidad
- `detector.ThreatDetector`: Clase principal del sistema de detecci√≥n

In [None]:
# Importar el detector y dependencias
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA

# Importar la clase principal del sistema de detecci√≥n
from detector import ThreatDetector

# Crear instancia del detector (inicialmente sin entrenar)
detector = ThreatDetector()
print(f"¬øDetector entrenado? {detector.is_trained}")

# El detector maneja autom√°ticamente la inicializaci√≥n de modelos:
# - KMeans para clustering de patrones normales
# - LocalOutlierFactor (LOF) para detecci√≥n de outliers
# - OneClassSVM para clasificaci√≥n de una clase

## 3. Generaci√≥n de datos sint√©ticos

**¬øQu√© hace esta secci√≥n?**
- Crea funciones para generar datos de tr√°fico de red sint√©ticos
- Simula patrones de tr√°fico normal y diferentes tipos de amenazas
- Utiliza distribuciones estad√≠sticas realistas para cada tipo de tr√°fico

**Tipos de tr√°fico simulado:**

### Tr√°fico Normal
- **Paquetes/segundo**: ~50 (distribuci√≥n normal)
- **Bytes/segundo**: ~50,000 (distribuci√≥n normal)
- **IPs √∫nicas**: 5-20 (variedad t√≠pica)
- **Puertos √∫nicos**: 3-10 (aplicaciones comunes)
- **Ratio TCP**: 60-80% (protocolo predominante)
- **Paquetes SYN**: 10-50 (conexiones normales)

### Amenazas Simuladas
1. **DDoS**: Alto volumen de paquetes, pocas IPs origen
2. **Port Scanning**: Muchos puertos √∫nicos, pocas IPs
3. **Data Exfiltration**: Alto volumen de bytes, pocos puertos

In [None]:
# Generar datos sint√©ticos: tr√°fico normal y anomal√≠as

def gen_normal(n=300, seed=42):
    """
    Genera datos de tr√°fico de red normal.
    
    Simula patrones t√≠picos de red empresarial con:
    - Volumen moderado de tr√°fico
    - Variabilidad natural en las m√©tricas
    - Distribuciones gaussianas para realismo
    """
    rng = np.random.default_rng(seed)
    return [
        {
            'packets_per_second': float(rng.normal(50, 10)),      # Tr√°fico moderado
            'bytes_per_second': float(rng.normal(50000, 10000)),  # ~50KB/s t√≠pico
            'unique_ips': int(rng.integers(5, 20)),               # Diversidad normal
            'unique_ports': int(rng.integers(3, 10)),             # Aplicaciones comunes
            'tcp_ratio': float(rng.uniform(0.6, 0.8)),            # TCP predominante
            'syn_packets': int(rng.integers(10, 50)),             # Conexiones normales
        } for _ in range(n)
    ]

def gen_anomalies(n=60, seed=123):
    """
    Genera datos de tr√°fico an√≥malo que representan diferentes amenazas.
    
    Tipos de amenazas simuladas:
    - Modo 0 (DDoS): Alto volumen de paquetes, pocas IPs
    - Modo 1 (Port Scan): Muchos puertos, pocas IPs  
    - Modo 2 (Data Exfil): Alto volumen de bytes, pocos puertos
    """
    rng = np.random.default_rng(seed)
    data = []
    for _ in range(n):
        mode = rng.integers(0, 3)  # Seleccionar tipo de amenaza aleatoriamente
        
        if mode == 0:  # DDoS-like: volumen extremo, origen concentrado
            d = {
                'packets_per_second': float(rng.normal(2000, 200)),    # 40x m√°s paquetes
                'bytes_per_second': float(rng.normal(2e6, 2e5)),       # 40x m√°s bytes
                'unique_ips': int(rng.integers(1, 5)),                 # Pocas IPs origen
                'unique_ports': int(rng.integers(1, 3)),               # Pocos puertos
                'tcp_ratio': float(rng.uniform(0.7, 1.0)),             # Alto TCP
                'syn_packets': int(rng.integers(500, 1200))            # Muchos SYN
            }
        elif mode == 1:  # Port-scan-like: exploraci√≥n de puertos
            d = {
                'packets_per_second': float(rng.normal(200, 30)),      # Tr√°fico moderado
                'bytes_per_second': float(rng.normal(1e5, 2e4)),       # Bytes moderados
                'unique_ips': int(rng.integers(1, 3)),                 # Pocas IPs origen
                'unique_ports': int(rng.integers(30, 200)),            # MUCHOS puertos
                'tcp_ratio': float(rng.uniform(0.4, 0.9)),             # TCP variable
                'syn_packets': int(rng.integers(50, 150))              # SYN moderado
            }
        else:  # Exfiltration-like: transferencia masiva de datos
            d = {
                'packets_per_second': float(rng.normal(120, 20)),      # Tr√°fico moderado
                'bytes_per_second': float(rng.normal(6e6, 5e5)),       # MUCHOS bytes
                'unique_ips': int(rng.integers(1, 4)),                 # Pocas IPs
                'unique_ports': int(rng.integers(1, 5)),               # Pocos puertos
                'tcp_ratio': float(rng.uniform(0.85, 1.0)),            # Casi todo TCP
                'syn_packets': int(rng.integers(20, 60))               # SYN normal
            }
        data.append(d)
    return data

# Generar datasets: 400 muestras normales + 80 anomal√≠as
normal = gen_normal(400)
anoms = gen_anomalies(80)
print(f"Generados: {len(normal)} muestras normales, {len(anoms)} anomal√≠as")

## 4. Entrenamiento del detector

**¬øQu√© hace esta secci√≥n?**
- Alimenta al detector con datos de tr√°fico normal √∫nicamente
- Entrena los modelos de machine learning usando patrones normales
- Verifica que el entrenamiento fue exitoso

**Proceso de entrenamiento:**
1. **Extracci√≥n de caracter√≠sticas**: Convierte datos crudos en vectores num√©ricos
2. **Normalizaci√≥n**: Escala las caracter√≠sticas para optimizar el rendimiento
3. **Entrenamiento de modelos**: Ajusta KMeans, LOF y OneClassSVM
4. **Validaci√≥n**: Confirma que los modelos est√°n listos para detecci√≥n

**¬øPor qu√© solo datos normales?**
Los algoritmos de detecci√≥n de anomal√≠as aprenden qu√© es "normal" y detectan desviaciones de estos patrones.

In [None]:
# Alimentar datos normales al detector y entrenar modelos

print("Procesando datos normales...")
# El detector extrae caracter√≠sticas y las almacena internamente
for i, d in enumerate(normal):
    detector.extract_features(d)
    if (i + 1) % 100 == 0:
        print(f"Procesadas {i + 1}/{len(normal)} muestras")

print("\nEntrenando modelos de machine learning...")
# Entrena KMeans, LOF y OneClassSVM con los datos normales acumulados
detector.train_models()

print(f"‚úÖ Entrenamiento completado. Detector entrenado: {detector.is_trained}")

# Verificar que los modelos fueron entrenados correctamente
print(f"üìä Muestras de entrenamiento: {len(detector.features)}")
print(f"üéØ Clusters KMeans: {detector.kmeans.n_clusters}")
print(f"üîç Vecinos LOF: {detector.lof.n_neighbors}")

## 5. Preparaci√≥n de datos para visualizaci√≥n

**¬øQu√© hace esta secci√≥n?**
- Convierte los datos de tr√°fico a matrices num√©ricas para an√°lisis
- Combina datos normales y an√≥malos en un dataset unificado
- Aplica PCA para reducir dimensiones de 6D a 2D para visualizaci√≥n

**Vector de caracter√≠sticas (6 dimensiones):**
1. `packets_per_second`: Volumen de paquetes
2. `bytes_per_second`: Volumen de datos  
3. `unique_ips`: Diversidad de direcciones IP
4. `unique_ports`: Diversidad de puertos
5. `tcp_ratio`: Proporci√≥n de tr√°fico TCP
6. `syn_packets`: N√∫mero de paquetes de inicio de conexi√≥n

**¬øPor qu√© PCA?**
PCA (Principal Component Analysis) nos permite visualizar datos multidimensionales en un gr√°fico 2D manteniendo la mayor variabilidad posible.

In [None]:
# Convertir datos a matrices num√©ricas y aplicar PCA

def to_vec(d):
    """Convierte un diccionario de m√©tricas de tr√°fico a vector num√©rico."""
    return [
        d.get('packets_per_second', 0),    # Dimensi√≥n 0: Volumen de paquetes
        d.get('bytes_per_second', 0),      # Dimensi√≥n 1: Volumen de bytes
        d.get('unique_ips', 0),            # Dimensi√≥n 2: Diversidad de IPs
        d.get('unique_ports', 0),          # Dimensi√≥n 3: Diversidad de puertos
        d.get('tcp_ratio', 0.5),           # Dimensi√≥n 4: Proporci√≥n TCP
        d.get('syn_packets', 0),           # Dimensi√≥n 5: Paquetes SYN
    ]

# Crear matrices de datos
Xn = np.array([to_vec(d) for d in normal])    # 400 x 6: datos normales
Xa = np.array([to_vec(d) for d in anoms])     # 80 x 6: datos an√≥malos
X = np.vstack([Xn, Xa])                       # 480 x 6: dataset completo
y = np.array([0]*len(Xn) + [1]*len(Xa))       # Etiquetas: 0=normal, 1=an√≥malo

print(f"Dataset shape: {X.shape}")
print(f"Normal: {len(Xn)} muestras, An√≥malos: {len(Xa)} muestras")

# Aplicar escalado usando el scaler del detector entrenado
# Esto asegura consistencia con el modelo en producci√≥n
Xs = detector.scaler.transform(X) if hasattr(detector.scaler, 'mean_') else X

# Proyecci√≥n PCA: 6D ‚Üí 2D para visualizaci√≥n
# PCA encuentra las 2 direcciones de mayor variabilidad en los datos
pca = PCA(n_components=2, random_state=0)
Z = pca.fit_transform(Xs)

print(f"Datos proyectados a 2D: {Z.shape}")
print(f"Varianza explicada por PC1: {pca.explained_variance_ratio_[0]:.3f}")
print(f"Varianza explicada por PC2: {pca.explained_variance_ratio_[1]:.3f}")
print(f"Varianza total explicada: {pca.explained_variance_ratio_.sum():.3f}")

# Mostrar primeras muestras proyectadas
print(f"\nPrimeras 3 muestras en espacio PCA:")
print(Z[:3])

## 6. Visualizaci√≥n: Distribuci√≥n de datos normales vs an√≥malos

**¬øQu√© hace esta visualizaci√≥n?**
- Muestra la separaci√≥n entre tr√°fico normal y an√≥malo en el espacio 2D (PCA)
- Usa colores para distinguir: azul = normal, rojo = an√≥malo
- Permite evaluar visualmente qu√© tan separables son los patrones

**¬øQu√© esperamos ver?**
- **Datos normales (azul)**: Agrupados en una regi√≥n compacta
- **Datos an√≥malos (rojo)**: Dispersos en regiones alejadas del cluster normal
- **Separaci√≥n clara**: Indica que los algoritmos ML podr√°n distinguir amenazas

**Interpretaci√≥n:**
- Si hay solapamiento significativo ‚Üí detecci√≥n m√°s dif√≠cil
- Si hay separaci√≥n clara ‚Üí detecci√≥n m√°s confiable

In [None]:
# Visualizaci√≥n: distribuci√≥n de datos normales vs an√≥malos

plt.figure(figsize=(10, 6))

# Crear scatter plot con colores diferenciados
sns.scatterplot(x=Z[:,0], y=Z[:,1], hue=y, 
               palette={0: 'tab:blue', 1: 'tab:red'}, 
               s=30, alpha=0.7)

# Personalizar el gr√°fico
plt.title('Proyecci√≥n PCA: Tr√°fico Normal vs Amenazas', fontsize=14, fontweight='bold')
plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%} varianza)', fontsize=12)
plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%} varianza)', fontsize=12)

# Personalizar leyenda
handles, labels = plt.gca().get_legend_handles_labels()
plt.legend(handles, ['Normal', 'Amenaza'], title='Tipo de Tr√°fico', 
          title_fontsize=12, fontsize=11)

# Agregar grid para mejor lectura
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Estad√≠sticas de separaci√≥n
normal_center = Z[y==0].mean(axis=0)
anomaly_center = Z[y==1].mean(axis=0)
separation_distance = np.linalg.norm(normal_center - anomaly_center)

print(f"üìç Centro datos normales: PC1={normal_center[0]:.2f}, PC2={normal_center[1]:.2f}")
print(f"üìç Centro datos an√≥malos: PC1={anomaly_center[0]:.2f}, PC2={anomaly_center[1]:.2f}")
print(f"üìè Distancia de separaci√≥n: {separation_distance:.2f}")

## 7. An√°lisis de clustering con KMeans

**¬øQu√© hace esta visualizaci√≥n?**
- Muestra c√≥mo KMeans agrupa los datos en clusters
- Visualiza los centros de los clusters como marcas X negras
- Colorea cada punto seg√∫n su asignaci√≥n de cluster

**¬øC√≥mo funciona KMeans en el detector?**
1. **Entrenamiento**: Solo con datos normales, identifica patrones comunes
2. **Clustering**: Agrupa datos similares en K clusters (t√≠picamente K=3-5)
3. **Detecci√≥n**: Calcula distancia de nuevas muestras a centros de clusters
4. **Umbral**: Si distancia > umbral ‚Üí posible amenaza

**¬øQu√© buscamos?**
- **Datos normales**: Cerca de los centros de clusters
- **Datos an√≥malos**: Lejos de todos los centros de clusters
- **Centros**: Representan los patrones t√≠picos de tr√°fico normal

In [None]:
# Visualizaci√≥n de clusters KMeans y sus centros

# Obtener asignaciones de cluster para todos los datos
labels = detector.kmeans.predict(Xs)

# Proyectar centros de clusters de 6D a 2D para visualizaci√≥n
centers_6d = detector.kmeans.cluster_centers_  # Centros en espacio original
centers_2d = pca.transform(centers_6d)         # Centros proyectados a PCA

plt.figure(figsize=(10, 6))

# Scatter plot coloreado por cluster asignado
sns.scatterplot(x=Z[:,0], y=Z[:,1], hue=labels, 
               palette='tab10', s=25, alpha=0.7, legend=False)

# Marcar centros de clusters
plt.scatter(centers_2d[:,0], centers_2d[:,1], 
           c='black', s=200, marker='x', linewidths=3,
           label='Centros de Clusters', zorder=5)

# Personalizar gr√°fico
plt.title('KMeans: Clustering de Patrones de Tr√°fico', fontsize=14, fontweight='bold')
plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%} varianza)', fontsize=12)
plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%} varianza)', fontsize=12)
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis de cluster assignments
print("üìä An√°lisis de asignaciones de cluster:")
for cluster_id in range(detector.kmeans.n_clusters):
    cluster_mask = labels == cluster_id
    normal_in_cluster = np.sum(cluster_mask[:len(Xn)])
    anomaly_in_cluster = np.sum(cluster_mask[len(Xn):])
    total_in_cluster = np.sum(cluster_mask)
    
    print(f"Cluster {cluster_id}: {total_in_cluster} muestras "
          f"({normal_in_cluster} normales, {anomaly_in_cluster} an√≥malas)")

## 8. Mapas de calor: LOF y One-Class SVM

**¬øQu√© hace esta secci√≥n?**
- Crea mapas de calor mostrando las "puntuaciones de decisi√≥n" de cada algoritmo
- Visualiza c√≥mo cada modelo ve el espacio de caracter√≠sticas
- Compara las regiones que cada algoritmo considera normales vs an√≥malas

**Local Outlier Factor (LOF):**
- **Funci√≥n**: Detecta outliers bas√°ndose en densidad local
- **Interpretaci√≥n**: Valores positivos = normal, negativos = outlier
- **Visualizaci√≥n**: Mapa de calor donde rojo = m√°s an√≥malo

**One-Class SVM:**
- **Funci√≥n**: Crea una frontera alrededor de datos normales
- **Interpretaci√≥n**: Valores positivos = dentro de la frontera (normal)
- **Visualizaci√≥n**: Mapa de calor donde verde = normal, p√∫rpura = an√≥malo

**¬øC√≥mo leer los mapas?**
- **Regiones claras**: Donde el modelo es muy confiado en su decisi√≥n
- **Regiones de transici√≥n**: Donde el modelo es menos seguro
- **Puntos superpuestos**: Nuestros datos reales para validar las predicciones

In [None]:
# Mapas de calor de algoritmos de detecci√≥n: LOF y One-Class SVM

def grid_scores(model_decision_fn, Z_data, steps=120):
    """
    Crea una grilla 2D y calcula scores de decisi√≥n para visualizaci√≥n.
    
    Args:
        model_decision_fn: Funci√≥n de decisi√≥n del modelo
        Z_data: Datos proyectados en 2D (PCA)
        steps: Resoluci√≥n de la grilla
    
    Returns:
        xx, yy: Coordenadas de la grilla
        zz: Scores de decisi√≥n en cada punto de la grilla
    """
    # Definir l√≠mites de la grilla basados en los datos
    x_min, x_max = Z_data[:,0].min()-1, Z_data[:,0].max()+1
    y_min, y_max = Z_data[:,1].min()-1, Z_data[:,1].max()+1
    
    # Crear grilla uniforme
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, steps), 
                         np.linspace(y_min, y_max, steps))
    grid = np.c_[xx.ravel(), yy.ravel()]
    
    # Convertir de PCA 2D de vuelta a espacio 6D escalado
    Xs_grid = pca.inverse_transform(grid)
    
    # Calcular scores de decisi√≥n y reformatear para visualizaci√≥n
    zz = model_decision_fn(Xs_grid).reshape(xx.shape)
    return xx, yy, zz

# === LOCAL OUTLIER FACTOR (LOF) ===
print("üîç Generando mapa de calor para Local Outlier Factor...")
xx, yy, zz_lof = grid_scores(lambda Xs_: detector.lof.decision_function(Xs_), Z)

plt.figure(figsize=(12, 5))

# Subplot 1: LOF decision function
plt.subplot(1, 2, 1)
contour = plt.contourf(xx, yy, zz_lof, levels=20, cmap='coolwarm', alpha=0.8)
scatter = plt.scatter(Z[:,0], Z[:,1], c=y, cmap='bwr', s=20, 
                     edgecolor='white', linewidth=0.5, alpha=0.8)
plt.colorbar(contour, label='LOF Score (+ = normal, - = outlier)')
plt.title('LOF: Detecci√≥n basada en Densidad Local', fontsize=12, fontweight='bold')
plt.xlabel('PC1'); plt.ylabel('PC2')
plt.grid(True, alpha=0.3)

# === ONE-CLASS SVM ===
print("üéØ Generando mapa de calor para One-Class SVM...")
xx, yy, zz_svm = grid_scores(lambda Xs_: detector.svm.decision_function(Xs_), Z)

# Subplot 2: One-Class SVM
plt.subplot(1, 2, 2)
contour = plt.contourf(xx, yy, zz_svm, levels=20, cmap='PiYG', alpha=0.8)
scatter = plt.scatter(Z[:,0], Z[:,1], c=y, cmap='bwr', s=20, 
                     edgecolor='white', linewidth=0.5, alpha=0.8)
plt.colorbar(contour, label='SVM Score (+ = normal, - = outlier)')
plt.title('One-Class SVM: Frontera de Decisi√≥n', fontsize=12, fontweight='bold')
plt.xlabel('PC1'); plt.ylabel('PC2')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estad√≠sticas de los modelos
print("\nüìà Estad√≠sticas de los algoritmos:")
lof_scores = detector.lof.decision_function(Xs)
svm_scores = detector.svm.decision_function(Xs)

print(f"LOF - Normal promedio: {lof_scores[:len(Xn)].mean():.3f}, "
      f"An√≥malo promedio: {lof_scores[len(Xn):].mean():.3f}")
print(f"SVM - Normal promedio: {svm_scores[:len(Xn)].mean():.3f}, "
      f"An√≥malo promedio: {svm_scores[len(Xn):].mean():.3f}")

## 9. Pruebas de detecci√≥n en tiempo real

**¬øQu√© hace esta secci√≥n?**
- Prueba el endpoint de detecci√≥n del sistema con muestras espec√≠ficas
- Compara una muestra normal vs una muestra an√≥mala
- Muestra la respuesta completa del sistema incluyendo confianza y tipos de amenaza

**Componentes de la respuesta:**
- **threat_detected**: Boolean indicando si se detect√≥ amenaza
- **confidence**: Nivel de confianza (0.0-1.0)
- **threat_types**: Lista de tipos de amenaza detectados
- **scores**: Detalles de puntuaci√≥n por m√©todo (reglas + ML)

**Tipos de amenaza que puede detectar:**
- `ddos`: Ataques de denegaci√≥n de servicio
- `port_scan`: Escaneo de puertos
- `data_exfil`: Exfiltraci√≥n de datos
- `ml_high_risk`, `ml_medium_risk`: Clasificaciones por ML

In [None]:
# Pruebas de detecci√≥n usando el endpoint interno del detector

# Seleccionar muestras representativas para testing
test_normal = normal[0]      # Primera muestra normal
test_anomaly = anoms[0]      # Primera muestra an√≥mala

samples = [
    ("üü¢ TR√ÅFICO NORMAL", test_normal),
    ("üî¥ TR√ÅFICO AN√ìMALO", test_anomaly)
]

print("üß™ PRUEBAS DE DETECCI√ìN EN TIEMPO REAL")
print("=" * 60)

for label, sample in samples:
    print(f"\n{label}")
    print("-" * 30)
    
    # Mostrar m√©tricas de entrada
    print("üìä M√©tricas de entrada:")
    for key, value in sample.items():
        if isinstance(value, float):
            print(f"  {key}: {value:.2f}")
        else:
            print(f"  {key}: {value}")
    
    # Ejecutar detecci√≥n
    result = detector.detect(sample)
    
    # Mostrar resultado de detecci√≥n
    print(f"\nüéØ Resultado de detecci√≥n:")
    print(f"  Amenaza detectada: {'S√ç' if result['threat_detected'] else 'NO'}")
    print(f"  Nivel de confianza: {result['confidence']:.2f}")
    
    if result['threat_types']:
        print(f"  Tipos de amenaza: {', '.join(result['threat_types'])}")
    
    if result['scores']:
        print(f"  Scores detallados:")
        for method, score in result['scores'].items():
            print(f"    {method}: {score}")
    
    print("=" * 60)

# An√°lisis de rendimiento r√°pido
print("\nüìà AN√ÅLISIS DE RENDIMIENTO R√ÅPIDO")
print("-" * 40)

# Probar con m√°s muestras para estad√≠sticas
test_samples = normal[:10] + anoms[:10]
test_labels = [0]*10 + [1]*10

correct_detections = 0
for i, (sample, expected) in enumerate(zip(test_samples, test_labels)):
    result = detector.detect(sample)
    detected = 1 if result['threat_detected'] else 0
    if detected == expected:
        correct_detections += 1

accuracy = correct_detections / len(test_samples)
print(f"Precisi√≥n en muestra peque√±a: {accuracy:.2f} ({correct_detections}/{len(test_samples)})")

## üéâ Conclusiones del an√°lisis

### Lo que hemos aprendido:

1. **Separabilidad de datos**: Los algoritmos pueden distinguir entre tr√°fico normal y an√≥malo
2. **Efectividad de modelos**: Cada algoritmo (KMeans, LOF, SVM) aporta una perspectiva diferente
3. **Visualizaci√≥n PCA**: Permite entender c√≥mo "ve" el sistema los patrones de tr√°fico
4. **Sistema h√≠brido**: Combina reglas determin√≠sticas con machine learning para mayor precisi√≥n

### Pr√≥ximos pasos para mejorar:

- **Datos reales**: Reemplazar datos sint√©ticos con tr√°fico real capturado por eBPF
- **Ajuste de hiperpar√°metros**: Optimizar configuraciones de los modelos
- **Nuevas caracter√≠sticas**: Agregar m√©tricas adicionales (latencia, protocolos, etc.)
- **Evaluaci√≥n completa**: M√©tricas de precision, recall, F1-score con datasets m√°s grandes

### Uso en producci√≥n:

El detector entrenado se integra con:
- **eBPF Monitor**: Captura m√©tricas de red en tiempo real
- **API REST**: Endpoint `/detect` para evaluaci√≥n de tr√°fico
- **Prometheus**: M√©tricas de rendimiento y alertas
- **Grafana**: Dashboards de visualizaci√≥n y monitoreo