# Detecci√≥n de Intrusiones y An√°lisis de Anomal√≠as en Tr√°fico de Red mediante T√©cnicas Estad√≠sticas

**Universidad de La Habana, MATCOM**  
**Curso:** Estad√≠stica 2025-2026  
**Proyecto Final:** An√°lisis Estad√≠stico Aplicado a Seguridad Inform√°tica

---

## 1. Introducci√≥n al Proyecto

### 1.1 Contexto y Motivaci√≥n

La seguridad inform√°tica es uno de los pilares fundamentales en la infraestructura tecnol√≥gica moderna. Los Sistemas de Detecci√≥n de Intrusiones (IDS) tradicionales, basados en firmas conocidas, presentan limitaciones significativas frente a ataques emergentes o modificados (zero-day attacks). 

Este proyecto propone un enfoque complementario basado en **an√°lisis estad√≠stico del comportamiento del tr√°fico de red**, permitiendo identificar patrones an√≥malos sin depender exclusivamente de firmas previamente catalogadas. Este tipo de aproximaci√≥n resulta especialmente relevante en entornos din√°micos donde los ataques evolucionan constantemente.

### 1.2 Dataset: NSL-KDD

#### 1.2.1 Contexto Hist√≥rico: La KDD Cup 1999

La **KDD Cup** (Knowledge Discovery and Data Mining) es una competici√≥n anual organizada por la ACM Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD). En 1999, la competici√≥n se centr√≥ en el desaf√≠o de **detecci√≥n de intrusiones en redes**, utilizando datos recopilados por el MIT Lincoln Laboratory en un entorno de red simulado.

El dataset original KDD Cup 1999 se convirti√≥ en el benchmark m√°s utilizado en investigaci√≥n de ciberseguridad durante m√°s de una d√©cada, siendo citado en miles de publicaciones acad√©micas. Sin embargo, investigaciones posteriores identificaron **problemas metodol√≥gicos cr√≠ticos**:

1. **Redundancia masiva**: ~78% de registros duplicados en entrenamiento, ~75% en prueba
2. **Sesgo de distribuci√≥n**: Sobrerrepresentaci√≥n artificial de ciertos ataques
3. **Facilidad artificial**: Modelos alcanzaban >99% de precisi√≥n por memorizaci√≥n de patrones redundantes

Estos problemas compromet√≠an la validez de las conclusiones, llevando a resultados no generalizables a entornos reales.

---

#### 1.2.2 NSL-KDD: Versi√≥n Corregida y Validada

**Fuente:** [NSL-KDD en Kaggle](https://www.kaggle.com/datasets/hassan06/nslkdd) | [Paper original](http://www.unb.ca/cic/datasets/nsl.html) - Tavallaee et al. (2009)

El dataset **NSL-KDD** fue propuesto por investigadores del Canadian Institute for Cybersecurity (Universidad de New Brunswick) para resolver las limitaciones del KDD'99 original mediante:

‚úÖ **Eliminaci√≥n de registros duplicados** en train y test  
‚úÖ **Balanceo mejorado** de distribuciones de ataque  
‚úÖ **Niveles de dificultad** asignados a cada instancia  
‚úÖ **Tama√±o manejable** para pruebas reproducibles sin supercomputadoras

Pese a no ser perfecto, NSL-KDD sigue siendo el **est√°ndar de facto en investigaci√≥n acad√©mica** para benchmarking de algoritmos de detecci√≥n de intrusiones, facilitando la comparabilidad entre estudios.

---

#### 1.2.3 Estructura del Dataset y Elecci√≥n de Archivos

El dataset NSL-KDD en Kaggle contiene **cuatro archivos principales**:

| Archivo | Registros | Prop√≥sito |
|---------|-----------|-----------|
| **KDDTrain+.txt** | 125,973 | Entrenamiento completo |
| **KDDTrain+_20Percent.txt** | 25,192 | **Subconjunto estratificado (20%)** |
| **KDDTest+.txt** | 22,544 | **Evaluaci√≥n final** |
| **KDDTest-21.txt** | 11,850 | Subset de test (21 categor√≠as espec√≠ficas) |

---

**üéØ Justificaci√≥n de nuestra elecci√≥n: `KDDTrain+_20Percent.txt` + `KDDTest+.txt`**

Utilizamos **KDDTrain+_20Percent** en lugar del dataset completo por las siguientes razones metodol√≥gicas:

1. **Representatividad garantizada**: El archivo 20% es una **muestra estratificada oficial** del conjunto completo, dise√±ada por los autores para mantener las mismas proporciones de clases y distribuciones estad√≠sticas.

2. **Eficiencia computacional sin p√©rdida de validez**: Con 25,192 observaciones, el tama√±o es suficiente para:
   - Cumplir supuestos de normalidad asint√≥tica (n > 30 por grupo)
   - Detectar efectos peque√±os con potencia estad√≠stica adecuada
   - Entrenar modelos complejos sin overfitting por exceso de datos redundantes

3. **Est√°ndar acad√©mico**: M√∫ltiples papers cient√≠ficos utilizan este subset para comparabilidad de resultados (ver Dhanabal & Shantharajah, 2015; Revathi & Malathi, 2013).

4. **Tiempo de ejecuci√≥n razonable**: Permite iteraci√≥n r√°pida de an√°lisis exploratorios y pruebas de hip√≥tesis sin sacrificar rigor estad√≠stico.

Utilizamos **KDDTest+** (no KDDTest-21) porque:
- Contiene la **distribuci√≥n completa de 40 tipos de ataques**, incluyendo ataques no vistos en entrenamiento (realismo)
- KDDTest-21 es una versi√≥n restringida con solo 21 categor√≠as espec√≠ficas, √∫til para an√°lisis focalizados pero menos representativa

---

#### 1.2.4 Caracter√≠sticas del Dataset

**Dimensiones:**
- **41 variables descriptoras del tr√°fico de red**
- **1 variable de etiquetado** (`attack_type`): indica el tipo de conexi√≥n observada
- **1 variable de metadatos** (`difficulty_level`): nivel de dificultad asignado por los autores
- **Conjunto de entrenamiento (20%):** 25,192 observaciones
- **Conjunto de prueba:** 22,544 observaciones

**Tipos de conexiones registradas (5 categor√≠as principales):**

| Categor√≠a | Descripci√≥n | Ejemplos de ataques espec√≠ficos |
|-----------|-------------|--------------------------------|
| **Normal** | Tr√°fico de red leg√≠timo | - |
| **DoS** | Denegaci√≥n de servicio mediante sobrecarga | neptune, smurf, back, teardrop |
| **Probe** | Escaneo/reconocimiento de vulnerabilidades | portsweep, nmap, satan, ipsweep |
| **R2L** | Acceso no autorizado desde m√°quina remota | guess_passwd, ftp_write, warezmaster |
| **U2R** | Escalada de privilegios (user ‚Üí root) | buffer_overflow, rootkit, loadmodule |

**Categorizaci√≥n de variables por naturaleza:**

- **Variables b√°sicas (9):** Derivadas de cabeceras TCP/IP
  - *Ejemplos:* duration, protocol_type, service, flag, src_bytes, dst_bytes
  
- **Variables de contenido (13):** Informaci√≥n sobre el payload de la conexi√≥n
  - *Ejemplos:* num_failed_logins, root_shell, su_attempted, num_file_creations
  
- **Variables de tr√°fico temporal (9):** Estad√≠sticas de ventanas de 2 segundos
  - *Ejemplos:* count, serror_rate, same_srv_rate, srv_count
  
- **Variables de tr√°fico basadas en host (10):** Estad√≠sticas sobre las √∫ltimas 100 conexiones al mismo destino
  - *Ejemplos:* dst_host_count, dst_host_srv_count, dst_host_same_srv_rate

**Naturaleza de las variables:**
- **Continuas:** duration, src_bytes, dst_bytes (17 variables)
- **Discretas:** count, srv_count, num_failed_logins (21 variables)
- **Categ√≥ricas:** protocol_type (3 niveles), service (70 niveles), flag (11 niveles) (3 variables)
- **Binarias:** land, logged_in, root_shell, is_guest_login (17 variables)

---

#### 1.2.5 Limitaciones Conocidas (Transparencia Metodol√≥gica)

Pese a las mejoras sobre KDD'99, NSL-KDD presenta limitaciones que deben considerarse:

‚ö†Ô∏è **Desbalance de clases persistente**: DoS representa >50% del dataset  
‚ö†Ô∏è **Antig√ºedad de ataques**: Patrones de 1999, no reflejan amenazas modernas (ransomware, APTs)  
‚ö†Ô∏è **Entorno simulado**: Datos generados en laboratorio, no capturados de tr√°fico real  
‚ö†Ô∏è **Variables derivadas**: Algunas features asumen conocimiento previo del tipo de ataque

**Implicaciones para nuestro an√°lisis:**
- Las conclusiones aplican a detecci√≥n de **patrones generales** de comportamiento an√≥malo
- No pretendemos crear un IDS listo para producci√≥n, sino **demostrar la aplicabilidad de t√©cnicas estad√≠sticas** al problema
- Los resultados deben interpretarse en el contexto de un **ejercicio acad√©mico benchmark**, no como soluci√≥n deployable

---

### 1.3 Carga e Inspecci√≥n Inicial de Datos

En esta secci√≥n realizamos la carga de los archivos NSL-KDD, verificamos su integridad, creamos el mapeo de categor√≠as de ataque y preparamos una muestra estratificada para visualizaciones complejas.

#### 1.3.1 Imports y Configuraci√≥n del Entorno de An√°lisis

A continuaci√≥n se importan las bibliotecas est√°ndar de an√°lisis de datos y se establece la configuraci√≥n global de visualizaciones para mantener consistencia est√©tica en todo el proyecto.

In [1]:
# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import sklearn as sk
import scipy
import os
import statsmodels

# Configuraci√≥n de visualizaciones
warnings.filterwarnings('ignore')
%matplotlib inline

# Estilo global para mantener consistencia en todas las visualizaciones
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 11
plt.rcParams['axes.labelsize'] = 11
plt.rcParams['axes.titlesize'] = 13
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10

# Paleta de colores consistente para categor√≠as de ataque
# Se utilizar√° en todas las visualizaciones del proyecto
attack_colors = {
    'Normal': '#2ecc71',    # Verde - Tr√°fico leg√≠timo
    'DoS': '#e74c3c',       # Rojo - Ataques de denegaci√≥n de servicio
    'Probe': '#f39c12',     # Naranja - Ataques de reconocimiento
    'R2L': '#9b59b6',       # Morado - Acceso remoto no autorizado
    'U2R': '#34495e'        # Gris oscuro - Escalada de privilegios
}

print("‚úÖ Librer√≠as importadas y configuraci√≥n de visualizaci√≥n establecida. \n Se utilizan bibliotecas est√°ndar de an√°lisis de datos y visualizaci√≥n ampliamente aceptadas en ciencia de datos, lo que garantiza reproducibilidad y compatibilidad.")

‚úÖ Librer√≠as importadas y configuraci√≥n de visualizaci√≥n establecida. 
 Se utilizan bibliotecas est√°ndar de an√°lisis de datos y visualizaci√≥n ampliamente aceptadas en ciencia de datos, lo que garantiza reproducibilidad y compatibilidad.


#### 1.3.2 Carga de Archivos y Verificaci√≥n de Estructura

In [2]:
# Definir los nombres de las columnas (43 columnas en total)
# Fuente: Documentaci√≥n oficial NSL-KDD (Universidad de New Brunswick)
col_names = [
    # Variables b√°sicas derivadas de cabeceras TCP/IP (9)
    "duration",           # Duraci√≥n de la conexi√≥n en segundos
    "protocol_type",      # Protocolo: TCP, UDP, ICMP
    "service",            # Servicio de red destino (http, ftp, smtp, etc.)
    "flag",               # Estado de la conexi√≥n (SF, S0, REJ, etc.)
    "src_bytes",          # Bytes enviados desde origen a destino
    "dst_bytes",          # Bytes enviados desde destino a origen
    "land",               # 1 si origen y destino son iguales (ataque LAND)
    "wrong_fragment",     # N√∫mero de fragmentos incorrectos
    "urgent",             # N√∫mero de paquetes urgentes
    
    # Variables de contenido de la conexi√≥n (13)
    "hot",                # N√∫mero de indicadores "hot" (acceso a archivos cr√≠ticos)
    "num_failed_logins",  # N√∫mero de intentos fallidos de login
    "logged_in",          # 1 si login exitoso
    "num_compromised",    # N√∫mero de condiciones "comprometidas"
    "root_shell",         # 1 si se obtuvo acceso root
    "su_attempted",       # 1 si comando "su root" fue intentado
    "num_root",           # N√∫mero de accesos root
    "num_file_creations", # N√∫mero de operaciones de creaci√≥n de archivos
    "num_shells",         # N√∫mero de shells iniciados
    "num_access_files",   # N√∫mero de operaciones de acceso a archivos de control
    "num_outbound_cmds",  # N√∫mero de comandos FTP salientes (siempre 0 en dataset)
    "is_host_login",      # 1 si login es a host (no guest)
    "is_guest_login",     # 1 si login es de invitado
    
    # Variables de tr√°fico basadas en tiempo (ventana de 2 seg) (9)
    "count",              # N√∫mero de conexiones al mismo host en √∫ltimos 2 seg
    "srv_count",          # N√∫mero de conexiones al mismo servicio en √∫ltimos 2 seg
    "serror_rate",        # % de conexiones con errores SYN en count
    "srv_serror_rate",    # % de conexiones con errores SYN en srv_count
    "rerror_rate",        # % de conexiones con errores REJ en count
    "srv_rerror_rate",    # % de conexiones con errores REJ en srv_count
    "same_srv_rate",      # % de conexiones al mismo servicio en count
    "diff_srv_rate",      # % de conexiones a diferentes servicios en count
    "srv_diff_host_rate", # % de conexiones a diferentes hosts en srv_count
    
    # Variables de tr√°fico basadas en host (√∫ltimas 100 conexiones) (10)
    "dst_host_count",              # Conexiones al mismo host destino
    "dst_host_srv_count",          # Conexiones al mismo servicio en host destino
    "dst_host_same_srv_rate",      # % conexiones al mismo servicio
    "dst_host_diff_srv_rate",      # % conexiones a diferentes servicios
    "dst_host_same_src_port_rate", # % conexiones desde mismo puerto origen
    "dst_host_srv_diff_host_rate", # % conexiones desde diferentes hosts
    "dst_host_serror_rate",        # % errores SYN en dst_host_count
    "dst_host_srv_serror_rate",    # % errores SYN en dst_host_srv_count
    "dst_host_rerror_rate",        # % errores REJ en dst_host_count
    "dst_host_srv_rerror_rate",    # % errores REJ en dst_host_srv_count
    
    # Variables objetivo y metadatos (2)
    "attack_type",        # Etiqueta: tipo espec√≠fico de ataque o "normal"
    "difficulty_level"    # Nivel de dificultad (0-21) asignado por los autores
]

# Cargar los datasets
# Justificaci√≥n de archivos seleccionados (ver secci√≥n 1.2.3):
# - KDDTrain+_20Percent: Muestra estratificada oficial (25,192 obs)
# - KDDTest+: Conjunto completo de evaluaci√≥n (22,544 obs)

print("üìÇ Cargando archivos NSL-KDD...")
train_df = pd.read_csv('Data/KDDTrain+_20Percent.txt', 
                       names=col_names, 
                       header=None)

test_df = pd.read_csv('Data/KDDTest+.txt', 
                      names=col_names, 
                      header=None)

# Crear variable binaria para an√°lisis de dos grupos (Normal vs. Ataque)
# Nota: Su uso espec√≠fico se determinar√° tras el an√°lisis exploratorio
train_df['is_attack'] = (train_df['attack_type'] != 'normal').astype(int)
test_df['is_attack'] = (test_df['attack_type'] != 'normal').astype(int)

# Mostrar informaci√≥n b√°sica
print(f"\n‚úÖ Datasets cargados exitosamente:")
print(f"   üìä Entrenamiento: {train_df.shape[0]:,} observaciones √ó {train_df.shape[1]} variables")
print(f"   üìä Prueba:        {test_df.shape[0]:,} observaciones √ó {test_df.shape[1]} variables")
print(f"\nüìå Distribuci√≥n binaria en ENTRENAMIENTO:")
print(f"   Normal:  {(train_df['is_attack'] == 0).sum():,} ({(train_df['is_attack'] == 0).sum() / len(train_df) * 100:.2f}%)")
print(f"   Ataques: {(train_df['is_attack'] == 1).sum():,} ({(train_df['is_attack'] == 1).sum() / len(train_df) * 100:.2f}%)")

üìÇ Cargando archivos NSL-KDD...

‚úÖ Datasets cargados exitosamente:
   üìä Entrenamiento: 25,192 observaciones √ó 44 variables
   üìä Prueba:        22,544 observaciones √ó 44 variables

üìå Distribuci√≥n binaria en ENTRENAMIENTO:
   Normal:  13,449 (53.39%)
   Ataques: 11,743 (46.61%)


#### 1.3.3 Mapeo de Categor√≠as de Ataque

El dataset NSL-KDD contiene 40 tipos de ataques espec√≠ficos que se agrupan en 4 categor√≠as principales m√°s la clase normal. A continuaci√≥n se realiza el mapeo oficial seg√∫n la documentaci√≥n del Canadian Institute for Cybersecurity:
- **Normal:** Tr√°fico de red leg√≠timo
- **DoS (Denial of Service):** Ataques que buscan denegar el servicio mediante sobrecarga de recursos
- **Probe (Probing/Scanning):** Ataques de reconocimiento que escanean la red en busca de vulnerabilidades
- **R2L (Remote to Local):** Intentos de acceso no autorizado desde una m√°quina remota
- **U2R (User to Root):** Intentos de escalada de privilegios de usuario normal a superusuario

Este agrupamiento reduce la complejidad del problema y permite realizar inferencias estad√≠sticas m√°s robustas sobre patrones generales de ataque.

In [3]:
# Diccionario oficial de mapeo de ataques espec√≠ficos a categor√≠as generales
# Fuente: Documentaci√≥n oficial NSL-KDD (Canadian Institute for Cybersecurity)
attack_category_mapping = {
    # Tr√°fico Normal
    'normal': 'Normal',
    
    # DoS (Denial of Service) - Ataques de denegaci√≥n de servicio
    'back': 'DoS', 'land': 'DoS', 'neptune': 'DoS', 'pod': 'DoS',
    'smurf': 'DoS', 'teardrop': 'DoS', 'mailbomb': 'DoS', 'apache2': 'DoS',
    'processtable': 'DoS', 'udpstorm': 'DoS',
    
    # Probe (Probing/Scanning) - Ataques de reconocimiento
    'ipsweep': 'Probe', 'nmap': 'Probe', 'portsweep': 'Probe',
    'satan': 'Probe', 'mscan': 'Probe', 'saint': 'Probe',
    
    # R2L (Remote to Local) - Acceso no autorizado desde m√°quina remota
    'ftp_write': 'R2L', 'guess_passwd': 'R2L', 'imap': 'R2L',
    'multihop': 'R2L', 'phf': 'R2L', 'spy': 'R2L',
    'warezclient': 'R2L', 'warezmaster': 'R2L', 'sendmail': 'R2L',
    'named': 'R2L', 'snmpgetattack': 'R2L', 'snmpguess': 'R2L',
    'xlock': 'R2L', 'xsnoop': 'R2L', 'worm': 'R2L', 'xterm': 'R2L', 
    
    # U2R (User to Root) - Escalada de privilegios
    'buffer_overflow': 'U2R', 'loadmodule': 'U2R', 'perl': 'U2R',
    'rootkit': 'U2R', 'httptunnel': 'U2R', 'ps': 'U2R', 'sqlattack': 'U2R'
}

# Aplicar mapeo a ambos datasets
train_df['attack_category'] = train_df['attack_type'].map(attack_category_mapping)
test_df['attack_category'] = test_df['attack_type'].map(attack_category_mapping)

# Verificar que no hay valores sin mapear
print("üîç Verificaci√≥n de mapeo de categor√≠as:")
unmapped_train = train_df['attack_category'].isna().sum()
unmapped_test = test_df['attack_category'].isna().sum()
print(f"   Valores sin mapear en train: {unmapped_train}")
print(f"   Valores sin mapear en test: {unmapped_test}")

if unmapped_test > 0:
    print(f"\n‚ö†Ô∏è ADVERTENCIA: Hay {unmapped_test} ataques en test sin categor√≠a asignada.")

# Crear orden categ√≥rico para visualizaciones consistentes
category_order = ['Normal', 'DoS', 'Probe', 'R2L', 'U2R']
train_df['attack_category'] = pd.Categorical(
    train_df['attack_category'], 
    categories=category_order, 
    ordered=True
)
test_df['attack_category'] = pd.Categorical(
    test_df['attack_category'], 
    categories=category_order, 
    ordered=True
)

# Mostrar distribuci√≥n de categor√≠as
print("\nüìä Distribuci√≥n de categor√≠as en ENTRENAMIENTO:")
category_dist_train = train_df['attack_category'].value_counts()
category_pct_train = train_df['attack_category'].value_counts(normalize=True) * 100
category_summary_train = pd.DataFrame({
    'Frecuencia': category_dist_train,
    'Porcentaje': category_pct_train.round(2)
})
print(category_summary_train)

print("\nüìä Distribuci√≥n de categor√≠as en PRUEBA:")
category_dist_test = test_df[test_df['attack_category'].notna()]['attack_category'].value_counts()
category_pct_test = test_df[test_df['attack_category'].notna()]['attack_category'].value_counts(normalize=True) * 100
category_summary_test = pd.DataFrame({
    'Frecuencia': category_dist_test,
    'Porcentaje': category_pct_test.round(2)
})
print(category_summary_test)

print("\n‚úÖ Mapeo de categor√≠as completado exitosamente")

üîç Verificaci√≥n de mapeo de categor√≠as:
   Valores sin mapear en train: 0
   Valores sin mapear en test: 0

üìä Distribuci√≥n de categor√≠as en ENTRENAMIENTO:
                 Frecuencia  Porcentaje
attack_category                        
Normal                13449       53.39
DoS                    9234       36.65
Probe                  2289        9.09
R2L                     209        0.83
U2R                      11        0.04

üìä Distribuci√≥n de categor√≠as en PRUEBA:
                 Frecuencia  Porcentaje
attack_category                        
Normal                 9711       43.08
DoS                    7458       33.08
R2L                    2767       12.27
Probe                  2421       10.74
U2R                     187        0.83

‚úÖ Mapeo de categor√≠as completado exitosamente


#### 1.3.4 Preparaci√≥n de Muestra Estratificada para Visualizaciones

Para optimizar el rendimiento de visualizaciones complejas (como scatterplot matrices y pairplots), crearemos una muestra estratificada de 5,000 observaciones que mantenga las proporciones originales de cada categor√≠a de ataque. 

**Nota importante:** Esta muestra se utilizar√° **exclusivamente para visualizaciones**. Todos los an√°lisis estad√≠sticos (correlaciones, pruebas de hip√≥tesis, modelos) se realizar√°n sobre el dataset completo.

In [4]:
# Configuraci√≥n del muestreo estratificado
sample_size = 5000
random_state = 42  # Para reproducibilidad

# Crear muestra estratificada manteniendo proporciones de cada categor√≠a
train_sample = train_df.groupby('attack_category', group_keys=False).apply(
    lambda x: x.sample(
        n=min(len(x), int(sample_size * len(x) / len(train_df))),
        random_state=random_state
    )
).reset_index(drop=True)

print(f"üìä Muestra estratificada creada: {len(train_sample):,} observaciones")
print(f"\n‚úÖ Verificaci√≥n de estratificaci√≥n:")

# Comparar proporciones originales vs. muestra
comparison = pd.DataFrame({
    'Original (%)': train_df['attack_category'].value_counts(normalize=True).sort_index() * 100,
    'Muestra (%)': train_sample['attack_category'].value_counts(normalize=True).sort_index() * 100
})
comparison['Diferencia (pp)'] = (comparison['Muestra (%)'] - comparison['Original (%)']).abs()
print(comparison.round(2))

print("\nüí° Esta muestra se usar√° √∫nicamente para visualizaciones pesadas.")
print("   Los an√°lisis estad√≠sticos utilizar√°n el dataset completo.")

üìä Muestra estratificada creada: 4,998 observaciones

‚úÖ Verificaci√≥n de estratificaci√≥n:
                 Original (%)  Muestra (%)  Diferencia (pp)
attack_category                                            
Normal                  53.39        53.40             0.02
DoS                     36.65        36.65             0.00
Probe                    9.09         9.08             0.00
R2L                      0.83         0.82             0.01
U2R                      0.04         0.04             0.00

üí° Esta muestra se usar√° √∫nicamente para visualizaciones pesadas.
   Los an√°lisis estad√≠sticos utilizar√°n el dataset completo.
