# Detecci√≥n de Intrusiones y An√°lisis de Anomal√≠as en Tr√°fico de Red mediante T√©cnicas Estad√≠sticas

**Universidad de La Habana, MATCOM**  
**Curso:** Estad√≠stica 2025-2026  
**Proyecto Final:** An√°lisis Estad√≠stico Aplicado a Seguridad Inform√°tica

---

## 1. Introducci√≥n al Proyecto

### 1.1 Contexto y Motivaci√≥n

La seguridad inform√°tica es uno de los pilares fundamentales en la infraestructura tecnol√≥gica moderna. Los Sistemas de Detecci√≥n de Intrusiones (IDS) tradicionales, basados en firmas conocidas, presentan limitaciones significativas frente a ataques emergentes o modificados (zero-day attacks). 

Este proyecto propone un enfoque complementario basado en **an√°lisis estad√≠stico del comportamiento del tr√°fico de red**, permitiendo identificar patrones an√≥malos sin depender exclusivamente de firmas previamente catalogadas. Este tipo de aproximaci√≥n resulta especialmente relevante en entornos din√°micos donde los ataques evolucionan constantemente.

### 1.2 Objetivos del An√°lisis

Este estudio busca responder **tres preguntas de investigaci√≥n fundamentales**:

**Pregunta 1 (An√°lisis Comparativo):** ¬øExisten diferencias estad√≠sticamente significativas en el comportamiento de variables de flujo de red ‚Äîcomo `src_bytes`, `dst_bytes` y `duration`‚Äî entre el tr√°fico normal y los distintos tipos de ataques (DoS, Probe, R2L y U2R)?

**Pregunta 2 (Reducci√≥n Dimensional):** ¬øEs posible reducir la dimensionalidad de las 41 caracter√≠sticas del tr√°fico de red mediante An√°lisis de Componentes Principales (PCA), conservando al menos el 95% de la varianza explicada, y c√≥mo impacta esta reducci√≥n en la visualizaci√≥n y separaci√≥n de los distintos tipos de ataques?

**Pregunta 3 (Clasificaci√≥n Comparativa):** ¬øQu√© t√©cnica de clasificaci√≥n estad√≠stica, Regresi√≥n Log√≠stica o K-Vecinos m√°s Cercanos (K-NN), ofrece una mayor sensibilidad para detectar ataques raros (como U2R) en comparaci√≥n con ataques volum√©tricos m√°s comunes (como DoS)?

### 1.3 Dataset: NSL-KDD

**Fuente:** [NSL-KDD en Kaggle](https://www.kaggle.com/datasets/hassan06/nslkdd)

El dataset NSL-KDD es una versi√≥n refinada del cl√°sico KDD Cup 1999, dise√±ada espec√≠ficamente para eliminar redundancias y sesgos presentes en el conjunto original. Es ampliamente reconocido como est√°ndar acad√©mico para la evaluaci√≥n de algoritmos de detecci√≥n de intrusiones.

**Caracter√≠sticas principales:**
- **41 variables predictoras** + 1 variable objetivo (`attack_type`) + 1 nivel de dificultad
- **Tipos de ataques:** Normal, DoS (Denial of Service), Probe (escaneo/sondeo), R2L (Remote to Local), U2R (User to Root)
- **Conjunto de entrenamiento:** 25,192 observaciones
- **Conjunto de prueba:** 22,544 observaciones

**Categorizaci√≥n de variables:**
- **B√°sicas:** Derivadas de cabeceras TCP/IP (duration, protocol_type, src_bytes, dst_bytes, flag)
- **De contenido:** Informaci√≥n sobre el payload (num_failed_logins, root_shell, etc.)
- **De tr√°fico:** Estad√≠sticas temporales orientadas a detectar patrones (count, serror_rate, etc.)

---

## 1.4 Carga de Datos y Preparaci√≥n Inicial

# Imports y Configuraci√≥n

In [None]:
# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuraci√≥n de visualizaciones
warnings.filterwarnings('ignore')
%matplotlib inline

# Estilo global para mantener consistencia en todas las visualizaciones
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 11
plt.rcParams['axes.labelsize'] = 11
plt.rcParams['axes.titlesize'] = 13
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10

# Paleta de colores consistente para categor√≠as de ataque
# Se utilizar√° en todas las visualizaciones del proyecto
attack_colors = {
    'Normal': '#2ecc71',    # Verde - Tr√°fico leg√≠timo
    'DoS': '#e74c3c',       # Rojo - Ataques de denegaci√≥n de servicio
    'Probe': '#f39c12',     # Naranja - Ataques de reconocimiento
    'R2L': '#9b59b6',       # Morado - Acceso remoto no autorizado
    'U2R': '#34495e'        # Gris oscuro - Escalada de privilegios
}

print("‚úÖ Librer√≠as importadas y configuraci√≥n de visualizaci√≥n establecida")

## Carga de Datos

In [None]:
# Definir los nombres de las columnas (43 columnas en total)
col_names = [
    "duration", "protocol_type", "service", "flag", "src_bytes",
    "dst_bytes", "land", "wrong_fragment", "urgent", "hot",
    "num_failed_logins", "logged_in", "num_compromised", "root_shell",
    "su_attempted", "num_root", "num_file_creations", "num_shells",
    "num_access_files", "num_outbound_cmds", "is_host_login",
    "is_guest_login", "count", "srv_count", "serror_rate",
    "srv_serror_rate", "rerror_rate", "srv_rerror_rate", "same_srv_rate",
    "diff_srv_rate", "srv_diff_host_rate", "dst_host_count",
    "dst_host_srv_count", "dst_host_same_srv_rate",
    "dst_host_diff_srv_rate", "dst_host_same_src_port_rate",
    "dst_host_srv_diff_host_rate", "dst_host_serror_rate",
    "dst_host_srv_serror_rate", "dst_host_rerror_rate",
    "dst_host_srv_rerror_rate", "attack_type", "difficulty_level"
]

# Cargar los datasets
# Nota: Ajusta las rutas seg√∫n tu estructura de carpetas
train_df = pd.read_csv('Data/KDDTrain+_20Percent.txt', 
                       names=col_names, 
                       header=None)

test_df = pd.read_csv('Data/KDDTest+.txt', 
                      names=col_names, 
                      header=None)

# Crear variable binaria para clasificaci√≥n binaria (Normal vs. Ataque)
train_df['is_attack'] = (train_df['attack_type'] != 'normal').astype(int)
test_df['is_attack'] = (test_df['attack_type'] != 'normal').astype(int)

# Mostrar informaci√≥n b√°sica
print(f"üìä Datos de entrenamiento: {train_df.shape}")
print(f"üìä Datos de prueba: {test_df.shape}")
print(f"\n‚úÖ Datasets cargados exitosamente")

# Distribuci√≥n binaria inicial
print(f"\nüéØ Distribuci√≥n binaria en entrenamiento (Normal vs. Ataque):")
print(train_df['is_attack'].value_counts(normalize=True).round(4))

print(f"\nüéØ Distribuci√≥n binaria en prueba (Normal vs. Ataque):")
print(test_df['is_attack'].value_counts(normalize=True).round(4))

## 1.5 Mapeo de Categor√≠as de Ataque

El dataset NSL-KDD contiene 39 tipos de ataques espec√≠ficos que se agrupan en 4 categor√≠as principales m√°s la clase normal. A continuaci√≥n se realiza el mapeo oficial seg√∫n la documentaci√≥n del Canadian Institute for Cybersecurity:

- **Normal:** Tr√°fico de red leg√≠timo
- **DoS (Denial of Service):** Ataques que buscan denegar el servicio mediante sobrecarga de recursos
- **Probe (Probing/Scanning):** Ataques de reconocimiento que escanean la red en busca de vulnerabilidades
- **R2L (Remote to Local):** Intentos de acceso no autorizado desde una m√°quina remota
- **U2R (User to Root):** Intentos de escalada de privilegios de usuario normal a superusuario

In [None]:
# Diccionario oficial de mapeo de ataques espec√≠ficos a categor√≠as generales
# Fuente: Documentaci√≥n oficial NSL-KDD (Canadian Institute for Cybersecurity)
attack_category_mapping = {
    # Tr√°fico Normal
    'normal': 'Normal',
    
    # DoS (Denial of Service) - Ataques de denegaci√≥n de servicio
    'back': 'DoS', 'land': 'DoS', 'neptune': 'DoS', 'pod': 'DoS',
    'smurf': 'DoS', 'teardrop': 'DoS', 'mailbomb': 'DoS', 'apache2': 'DoS',
    'processtable': 'DoS', 'udpstorm': 'DoS',
    
    # Probe (Probing/Scanning) - Ataques de reconocimiento
    'ipsweep': 'Probe', 'nmap': 'Probe', 'portsweep': 'Probe',
    'satan': 'Probe', 'mscan': 'Probe', 'saint': 'Probe',
    
    # R2L (Remote to Local) - Acceso no autorizado desde m√°quina remota
    'ftp_write': 'R2L', 'guess_passwd': 'R2L', 'imap': 'R2L',
    'multihop': 'R2L', 'phf': 'R2L', 'spy': 'R2L',
    'warezclient': 'R2L', 'warezmaster': 'R2L', 'sendmail': 'R2L',
    'named': 'R2L', 'snmpgetattack': 'R2L', 'snmpguess': 'R2L',
    'xlock': 'R2L', 'xsnoop': 'R2L', 'worm': 'R2L',
    
    # U2R (User to Root) - Escalada de privilegios
    'buffer_overflow': 'U2R', 'loadmodule': 'U2R', 'perl': 'U2R',
    'rootkit': 'U2R', 'httptunnel': 'U2R', 'ps': 'U2R', 'sqlattack': 'U2R'
}

# Aplicar mapeo a ambos datasets
train_df['attack_category'] = train_df['attack_type'].map(attack_category_mapping)
test_df['attack_category'] = test_df['attack_type'].map(attack_category_mapping)

# Verificar que no hay valores sin mapear
print("üîç Verificaci√≥n de mapeo de categor√≠as:")
unmapped_train = train_df['attack_category'].isna().sum()
unmapped_test = test_df['attack_category'].isna().sum()
print(f"   Valores sin mapear en train: {unmapped_train}")
print(f"   Valores sin mapear en test: {unmapped_test}")

if unmapped_test > 0:
    print(f"\n‚ö†Ô∏è ADVERTENCIA: Hay {unmapped_test} ataques en test sin categor√≠a asignada.")
    print("   Esto es esperado en NSL-KDD, que incluye ataques nuevos en el conjunto de prueba.")
    print("   Estos registros se filtrar√°n en an√°lisis posteriores.")

# Crear orden categ√≥rico para visualizaciones consistentes
category_order = ['Normal', 'DoS', 'Probe', 'R2L', 'U2R']
train_df['attack_category'] = pd.Categorical(
    train_df['attack_category'], 
    categories=category_order, 
    ordered=True
)
test_df['attack_category'] = pd.Categorical(
    test_df['attack_category'], 
    categories=category_order, 
    ordered=True
)

# Mostrar distribuci√≥n de categor√≠as
print("\nüìä Distribuci√≥n de categor√≠as en ENTRENAMIENTO:")
category_dist_train = train_df['attack_category'].value_counts()
category_pct_train = train_df['attack_category'].value_counts(normalize=True) * 100
category_summary_train = pd.DataFrame({
    'Frecuencia': category_dist_train,
    'Porcentaje': category_pct_train.round(2)
})
print(category_summary_train)

print("\nüìä Distribuci√≥n de categor√≠as en PRUEBA:")
category_dist_test = test_df[test_df['attack_category'].notna()]['attack_category'].value_counts()
category_pct_test = test_df[test_df['attack_category'].notna()]['attack_category'].value_counts(normalize=True) * 100
category_summary_test = pd.DataFrame({
    'Frecuencia': category_dist_test,
    'Porcentaje': category_pct_test.round(2)
})
print(category_summary_test)

print("\n‚úÖ Mapeo de categor√≠as completado exitosamente")

## 1.6 Preparaci√≥n de Muestra Estratificada para Visualizaciones

Para optimizar el rendimiento de visualizaciones complejas (como scatterplot matrices y pairplots), crearemos una muestra estratificada de 5,000 observaciones que mantenga las proporciones originales de cada categor√≠a de ataque. 

**Nota importante:** Esta muestra se utilizar√° **exclusivamente para visualizaciones**. Todos los an√°lisis estad√≠sticos (correlaciones, pruebas de hip√≥tesis, modelos) se realizar√°n sobre el dataset completo.

In [None]:
# Configuraci√≥n del muestreo estratificado
sample_size = 5000
random_state = 42  # Para reproducibilidad

# Crear muestra estratificada manteniendo proporciones de cada categor√≠a
train_sample = train_df.groupby('attack_category', group_keys=False).apply(
    lambda x: x.sample(
        n=min(len(x), int(sample_size * len(x) / len(train_df))),
        random_state=random_state
    )
).reset_index(drop=True)

print(f"üìä Muestra estratificada creada: {len(train_sample):,} observaciones")
print(f"\n‚úÖ Verificaci√≥n de estratificaci√≥n:")

# Comparar proporciones originales vs. muestra
comparison = pd.DataFrame({
    'Original (%)': train_df['attack_category'].value_counts(normalize=True).sort_index() * 100,
    'Muestra (%)': train_sample['attack_category'].value_counts(normalize=True).sort_index() * 100
})
comparison['Diferencia (pp)'] = (comparison['Muestra (%)'] - comparison['Original (%)']).abs()
print(comparison.round(2))

print("\nüí° Esta muestra se usar√° √∫nicamente para visualizaciones pesadas.")
print("   Los an√°lisis estad√≠sticos utilizar√°n el dataset completo.")

---

# 2. AN√ÅLISIS EXPLORATORIO DE DATOS (EDA)

El An√°lisis Exploratorio de Datos es fundamental para comprender la estructura, distribuci√≥n y relaciones presentes en el dataset antes de aplicar t√©cnicas estad√≠sticas avanzadas. Esta secci√≥n cumple tres objetivos principales:

1. **Validar la calidad de los datos** y detectar problemas estructurales
2. **Fundamentar decisiones de preparaci√≥n** que se implementar√°n en la secci√≥n 3
3. **Generar hip√≥tesis preliminares** que guiar√°n las pruebas estad√≠sticas posteriores

---

## 2.1 Informaci√≥n General del Dataset

En esta primera secci√≥n del EDA realizaremos una exploraci√≥n estructural del dataset para verificar:
- Dimensiones y tipos de datos
- Presencia de valores nulos o faltantes
- Distribuci√≥n de variables num√©ricas vs. categ√≥ricas
- Uso de memoria, consideraciones computacionales y duplicados

In [None]:
print("INFORMACI√ìN ESTRUCTURAL DEL DATASET")

# 1. Dimensiones
print(f"\nüì¶ Dimensiones de los datasets:")
print(f"   Entrenamiento: {train_df.shape[0]:,} observaciones √ó {train_df.shape[1]} variables")
print(f"   Prueba: {test_df.shape[0]:,} observaciones √ó {test_df.shape[1]} variables")

# 2. Informaci√≥n de tipos de datos
print(f"\nüî¢ Distribuci√≥n de tipos de datos (Train):")
print(train_df.dtypes.value_counts())

# 3. Separaci√≥n de variables num√©ricas y categ√≥ricas
numeric_cols = train_df.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = train_df.select_dtypes(include=['object', 'category']).columns.tolist()

# Remover variables objetivo y auxiliares de las listas
numeric_cols = [col for col in numeric_cols if col not in ['is_attack', 'difficulty_level']]
categorical_cols = [col for col in categorical_cols if col not in ['attack_type', 'attack_category']]

print(f"\nüìä Clasificaci√≥n de variables predictoras:")
print(f"   Variables num√©ricas: {len(numeric_cols)}")
print(f"   Variables categ√≥ricas: {len(categorical_cols)}")
print(f"   Total de predictoras: {len(numeric_cols) + len(categorical_cols)}")

print(f"\n   Variables categ√≥ricas identificadas:")
for col in categorical_cols:
    n_unique = train_df[col].nunique()
    print(f"      - {col}: {n_unique} categor√≠as √∫nicas")

In [None]:
# Verificaci√≥n de valores nulos en variables predictoras originales
print("\nüîç Verificaci√≥n de valores faltantes:")

# Excluir attack_category del an√°lisis de nulos (es variable derivada)
original_cols = [col for col in train_df.columns if col not in ['attack_category', 'is_attack']]
missing_train = train_df[original_cols].isnull().sum().sum()
missing_test = test_df[original_cols].isnull().sum().sum()

print(f"   Dataset de entrenamiento: {missing_train} valores nulos")
print(f"   Dataset de prueba: {missing_test} valores nulos")

if missing_train == 0 and missing_test == 0:
    print(f"\n   ‚úÖ Excelente: No hay valores faltantes en las variables originales.")
    print(f"      No se requiere imputaci√≥n de datos.")
else:
    print(f"\n   ‚ö†Ô∏è Se detectaron valores faltantes. An√°lisis detallado:")
    if missing_train > 0:
        print(f"\n   Columnas con valores nulos en TRAIN:")
        missing_cols_train = train_df[original_cols].isnull().sum()[train_df[original_cols].isnull().sum() > 0]
        print(missing_cols_train)
    if missing_test > 0:
        print(f"\n   Columnas con valores nulos en TEST:")
        missing_cols_test = test_df[original_cols].isnull().sum()[test_df[original_cols].isnull().sum() > 0]
        print(missing_cols_test)

# Aclaraci√≥n sobre attack_category
missing_attack_cat = test_df['attack_category'].isna().sum()
if missing_attack_cat > 0:
    print(f"\n   ‚ÑπÔ∏è Nota: {missing_attack_cat} observaciones en test no tienen 'attack_category' asignada.")
    print(f"      Esto se debe a que contienen tipos de ataque nuevos no presentes en train.")
    print(f"      Esta caracter√≠stica es intencional del dataset NSL-KDD para evaluar generalizaci√≥n.")

In [None]:
# Uso de memoria y consideraciones computacionales
print("\nüíæ Uso de memoria:")
train_memory_mb = train_df.memory_usage(deep=True).sum() / 1024**2
test_memory_mb = test_df.memory_usage(deep=True).sum() / 1024**2

print(f"   Dataset de entrenamiento: {train_memory_mb:.2f} MB")
print(f"   Dataset de prueba: {test_memory_mb:.2f} MB")
print(f"   Total en memoria: {train_memory_mb + test_memory_mb:.2f} MB")

if train_memory_mb + test_memory_mb < 100:
    print(f"\n   ‚úÖ El dataset tiene un tama√±o manejable para an√°lisis completo.")
    print(f"      No se requieren t√©cnicas especiales de optimizaci√≥n de memoria.")
else:
    print(f"\n   ‚ö†Ô∏è Dataset de tama√±o considerable. Se recomienda:")
    print(f"      - Usar muestras estratificadas para visualizaciones pesadas")
    print(f"      - Monitorear uso de RAM durante an√°lisis")

In [None]:
# Vista previa de los datos
print("\nüìã Primeras 5 observaciones del dataset de entrenamiento:")
display(train_df.head())

print("\nüìã √öltimas 5 observaciones del dataset de entrenamiento:")
display(train_df.tail())

In [None]:
# Estad√≠sticos descriptivos de variables clave
# Enfoc√°ndonos en las variables mencionadas en la Pregunta de Investigaci√≥n 1
key_vars = ['duration', 'src_bytes', 'dst_bytes']

print("\nüìà Estad√≠sticos descriptivos de variables clave (Dataset completo):")
print("\nEstas tres variables son centrales para la Pregunta de Investigaci√≥n 1.")
print("Se analizar√° si presentan diferencias significativas entre tr√°fico normal y ataques.\n")

key_stats = train_df[key_vars].describe().T
key_stats['range'] = key_stats['max'] - key_stats['min']
key_stats['cv'] = (key_stats['std'] / key_stats['mean']) * 100  # Coeficiente de variaci√≥n

display(key_stats[['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max', 'range', 'cv']])

print("\nüìä Interpretaci√≥n preliminar:")
for var in key_vars:
    mean_val = train_df[var].mean()
    median_val = train_df[var].median()
    max_val = train_df[var].max()
    cv = (train_df[var].std() / mean_val) * 100 if mean_val > 0 else 0
    
    print(f"\n   {var}:")
    print(f"      - Rango: 0 a {max_val:,.0f}")
    print(f"      - Media vs. Mediana: {mean_val:.2f} vs. {median_val:.2f}")
    
    if median_val == 0:
        print(f"      - ‚ö†Ô∏è Mediana en 0: Indica que >50% de las conexiones tienen {var}=0")
    
    if mean_val > median_val * 10 and median_val > 0:
        print(f"      - ‚ö†Ô∏è Asimetr√≠a positiva severa detectada (media >> mediana)")
        print(f"      - Probable presencia de outliers extremos")
        print(f"      - Recomendaci√≥n: Considerar transformaci√≥n logar√≠tmica para visualizaci√≥n")
    
    if cv > 100:
        print(f"      - ‚ö†Ô∏è Coeficiente de variaci√≥n muy alto ({cv:.1f}%)")
        print(f"      - Alta heterogeneidad en los datos")

### 2.1.1 Hallazgos de la Secci√≥n 2.1

**Hallazgos estructurales:**

1. **Calidad de datos:** No se detectaron valores nulos en las 43 variables originales del dataset (41 predictoras + attack_type + difficulty_level). La aparente ausencia de valores en `attack_category` del conjunto de prueba (13 casos) corresponde a tipos de ataque nuevos incluidos intencionalmente para evaluar generalizaci√≥n, no a valores faltantes reales.

2. **Composici√≥n de variables:** 
   - **41 variables predictoras:** 38 num√©ricas (25 int64 + 13 float64) y 3 categ√≥ricas (protocol_type, service, flag)
   - **Variables categ√≥ricas presentan diferentes cardinalidades:** protocol_type (3 categor√≠as), flag (11 categor√≠as), service (66 categor√≠as)
   - Esta diversidad en cardinalidad requerir√° diferentes estrategias de codificaci√≥n en la preparaci√≥n de datos

3. **Tama√±o computacionalmente manejable:** Con 24.33 MB de uso total de memoria (12.83 MB train + 11.50 MB test), el dataset completo puede procesarse en memoria sin necesidad de t√©cnicas de optimizaci√≥n especiales o procesamiento por lotes.

**Observaciones sobre variables clave (duration, src_bytes, dst_bytes):**

1. **Asimetr√≠a extrema y valores cero dominantes:**
   - `duration` y `dst_bytes` tienen mediana = 0, indicando que m√°s del 50% de las conexiones presentan valor cero
   - `src_bytes` tiene mediana de solo 44 bytes, mientras que su media es 24,330 bytes (553 veces mayor)
   - Esta discrepancia media/mediana confirma distribuciones fuertemente sesgadas a la derecha

2. **Heterogeneidad extrema:**
   - Coeficientes de variaci√≥n extraordinariamente altos: duration (881%), src_bytes (9,909%), dst_bytes (2,544%)
   - Valores superiores al 100% indican que la desviaci√≥n est√°ndar supera ampliamente la media
   - Esta dispersi√≥n extrema es caracter√≠stica de datos de red que mezclan conexiones normales breves con ataques de gran volumen

3. **Rangos de varios √≥rdenes de magnitud:**
   - `src_bytes`: rango de 0 a 381 millones (9 √≥rdenes de magnitud)
   - `dst_bytes`: rango de 0 a 5.1 millones
   - `duration`: rango de 0 a 42,862 segundos (~12 horas)
   - Estos rangos amplios sugieren presencia de outliers leg√≠timos (ataques masivos) que no deben eliminarse