# An√°lisis Descriptivo - Dataset CIC IIoT 2025

An√°lisis simplificado de detecci√≥n de ataques en redes IoT siguiendo metodolog√≠a CRISP-DM

## üìä Fase 1: Comprensi√≥n del Negocio (Business Understanding)

**Objetivo**: Entender el contexto y los objetivos del an√°lisis.

**Problema de negocio**: Las redes IoT son vulnerables a diversos tipos de ataques cibern√©ticos. Necesitamos identificar patrones en el tr√°fico de red que permitan distinguir entre operaciones normales y ataques.

**Objetivos del an√°lisis**:
- Identificar caracter√≠sticas del tr√°fico que diferencian ataques de tr√°fico normal
- Entender los tipos de ataques presentes en el dataset
- Generar insights descriptivos para mejorar la seguridad IoT

### ‚öôÔ∏è Configuraci√≥n del Entorno

Configuramos el entorno y limitamos el tama√±o de la muestra para an√°lisis r√°pido en local.

In [ ]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

# Configuraci√≥n de muestreo para an√°lisis r√°pido
SAMPLE_SIZE = 5000  # M√°ximo de filas por clase

# Verificar directorios
if os.path.exists('data/attack_data') and os.path.exists('data/benign_data'):
    print("‚úì Directorios de datos encontrados")
else:
    raise FileNotFoundError("No se encontraron los directorios de datos")

# Configurar visualizaciones
%matplotlib inline
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print(f"‚úì Configuraci√≥n completa - Muestra: {SAMPLE_SIZE} filas por clase")

## üîç Fase 2: Comprensi√≥n de los Datos (Data Understanding)

**Objetivo**: Explorar y entender la estructura, calidad y contenido de los datos.

**Pasos**:
1. Cargar una muestra de datos de ataque y benignos
2. Explorar la estructura de los datos (columnas, tipos, formas)
3. Identificar tipos de ataques presentes
4. Verificar calidad de datos (valores faltantes, duplicados)

In [ ]:
# Cargar datos - Usar la ventana de tiempo m√°s peque√±a disponible
import glob

attack_files = sorted(glob.glob('data/attack_data/attack_samples_*.csv'))
benign_files = sorted(glob.glob('data/benign_data/benign_samples_*.csv'))

def extract_time_window(filename):
    match = re.search(r'(\d+)sec', filename)
    return int(match.group(1)) if match else 999

# Encontrar ventana de tiempo com√∫n m√°s peque√±a
attack_times = {extract_time_window(f): f for f in attack_files}
benign_times = {extract_time_window(f): f for f in benign_files}
common_times = sorted(set(attack_times.keys()) & set(benign_times.keys()))

if common_times:
    time_window = common_times[0]
    attack_file = attack_times[time_window]
    benign_file = benign_times[time_window]
    
    print(f"üìÅ Usando ventana de tiempo: {time_window} segundos")
    print(f"   - Ataque: {os.path.basename(attack_file)}")
    print(f"   - Benigno: {os.path.basename(benign_file)}")
    
    # Cargar muestra de datos
    attack_df = pd.read_csv(attack_file, nrows=SAMPLE_SIZE)
    benign_df = pd.read_csv(benign_file, nrows=SAMPLE_SIZE)
    
    print(f"\n‚úì Datos cargados:")
    print(f"   - Ataque: {len(attack_df)} muestras")
    print(f"   - Benigno: {len(benign_df)} muestras")
else:
    raise FileNotFoundError("No se encontraron ventanas de tiempo comunes")

In [ ]:
# Explorar estructura de los datos
print("=" * 60)
print("ESTRUCTURA DE LOS DATOS")
print("=" * 60)

print(f"\nüìä Forma de los DataFrames:")
print(f"   - Ataque: {attack_df.shape} (filas, columnas)")
print(f"   - Benigno: {benign_df.shape} (filas, columnas)")

print(f"\nüìã Columnas totales: {len(attack_df.columns)}")
print(f"\nüîç Primeras 10 columnas:")
print(list(attack_df.columns[:10]))

print(f"\nüìù Tipos de datos:")
print(attack_df.dtypes.value_counts())

print(f"\nüëÄ Primeras filas de datos de ataque:")
display(attack_df.head(3))

In [ ]:
# Analizar tipos de ataques y calidad de datos
print("=" * 60)
print("TIPOS DE ATAQUES")
print("=" * 60)

if 'label2' in attack_df.columns:
    print(f"\nüìä Categor√≠as de ataque (label2):")
    print(attack_df['label2'].value_counts())

if 'label3' in attack_df.columns:
    print(f"\nüìä Tipos espec√≠ficos de ataque (label3):")
    print(attack_df['label3'].value_counts())

print(f"\n" + "=" * 60)
print("CALIDAD DE DATOS")
print("=" * 60)

print(f"\nüîç Valores faltantes:")
print(f"   - Ataque: {attack_df.isnull().sum().sum()} valores faltantes")
print(f"   - Benigno: {benign_df.isnull().sum().sum()} valores faltantes")

print(f"\nüîç Duplicados:")
print(f"   - Ataque: {attack_df.duplicated().sum()} filas duplicadas")
print(f"   - Benigno: {benign_df.duplicated().sum()} filas duplicadas")

## üõ†Ô∏è Fase 3: Preparaci√≥n de los Datos (Data Preparation)

**Objetivo**: Preparar los datos para el an√°lisis descriptivo.

**Pasos**:
1. Combinar datos de ataque y benignos
2. Crear variable objetivo (attack/benign)
3. Seleccionar caracter√≠sticas num√©ricas relevantes
4. Limpiar datos (valores faltantes, infinitos)

In [ ]:
# Combinar y preparar datos
print("üì¶ Preparando datos para an√°lisis...")

# Combinar DataFrames
combined_df = pd.concat([attack_df, benign_df], ignore_index=True)

# Crear variable objetivo
combined_df['target'] = combined_df['label1']  # attack o benign

# Seleccionar solo caracter√≠sticas num√©ricas (excluyendo columnas de identificaci√≥n)
exclude_cols = ['device_name', 'device_mac', 'label_full', 'label1', 'label2', 'label3', 'label4', 
                'timestamp', 'timestamp_start', 'timestamp_end', 'target']
numeric_cols = combined_df.select_dtypes(include=[np.number]).columns.tolist()
feature_cols = [col for col in numeric_cols if col not in exclude_cols]

print(f"‚úì Caracter√≠sticas num√©ricas seleccionadas: {len(feature_cols)}")
print(f"‚úì Total de muestras: {len(combined_df)}")
print(f"   - Ataque: {(combined_df['target'] == 'attack').sum()}")
print(f"   - Benigno: {(combined_df['target'] == 'benign').sum()}")

# Limpiar valores infinitos
X = combined_df[feature_cols].copy()
X = X.replace([np.inf, -np.inf], np.nan)

# Imputar valores faltantes con mediana
for col in X.columns:
    if X[col].isnull().any():
        X[col].fillna(X[col].median(), inplace=True)

y = combined_df['target']

print(f"\n‚úì Datos preparados: X shape {X.shape}, y shape {y.shape}")

## üìà Fase 4: An√°lisis Descriptivo (Modeling)

**Objetivo**: Realizar an√°lisis estad√≠sticos y visualizaciones para describir los datos.

**Pasos**:
1. Distribuci√≥n de clases (ataque vs benigno)
2. Estad√≠sticas descriptivas por clase
3. Visualizaci√≥n de caracter√≠sticas clave
4. An√°lisis de diferencias entre clases

In [ ]:
# 1. Distribuci√≥n de clases
print("=" * 60)
print("DISTRIBUCI√ìN DE CLASES")
print("=" * 60)

class_dist = y.value_counts()
print(f"\n{class_dist}")
print(f"\nProporci√≥n:")
print(f"   - Ataque: {class_dist['attack']/len(y)*100:.1f}%")
print(f"   - Benigno: {class_dist['benign']/len(y)*100:.1f}%")

# Visualizaci√≥n
plt.figure(figsize=(8, 5))
sns.countplot(x=y, palette=['#e74c3c', '#3498db'])
plt.title('Distribuci√≥n de Tr√°fico: Ataque vs Benigno', fontsize=14, fontweight='bold')
plt.xlabel('Tipo de Tr√°fico', fontsize=12)
plt.ylabel('Cantidad de Muestras', fontsize=12)
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

In [ ]:
# 2. Estad√≠sticas descriptivas por clase
print("=" * 60)
print("ESTAD√çSTICAS DESCRIPTIVAS")
print("=" * 60)

# Seleccionar algunas caracter√≠sticas clave para an√°lisis
# Buscar columnas relacionadas con paquetes, duraci√≥n, etc.
key_features = []
for col in X.columns:
    if any(keyword in col.lower() for keyword in ['packet', 'duration', 'length', 'total', 'count']):
        key_features.append(col)
        if len(key_features) >= 5:  # Limitar a 5 caracter√≠sticas
            break

if len(key_features) < 5:
    key_features = X.columns[:5].tolist()  # Si no hay suficientes, usar las primeras

print(f"\nüìä Analizando {len(key_features)} caracter√≠sticas clave:")
for feat in key_features:
    print(f"   - {feat}")

# Estad√≠sticas por clase
print(f"\nüìà Estad√≠sticas descriptivas (Ataque):")
attack_stats = X[y == 'attack'][key_features].describe()
display(attack_stats)

print(f"\nüìà Estad√≠sticas descriptivas (Benigno):")
benign_stats = X[y == 'benign'][key_features].describe()
display(benign_stats)

In [ ]:
# 3. Visualizaci√≥n de caracter√≠sticas clave
print("=" * 60)
print("VISUALIZACI√ìN DE CARACTER√çSTICAS")
print("=" * 60)

# Crear visualizaciones comparativas
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.flatten()

for idx, feature in enumerate(key_features[:6]):
    ax = axes[idx]
    
    # Box plot comparativo
    attack_data = X[y == 'attack'][feature].dropna()
    benign_data = X[y == 'benign'][feature].dropna()
    
    ax.boxplot([attack_data, benign_data], labels=['Ataque', 'Benigno'], patch_artist=True,
               boxprops=dict(facecolor='lightblue', alpha=0.7),
               medianprops=dict(color='red', linewidth=2))
    ax.set_title(f'{feature}', fontweight='bold')
    ax.set_ylabel('Valor')
    ax.grid(True, alpha=0.3)

plt.suptitle('Comparaci√≥n de Caracter√≠sticas: Ataque vs Benigno', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

print("\nüí° Interpretaci√≥n: Los box plots muestran las diferencias en distribuci√≥n de caracter√≠sticas entre ataques y tr√°fico benigno.")

In [ ]:
# 4. An√°lisis de diferencias significativas
print("=" * 60)
print("AN√ÅLISIS DE DIFERENCIAS")
print("=" * 60)

from scipy import stats

print(f"\nüìä Comparaci√≥n de medias (Ataque vs Benigno):\n")

differences = []
for feature in key_features:
    attack_vals = X[y == 'attack'][feature].dropna()
    benign_vals = X[y == 'benign'][feature].dropna()
    
    if len(attack_vals) > 0 and len(benign_vals) > 0:
        attack_mean = attack_vals.mean()
        benign_mean = benign_vals.mean()
        diff_pct = ((attack_mean - benign_mean) / benign_mean * 100) if benign_mean != 0 else 0
        
        differences.append({
            'Caracter√≠stica': feature,
            'Media Ataque': attack_mean,
            'Media Benigno': benign_mean,
            'Diferencia %': diff_pct
        })

diff_df = pd.DataFrame(differences)
diff_df = diff_df.sort_values('Diferencia %', key=abs, ascending=False)
display(diff_df)

print(f"\n‚úÖ Caracter√≠sticas con mayor diferencia entre clases:")
print(f"   - {diff_df.iloc[0]['Caracter√≠stica']}: {diff_df.iloc[0]['Diferencia %']:.1f}%")
print(f"   - {diff_df.iloc[1]['Caracter√≠stica']}: {diff_df.iloc[1]['Diferencia %']:.1f}%")

## üìä Fase 5: Evaluaci√≥n e Insights (Evaluation)

**Objetivo**: Resumir hallazgos clave y generar insights para la toma de decisiones.

**Pasos**:
1. Resumir diferencias clave entre ataques y tr√°fico benigno
2. Identificar caracter√≠sticas m√°s discriminativas
3. Generar recomendaciones basadas en los hallazgos

In [ ]:
# Resumen de hallazgos
print("=" * 60)
print("RESUMEN DE HALLAZGOS")
print("=" * 60)

print(f"\nüìã Datos analizados:")
print(f"   - Total de muestras: {len(combined_df)}")
print(f"   - Ataques: {(y == 'attack').sum()} ({(y == 'attack').sum()/len(y)*100:.1f}%)")
print(f"   - Benigno: {(y == 'benign').sum()} ({(y == 'benign').sum()/len(y)*100:.1f}%)")
print(f"   - Caracter√≠sticas analizadas: {len(feature_cols)}")

print(f"\nüîç Caracter√≠sticas m√°s discriminativas:")
if 'diff_df' in locals():
    top_features = diff_df.head(3)
    for idx, row in top_features.iterrows():
        print(f"   {idx+1}. {row['Caracter√≠stica']}: {row['Diferencia %']:.1f}% de diferencia")

print(f"\nüí° Insights clave:")
print(f"   1. Se identificaron diferencias significativas en las caracter√≠sticas analizadas")
print(f"   2. Las caracter√≠sticas relacionadas con paquetes, duraci√≥n y longitud muestran patrones distintos")
print(f"   3. Estas diferencias pueden ser utilizadas para detectar ataques en tiempo real")

print(f"\n‚úÖ Recomendaciones:")
print(f"   1. Monitorear las caracter√≠sticas identificadas como m√°s discriminativas")
print(f"   2. Implementar umbrales de alerta basados en los valores an√≥malos observados")
print(f"   3. Considerar estas caracter√≠sticas para modelos de machine learning de detecci√≥n")

## üöÄ Fase 6: Conclusiones (Deployment)

**Resumen del an√°lisis**:

Este an√°lisis descriptivo ha permitido:

1. **Entender la estructura de los datos**: Identificamos los tipos de ataques presentes y la distribuci√≥n de clases

2. **Identificar caracter√≠sticas clave**: Encontramos caracter√≠sticas que muestran diferencias significativas entre ataques y tr√°fico benigno

3. **Generar insights accionables**: Las diferencias identificadas pueden ser utilizadas para mejorar la detecci√≥n de ataques en redes IoT

**Pr√≥ximos pasos sugeridos**:
- Implementar modelos de clasificaci√≥n usando las caracter√≠sticas identificadas
- Desarrollar sistema de monitoreo en tiempo real
- Validar los hallazgos con datos adicionales