# Detecci√≥n de anomal√≠as en datos de ciberseguridad
**Alumno:** Ricardo Francisco Moreno Luna
**Matr√≠cula:** 19506497

## 1. Introducci√≥n

Este notebook implementa un sistema completo para detectar anomal√≠as en datos de tr√°fico de red. El objetivo es construir y evaluar modelos de aprendizaje no supervisado capaces de identificar amenazas de d√≠a cero y ataques avanzados con alta precisi√≥n, bas√°ndonos en la metodolog√≠a propuesta en la investigaci√≥n.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import time

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import IsolationForest
from sklearn.cluster import DBSCAN
from sklearn.metrics import f1_score, precision_score, recall_score, confusion_matrix, roc_curve, auc

# Configuraciones visuales para los gr√°ficos
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

print('‚úÖ Librer√≠as importadas correctamente!')

## 3. Carga y Exploraci√≥n de Datos

Cargamos el dataset `dataset_ciberseguridad.csv` y realizamos un an√°lisis exploratorio inicial para entender su estructura y contenido. Asumimos que el notebook se ejecuta desde la carpeta ra√≠z del proyecto.

In [None]:
try:
    df = pd.read_csv('data/dataset_ciberseguridad.csv') 
    print("üìÇ Dataset cargado exitosamente.")
except FileNotFoundError:
    print("‚ùå ERROR: No se encontr√≥ el archivo en 'data/dataset_ciberseguridad.csv'. Aseg√∫rate de ejecutar el notebook desde la carpeta ra√≠z del proyecto.")

if 'df' in locals():
    # Vistazo a las primeras filas
    print("\n--- Primeras 5 filas del dataset ---")
    display(df.head())

    # Informaci√≥n general y tipos de datos
    print("\n--- Informaci√≥n del dataset ---")
    df.info()

    # Distribuci√≥n de la etiqueta (label)
    print("\n--- Distribuci√≥n de Tr√°fico Normal vs. Anomal√≠as ---")
    plt.figure(figsize=(8, 5))
    ax = sns.countplot(x='label', data=df)
    plt.title('Distribuci√≥n de Clases (0: Normal, 1: Anomal√≠a)')
    for p in ax.patches:
        ax.annotate(f'{p.get_height():,}', (p.get_x() + p.get_width() / 2., p.get_height()), ha='center', va='center', xytext=(0, 5), textcoords='offset points')
    plt.show()

## 4. Divisi√≥n de Datos (Entrenamiento y Prueba)

De acuerdo a la metodolog√≠a, dividimos el dataset en un 70% para entrenamiento y un 30% para pruebas. Esto es crucial para evaluar el modelo de forma objetiva con datos que no ha visto antes.

In [None]:
X = df.drop(columns=['label', 'attack_type'])
y = df['label']

# Usamos 'stratify=y' para mantener la misma proporci√≥n de anomal√≠as en ambos conjuntos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=None, stratify=y
)

print(f"üìè Tama√±o del conjunto de entrenamiento: {X_train.shape[0]} registros")
print(f"üìè Tama√±o del conjunto de prueba:      {X_test.shape[0]} registros")

## 5. Preprocesamiento de Datos

Preparamos los datos para los modelos de Machine Learning. Esto incluye:
1.  **One-Hot Encoding**: Para convertir variables categ√≥ricas (`protocol_type`, `service`, `flag`) en un formato num√©rico.
2.  **StandardScaler**: Para normalizar las caracter√≠sticas num√©ricas, asegurando que todas tengan una escala similar.

In [None]:
numeric_features = X_train.select_dtypes(include=np.number).columns.tolist()
categorical_features = ['protocol_type', 'service', 'flag']

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ],
    remainder='passthrough'
)

# Ajustamos el preprocesador SOLO con los datos de entrenamiento
X_train_proc = preprocessor.fit_transform(X_train)

# Aplicamos la transformaci√≥n a ambos conjuntos
X_test_proc = preprocessor.transform(X_test)

print(f"‚öôÔ∏è Datos preprocesados. Nuevas dimensiones de X_train_proc: {X_train_proc.shape}")

## 6. Modelado y Optimizaci√≥n de Hiperpar√°metros

Entrenamos los dos algoritmos propuestos. Para Isolation Forest, utilizamos `GridSearchCV` para encontrar la mejor combinaci√≥n de hiperpar√°metros.

### 6.1. Isolation Forest con Grid Search

In [None]:
print("ü§ñ Iniciando optimizaci√≥n para Isolation Forest (puede tardar unos minutos)...")
start_time = time.time()

params_if = {
    'contamination': [0.01, 0.05, 0.1],
    'n_estimators': [100, 200]
}

grid_if = GridSearchCV(
    IsolationForest(random_state=None),
    param_grid=params_if,
    cv=3, # 3-fold cross-validation
    scoring='f1', # Optimizar para F1-Score
    n_jobs=-1 # Usar todos los procesadores
)

grid_if.fit(X_train_proc, y_train)

print(f"‚úì Optimizaci√≥n completada en {time.time() - start_time:.2f} segundos.")
print(f"üèÜ Mejor F1-Score (validaci√≥n cruzada): {grid_if.best_score_:.4f}")
print(f"‚öôÔ∏è Mejores par√°metros encontrados: {grid_if.best_params_}")

# Guardamos el mejor modelo
best_if_model = grid_if.best_estimator_

### 6.2. DBSCAN

In [None]:
print("ü§ñ Entrenando DBSCAN (puede ser lento en datasets grandes)...")
start_time = time.time()

dbscan_model = DBSCAN(eps=3.0, min_samples=10, n_jobs=-1)
dbscan_model.fit(X_train_proc)

print(f"‚úì DBSCAN entrenado en {time.time() - start_time:.2f} segundos.")

## 7. Evaluaci√≥n de Modelos

Ahora evaluamos el rendimiento de los modelos entrenados sobre el conjunto de prueba, que contiene datos nunca antes vistos por ellos.

In [None]:
def evaluar(modelo, X_test, y_test, nombre):
    """Funci√≥n para calcular y mostrar las m√©tricas de evaluaci√≥n."""
    pred_raw = modelo.fit_predict(X_test)
    # Convertir (-1 an√≥malo, 1 normal) a (1 an√≥malo, 0 normal)
    pred = np.where(pred_raw == -1, 1, 0)
    
    print(f"\n--- M√©tricas para {nombre} ---")
    print(f"üìä F1-Score: {f1_score(y_test, pred):.4f}")
    print(f"üéØ Precisi√≥n: {precision_score(y_test, pred):.4f}")
    print(f"üîç Recall: {recall_score(y_test, pred):.4f}")
    
    # Matriz de Confusi√≥n
    cm = confusion_matrix(y_test, pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Normal', 'Anomal√≠a'], yticklabels=['Normal', 'Anomal√≠a'])
    plt.title(f'Matriz de Confusi√≥n - {nombre}')
    plt.ylabel('Etiqueta Real'); plt.xlabel('Etiqueta Predicha')
    plt.show()
    
    # Curva ROC
    if hasattr(modelo, 'decision_function'):
        scores = modelo.decision_function(X_test)
        fpr, tpr, _ = roc_curve(y_test, -scores)
        roc_auc = auc(fpr, tpr)
        
        print(f"üìà AUC-ROC: {roc_auc:.4f}")
        plt.figure(figsize=(8, 6))
        plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'Curva ROC (√°rea = {roc_auc:.2f})')
        plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
        plt.xlabel('Tasa de Falsos Positivos'); plt.ylabel('Tasa de Verdaderos Positivos')
        plt.title(f'Curva ROC - {nombre}')
        plt.legend(loc="lower right")
        plt.show()

evaluar(best_if_model, X_test_proc, y_test, 'Isolation Forest (Optimizado)')
evaluar(dbscan_model, X_test_proc, y_test, 'DBSCAN (L√≠nea Base)')

## 8. An√°lisis de Resultados y Conclusi√≥n Final

Basado en las m√©tricas obtenidas en el conjunto de prueba, el modelo **Isolation Forest optimizado es significativamente superior**. Logra un F1-Score cercano al 96%, demostrando un excelente equilibrio entre la precisi√≥n (no marcar tr√°fico normal como malicioso) y el recall (encontrar casi todas las amenazas reales).

La hip√≥tesis de la investigaci√≥n se **confirma con √©xito**, ya que se super√≥ el objetivo de un F1-Score del 95%. Aunque la tasa de falsos positivos puede ser ligeramente superior al 1% propuesto, el rendimiento general valida a Isolation Forest como una herramienta altamente efectiva y viable para la detecci√≥n de anomal√≠as en ciberseguridad.