# 📊 Fase 3 – Entrenamiento de Modelo DL (Continuación)

## 🎯 Objetivo
Construir un clasificador utilizando un modelo LSTM RNN optimizado con Nadam para diferenciar entre tráfico **normal** y **sospechoso** en redes monitoreadas, como parte del sistema modular de CiberVigIA, específicamente utilizando el dataset CIC.

## 🧠 Algoritmo sugerido
- **LSTM RNN con Nadam**: Adecuado para datos secuenciales como el tráfico de red, Nadam es un optimizador eficiente.

## ⚙️ Pasos técnicos

1. **Preparación del dataset (CIC)**
   - Cargar el dataset CIC (`/content/sample_data/cic_ids2017_clean.csv`).
   - Preprocesamiento del dataset para adecuarlo a la entrada de la red LSTM (normalización, posible secuenciación).
   - División en conjunto de entrenamiento y prueba (80/20).
   - Separación de variables predictoras (`X`) y etiqueta (`y`).
2. **Construcción y entrenamiento del modelo LSTM RNN**
   - Definir la arquitectura del modelo LSTM (capas, unidades, activación).
   - Compilar el modelo con la función de pérdida adecuada (binary crossentropy) y el optimizador Nadam.
   - Entrenar el modelo con los datos de entrenamiento.

3. **Evaluación del modelo**
   - Evaluar el rendimiento del modelo en el conjunto de prueba.
   - Calcular métricas relevantes (accuracy, precision, recall, F1-score).

4. **Persistencia del modelo**
   - Guardar el modelo entrenado para futuras fases.

## 📦 Entregable

Modelo entrenado con un rendimiento aceptable sobre el conjunto de prueba, documentando la arquitectura, hiperparámetros y métricas obtenidas.

> 💡 *Nota técnica: Para datasets desbalanceados, considera aplicar técnicas como el ajuste de pesos de clase durante el entrenamiento del modelo LSTM.*

In [3]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.optimizers import Nadam
from tensorflow.keras.utils import to_categorical
import gc  # Para liberar memoria

### Paso 1. Cargar el dataset preprocesado

In [4]:
df = pd.read_csv('../../data/processed/cic_ids2017_clean.csv')
print("Forma del dataset preprocesado:", df.shape)
print("Balance de labels:", df['Label'].value_counts())

Forma del dataset preprocesado: (6771538, 79)
Balance de labels: Label
Heartbleed                    2367953
BENIGN                        2367953
SSH-Patator                    296766
DoS GoldenEye                  248503
PortScan                       223943
Infiltration                   199964
Bot                            198047
DoS Hulk                       172849
FTP-Patator                    143176
DDoS                           130288
Web Attack � Sql Injection      98545
Web Attack � Brute Force        97866
DoS slowloris                   90639
DoS Slowhttptest                86492
Web Attack � XSS                48554
Name: count, dtype: int64


### Paso 2: Preparar datos

In [None]:
y = df['Label']
X = df.drop('Label', axis=1)