## Limpieza del Dataset

In [31]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler

#### PASO 1: Cargar el Dataset

In [32]:
#En este paso, cargamos el archivo CSV con los datos de tr√°fico de red. 

df = pd.read_csv("archive/Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv")


##### Detalles del dataset
Estamos cargando un CSV que contiene una lista de logs en los que hay posibles ataques DDos

In [33]:
# Tambi√©n mostramos las primeras filas del dataset para entender y previsualizar su contenido.
print("\n### Primeras filas del dataset:")
print(df.head())


### Primeras filas del dataset:
    Destination Port   Flow Duration   Total Fwd Packets  \
0              54865               3                   2   
1              55054             109                   1   
2              55055              52                   1   
3              46236              34                   1   
4              54863               3                   2   

    Total Backward Packets  Total Length of Fwd Packets  \
0                        0                           12   
1                        1                            6   
2                        1                            6   
3                        1                            6   
4                        0                           12   

    Total Length of Bwd Packets   Fwd Packet Length Max  \
0                             0                       6   
1                             6                       6   
2                             6                       6   
3              

# Analisis de las Columnas del Dataset CIC-IDS2017

Este dataset contiene m√∫ltiples columnas con informaci√≥n detallada sobre el tr√°fico de red. A continuaci√≥n, se describen las m√°s relevantes:

## üîπ 1. Informaci√≥n sobre el Flujo de Red  
- **Destination Port**: Puerto de destino del tr√°fico.  
- **Flow Duration**: Duraci√≥n total del flujo en milisegundos.  
- **Total Fwd Packets**: N√∫mero total de paquetes enviados en direcci√≥n forward.  
- **Total Backward Packets**: N√∫mero total de paquetes enviados en direcci√≥n backward.  

## üîπ 2. Caracter√≠sticas de los Paquetes  
- **Total Length of Fwd Packets**: Longitud total de los paquetes enviados en direcci√≥n forward.  
- **Total Length of Bwd Packets**: Longitud total de los paquetes enviados en direcci√≥n backward.  
- **Fwd Packet Length Max / Min / Mean / Std**: Medidas estad√≠sticas de la longitud de los paquetes enviados en forward.  
- **Bwd Packet Length Max / Min / Mean / Std**: Medidas estad√≠sticas de la longitud de los paquetes enviados en backward.  

## üîπ 3. Estad√≠sticas de Tasa de Flujo  
- **Flow Bytes/s**: N√∫mero de bytes transmitidos por segundo en el flujo.  
- **Flow Packets/s**: N√∫mero de paquetes transmitidos por segundo.  
- **Flow IAT Mean / Max / Min / Std**: Intervalo de tiempo promedio, m√°ximo, m√≠nimo y desviaci√≥n est√°ndar entre paquetes en el flujo.  

## üîπ 4. Informaci√≥n sobre Flags y Se√±ales de Control  
- **SYN Flag Count / FIN Flag Count / RST Flag Count**: Contadores de los flags TCP utilizados en el flujo.  
- **PSH Flag Count / ACK Flag Count / URG Flag Count**: Contadores de otros flags de control TCP.  

## üîπ 5. Informaci√≥n sobre la Ventana TCP  
- **Init_Win_bytes_forward**: Tama√±o de la ventana TCP en la direcci√≥n forward.  
- **Init_Win_bytes_backward**: Tama√±o de la ventana TCP en la direcci√≥n backward.  

## üîπ 6. Estado del Tr√°fico (Label)  
- **Label**: Indica si el tr√°fico es `BENIGN` (normal) o pertenece a un ataque espec√≠fico como `DDoS`, `PortScan`, etc.  

---
**Estas caracter√≠sticas se utilizar√°n para entrenar un modelo de IA que pueda detectar patrones de tr√°fico malicioso en redes.**


In [34]:
# Revisamos cu√°ntos valores nulos hay en cada columna.
print("\n### Valores nulos en el dataset:")
print(df.isnull().sum()[df.isnull().sum() > 0]) 



### Valores nulos en el dataset:
Flow Bytes/s    4
dtype: int64


**Interpretacion de resultados:**
Vemos que solo hay 4 valores nulos en el dataset, por tanto como son pocos valores nulos vamos a eliminarlos del dataset. Si fuesen muchos valores Nan podr√≠amos reemplazarlos por la media de la columna para no borrar mucha informaci√≥n.

In [35]:
# Eliminamos las filas que contienen valores nulos.
df.dropna(inplace=True)

#comprobamos que no haya valores nulos
print("\n### Valores nulos en el dataset:")
print(df.isnull().sum()[df.isnull().sum() > 0])

df.columns = df.columns.str.strip()  # Elimina espacios en los nombres de columnas





### Valores nulos en el dataset:
Series([], dtype: int64)


# Eliminaci√≥n de Datos Duplicados

En el preprocesamiento de datos, es fundamental eliminar los registros duplicados, ya que pueden afectar el rendimiento del modelo de aprendizaje autom√°tico. Los duplicados pueden surgir debido a errores en la recopilaci√≥n de datos o repeticiones en la generaci√≥n del dataset.

## ¬øPor qu√© eliminamos los duplicados?

- **Evita sesgos en el entrenamiento**: Si una clase tiene m√°s registros duplicados, el modelo puede sobreajustarse a esos datos y generalizar mal en nuevos casos.
- **Optimiza el uso de recursos**: Trabajar con datos redundantes aumenta el consumo de memoria y tiempo de c√≥mputo sin aportar nueva informaci√≥n √∫til.
- **Mejora la calidad del dataset**: Un dataset sin duplicados garantiza que cada muestra contribuye con informaci√≥n √∫nica al modelo, favoreciendo su capacidad de aprendizaje.

En este proceso, identificamos y eliminamos registros duplicados utilizando la funci√≥n `drop_duplicates()`, asegurando que el dataset final contenga √∫nicamente datos relevantes y sin repeticiones innecesarias.


In [36]:
# ## 4Ô∏è‚É£ Eliminaci√≥n de Datos Duplicados
# Algunos registros pueden estar duplicados, lo que afectar√≠a el an√°lisis.
print("\n### Cantidad de datos duplicados antes de eliminarlos:", df.duplicated().sum())
df.drop_duplicates(inplace=True)
print("Cantidad de datos duplicados despu√©s de eliminarlos:", df.duplicated().sum())



### Cantidad de datos duplicados antes de eliminarlos: 2633
Cantidad de datos duplicados despu√©s de eliminarlos: 0


# Conversi√≥n de Datos Categ√≥ricos

En los modelos de aprendizaje autom√°tico, es necesario que todas las variables sean num√©ricas, ya que la mayor√≠a de los algoritmos no pueden procesar datos en formato de texto. En este dataset, la columna `Label` indica si el tr√°fico es benigno o corresponde a un ataque, pero est√° representada como valores categ√≥ricos en texto (`BENIGN`, `DDoS`, etc.).

## ¬øPor qu√© convertimos los datos categ√≥ricos?

- **Compatibilidad con modelos de IA**: La mayor√≠a de los algoritmos de aprendizaje autom√°tico solo funcionan con datos num√©ricos.
- **Estandarizaci√≥n del dataset**: Facilita la comparaci√≥n entre distintas clases dentro del modelo.
- **Optimizaci√≥n del procesamiento**: Representar los valores categ√≥ricos como n√∫meros reduce el tiempo de c√≥mputo.

Para esta conversi√≥n, se utiliza `LabelEncoder()`, que asigna un n√∫mero a cada categor√≠a, permitiendo que el modelo pueda interpretar correctamente la variable `Label` sin perder informaci√≥n.


In [37]:
# ## 5Ô∏è‚É£ Conversi√≥n de Datos Categ√≥ricos
# La columna 'Label' indica si el tr√°fico es benigno o un ataque. Convertimos los valores de texto a n√∫meros.
df['Label'] = df['Label'].apply(lambda x: 0 if x == 'BENIGN' else 1)


#Comprobamos que se haya hecho la conversi√≥n
print("\n### Columna 'Label' despu√©s de la conversi√≥n:")
print(df['Label'].value_counts())


### Columna 'Label' despu√©s de la conversi√≥n:
Label
1    128016
0     95092
Name: count, dtype: int64


# Normalizaci√≥n de Datos Num√©ricos

En el preprocesamiento de datos, es fundamental escalar las variables num√©ricas para mejorar el rendimiento del modelo de aprendizaje autom√°tico. La normalizaci√≥n ayuda a que los modelos sean m√°s estables y precisos, especialmente en algoritmos sensibles a la escala de los datos, como redes neuronales y SVM.

## ¬øPor qu√© normalizamos los datos?

- **Diferentes escalas pueden afectar el modelo**: Algunas caracter√≠sticas tienen valores muy grandes (ej. `Flow Bytes/s`), mientras que otras tienen valores peque√±os (`Packet Length`). Si no se normalizan, el modelo podr√≠a dar m√°s importancia a ciertas variables solo por su magnitud.
- **Mejora la convergencia del entrenamiento**: Los modelos basados en gradiente (como redes neuronales) entrenan m√°s r√°pido y de manera m√°s estable con datos normalizados.
- **Evita sesgos en la clasificaci√≥n**: Al escalar todas las variables a una misma escala, evitamos que unas caracter√≠sticas dominen sobre otras.

## ¬øC√≥mo lo hacemos?

Utilizamos `StandardScaler()` de `sklearn.preprocessing`, que transforma los datos para que tengan una media de 0 y desviaci√≥n est√°ndar de 1. Esto se aplica a todas las columnas num√©ricas del dataset.

Despu√©s de este paso, los datos estar√°n listos para ser utilizados en el modelo de IA sin riesgo de que la escala de los valores afecte negativamente el entrenamiento.


In [38]:
# ## 6Ô∏è‚É£ Normalizaci√≥n de Datos Num√©ricos

# Reemplazamos valores infinitos con la media de la columna
df.replace([float('inf'), float('-inf')], pd.NA, inplace=True)
df.fillna(df.mean(), inplace=True)

# Verificamos si a√∫n quedan valores infinitos o nulos despu√©s del reemplazo
print("\n### Valores nulos despu√©s de corregir infinitos:")
print(df.isnull().sum().sum())  # Deber√≠a ser 0

# Aplicamos StandardScaler para normalizar los datos num√©ricos
scaler = StandardScaler()
columnas_numericas = df.select_dtypes(include=['float64', 'int64']).columns
df[columnas_numericas] = scaler.fit_transform(df[columnas_numericas])

print("\n### Normalizaci√≥n completada correctamente.")


  df.fillna(df.mean(), inplace=True)



### Valores nulos despu√©s de corregir infinitos:
0

### Normalizaci√≥n completada correctamente.


In [39]:
# ## 7Ô∏è‚É£ Guardar Dataset Limpio
# Finalmente, guardamos el dataset limpio en un nuevo archivo CSV.
cleaned_file_path = "archive/cleaned_dataset.csv"
df.to_csv(cleaned_file_path, index=False)
print(f"\n### Dataset limpio guardado en: {cleaned_file_path}")



### Dataset limpio guardado en: archive/cleaned_dataset.csv
