# ***a) Recolectar los datos iniciales***

Los datos fueron recolectados del siguiente enlace: https://www.stratosphereips.org/datasets-ctu13

## CTU-13 Dataset: Tipos de Archivos y Descarga

### 📂 **Tipos de Archivos**
Cada escenario del conjunto de datos CTU-13 incluye diferentes tipos de archivos procesados. Por razones de privacidad, no está disponible el archivo completo `.pcap` con todos los datos de tráfico. Sin embargo, se dispone de otros archivos útiles para el análisis:

- **Archivos .parquet**: Capturan exclusivamente el tráfico de botnets.
- **Archivos .binetflow**: Archivos NetFlow bidireccionales, generados con **Argus**, que contienen información del tráfico, incluyendo etiquetas, direcciones IP fuente y destino, así como los puertos asociados, tipo de botnet y tambien si es trafico malicioso o no.
- **Archivo Ejecutable Original**: Disponible para ciertos escenarios, útil para análisis adicionales.

---

### 📥 **Descarga del Conjunto de Datos**

- **Descarga Completa:** Puedes descargar todo el conjunto de datos como un archivo comprimido.
  - [CTU-13-Dataset.tar.bz2 (1.9GB)](URL_DE_DESCARGA_COMPLETA)

- **Descarga por Escenario:** También puedes descargar cada captura de manera individual. Los archivos `.binetflow` se encuentran en la carpeta `detailed-bidirectional-flow-labels`.

  - [CTU-Malware-Capture-Botnet-42](URL_42)
  - [CTU-Malware-Capture-Botnet-43](URL_43)
  - [CTU-Malware-Capture-Botnet-44](URL_44)
  - [CTU-Malware-Capture-Botnet-45](URL_45)
  - [CTU-Malware-Capture-Botnet-46](URL_46)
  - [CTU-Malware-Capture-Botnet-47](URL_47)
  - [CTU-Malware-Capture-Botnet-48](URL_48)
  - [CTU-Malware-Capture-Botnet-49](URL_49)
  - [CTU-Malware-Capture-Botnet-50](URL_50)
  - [CTU-Malware-Capture-Botnet-51](URL_51)
  - [CTU-Malware-Capture-Botnet-52](URL_52)
  - [CTU-Malware-Capture-Botnet-53](URL_53)
  - [CTU-Malware-Capture-Botnet-54](URL_54)

---

Para cualquier análisis adicional o consulta sobre los archivos `.binetflow`, asegurarse de verificar las etiquetas de flujo bidireccional disponibles en cada escenario.

# ***b) Descripcion de los datos***


Las características con las que cuenta el dataset son:

| Característica     | Descripción                                                                 |
|--------------|-----------------------------------------------------------------------------|
| dur      | Duración de la conexión en segundos.                                         |
| proto    | Protocolo de comunicación utilizado (ej. TCP, UDP, ICMP).                   |
| dir      | Dirección del flujo de tráfico (ej. → si es de origen a destino, o ← si es de destino a origen). |
| state    | Estado de la conexión (ej. CON para conexiones establecidas, INT para interrumpidas). |
| stos / dtos | Tipo de servicio (ToS) del tráfico enviado y recibido. Son valores que indican la prioridad del paquete en la red. |
| tot_pkts | Número total de paquetes enviados en la conexión.                           |
| tot_bytes| Número total de bytes transferidos.                                         |
| src_bytes| Cantidad de bytes enviados desde la IP de origen.                            |
| label    | Etiqueta que indica si el tráfico es normal o pertenece a una botnet (tráfico malicioso). |
| Family   | Especie de botnet detectada (ej. Neris, Rbot, Virut, Murlo, etc.).           |

### ***Importacion de modulos***

In [51]:
import dask.dataframe as dd

### ***Funcion para concatenar los archivos .parquet y generar un nuevo dataset***

In [53]:
def concatenate_parquet_to_csv(input_dir, output_file):
    df = dd.read_parquet(f'{input_dir}/*.parquet', engine='pyarrow')
    df.to_csv(output_file, index=False, single_file=True)
    print(f'Dataset concatenado y guardado en {output_file}')
    del df
    

### ***Concatenar los archivos .parquet y generar un .csv con todos los datos***

In [54]:
concatenate_parquet_to_csv('./archive', './data/ctu13.csv')

Dataset concatenado y guardado en ./data/ctu13.csv


### ***Cargamos el conjunto de datos nuevo (ctu13.csv)***

In [55]:
ctu13_df = dd.read_csv('./data/ctu13.csv')

### ***Informacion acerca de las columnas***

In [59]:
print(ctu13_df.columns)
print(ctu13_df.describe())
print(f'Rows: {len(ctu13_df)} Columns: {len(ctu13_df.columns)}')
ctu13_df.head(5)

Index(['dur', 'proto', 'dir', 'state', 'stos', 'dtos', 'tot_pkts', 'tot_bytes',
       'src_bytes', 'label', 'Family'],
      dtype='object')
Dask DataFrame Structure:
                   dur     stos     dtos tot_pkts tot_bytes src_bytes
npartitions=1                                                        
               float64  float64  float64  float64   float64   float64
                   ...      ...      ...      ...       ...       ...
Dask Name: concat, 14 expressions
Expr=Concat(frames=[ReadCSV(5a6568a)['dur'].describenumeric(split_every=False), ReadCSV(5a6568a)['stos'].describenumeric(split_every=False), ReadCSV(5a6568a)['dtos'].describenumeric(split_every=False), ReadCSV(5a6568a)['tot_pkts'].describenumeric(split_every=False), ReadCSV(5a6568a)['tot_bytes'].describenumeric(split_every=False), ReadCSV(5a6568a)['src_bytes'].describenumeric(split_every=False)], axis=1)
Rows: 10598771 Columns: 11


Unnamed: 0,dur,proto,dir,state,stos,dtos,tot_pkts,tot_bytes,src_bytes,label,Family
0,1.026539,tcp,->,S_RA,0.0,0.0,4,276,156,flow=Background-Established-cmpgw-CVUT,20110810.binetflow.csv
1,1.009595,tcp,->,S_RA,0.0,0.0,4,276,156,flow=Background-Established-cmpgw-CVUT,20110810.binetflow.csv
2,3.056586,tcp,->,SR_A,0.0,0.0,3,182,122,flow=Background-TCP-Attempt,20110810.binetflow.csv
3,3.111769,tcp,->,SR_A,0.0,0.0,3,182,122,flow=Background-TCP-Attempt,20110810.binetflow.csv
4,3.083411,tcp,->,SR_A,0.0,0.0,3,182,122,flow=Background-TCP-Attempt,20110810.binetflow.csv


### ***¿Que columnas contienen valores nulos?***

In [61]:
ctu13_df.isnull().sum().compute()

dur               0
proto             0
dir               0
state            76
stos          85794
dtos         908408
tot_pkts          0
tot_bytes         0
src_bytes         0
label             0
Family            0
dtype: int64