<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    background: linear-gradient(to bottom, #F5F5DC, #C0C0C0);
    padding: 10px;
    border-radius: 10px;
">
    <img src="../samsung.png" alt="Samsung Innovation Campus" style="border-radius: 5px;">
</div>
<div style="
    text-align: center;
    font-style: italic;
">
    Este proyecto fue desarrollado dentro del marco del programa Samsun Innovation Campus 2024
</div>

<b>PRESENTAN</b>: José Armando Ramírez Islas & Jorge Octavio Nicolás Díaz

 ***a) Recolectar los datos iniciales***

Los datos fueron recolectados del siguiente enlace: https://www.stratosphereips.org/datasets-ctu13

## CTU-13 Dataset: Tipos de Archivos y Descarga

### 📂 **Tipos de Archivos**
Cada escenario del conjunto de datos CTU-13 incluye diferentes tipos de archivos procesados. Por razones de privacidad, no está disponible el archivo completo `.pcap` con todos los datos de tráfico. Sin embargo, se dispone de otros archivos útiles para el análisis:

- **Archivos .parquet**: Capturan exclusivamente el tráfico de botnets.
- **Archivos .binetflow**: Archivos NetFlow bidireccionales, generados con **Argus**, que contienen información del tráfico, incluyendo etiquetas, direcciones IP fuente y destino, así como los puertos asociados, tipo de botnet y tambien si es trafico malicioso o no.
- **Archivo Ejecutable Original**: Disponible para ciertos escenarios, útil para análisis adicionales.

---

### 📥 **Descarga del Conjunto de Datos**

- **Descarga Completa:** Puedes descargar todo el conjunto de datos como un archivo comprimido.
  - [CTU-13-Dataset.tar.bz2 (1.9GB)](URL_DE_DESCARGA_COMPLETA)

- **Descarga por Escenario:** También puedes descargar cada captura de manera individual. Los archivos `.binetflow` se encuentran en la carpeta `detailed-bidirectional-flow-labels`.

  - [CTU-Malware-Capture-Botnet-42](URL_42)
  - [CTU-Malware-Capture-Botnet-43](URL_43)
  - [CTU-Malware-Capture-Botnet-44](URL_44)
  - [CTU-Malware-Capture-Botnet-45](URL_45)
  - [CTU-Malware-Capture-Botnet-46](URL_46)
  - [CTU-Malware-Capture-Botnet-47](URL_47)
  - [CTU-Malware-Capture-Botnet-48](URL_48)
  - [CTU-Malware-Capture-Botnet-49](URL_49)
  - [CTU-Malware-Capture-Botnet-50](URL_50)
  - [CTU-Malware-Capture-Botnet-51](URL_51)
  - [CTU-Malware-Capture-Botnet-52](URL_52)
  - [CTU-Malware-Capture-Botnet-53](URL_53)
  - [CTU-Malware-Capture-Botnet-54](URL_54)

---

Para cualquier análisis adicional o consulta sobre los archivos `.binetflow`, asegurarse de verificar las etiquetas de flujo bidireccional disponibles en cada escenario.

# ***b) Descripcion de los datos***


Las características con las que cuenta el dataset son:

| Característica     | Descripción                                                                 |
|--------------|-----------------------------------------------------------------------------|
| dur      | Duración de la conexión en segundos.                                         |
| proto    | Protocolo de comunicación utilizado (ej. TCP, UDP, ICMP).                   |
| dir      | Dirección del flujo de tráfico (ej. → si es de origen a destino, o ← si es de destino a origen). |
| state    | Estado de la conexión (ej. CON para conexiones establecidas, INT para interrumpidas). |
| stos / dtos | Tipo de servicio (ToS) del tráfico enviado y recibido. Son valores que indican la prioridad del paquete en la red. |
| tot_pkts | Número total de paquetes enviados en la conexión.                           |
| tot_bytes| Número total de bytes transferidos.                                         |
| src_bytes| Cantidad de bytes enviados desde la IP de origen.                            |
| label    | Etiqueta que indica si el tráfico es normal o pertenece a una botnet (tráfico malicioso). |
| Family   | Especie de botnet detectada (ej. Neris, Rbot, Virut, Murlo, etc.).           |

### ***Importacion de modulos***

In [1]:
import dask.dataframe as dd

### ***Funcion para concatenar los archivos .parquet y generar un nuevo dataset***

In [53]:
def concatenate_parquet_to_csv(input_dir, output_file):
    df = dd.read_parquet(f'{input_dir}/*.parquet', engine='pyarrow')
    df.to_csv(output_file, index=False, single_file=True)
    print(f'Dataset concatenado y guardado en {output_file}')
    del df
    

### ***Concatenar los archivos .parquet y generar un .csv con todos los datos***

In [None]:
concatenate_parquet_to_csv('../netflow_archive', '../data/ctu13.csv')

Dataset concatenado y guardado en ./data/ctu13.csv


### ***Cargamos el conjunto de datos nuevo (ctu13.csv)***

In [2]:
ctu13_df = dd.read_csv('../data/ctu13.csv')

### ***Informacion acerca de las columnas***

In [None]:
print(ctu13_df.columns)
print(ctu13_df.describe())
print(f'Rows: {len(ctu13_df)} Columns: {len(ctu13_df.columns)}')
ctu13_df.head(5)

Index(['dur', 'proto', 'dir', 'state', 'stos', 'dtos', 'tot_pkts', 'tot_bytes',
       'src_bytes', 'label', 'Family'],
      dtype='object')
Dask DataFrame Structure:
                   dur     stos     dtos tot_pkts tot_bytes src_bytes
npartitions=1                                                        
               float64  float64  float64  float64   float64   float64
                   ...      ...      ...      ...       ...       ...
Dask Name: concat, 14 expressions
Expr=Concat(frames=[ReadCSV(7717133)['dur'].describenumeric(split_every=False), ReadCSV(7717133)['stos'].describenumeric(split_every=False), ReadCSV(7717133)['dtos'].describenumeric(split_every=False), ReadCSV(7717133)['tot_pkts'].describenumeric(split_every=False), ReadCSV(7717133)['tot_bytes'].describenumeric(split_every=False), ReadCSV(7717133)['src_bytes'].describenumeric(split_every=False)], axis=1)


  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)


Rows: 10598771 Columns: 11


Unnamed: 0,dur,proto,dir,state,stos,dtos,tot_pkts,tot_bytes,src_bytes,label,Family
0,1.026539,tcp,->,S_RA,0.0,0.0,4,276,156,flow=Background-Established-cmpgw-CVUT,20110810.binetflow.csv
1,1.009595,tcp,->,S_RA,0.0,0.0,4,276,156,flow=Background-Established-cmpgw-CVUT,20110810.binetflow.csv
2,3.056586,tcp,->,SR_A,0.0,0.0,3,182,122,flow=Background-TCP-Attempt,20110810.binetflow.csv
3,3.111769,tcp,->,SR_A,0.0,0.0,3,182,122,flow=Background-TCP-Attempt,20110810.binetflow.csv
4,3.083411,tcp,->,SR_A,0.0,0.0,3,182,122,flow=Background-TCP-Attempt,20110810.binetflow.csv


  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)
  df = reader(bio, **kwargs)


### ***¿Que columnas contienen valores nulos?***

In [7]:
ctu13_df.isnull().sum().compute()


dur               0
proto             0
dir               0
state            76
stos          85794
dtos         908408
tot_pkts          0
tot_bytes         0
src_bytes         0
label             0
Family            0
dtype: int64

### ***Rellenando los registros donde hay valores nulos***

In [38]:
ctu13_df['state'].value_counts().nlargest(1).compute()

state
CON    6271638
Name: count, dtype: int64

In [39]:
ctu13_df['state'] = ctu13_df.state.fillna(value='CON')

In [15]:
ctu13_df['stos'].describe().compute()

count    1.051298e+07
mean     8.291562e-03
std      1.006990e+00
min      0.000000e+00
25%      0.000000e+00
50%      0.000000e+00
75%      0.000000e+00
max      1.920000e+02
Name: stos, dtype: float64

In [16]:
ctu13_df['dtos'].describe().compute()

count    9.690363e+06
mean     7.676699e-04
std      4.455093e-02
min      0.000000e+00
25%      0.000000e+00
50%      0.000000e+00
75%      0.000000e+00
max      3.000000e+00
Name: dtos, dtype: float64

In [40]:
ctu13_df['stos'] = ctu13_df.stos.fillna(value=0.0)
ctu13_df['dtos'] = ctu13_df.dtos.fillna(value=0.0)

### ***Validando si pertenece a una botnet***

In [45]:
def convert_label(sample):
    if isinstance(sample, str) and "Botnet" in sample: 
        return 1
    else: 
        return 0

In [46]:
ctu13_df['is_botnet'] = ctu13_df['label'].apply(convert_label)

You did not provide metadata, so Dask is running your function on a small dataset to guess output types. It is possible that Dask will guess incorrectly.
To provide an explicit output types or to silence this message, please provide the `meta=` keyword, as described in the map or apply function that you are using.
  Before: .apply(func)
  After:  .apply(func, meta=('label', 'int64'))



In [49]:
ctu13_df.sample(frac=0.3, random_state=20).compute()

Unnamed: 0,dur,proto,dir,state,stos,dtos,tot_pkts,tot_bytes,src_bytes,label,Family,is_botnet
581047,8.912759,tcp,->,S_,0.0,0.0,3,186,186,flow=From-Botnet-V42-TCP-Attempt-SPAM,20110810.binetflow.csv,1
447915,0.001520,udp,<->,CON,0.0,0.0,2,559,78,flow=Background-UDP-Established,20110810.binetflow.csv,0
472660,0.168740,tcp,->,FSPA_FSPA,0.0,0.0,65,58018,1513,flow=Background-TCP-Established,20110810.binetflow.csv,0
380283,0.000856,udp,<->,CON,0.0,0.0,2,555,75,flow=Background-UDP-Established,20110810.binetflow.csv,0
448229,0.007266,tcp,->,FSPA_FSPA,0.0,0.0,9,786,513,flow=To-Background-CVUT-Proxy,20110810.binetflow.csv,0
...,...,...,...,...,...,...,...,...,...,...,...,...
745600,42.579180,tcp,->,FSPA_FSPA,0.0,0.0,46,28828,1989,flow=Background-TCP-Established,20110815,0
607107,20.764215,tcp,->,FSPA_FSPA,0.0,0.0,23,9386,2266,flow=Background-TCP-Established,20110815,0
341714,1152.700600,udp,<->,CON,0.0,0.0,4,569,445,flow=Background-UDP-Established,20110815,0
299435,0.353191,udp,<->,CON,0.0,0.0,2,1079,117,flow=Background-UDP-Established,20110815,0


In [51]:
# Categorical feature names
ctu13_df.select_dtypes(exclude='number').columns

Index(['proto', 'dir', 'state', 'label', 'Family'], dtype='object')

In [52]:
# Numeric features names
ctu13_df.select_dtypes(include='number').columns

Index(['dur', 'stos', 'dtos', 'tot_pkts', 'tot_bytes', 'src_bytes',
       'is_botnet'],
      dtype='object')