# 1. Uma panorâmica do conjunto de dados, incluindo as caraterísticas do conjunto de dados e combinação dos arquivos em um só.

- **Caraterísticas do conjunto de dados:** O conjunto de dados CIC-IDS2017 contém dados de tráfego de rede para o desenvolvimento e a avaliação de sistemas de deteção de intrusões. O conjunto de dados foi concebido para ser representativo do tráfego de rede moderno e inclui mais de 2,8 milhões de pacotes de rede capturados durante um período de sete dias num ambiente de rede real. O conjunto de dados inclui tráfego normal e sete cenários de ataque diferentes: Força Bruta, Heartbleed, Botnet, DoS, DDoS, Ataque Web e Infiltração. O conjunto de dados é altamente desequilibrado. A maioria dos registos pertence à classe “Benigna” e relativamente poucos registos pertencem às outras classes. O conjunto de dados é constituído por 2830743 linhas e 79 colunas. Nestas colunas, 78 são caraterísticas numéricas e a coluna “label” é categórica.

In [1]:
# Importa as bibliotecas necessárias
import pandas as pd
import os

In [2]:
import numpy as np
print(np.__version__)


1.23.5


In [3]:
# Define o diretório onde estão os arquivos CSV
diretorio = 'datasets/CICIDS2017'

In [4]:
# Lista todos os arquivos CSV no diretório
arquivos_csv = [f for f in os.listdir(diretorio) if f.endswith('.csv')]
arquivos_csv

['Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv',
 'Friday-WorkingHours-Afternoon-PortScan.pcap_ISCX.csv',
 'Friday-WorkingHours-Morning.pcap_ISCX.csv',
 'Monday-WorkingHours.pcap_ISCX.csv',
 'Thursday-WorkingHours-Afternoon-Infilteration.pcap_ISCX.csv',
 'Thursday-WorkingHours-Morning-WebAttacks.pcap_ISCX.csv',
 'Tuesday-WorkingHours.pcap_ISCX.csv',
 'Wednesday-workingHours.pcap_ISCX.csv']

In [5]:
# Inicializa uma lista vazia para armazenar os DataFrames
dataframes = []
# Itera sobre a lista de arquivos CSV, carrega cada um e adiciona à lista
for arquivo in arquivos_csv:
    caminho_arquivo = os.path.join(diretorio, arquivo)
    df = pd.read_csv(caminho_arquivo)  # Carrega o arquivo CSV em um DataFrame   
    # Renomeia as colunas removendo espaços em branco no início e no final
    df.columns = df.columns.str.strip()    
    dataframes.append(df)  # Adiciona o DataFrame à lista

In [6]:
# Concatena todos os DataFrames em um só
df_combined = pd.concat(dataframes, ignore_index=True)

In [7]:
# Exibe informações sobre o DataFrame combinado
print("Número de linhas e colunas:", df_combined.shape)
df_combined.head()

Número de linhas e colunas: (2830743, 79)


Unnamed: 0,Destination Port,Flow Duration,Total Fwd Packets,Total Backward Packets,Total Length of Fwd Packets,Total Length of Bwd Packets,Fwd Packet Length Max,Fwd Packet Length Min,Fwd Packet Length Mean,Fwd Packet Length Std,...,min_seg_size_forward,Active Mean,Active Std,Active Max,Active Min,Idle Mean,Idle Std,Idle Max,Idle Min,Label
0,54865,3,2,0,12,0,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
1,55054,109,1,1,6,6,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
2,55055,52,1,1,6,6,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
3,46236,34,1,1,6,6,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
4,54863,3,2,0,12,0,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN


In [8]:
# Salva o DataFrame combinado em um novo arquivo CSV (opcional)
df_combined.to_csv('datasets/CICIDS2017/CIC_IDS_2017_Combinado.csv', index=False)
