ANÁLISE DO DATASET ORIGINAL CONCATENADO (DOIS DIAS DE CAPTURA):

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# -----------------------------
# Carregar dataset concatenado
# -----------------------------
files = [
    "Thuesday-20-02-2018_TrafficForML_CICFlowMeter.csv",
    "Wednesday-21-02-2018_TrafficForML_CICFlowMeter.csv",
]

chunk_size = 500000
dfs = []

for file in files:
    for chunk in pd.read_csv(file, chunksize=chunk_size, low_memory=False):
        chunk.columns = [c.strip() for c in chunk.columns]
        dfs.append(chunk)

df = pd.concat(dfs, ignore_index=True)
print("Shape do dataset concatenado:", df.shape)

# Limpar coluna Label
df['Label'] = df['Label'].astype(str).str.strip()

# -----------------------------
# 1. Distribuição de Labels
# -----------------------------
label_counts = df['Label'].value_counts()
print("\nDistribuição de Labels:")
print(label_counts)

plt.figure(figsize=(8,5))
sns.countplot(data=df, x='Label', order=label_counts.index)
plt.title("Distribuição de Labels")
plt.show()

# -----------------------------
# 2. Protocolos presentes
# -----------------------------
protocol_counts = df['Protocol'].value_counts()
print("\nProtocolos presentes e suas contagens:")
print(protocol_counts)

plt.figure(figsize=(8,5))
sns.countplot(data=df, x='Protocol', order=protocol_counts.index)
plt.title("Distribuição de Protocolos")
plt.show()

# -----------------------------
# 3. Estatísticas descritivas
# -----------------------------
print("\nEstatísticas descritivas das colunas numéricas:")
print(df.describe())

# -----------------------------
# 4. Correlação entre features numéricas
# -----------------------------
num_cols = df.select_dtypes(include=['number']).columns
corr_matrix = df[num_cols].corr()

plt.figure(figsize=(12,10))
sns.heatmap(corr_matrix, cmap='coolwarm', annot=False)
plt.title("Matriz de Correlação entre Features Numéricas")
plt.show()

# -----------------------------
# 5. Outliers - Boxplots de algumas colunas importantes
# -----------------------------
cols_outlier_check = ['Flow Duration', 'Tot Fwd Pkts', 'Tot Bwd Pkts',
                      'TotLen Fwd Pkts', 'TotLen Bwd Pkts']

for col in cols_outlier_check:
    plt.figure(figsize=(10,4))
    sns.boxplot(x='Label', y=col, data=df)
    plt.title(f"Boxplot de {col} por Label")
    plt.show()

# -----------------------------
# 6. Distribuição de pacotes Forward e Backward
# -----------------------------
df['Fwd/Bwd Packet Ratio'] = df['Tot Fwd Pkts'] / (df['Tot Bwd Pkts'] + 1)  # +1 para evitar divisão por zero
plt.figure(figsize=(10,5))
sns.histplot(df['Fwd/Bwd Packet Ratio'], bins=50, kde=True)
plt.title("Distribuição da Razão Fwd/Bwd Packets")
plt.show()

# -----------------------------
# 7. Flags TCP (se existirem)
# -----------------------------
tcp_flags = ['FIN Flag Cnt','SYN Flag Cnt','PSH Flag Cnt','ACK Flag Cnt','URG Flag Cnt','CWE Flag Count','ECE Flag Cnt']
for flag in tcp_flags:
    if flag in df.columns:
        plt.figure(figsize=(10,4))
        sns.boxplot(x='Label', y=flag, data=df)
        plt.title(f"{flag} por Label")
        plt.show()

# -----------------------------
# 8. Ports mais usadas
# -----------------------------
for col in ['Src Port', 'Dst Port']:
    if col in df.columns:
        top_ports = df[col].value_counts().head(20)
        plt.figure(figsize=(12,5))
        sns.barplot(x=top_ports.index, y=top_ports.values)
        plt.title(f"Top 20 {col}s")
        plt.xticks(rotation=90)
        plt.show()

# -----------------------------
# 9. Fluxos Forward/Backward Bytes
# -----------------------------
if 'TotLen Fwd Pkts' in df.columns and 'TotLen Bwd Pkts' in df.columns:
    df['Fwd/Bwd Bytes Ratio'] = df['TotLen Fwd Pkts'] / (df['TotLen Bwd Pkts'] + 1)
    plt.figure(figsize=(10,5))
    sns.histplot(df['Fwd/Bwd Bytes Ratio'], bins=50, kde=True)
    plt.title("Distribuição da Razão Fwd/Bwd Bytes")
    plt.show()


PRÉ PROCESSAMENTO, BALANCEAMENTO E SALVAMENTO DA SAMPLE:

In [None]:
import pandas as pd
import numpy as np

files = [
    "Thuesday-20-02-2018_TrafficForML_CICFlowMeter.csv",
    "Wednesday-21-02-2018_TrafficForML_CICFlowMeter.csv",
]

# -----------------------------
# Colunas relevantes
# -----------------------------
cols_to_keep = [
    'Label', 'Protocol', 'Src Port', 'Dst Port',
    'Flow Duration', 'Tot Fwd Pkts', 'Tot Bwd Pkts',
    'TotLen Fwd Pkts', 'TotLen Bwd Pkts',
    'Fwd Pkt Len Max', 'Fwd Pkt Len Min', 'Fwd Pkt Len Mean',
    'Bwd Pkt Len Max', 'Bwd Pkt Len Min', 'Bwd Pkt Len Mean',
    'FIN Flag Cnt', 'SYN Flag Cnt', 'PSH Flag Cnt',
    'ACK Flag Cnt', 'URG Flag Cnt', 'CWE Flag Count', 'ECE Flag Cnt'
]

chunk_size = 500000
dfs = []

# -----------------------------
# Ler em chunks e acumular
# -----------------------------
for file in files:
    for chunk in pd.read_csv(file, chunksize=chunk_size, low_memory=False):
        # Limpar nomes de colunas (remove espaços extras)
        chunk.columns = [c.strip() for c in chunk.columns]
        
        # Manter apenas colunas existentes
        cols_existentes = [c for c in cols_to_keep if c in chunk.columns]
        chunk = chunk[cols_existentes]
        
        # Limpar strings da coluna Label
        chunk['Label'] = chunk['Label'].astype(str).str.strip()
        
        # Remover linhas com Label ausente
        chunk = chunk[chunk['Label'] != 'nan']
        dfs.append(chunk)

# Concatenar todos os chunks
df = pd.concat(dfs, ignore_index=True)
del dfs
print("Shape após concatenação:", df.shape)

# -----------------------------
# Remover duplicatas
# -----------------------------
df = df.drop_duplicates().reset_index(drop=True)
print("Shape após remoção de duplicatas:", df.shape)

# -----------------------------
# Converter colunas numéricas
# -----------------------------
for col in df.columns:
    if col != 'Label':
        df[col] = pd.to_numeric(df[col], errors='coerce')

# -----------------------------
# Transformar Label em binária (0 = benigno, 1 = ataque)
# -----------------------------
df['Label'] = np.where(df['Label'].str.lower() == 'benign', 0, 1)

# -----------------------------
# Remover linhas com Label ausente (safety)
# -----------------------------
df = df.dropna(subset=['Label'])
num_cols = df.select_dtypes(include=[np.number]).columns.tolist()

# -----------------------------
# Preencher NaN nas colunas numéricas com a mediana
# -----------------------------
for col in num_cols:
    df[col] = df[col].fillna(df[col].median())

# -----------------------------
# Remover outliers (clipping 1% e 99%)
# -----------------------------
for col in num_cols:
    q_low = df[col].quantile(0.01)
    q_high = df[col].quantile(0.99)
    df[col] = df[col].clip(q_low, q_high)

print("Shape após clipping de outliers:", df.shape)


# -----------------------------
# Remover features altamente correlacionadas
# -----------------------------
# calcular a correlação apenas entre colunas numéricas (exceto Label)
num_cols = [c for c in df.select_dtypes(include=[np.number]).columns if c != 'Label']
corr_matrix = df[num_cols].corr().abs()

# Seleciona o triângulo superior da matriz de correlação
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))

# threshold para correlação alta 
threshold = 0.95

# encontra colunas que têm correlação maior que threshold com outra coluna
to_drop = [column for column in upper.columns if any(upper[column] > threshold)]

if to_drop:
    print(f"Colunas com correlação > {threshold} que serão removidas ({len(to_drop)}):")
    print(to_drop)
    df = df.drop(columns=to_drop)
else:
    print("Nenhuma coluna altamente correlacionada encontrada acima do threshold.")

# -----------------------------
# Atualiza lista de colunas numéricas após remoção
# -----------------------------
num_cols = [c for c in df.select_dtypes(include=[np.number]).columns if c != 'Label']

# -----------------------------
# Checagem rápida de exemplos 
# -----------------------------
counts = df['Label'].value_counts()
print("Contagem após limpeza (0=benign,1=attack):")
print(counts)

# -----------------------------
# Criar amostra balanceada (600.000 linhas)
# -----------------------------
n_total = 600000
n_benign = int(n_total * 0.9)   # 90% benigno
n_ddos = n_total - n_benign     # 10% DDoS

if counts.get(0, 0) < n_benign or counts.get(1, 0) < n_ddos:
    raise ValueError(
        f"Não há exemplos suficientes: benignos={counts.get(0,0)}, ataques={counts.get(1,0)}. "
        "Ajuste n_total ou revise os arquivos lidos."
    )

df_benign = df[df['Label'] == 0].sample(n=n_benign, random_state=42)
df_ddos = df[df['Label'] == 1].sample(n=n_ddos, random_state=42)

df_sample = pd.concat([df_benign, df_ddos], ignore_index=True)
df_sample = df_sample.sample(frac=1, random_state=42)  # embaralhar

print("Shape da amostra final:", df_sample.shape)
print("Distribuição da coluna Label (0 = benigno, 1 = ataque):")
print(df_sample['Label'].value_counts())

# -----------------------------
# Salvar a amostra final em CSV
# -----------------------------
df_sample.to_csv("df_sample.csv", index=False)
print("Arquivo df_sample.csv salvo com sucesso!")


In [None]:
#verificação das colunas do dataset original
file = "Thuesday-20-02-2018_TrafficForML_CICFlowMeter.csv"
df_head = pd.read_csv(file, nrows=5)  
print(df_head.columns.tolist())