## Referências

* https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python

## Bibliotecas

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats

## Carregando datasets

In [17]:
#df = pd.read_csv('./datasets/original/benignos/dataSet.csv')
df = pd.read_csv('./datasets/experimento-extra/dataset_exp-extra_05_05_05-21.csv')
df.columns

Index(['Src Port', 'Dst Port', 'Protocol', 'Flow Duration', 'Total Fwd Packet',
       'Total Bwd packets', 'Total Length of Fwd Packet',
       'Total Length of Bwd Packet', 'Fwd Packet Length Max',
       'Fwd Packet Length Min', 'Fwd Packet Length Mean',
       'Fwd Packet Length Std', 'Bwd Packet Length Max',
       'Bwd Packet Length Min', 'Bwd Packet Length Mean',
       'Bwd Packet Length Std', 'Flow Bytes/s', 'Flow Packets/s',
       'Flow IAT Mean', 'Flow IAT Std', 'Flow IAT Max', 'Flow IAT Min',
       'Fwd IAT Total', 'Fwd IAT Mean', 'Fwd IAT Std', 'Fwd IAT Max',
       'Fwd IAT Min', 'Bwd IAT Total', 'Bwd IAT Mean', 'Bwd IAT Std',
       'Bwd IAT Max', 'Bwd IAT Min', 'Fwd PSH Flags', 'Bwd PSH Flags',
       'Bwd URG Flags', 'Fwd Header Length', 'Bwd Header Length',
       'Fwd Packets/s', 'Bwd Packets/s', 'Packet Length Min',
       'Packet Length Max', 'Packet Length Mean', 'Packet Length Std',
       'Packet Length Variance', 'FIN Flag Count', 'SYN Flag Count',
       'RS

### Colunas do dataset

Flow ID  : identificador do fluxo  
Src IP : endereço ip de origem  
Src Port : número da porta de origem  
Dst IP :  endereço ip do destion  
Dst Port : número da porta de destion  
Protocol : protocolo  
Timestamp :   
Flow Duration : duração do fluxo em microsegundos  
Tot Fwd Pkts : total de pacotes enviados (forward)  
Tot Bwd Pkts : total de pacotes recebidos (backward)  
TotLen Fwd Pkts : tamanho total dos pacotes enviados  
TotLen Bwd Pkts : tamanho total dos pacotes recebidos  
Fwd Pkt Len Max : tamanho do maior pacote enviados  
Fwd Pkt Len Min : tamanho do menor pacote enviados  
Fwd Pkt Len Mean : media do tamanho dos pacotes enviados  
Fwd Pkt Len Std : desvio padrão do tamanho dos pacotes enviados  
Bwd Pkt Len Max : tamanho do maior pacote recebido  
Bwd Pkt Len Min : tamanho do menor pacote recebido  
Bwd Pkt Len Mean :  media do tamanho dos pacotes recebidos  
Bwd Pkt Len Std : desvio padrão do tamanho dos pacotes recebidos  
Flow Byts/s : número de bytes por segundo do fluxo  
Flow Pkts/s : número de pacotes por segundo do fluxo  
Flow IAT Mean : tempo médio entre o envio de dois pacotes no fluxo  
Flow IAT Std : desvio padrão do tempo de envio entre dois pacotes no fluxo  
Flow IAT Max : maior valor de tempo entre o envio de dois pacotes no fluxo   
Flow IAT Min : menor valor de tempo entre o envio de dois pacotes no fluxo  
Fwd IAT Tot : valor total de tempo entre o envio de dois pacotes  
Fwd IAT Mean : tempo médio entre o envio de dois pacotes  
Fwd IAT Std : desvio padrão do tempo de envio entre dois pacotes  
Fwd IAT Max : maior valor de tempo entre o envio de dois pacotes  
Fwd IAT Min : menor valor de tempo entre o envio de dois pacotes  
Bwd IAT Tot : valor total de tempo entre o recebimento de dois pacotes  
Bwd IAT Mean : tempo médio entre o recebimento de dois pacotes  
Bwd IAT Std : desvio padrão do tempo de recebimento entre dois pacotes  
Bwd IAT Max : maior valor de tempo entre o recebimento de dois pacotes  
Bwd IAT Min : menor valor de tempo entre o recebimento de dois pacotes  
Fwd PSH Flags : número de vezes que a flag PSH foi posta em pacatoes enviados (0 para UDP)  
Bwd PSH Flags : número de vezes que a flag PSH foi posta em pacatoes recebidos (0 para UDP)  
Fwd URG Flags : número de vezes que a flag URG foi posta em pacatoes enviados (0 para UDP)  
Bwd URG Flags : número de vezes que a flag URG foi posta em pacatoes recebidos (0 para UDP)  
Fwd Header Len : tamanho total de headers usados em pacotes enviados  
Bwd Header Len : tamanho total de headers usados em pacotes recebidos  
Fwd Pkts/s : número de pacotes enviados por segundo  
Bwd Pkts/s : número de pacotes recebidos por segundo  
Pkt Len Min : menor tamanho de um pacote  
Pkt Len Max : maior tamanho de um pacote  
Pkt Len Mean : média do tamanho de pacotes  
Pkt Len Std : desvio padrão do tamanho de pacotes  
Pkt Len Var : variância do tamanho de pacotes  
FIN Flag Cnt : número de pacotes com a flag FIN  
SYN Flag Cnt : número de pacotes com a flag SYN  
RST Flag Cnt : número de pacotes com a flag RST  
PSH Flag Cnt : número de pacotes com a flag PSH  
ACK Flag Cnt : número de pacotes com a flag ACK  
URG Flag Cnt : número de pacotes com a flag URG  
CWE Flag Count : número de pacotes com a flag CWE  
ECE Flag Cnt : número de pacotes com a flag ECE  
Down/Up Ratio : taxa de download e upload  
Pkt Size Avg : tamanho médio de um pacote  
Fwd Seg Size Avg : tamanho médio de um pacote enviado  
Bwd Seg Size Avg : tamanho médio de um pacote recebido  
Fwd Byts/b Avg : Average number of bytes bulk rate in the forward direction ??  
Fwd Pkts/b Avg : Average number of packets bulk rate in the forward direction ??  
Fwd Blk Rate Avg : Average number of bulk rate in the forward direction  
Bwd Byts/b Avg : Average number of bytes bulk rate in the backward direction ??  
Bwd Pkts/b Avg : Average number of packets bulk rate in the backward direction ??  
Bwd Blk Rate Avg : Average number of bulk rate in the backward direction  
Subflow Fwd Pkts : número médio de pacotes em um subflow para pacotes enviados  
Subflow Fwd Byts : número médio de bytes em um subflow para pacotes enviados  
Subflow Bwd Pkts : número médio de pacotes em um subflow para pacotes recebidos   
Subflow Bwd Byts : número médio de bytes em um subflow para pacotes recebidos  
Init Fwd Win Byts : número total de bytes enviados na janela incial para pacotes enviados  
Init Bwd Win Byts : número total de bytes enviados na janela incial para pacotes recebidos  
Fwd Act Data Pkts : contagem de pacotes com pelo menos 1 byte de payload tcp enviado  
Fwd Seg Size Min : menor tamanho observado de um segmento enviado  
Active Mean : tempo médio que o fluxo ficou ativo antes de ficar ocioso  
Active Std : desvio padrão tempo que o fluxo ficou ativo antes de ficar ocioso  
Active Max : maior tempo que o fluxo ficou ativo antes de ficar ocioso  
Active Min : menor tempo que o fluxo ficou ativo antes de ficar ocioso  
Idle Mean : tempo médio que o fluxo estava ocioso antes de ficar ativo  
Idle Std : desvio padrão do tempo que o fluxo estava ocioso antes de ficar ativo  
Idle Max : maior tempo que o fluxo estava ociosos antes de ser acionado  
Idle Min : menor tempo que o fluxo estava ociosos antes de ser acionado  
Label :   
Class : diferenciados do dataset de origem do fluxo  

## Remover colunas que não serão usadas no processo de classificação

### Colunas identificadoras

* 'Unnamed: 0' é uma coluna de indices por isso não será usada
* 'Flow ID' será removida por ser um coluna que identifica cada fluxo
* Endereço IP de origem e destino também removidos (identificador de máquinas no contexto de redes de computadores)
* Como é buscado um modelo capaz de generalizar, tirar essas colunas faz sentido

In [7]:
will_be_removed = ["Unnamed: 0", "Timestamp", "Flow ID", "Src IP", "Dst IP"] 
df = df.drop(will_be_removed, axis=1)

### Colunas com valores iguais para todas linhas do datasets

In [5]:
aux = df.nunique()
aux = aux[aux <= 1]

In [6]:
col_to_drop = aux.index.values.tolist()
col_to_drop

['Bwd PSH Flags', 'Bwd URG Flags']

In [None]:
df.drop(col_to_drop, axis=1, inplace=True)

### Colunas problematicas

In [None]:
will_be_removed = ["Subflow Fwd Packets", "Subflow Bwd Packets"] 
df = df.drop(will_be_removed, axis=1)

## Verificação dos tipos de cada coluna do dataset

In [18]:
object_columns = ['Flow ID', 'Src IP', 'Dst IP', 'Timestamp', 'Device Class', 'Label']

def find_object_columns(df):
    aux = df.dtypes
    obj_types = aux[aux == 'object'].index.values.tolist()
    result = [x for x in obj_types if x not in object_columns]
    return result
                
def is_infinity(value):
    if 'inf' in str(value).lower():
        return True
    return False

def find_strings_or_infinity(df):
    possible_cols = find_object_columns(df)
    to_drop = []
    for column in possible_cols:
        aux = df[column]
        to_drop += df[aux.apply(lambda x: is_infinity(x) )].index.values.tolist()
    
    return (list(set(to_drop)), possible_cols)

In [19]:
#df.info()
aux = df.dtypes

print(df.loc[lines, cols])
lines, cols = find_strings_or_infinity(df)
print("-----------")
df.drop(lines, axis=0, inplace=True)
lines, cols = find_strings_or_infinity(df)
print(df.loc[lines, cols])

Empty DataFrame
Columns: [Flow Bytes/s, Flow Packets/s]
Index: []
-----------
Empty DataFrame
Columns: [Flow Bytes/s, Flow Packets/s]
Index: []


In [22]:
'inf' in '10.0'

False

In [52]:
indexes = []
for col in helpaux:
    aux = df[col]
    indexes = df[aux.apply(lambda x: is_not_float(x))].index.values.tolist()
    print()

[648327, 923035]


inf

Algumas colunas tem como tipo de dados algo diferente do esperado, levando em conta o seu significado. As que chamam mais atenção no caso são as colunas Bwd PSH Flags e Bwd PSH Flags, que deveriam ser valores inteiro mas estão como object ([pandas tipos de dados](https://pbpython.com/pandas_dtypes.html)), o que pode indicar que alguma valor string foi inserido nesta coluna.

### Verificar o motivo de Bwd Header Len e Bwd PSH Flags estarem com o tipo objeto

Por inspeção visual notou-se que o motivo dessas colunas estarem com um tipo diferente é devido a valores 'No Label' que estavam na coluna.

Remover linhas com valor 'No Label'. A principio não faria sentido ter esse valor. Como são poucas linhas com esse valor parece mais razoavel eliminalas do que preencher com outro valor, visto que a causa desse 'No Label' é desconhecida.

In [None]:
indxs = []

head = df["Bwd Header Len"]
flag = df["Bwd PSH Flags"]

indxs += flag[flag == 'No Label'].index.values.tolist() #This line dont make sense
indxs += head[head == 'No Label'].index.values.tolist()

df.drop(indxs, axis=0, inplace=True)
df = df.reset_index()
df.drop(["index"], axis=1, inplace=True)

Os tipo de dados que fariam sentido para essa coluna deveriam ser inteiros ou floats, visto isso procuraremos linhas com valores cujo tipo não condiz com nenhuma das anterirores

In [None]:
int_aux = type(head.iloc[0])
flt_aux = type(head.iloc[647168])

haux = head[head.apply(lambda x: ((type(x) != int_aux) and (type(x) != flt_aux)))]

Por inspeção visual foi visto que a esses valores são strings que possuem apenas digitos, logo uma conversão simples deveria bastar. O esperado é que se houver uma string que não condiz com um número um erro levantara e deveriamos inspecionar tal valor. Antes de fazer a conversão faremos a remoção de linhas com valores Nan, já que com elas presentes a conversão levantará um erro e não ira completar

In [None]:
x = []

h_aux_1 = df["Bwd Header Len"]
h_aux_2 = df["Bwd PSH Flags"]

#print(h_aux_1.isna().sum()/h_aux_1.isna().count())
#print(h_aux_2.isna().sum()/h_aux_2.isna().count())

x += h_aux_1[h_aux_1.isna()].index.values.tolist()
x += h_aux_2[h_aux_2.isna()].index.values.tolist()

df.drop(x, axis=0, inplace=True)
df = df.reset_index()
df.drop(["index"], axis=1, inplace=True)

Conversão das colunas "Bwd Header Len" e "Bwd PSH Flags" para tipos que condizem com sua descrição

In [None]:
cols = ["Bwd Header Len", "Bwd PSH Flags"]
for col in cols:
    df[col] = df[col].astype('float64')

Ao comparar as saidas do df.info() com a descrição de cada coluna é possivel notar que diversas colunas que são valores inteiros foram listadas como float. Logo sera feito primeramente uma verificação para verificar se os float dessas colunas realmente possuem apenas valores inteiros, caso positivo a conversão será feita.

In [None]:
float_to_int = ["Src Port", "Dst Port", "Protocol", "Tot Fwd Pkts", "Tot Bwd Pkts", "TotLen Fwd Pkts", "TotLen Bwd Pkts", "Fwd Pkt Len Max", "Fwd Pkt Len Min", "Bwd Pkt Len Max",
"Bwd Pkt Len Min", "Fwd PSH Flags", "Bwd PSH Flags", "Bwd URG Flags", "Fwd Header Len", "Bwd Header Len", "Pkt Len Min", "Pkt Len Max", "FIN Flag Cnt", "SYN Flag Cnt",
"RST Flag Cnt", "PSH Flag Cnt", "ACK Flag Cnt", "Init Fwd Win Byts", "Init Bwd Win Byts", "Fwd Act Data Pkts", "Fwd Seg Size Min"]

fli_df = df[float_to_int] #2079182
aux = fli_df.applymap(lambda x: x.is_integer())
aux.sum()/aux.count()

## Valores faltantes

In [10]:
(df.isna().sum()).sort_values()

Unnamed: 0                    0
Device Class                  0
Dst Port                      1
Fwd Packets/s                 1
Bwd Packets/s                 1
Packet Length Min             1
Packet Length Max             1
Packet Length Mean            1
Packet Length Std             1
Packet Length Variance        1
FIN Flag Count                1
SYN Flag Count                1
RST Flag Count                1
PSH Flag Count                1
ACK Flag Count                1
Down/Up Ratio                 1
Average Packet Size           1
Fwd Segment Size Avg          1
Bwd Segment Size Avg          1
Subflow Fwd Packets           1
Idle Max                      1
Idle Std                      1
Idle Mean                     1
Active Min                    1
Active Max                    1
Active Std                    1
Bwd Header Length             1
Active Mean                   1
Fwd Act Data Pkts             1
Bwd Init Win Bytes            1
                             ..
Total Bw

In [15]:
df.drop(df[df['Src Port'].isna()].index.values.tolist(), axis=0, inplace=True)

In [17]:
(df.isna().sum()).sum()

0

## Salvar dataset apos transformações

In [19]:
df.to_csv("./datasets/original/dataSetCleaned.csv", index=False)