# Detecção de pacotes maliciosos em rede IoT
##### Baseado no [artigo](https://doi.org/10.1016/j.future.2019.05.041) com autoria de:

<ul>
<li>Nickolaos Koroniotis</li>
<li>Nour Moustafa</li>
<li>Elena Sitnikova</li> 
<li>Benjamin Turnbull</li>
</ul>

Pesquisadores do departamento de Engenharia e Tecnologia da Informação da Universidade de Nova Gales do Sul, Autrália.



Este trabalho foi elaborado por:
<ul>
    <li>Stephen Freitas Guarda (621100482)</li>
    <li>Guilherme Vinicius Martin Carvalhal (621105504)</li>
    <li>Michel Salva Cavalcante de Oliveira (621201950)</li>
</ul>

### Conjunto de dados utilizado
O conjunto de dados utilizado nesse trabalho foi publicado no [Kaggle](https://www.kaggle.com/siddharthm1698/ddos-botnet-attack-on-iot-devices).

Trata-se de um arquivo CSV contendo 47 colunas e 1.927.101 linhas, totalizando 616,76 MB de dados. Cada linha representa uma transação entre dois ou mais dispositivo IoT. Por tratarem-se de transações, cada uma das linhas pode representar mais de um pacote trafegado na rede.

Uma transação, por exemplo, pode consistir em 3 pacotes: um pacote contendo a solicitação de um determinado atributo, outro contendo o *payload* responsável por entregar a solicitação e, por fim, a confirmação de recebimento do pedido.

![description.jpg](attachment:description.jpg)
<center>Descrição das características do conjunto de dados</center>

Além das características originalmente capturadas, os pesquisadores também utilizaram os dados para gerar algumas características derivadas das originais.

![description_derived.jpg](attachment:description_derived.jpg)
<center>Características derivadas das originais</center>

### Resultados obtidos pelos pesquisadores

O conjunto de dados em questão foi utilizado para treinar diferentes modelos de redes neurais capazes de distinguir transações benignas de transações maliciosas. As transações maliciosas tinham por objetivo a exeucação de um ataque *DDoS*.

![og_results_full.jpg](attachment:og_results_full.jpg)
<center>Resultados obtidos pelos pesquisadores</center>

![og_rnn.jpg](attachment:og_rnn.jpg)
<center>Estrutura da Recurrent Neural Network</center>

![og_lstm.jpg](attachment:og_lstm.jpg)
<center>Estrutura da Long Short-term Memory Network</center>

### Treinando um modelo para identificar transações maliciosas
Adotaremos uma rede com estrutura diferente a proposta pelos pesquisadores.

Aqui, treinaremos um modelo com duas camadas ocultas contendo 200 neurônios cada, treinados por 20 épocas a uma taxa de aprendizagem de 0.1.

Além disso, também reduziremos o número de características escolhidas de 35 para 29.

Por fim, utilizaremos apenas uma fração do conjunto de dados original nas etapas de treinamento. São, no total, 20.000 linhas de características. As 477 linhas que originalmente indicavam pacotes benignos foram mantidas em sua totalidade nesse subconjunto.

In [129]:
import pandas as pd
import numpy as np

In [130]:
path = 'DDoSdata.csv'
df = pd.read_csv(path,
                 sep = ",",
                 encoding = "UTF-8")

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [131]:
df.sample()

Unnamed: 0.1,Unnamed: 0,pkSeqID,stime,flgs,flgs_number,proto,proto_number,saddr,sport,daddr,...,AR_P_Proto_P_DstIP,N_IN_Conn_P_DstIP,N_IN_Conn_P_SrcIP,AR_P_Proto_P_Sport,AR_P_Proto_P_Dport,Pkts_P_State_P_Protocol_P_DestIP,Pkts_P_State_P_Protocol_P_SrcIP,attack,category,subcategory
102483,1752744,1752744,1528096000.0,e s,2,tcp,1,192.168.100.148,29856,192.168.100.3,...,0.201087,100,77,0.197995,0.201087,223,154,1,DDoS,TCP


In [132]:
# Renomeando colunas para melhor identificação de seus propósitos
df.rename(columns = {'mean':'average_dur', 'stddev':'stddev_dur', 
                              'sum':'total_dur','min':'min_dur','max':'max_dur'}, inplace = True) 

In [133]:
# Apagando colunas desnessárias e redundantes. Menos colunas que o modelo originalmente proposto pelos pesquisadores
df.drop(['Unnamed: 0','pkSeqID', 'flgs', 'flgs_number', 'stime', 'ltime', 'state_number', 'seq', 'proto', 'proto_number', 'saddr', 'sport', 'daddr', 'dport','state','category', 'subcategory'], axis=1, inplace=True)

In [134]:
df.columns

Index(['pkts', 'bytes', 'dur', 'average_dur', 'stddev_dur', 'total_dur',
       'min_dur', 'max_dur', 'spkts', 'dpkts', 'sbytes', 'dbytes', 'rate',
       'srate', 'drate', 'TnBPSrcIP', 'TnBPDstIP', 'TnP_PSrcIP', 'TnP_PDstIP',
       'TnP_PerProto', 'TnP_Per_Dport', 'AR_P_Proto_P_SrcIP',
       'AR_P_Proto_P_DstIP', 'N_IN_Conn_P_DstIP', 'N_IN_Conn_P_SrcIP',
       'AR_P_Proto_P_Sport', 'AR_P_Proto_P_Dport',
       'Pkts_P_State_P_Protocol_P_DestIP', 'Pkts_P_State_P_Protocol_P_SrcIP',
       'attack'],
      dtype='object')

In [143]:
n_linhas = 20000
n_linhas = n_linhas - df[df.attack == 0].shape[0]
df_atk = df[df.attack == 1].sample(n_linhas)
df_norm = df[df.attack == 0]

In [144]:
resumo = pd.concat([df_atk, df_norm], ignore_index = True)

In [145]:
resumo.to_csv(r'resumo.csv', index=False)

Com os dados tratados exportados para o arquivo resumo.csv, realizaremos o treinamento da rede utilizando o seguinte script:

```python
import keras as keras
import numpy as np
import csv
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow import keras
from sklearn.utils import class_weight

from sklearn.model_selection import train_test_split

MODEL_EXPORT_PATH = 'trained_model/'
FIG_NAME = 'resultado_treinamento'

# passo 0
def le_arquivo(nome_arq):
    arq = open(nome_arq, 'r')  # abre o arquivo
    csvreader = csv.reader(arq, delimiter=",")
    headers = next(csvreader, None)
    rows = []
    for row in csvreader:
        rows.append(row)

    arq.close()

    rows = np.array(rows)

    rows = rows.astype(float)

    return rows


ct = le_arquivo('resumo.csv')

num_padroes, num_atrib = ct.shape

X = ct[:, 0:num_atrib - 1]
Y = ct[:, num_atrib - 1:num_atrib]

# Amostragem estratificada. Realça subgrupos específicos de uma população. Neste caso, temos poucos exemplos de transações benignas.
XTraining, XValidation, YTraining, YValidation = train_test_split(X,Y,stratify=Y,test_size=0.1) # before model building

n0 = 200
n1 = 200

model = keras.models.Sequential()
model.add(keras.layers.Input(shape=[num_atrib - 1]))
model.add(keras.layers.Dense(n0, activation="relu"))
model.add(keras.layers.Dense(n1, activation="relu"))
model.add(keras.layers.Dense(1, activation="sigmoid"))

ts = 20
lr = 0.1

optimizer = keras.optimizers.Adam(learning_rate=lr, decay=lr / ts)

model.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["accuracy"])

history = model.fit(XTraining, YTraining, epochs=ts, validation_data=(XValidation,YValidation), shuffle=True)

model.save(MODEL_EXPORT_PATH)

pd.DataFrame(history.history).plot(figsize=(8, 5))
plt.grid(True)
plt.gca().set_ylim(0, 2)
plt.savefig(FIG_NAME)
```

### Resultados obtidos

O modelo treinado apresentou bons índices de precisão, conforme podemos observar pelo gráfico abaixo:

![resultado_treinamento-2.png](attachment:resultado_treinamento-2.png)
<center>Resultados obtidos: validation_loss: 0.1842; validation_accuracy: 0.9985.</center>

In [146]:
from tensorflow import keras
model = keras.models.load_model('trained_model')

De modo a validar nosso treinamento de maneira mais fiel a pesquisa original, realizaremos a predição com base em amostras colhidas do conjunto de dados original!

In [147]:
amostra = df.sample(1)
#amostra = df[df.attack == 0].sample(1)
x = np.array(amostra.iloc[:,:-1])
valor_esperado_y = np.array(amostra.iloc[:,-1])
predicao_y = model.predict(x)
amostra

Unnamed: 0,pkts,bytes,dur,average_dur,stddev_dur,total_dur,min_dur,max_dur,spkts,dpkts,...,TnP_Per_Dport,AR_P_Proto_P_SrcIP,AR_P_Proto_P_DstIP,N_IN_Conn_P_DstIP,N_IN_Conn_P_SrcIP,AR_P_Proto_P_Sport,AR_P_Proto_P_Dport,Pkts_P_State_P_Protocol_P_DestIP,Pkts_P_State_P_Protocol_P_SrcIP,attack
250194,1,154,0.0,0.0,0.0,0.0,0.0,0.0,1,0,...,234,16.0896,16.0896,100,100,0.0,16.0896,33,33,1


In [148]:
print('X = ', x)
print('Y = ', valor_esperado_y)

X =  [[1.00000e+00 1.54000e+02 0.00000e+00 0.00000e+00 0.00000e+00 0.00000e+00
  0.00000e+00 0.00000e+00 1.00000e+00 0.00000e+00 1.54000e+02 0.00000e+00
  0.00000e+00 0.00000e+00 0.00000e+00 2.34400e+04 2.34400e+04 2.34000e+02
  2.34000e+02 2.34000e+02 2.34000e+02 1.60896e+01 1.60896e+01 1.00000e+02
  1.00000e+02 0.00000e+00 1.60896e+01 3.30000e+01 3.30000e+01]]
Y =  [1]


In [149]:
result = 'Predição correta: valor_esperado_y = {}; predicao_y = {}'.format(valor_esperado_y, predicao_y) if valor_esperado_y == predicao_y else 'Predição INCORRETA. valor_esperado_y = {}; predicao_y = {}'.format(valor_esperado_y, predicao_y)
print(result)

Predição correta: valor_esperado_y = [1]; predicao_y = [[1.]]


Conforme o esperado, nossa rede apresentou valores corretos de predição!

#### Considerações

1. O modelo proposto pelos pesquisadores foi treinado em apenas 4 épocas!

2. Para extrair as melhores características para treinamento, e assim diminuindo o volume de dados, os pesquisadores procuraram colunas com baixo [Coeficiente de Correlação de Pearson](https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson) médio e alta [Entropia Conjunta de Shannon](https://en.wikipedia.org/wiki/Joint_entropy) média. O primeiro mede o quão redundante é um conjunto de atributos. O segundo mede a quantidade de entropia, isto é, caos, num dado conjunto de atributos. Isso resultou num modelo com apenas 10 colunas e precisões tão altas quanto no modelo original.

3. O Conjunto de dados proposto foi criado em laboratório! Num ambiente real e caótico, qual a probabilidade deste modelo acertar? Talvez seja posssível replicar os resultados em um ambiente cuja variância de conteúdo dos pacotes seja baixa.

### Bônus: treinando uma rede convolucional com base em dados codificados como imagens

Utilizando o seguinte trexo de código, é possível codificar cada uma das linhas do conjunto de dados original em formato de imagem:

```python
        for i in range(0, df_len):
            data = df.iloc[i]
            line = (np.array(data[:-1]).tobytes(), int(data[-1]))
            size = struct.pack("<I", len(line[0]))
            image_side = int( ( ( len(line[0]) + len(size) ) / 3.0 ) ** 0.5) + 1
            img = Image.frombytes("RGB", 
                                 (image_side, image_side),
                                 size + line[0] + b"\x00" * (image_side ** 2 * 3 - ( len(size) + len(line[0]) ))
                                 )
            img.save ...
```

Aqui, um exemplo do resultado desta transformação:

![encoded_atk-2.png](attachment:encoded_atk-2.png)
<center>Amostra codificada em formato de imagem. Imagem escalonada. Tamanho original 9 x 9</center>

O já citado modelo foi treinado utilizando a seguinte estrutura:

```python
    model = tf.keras.models.Sequential()

    model.add(tf.keras.layers.Conv2D(32, (3, 3), activation='relu', strides=(1, 1), input_shape=(90, 90, 3)))
    model.add(tf.keras.layers.MaxPooling2D((2, 2), padding='same'))
    model.add(tf.keras.layers.Conv2D(64, (3, 3), strides=(1, 1), activation='relu'))
    model.add(tf.keras.layers.MaxPooling2D((2, 2), padding='same'))
    model.add(tf.keras.layers.Conv2D(128, (3, 3), strides=(1, 1), activation='relu'))
    model.add(tf.keras.layers.Flatten())
    model.add(tf.keras.layers.Dense(128, activation='relu'))
    model.add(tf.keras.layers.Dense(2, activation="softmax"))
```

Por sorte, o modelo apresentou bons resultados! O gráfico indica, inclusive, que talvez um número menor de épocas seja mais propício para essa tarefa.

![resultado_treinamento_convolucional.png](attachment:resultado_treinamento_convolucional.png)
<center> validation_loss: 1.1921e-06; validation_accuracy: 1.0000</center>

