# KNN per la classificazione del traffico di rete. 
In questo laboratorio, addestriamo un algoritmo K-Nearest Neighbors (KNN) con traffico di rete benigno e quattro classi di attacchi DDoS dal dataset CIC-DDoS2019 dell’Università del New Brunswick. Il traffico di rete è stato precedentemente pre-elaborato in modo che i pacchetti siano raggruppati in flussi di traffico bidirezionali utilizzando la 5-tupla (IP sorgente, IP destinazione, porta sorgente, porta destinazione, protocollo). Ogni flusso è rappresentato da 21 features (attributi) dell’header dei pacchetti calcolate da un massimo di 1000 pacchetti:

| Feature nr.         | Feature Name |
|---------------------|---------------------|
| 00 | timestamp (mean IAT) | 
| 01 | packet_length (mean)| 
| 02 | IP_flags_df (sum) |
| 03 | IP_flags_mf (sum) |
| 04 | IP_flags_rb (sum) | 
| 05 | IP_frag_off (sum) |
| 06 | protocols (mean) |
| 07 | TCP_length (mean) |
| 08 | TCP_flags_ack (sum) |
| 09 | TCP_flags_cwr (sum) |
| 10 | TCP_flags_ece (sum) |
| 11 | TCP_flags_fin (sum) |
| 12 | TCP_flags_push (sum) |
| 13 | TCP_flags_res (sum) |
| 14 | TCP_flags_reset (sum) |
| 15 | TCP_flags_syn (sum) |
| 16 | TCP_flags_urg (sum) |
| 17 | TCP_window_size (mean) |
| 18 | UDP_length (mean) |
| 19 | ICMP_type (mean) |
| 20 | Packets (counter)|

# Importazione delle librerie necessarie

In [None]:
# Author: Roberto Doriguzzi-Corin
# Project: Corso di Algoritmi di Machine Learning per la rilevazione di attacchi informatici
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#   http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from util_functions import *

DATASET_FOLDER = "../Dataset/"

# Caricamento del dataset e altre funzioni

In [None]:
X_train, y_train = load_dataset(DATASET_FOLDER + "/*" + '-train.hdf5')
X_test, y_test = load_dataset(DATASET_FOLDER + "/*" + '-test.hdf5')

feature_names = get_feature_names()
target_names = ['benign', 'dns',  'syn', 'udplag', 'webddos'] 

# Addestramento dell'algoritmo KNN
L'albero decisionale puo' essere configurato con un due parametri principali:
- il parametro ```k``` che indica quanti ```vicini``` tenere in considerazione per la classificazione
- il parametro ```weights```, che indica come assegnare l'importanza ai vicini. Il valore di default e' ```uniform```, cioe' i ```k``` punti vicini hanno la stessa importanza. L'alternativa e' ```distance```, per cui i punti piu' vicini hanno un'importanza maggiore (inversamente proporzionale alla distanza)

In [None]:
# Creiamo il modello KNN con k=3
k = 3
knn = KNeighborsClassifier(n_neighbors=k,weights='uniform')
knn.fit(X_train, y_train)

# Test del modello

Qui facciamo il test con campioni mai visti prima

In [None]:
y_pred = knn.predict(X_test)

print(f"Accuratezza del modello KNN (K={k}): {accuracy_score(y_test, y_pred) * 100:.2f}%")

# Matrice di confusione multi-classe
Ora ritorniamo alle nostre 5 classi di traffic (benigno e 4 attacchi) e analizziamo in dettaglio il risultato della classificazione dell'albero decisionale.

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import ConfusionMatrixDisplay, accuracy_score, classification_report
np.set_printoptions(precision=2)

cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm,display_labels=target_names)
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')
plt.show()