# Analisi del dataset UNSW-NB15

## 1. Introduzione
Il dataset UNSW-NB15 è stato sviluppato presso l'Australian Centre for Cyber Security (ACCS) 
ed è ampiamente utilizzato per attività di ricerca in ambito sicurezza informatica.

### Fonte
- Sito ufficiale: [UNSW-NB15 Dataset](https://research.unsw.edu.au/projects/unsw-nb15-dataset)

### Obiettivo
L’obiettivo di questa analisi è comprendere la struttura dei dati, effettuare una pulizia iniziale,
ed esplorare le caratteristiche principali per supportare la fase successiva di machine learning 
(classificazione del traffico in normale vs attacco).


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Caricamento dati preprocessati
df = pd.read_csv("data/processed/unsw_features.csv")
df.head()


## 2. Informazioni sul dataset
Verifichiamo la dimensione del dataset, i tipi di variabili e la presenza di valori mancanti.


In [None]:
print(df.shape)
print(df.info())
print(df.describe())


## 3. Distribuzione delle classi
Analizziamo la distribuzione delle etichette (`label` e `attack_cat`) per capire 
quanto il dataset sia bilanciato.


In [None]:
# Distribuzione binaria (attacco vs normale)
sns.countplot(x="label", data=df)
plt.title("Distribuzione classi binarie")
plt.show()

# Distribuzione multiclass (categorie attacco)
plt.figure(figsize=(10,5))
sns.countplot(x="attack_cat", data=df, order=df["attack_cat"].value_counts().index)
plt.xticks(rotation=45)
plt.title("Distribuzione categorie di attacco")
plt.show()


## 4. Analisi delle feature
Esempio: analisi statistica e grafica di alcune variabili numeriche e categoriali.


In [None]:
# Esempio analisi statistica
print(df[["sbytes", "dbytes", "dur"]].describe())

# Boxplot durata connessioni
sns.boxplot(x="label", y="dur", data=df)
plt.title("Durata connessioni per classe")
plt.show()


## 5. Conclusioni preliminari

- Il dataset è ampio e ben strutturato, con diverse variabili numeriche e categoriali.
- La distribuzione delle classi è sbilanciata: alcune categorie di attacco hanno pochi esempi.
- Le variabili numeriche (es. durata, byte inviati) mostrano differenze tra traffico normale e attacchi.
- Questa analisi prepara il terreno per la fase di **feature engineering** e **machine learning**.
