# Analyse exploratoire des données Network

In [3]:
# Librairies
import pandas as pd
from pickleshare import PickleShareDB

from sklearn.preprocessing import LabelEncoder

import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.subplots as sp
from plotly.graph_objs import Bar
import plotly.express as px

## Chargement des données

Nous chargeons les données depuis le fichier des données préprarées.

In [None]:
# Données nettoyées
db = PickleShareDB('../prep_data/kity')

df_net_1 = db['net_attack_1_clean']
df_net_2 = db['net_attack_2_clean']
df_net_3 = db['net_attack_3_clean']
df_net_4 = db['net_attack_4_clean']
df_net_norm = db['net_norm_clean']

# Données brutes
'''
df_net_1 = pd.read_csv('../datasets/Network datatset/csv/attack_1.csv')
df_net_2 = pd.read_csv('../datasets/Network datatset/csv/attack_2.csv')
df_net_3 = pd.read_csv('../datasets/Network datatset/csv/attack_3.csv')
df_net_4 = pd.read_csv('../datasets/Network datatset/csv/attack_4.csv')
df_net_norm = pd.read_csv('../datasets/Network datatset/csv/normal.csv')
'''

Nous commençons par observer le premier, comme ils doivent à priori avoir la même structure, pour comprendre les données que l'on a.

## Analyse des différents types de colonnes

In [9]:
# Colonnes de chaque type
df_obj = df_net_1.select_dtypes(include='object')
print("Colonnes de type objet : \n",df_obj.columns,"\n")

df_num = df_net_1.select_dtypes(include='number')
print("Colonnes de type nombre : \n", df_num.columns)  

Colonnes de type objet : 
 Index(['Time', 'mac_s', 'mac_d', 'ip_s', 'ip_d', 'proto', 'modbus_fn',
       'modbus_response', 'label'],
      dtype='object') 

Colonnes de type nombre : 
 Index(['sport', 'dport', 'flags', 'size', 'n_pkt_src', 'n_pkt_dst', 'label_n'], dtype='object')


### Analyse des colonnes numériques

In [10]:
df_num.describe()

Unnamed: 0,sport,dport,flags,size,n_pkt_src,n_pkt_dst,label_n
count,5527409.0,5527409.0,5527409.0,5527409.0,5527409.0,5527409.0,5527409.0
mean,28494.09,28367.48,10915.87,65.32781,30.70404,30.74055,0.3328863
std,27966.29,27984.8,846.4085,1.400719,17.56983,17.53813,0.4712463
min,-1.0,-1.0,-1.0,60.0,-1.0,-1.0,0.0
25%,502.0,502.0,11000.0,65.0,15.0,15.0,0.0
50%,34911.0,502.0,11000.0,66.0,19.0,19.0,0.0
75%,56667.0,56667.0,11000.0,66.0,50.0,50.0,1.0
max,60999.0,60999.0,11000.0,78.0,53.0,52.0,1.0


In [None]:
# Statistiques descriptives
desc_stats = df_num.describe()
desc_stats = desc_stats.drop('count') # suppression de la colonne count pour la visualisation

fig = make_subplots(rows=1, cols=len(desc_stats.columns), subplot_titles=desc_stats.columns)
for i, col in enumerate(desc_stats.columns):
    fig.add_trace(go.Bar(x=desc_stats.index, y=desc_stats[col], name=col),row=1, col=i+1)

fig.update_layout(height=700, width=1200,title="Statistiques descriptives par colonne",showlegend=False)

fig.show()

In [None]:
# Répartition des valeurs pour chaque colonne
for col in df_num.columns:
    print(col, df_num[col].value_counts())

sport sport
502.0      2755878
56667.0     821093
56666.0     807888
56668.0     807710
56665.0     241775
            ...   
48341.0          3
47947.0          3
48843.0          3
53611.0          3
25.0             2
Name: count, Length: 8446, dtype: int64
dport dport
502.0      2771010
56667.0     821092
56666.0     807887
56668.0     807708
56665.0     241785
            ...   
34425.0          5
59477.0          5
46049.0          5
25.0             4
1027.0           2
Name: count, Length: 8442, dtype: int64
flags flags
 11000.0    5383646
 10000.0      53601
 10.0         26410
 10010.0      26409
 10001.0      26361
 100.0         5361
 10100.0       5106
-1.0            515
Name: count, dtype: int64
size size
66    2733117
65    1426127
64    1257165
60      51806
74      42633
78      12614
77       3947
Name: count, dtype: int64
n_pkt_src n_pkt_src
 15.0    1515089
 50.0    1074699
 49.0     453662
 51.0     434475
 14.0     377759
 13.0     202141
 4.0      197631
 44.0  

In [14]:
# Répartition des valeurs pour chaque colonne (graphique)
columns = df_num.columns
titles = ["Sport", "Dport", "Flags", "Size", "n_pkt_src", "n_pkt_dst", "Label_n"]

fig = sp.make_subplots(rows=4, cols=2, subplot_titles=titles, vertical_spacing=0.1, horizontal_spacing=0.15)
for i, col in enumerate(columns):
    row = (i // 2) + 1
    col_position = (i % 2) + 1
    fig.add_trace(Bar(x=df_num[col].value_counts().index, y=df_num[col].value_counts().values, name=titles[i]),row=row, col=col_position)

fig.update_layout(height=700, width=700, title_text="Distribution des valeurs dans les colonnes numériques",showlegend=False)

fig.show()

- sport
    - Distribution : Forte concentration de valeurs spécifiques (port 502 par exemple qui est spécifique aux Modbus), certains ports moins représentés pourrait être des accès interdits

- dport
    - Comme pour sport, la majorité des paquets sont concentrés sur quelques ports de destination, avec le port 502 comme destination principale. \
    Des valeurs plus rares sont observées, mais elles sont peu fréquentes. Cela pourrait également être des attaques.

- flags
    - La plupart des valeurs sont à 11000, forte concentration autour de valeurs spécifiques (états standards de connexion ??)
    - La majorité des paquets ont des flags identiques, ce qui est attendu pour des communications stables. \
    Quelques variations existent, ce qui peut représenter des tentatives d’intrusion ou des anomalies.

- size
    - Tailles de paquets concentrées autour de valeurs entre 64 et 66 octets + peu de variation
    - Distribution fortement centrée sur 66 octets (taille de paquets standard pour les échanges de données Modbus ??) \
    --> paquets d'autres tailles pourraient être intéressants à analyser pour des comportements anormaux

- n_pkt_src
    - La distribution présente des pics élevés pour certaines valeurs spécifiques (flux réguliers de données ?? surcharge ou un potentiel DoS ???)

- n_pkt_dst
    - Pics dans la distribution indiquent des destinations qui reçoivent un grand nombre de paquets ?? anomalies ??

- label_n
    - Valeurs sont binaires (0 ou 1), avec 0 = paquets normaux et 1 attaque
    -La majorité des paquets sont normaux, donc dataset déséquilibré MAIS représentatif ?

### Analyse des colonnes de type objet

In [15]:
# Valeurs uniques pour chaque colonne
df_obj_no_time = df_obj.drop('Time', axis=1)
for col in df_obj_no_time.columns:
    print(col, df_obj_no_time[col].value_counts())

mac_s mac_s
74:46:a0:bd:a7:1b    2678457
0a:fe:ec:47:74:fb     853232
e6:3f:ac:c9:a8:8c     850385
fa:00:bc:90:d7:fa     833496
00:80:f4:03:fb:12     276589
fe:bb:16:7b:c3:27      14801
4a:35:83:e0:3d:a4      14661
00:0c:29:47:8c:22       5788
Name: count, dtype: int64
mac_d mac_d
74:46:a0:bd:a7:1b    2678456
0a:fe:ec:47:74:fb     858271
e6:3f:ac:c9:a8:8c     853239
fa:00:bc:90:d7:fa     833390
00:80:f4:03:fb:12     276586
fe:bb:16:7b:c3:27      10942
4a:35:83:e0:3d:a4      10784
00:0c:29:47:8c:22       5597
ff:ff:ff:ff:ff:ff        144
Name: count, dtype: int64
ip_s ip_s
84.3.251.20     2678448
84.3.251.102     854860
84.3.251.101     851692
84.3.251.103     834158
84.3.251.18      277499
84.3.251.104      15486
84.3.251.105      14791
Inconnue            475
Name: count, dtype: int64
ip_d ip_d
84.3.251.20     2678456
84.3.251.102     860155
84.3.251.101     854680
84.3.251.103     833855
84.3.251.18      277494
84.3.251.104      11352
84.3.251.105      10942
Inconnue            475
N

In [16]:
df_obj_rep = df_obj.drop('Time', axis=1) # Pas de sens pour cette colonne

fig = make_subplots(rows=1, cols=len(df_obj_rep.columns), subplot_titles=df_obj_rep.columns)

for i, col in enumerate(df_obj_rep.columns):
    value_counts = df_obj_rep[col].value_counts().head(10)  # Pour éviter d'avoir trop de valeurs
    fig.add_trace(go.Bar(x=value_counts.index, y=value_counts.values, name=col), row=1, col=i+1)


fig.update_layout(height=700, width=1300, title="Fréquence des valeurs uniques par colonne (object)", showlegend=False)

fig.show()

- mac_s, mac_d : 
    - une adresse principale largement dominante 
    - trafic centré autour de quelques appareils
    - autres sont peut-être anormales

- ip_s, ip_d : 
    - adresses IP source et destination également dominées par quelques valeurs
    - communication entre des hôtes spécifiques

- proto : 
    - protocole Modbus de loin le plus utilisé,
    - confirme l’utilisation majoritaire de Modbus dans le système

- modbus_fn : 
    - Les fonctions Modbus, toutes utilisées de façon plus ou moins équivalentes
    - Quelques valeurs inconnues, peut-être attaques

- modbus_response : 
    - réponse "Pas de réponse" dominante, surement représentant une exécution correcte
    - autres valeurs beaucoup moins présentes

- label : 
    - majorité des données marquées comme normales
    - autres valeurs non normales

## Matrice de corrélation

### Matrice dans le dataset normal

In [17]:
df = df_net_norm

object_cols = df.select_dtypes(include=['object']).columns
le = LabelEncoder()
for col in object_cols:
    df[col] = le.fit_transform(df[col].astype(str))

correlation_matrix = df.corr()

#print(f"Matrice de corrélation pour le DataFrame {dataframes.index(df) + 1}")
#print(correlation_matrix)

fig = px.imshow(correlation_matrix, title="Matrice de corrélation du dataset normal", color_continuous_scale="blues", zmin=-1, zmax=1, height=600, width=600)
fig.show()

Nous pouvons voir que ip_s, sport et n_pkt_src sont très corrélés, de même pour ip_d, dport et n_pkt_dst. \
Il y a également une forte corrélation négative entre les ports/ip sources et ceux de destination \
Cela semble plutot logique, car les échanges sont normalement entre les mêmes appareils.

In [18]:
df = df_net_1

object_cols = df.select_dtypes(include=['object']).columns
le = LabelEncoder()
for col in object_cols:
    df[col] = le.fit_transform(df[col].astype(str))

correlation_matrix = df.corr()

#print(f"Matrice de corrélation pour le DataFrame {dataframes.index(df) + 1}")
#print(correlation_matrix)

fig = px.imshow(correlation_matrix, title="Matrice de corrélation du dataset attack 1", color_continuous_scale="blues", zmin=-1, zmax=1, height=600, width=600)
fig.show()

Peu de différence avec le dataset normale, il va être compliqué de détecter des anomalies dans ce dataset. \
Surement dû au fait que les attaques sont physique en grande partie dans ce dataset, et donc non détectable sur des données réseaux.

In [19]:
df = df_net_2

object_cols = df.select_dtypes(include=['object']).columns
le = LabelEncoder()
for col in object_cols:
    df[col] = le.fit_transform(df[col].astype(str))

correlation_matrix = df.corr()

#print(f"Matrice de corrélation pour le DataFrame {dataframes.index(df) + 1}")
#print(correlation_matrix)

fig = px.imshow(correlation_matrix, title="Matrice de corrélation du dataset attack 2", color_continuous_scale="blues", zmin=-1, zmax=1, height=600, width=600)
fig.show()

In [20]:
df = df_net_3

object_cols = df.select_dtypes(include=['object']).columns
le = LabelEncoder()
for col in object_cols:
    df[col] = le.fit_transform(df[col].astype(str))

correlation_matrix = df.corr()

#print(f"Matrice de corrélation pour le DataFrame {dataframes.index(df) + 1}")
#print(correlation_matrix)

fig = px.imshow(correlation_matrix, title="Matrice de corrélation du dataset attack 3", color_continuous_scale="blues", zmin=-1, zmax=1, height=600, width=600)
fig.show()

In [21]:
df = df_net_4

object_cols = df.select_dtypes(include=['object']).columns
le = LabelEncoder()
for col in object_cols:
    df[col] = le.fit_transform(df[col].astype(str))

correlation_matrix = df.corr()

#print(f"Matrice de corrélation pour le DataFrame {dataframes.index(df) + 1}")
#print(correlation_matrix)

fig = px.imshow(correlation_matrix, title="Matrice de corrélation du dataset attack 4", color_continuous_scale="blues", zmin=-1, zmax=1, height=600, width=600)
fig.show()

Ces 3 dataset ont des matrices de corrélations assez différentes du dataset normale. \
Ces dataset ont des attaques physiques en moindre quantités comme vu précédemment (notebook_network_preparation.ipynb), il est donc plus facile de détecter les attaques qui sont visibles sur les données réseau.