In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

## Chargement des données du Dataset UNSW-NB15

In [3]:
df = []  # list to store the dataframes
for i in range(1, 5):  # loop to load the 4 csv files
    df.append(pd.read_csv('Data/UNSW-NB15 - CSV Files/UNSW-NB15_' + str(i) + '.csv', header=None, low_memory=False))
all_df = pd.concat(df).reset_index(drop=True)

In [4]:
## Récupération des noms des colonnes

In [5]:
df_col = pd.read_csv('Data/UNSW-NB15 - CSV Files/NUSW-NB15_features.csv', encoding='ISO-8859-1')
# Making column names lower case, removing spaces
df_col['Name'] = df_col['Name'].apply(lambda x: x.strip().replace(' ', '').lower())
# Renaming our dataframe with proper column names
all_df.columns = df_col['Name']

In [6]:
## Affichage de différentes informations sur le Dataset

In [7]:
# Displaying the shape of the dataset
print("Shape of dataset:")
print(all_df.shape)

# Display the first few rows of the DataFrame
print("\nHead of dataset:")
print(all_df.head())

# Displaying basic statistics of the DataFrame
print("\nDescriptive Statistics:")
print(all_df.describe(include='all'))

# Checking for missing values
print("\nMissing Values:")
print(all_df.isnull().sum())

Shape of dataset:
(2540047, 49)

Head of dataset:
Name       srcip  sport          dstip dsport proto state       dur  sbytes  \
0     59.166.0.0   1390  149.171.126.6     53   udp   CON  0.001055     132   
1     59.166.0.0  33661  149.171.126.9   1024   udp   CON  0.036133     528   
2     59.166.0.6   1464  149.171.126.7     53   udp   CON  0.001119     146   
3     59.166.0.5   3593  149.171.126.5     53   udp   CON  0.001209     132   
4     59.166.0.3  49664  149.171.126.0     53   udp   CON  0.001169     146   

Name  dbytes  sttl  ...  ct_ftp_cmd  ct_srv_src  ct_srv_dst ct_dst_ltm  \
0        164    31  ...           0           3           7          1   
1        304    31  ...           0           2           4          2   
2        178    31  ...           0          12           8          1   
3        164    31  ...           0           6           9          1   
4        178    31  ...           0           7           9          1   

Name  ct_src_ltm  ct_src_dport

## Traitement des données
### Valeurs manquantes
Nous pouvons observé que le Dataset contient 49 colonnes et 2540047 lignes alors que sur les csv nous avons que 2'540’044.
Nous avons 3 colonnes qui contiennent des valeurs manquantes. ct_flw_http_mthd, is_ftp_login et attack_cat. Nous allons donc effectuer un traitement sur ces colonnes. Car les algorithmes de machine learning ne peuvent pas fonctionner avec des valeurs manquantes.

In [8]:
all_df['attack_cat'].value_counts()

attack_cat
Generic             215481
Exploits             44525
 Fuzzers             19195
DoS                  16353
 Reconnaissance      12228
 Fuzzers              5051
Analysis              2677
Backdoor              1795
Reconnaissance        1759
 Shellcode            1288
Backdoors              534
Shellcode              223
Worms                  174
Name: count, dtype: int64

In [9]:
all_df['attack_cat'].fillna('normal', inplace=True)
all_df['attack_cat'].value_counts()

attack_cat
normal              2218764
Generic              215481
Exploits              44525
 Fuzzers              19195
DoS                   16353
 Reconnaissance       12228
 Fuzzers               5051
Analysis               2677
Backdoor               1795
Reconnaissance         1759
 Shellcode             1288
Backdoors               534
Shellcode               223
Worms                   174
Name: count, dtype: int64

In [10]:
all_df['is_ftp_login'].value_counts()

is_ftp_login
0.0    1066593
1.0      43389
4.0        156
2.0         30
Name: count, dtype: int64

In [11]:
all_df['is_ftp_login'].fillna(0, inplace=True)
all_df['is_ftp_login'].value_counts()

is_ftp_login
0.0    2496472
1.0      43389
4.0        156
2.0         30
Name: count, dtype: int64

In [12]:
all_df['ct_flw_http_mthd'].value_counts()

ct_flw_http_mthd
0.0     986791
1.0     188008
6.0       7902
4.0       6564
3.0        738
2.0        588
5.0        430
9.0        270
14.0       224
12.0       132
30.0        60
8.0         56
16.0        48
36.0        36
10.0        30
25.0        25
Name: count, dtype: int64

In [13]:
all_df['ct_flw_http_mthd'].fillna(0, inplace=True)

In [14]:
all_df['ct_flw_http_mthd'].value_counts()

ct_flw_http_mthd
0.0     2334936
1.0      188008
6.0        7902
4.0        6564
3.0         738
2.0         588
5.0         430
9.0         270
14.0        224
12.0        132
30.0         60
8.0          56
16.0         48
36.0         36
10.0         30
25.0         25
Name: count, dtype: int64

In [15]:
# Checking for missing values
print("\nMissing Values:", all_df.isnull().sum().sum())


Missing Values: 0


### Types de données

In [16]:
all_df.dtypes # Vérification des types de données

Name
srcip                object
sport                object
dstip                object
dsport               object
proto                object
state                object
dur                 float64
sbytes                int64
dbytes                int64
sttl                  int64
dttl                  int64
sloss                 int64
dloss                 int64
service              object
sload               float64
dload               float64
spkts                 int64
dpkts                 int64
swin                  int64
dwin                  int64
stcpb                 int64
dtcpb                 int64
smeansz               int64
dmeansz               int64
trans_depth           int64
res_bdy_len           int64
sjit                float64
djit                float64
stime                 int64
ltime                 int64
sintpkt             float64
dintpkt             float64
tcprtt              float64
synack              float64
ackdat              float64
is_sm_ips_ports

In [17]:
all_df.select_dtypes(include=['object']).columns # Vérification des types de données

Index(['srcip', 'sport', 'dstip', 'dsport', 'proto', 'state', 'service',
       'ct_ftp_cmd', 'attack_cat'],
      dtype='object', name='Name')

Les types de données "object" sont des données catégoriques. Nous pouvons observer que la colonne "ct_ftp_cmd" est de type "object" alors que c'est une colonne numérique (fichier NUSW-NB15_features.csv).

In [18]:
all_df['ct_ftp_cmd'].value_counts()

ct_ftp_cmd
     1429879
0     686192
0     380306
1      29605
1      10472
2       1168
4        800
3        729
6        332
5        290
4        160
2         96
8         18
Name: count, dtype: int64

Nous pouvons observer que nous avons une ligne qui contient une valeur " ". Nous allons donc remplacer cette valeur par 0.

De plus, nous avons deux fois la valeur "0" et la valeur "1". Nous allons convertir les données en numérique.

In [19]:
all_df['ct_ftp_cmd'].replace(' ', 0, inplace=True)  # remplacer les valeurs " " par 0
all_df['ct_ftp_cmd'] = pd.to_numeric(all_df['ct_ftp_cmd'], errors='coerce')  # convertir les données en numérique

all_df['ct_ftp_cmd'].value_counts()

ct_ftp_cmd
0    2496377
1      40077
2       1264
4        960
3        729
6        332
5        290
8         18
Name: count, dtype: int64

## Valeurs binaires
Les valeurs binaires de ce dataset sont les colonnes "is_ftp_login" et "is_sm_ips_ports" et "label".
Nous allons vérifier si les valeurs sont bien binaires.

In [20]:
all_df['is_ftp_login'].value_counts()


is_ftp_login
0.0    2496472
1.0      43389
4.0        156
2.0         30
Name: count, dtype: int64

In [21]:
all_df['is_sm_ips_ports'].value_counts()


is_sm_ips_ports
0    2535852
1       4195
Name: count, dtype: int64

In [22]:
all_df['label'].value_counts()

label
0    2218764
1     321283
Name: count, dtype: int64

"is_ftp_login" ne contient pas que des valeurs binaires. Nous allons donc convertir les valeurs en binaire.
Tous ce qui est supérieur à 1 sera remplacé par 1.

In [23]:
all_df['is_ftp_login'].replace([2, 4], 1, inplace=True)  # Remplacer le 2 et le 4 par 1 sur le même dataframe

In [24]:
all_df['is_ftp_login'].value_counts()

is_ftp_login
0.0    2496472
1.0      43575
Name: count, dtype: int64

## Valeurs catégoriques
Nous avons vu précédemment que la colonne "attack_cat" contient deux fois la valeur backdoor "backdoors" et "backdoor" et deux fois la colonne Shellcode

In [25]:
# Remplacer les valeurs "backdoors" par "backdoor"
all_df['attack_cat'].replace('Backdoors', 'Backdoor', inplace=True)
all_df['attack_cat'].value_counts()

attack_cat
normal              2218764
Generic              215481
Exploits              44525
 Fuzzers              19195
DoS                   16353
 Reconnaissance       12228
 Fuzzers               5051
Analysis               2677
Backdoor               2329
Reconnaissance         1759
 Shellcode             1288
Shellcode               223
Worms                   174
Name: count, dtype: int64

In [26]:
# Remplacer les valeurs "Shellcode" par "Shellcode"
all_df["attack_cat"] = all_df["attack_cat"].str.lower().str.strip()
all_df['attack_cat'].value_counts()

attack_cat
normal            2218764
generic            215481
exploits            44525
fuzzers             24246
dos                 16353
reconnaissance      13987
analysis             2677
backdoor             2329
shellcode            1511
worms                 174
Name: count, dtype: int64

## Création du fichier Train et Test avec la validation croisée
Nous allons créer un fichier train et test avec la validation croisée.

### Séparation des données

In [27]:
### Séparation des caractéristiques et des cibles
X = all_df.drop("label", axis=1)  # x = toutes les colonnes sauf la colonne "label"
y = all_df["label"]               # y = la colonne "label"

### Diviser les données en ensembles d'entraînement et de test
# test_size = 0.3 signifie que 30% des données seront utilisées pour les tests et 70% pour l'entraînement
# random_state = 42 signifie que les données seront divisées de la même manière à chaque fois
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Concaténer les caractéristiques et les cibles pour obtenir les ensembles d'entraînement et de test complets
train_data = pd.concat([X_train, y_train], axis=1)
test_data = pd.concat([X_test, y_test], axis=1)

# Sauvegarder les ensembles d'entraînement et de test en fichiers CSV
train_data.to_csv("train_data.csv", index=False)  # index=False pour ne pas avoir la colonne index
test_data.to_csv("test_data.csv", index=False)  
