**Le dataset CICIDS2017 est un ensemble de données de trafic réseau conçu pour l'évaluation des systèmes de détection d'intrusions. Il contient à la fois des flux de trafic bénin et des attaques réalistes, ce qui en fait un outil précieux pour le développement et la validation de modèles de Machine Learning dans le domaine de la cybersécurité.**

## Contenu des Fichiers Téléchargeables

- **PCAPs (format pcap)** : Ces fichiers contiennent les captures complètes du trafic réseau, y compris les paquets complets.

- **GeneratedLabelledFlows.zip** : Ce fichier contient les flux de trafic étiquetés, générés à partir des PCAPs, et est destiné aux applications de Machine Learning.

- **MachineLearningCSV.zip** : Ce fichier contient les données de trafic sous forme de fichiers CSV, extraites à l'aide de CICFlowMeter. Il inclut plus de 80 caractéristiques de flux réseau, ce qui facilite l'analyse et l'entraînement des modèles de Machine Learning.

## Caractéristiques du Dataset

- **Période de Capture** : Les données ont été collectées du lundi 3 juillet 2017 au vendredi 7 juillet 2017.

- **Types d'Attaques** : Inclut diverses attaques telles que :

    - Brute Force FTP

    - Brute Force SSH

    - DoS

    - Heartble

    - Web Attack

    - Infiltration

    - Botnet

    - DDoS

- **Protocoles Utilisés** : HTTP, HTTPS, FTP, SSH et email.

- **Configuration Réseau** : Comprend une topologie réseau complète avec modem, pare-feu, commutateurs, routeurs et divers systèmes d'exploitation (Windows, Ubuntu, Mac OS X).

## Utilisation du Dataset

Le CICIDS2017 est idéal pour développer des modèles de détection d'anomalies et d'intrusions dans les réseaux, grâce à sa diversité de trafic et d'attaques, ainsi que ses étiquettes détaillées pour chaque flux de trafic.


### Analyse fichier Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv


In [None]:
import pandas as pd
from skimpy import *
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import VarianceThreshold, SelectKBest, SelectFromModel, f_regression, mutual_info_regression, RFE, RFECV

In [2]:
df1 = pd.read_csv("../data/raw/bronze/Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv")

df1.head()

Unnamed: 0,Destination Port,Flow Duration,Total Fwd Packets,Total Backward Packets,Total Length of Fwd Packets,Total Length of Bwd Packets,Fwd Packet Length Max,Fwd Packet Length Min,Fwd Packet Length Mean,Fwd Packet Length Std,...,min_seg_size_forward,Active Mean,Active Std,Active Max,Active Min,Idle Mean,Idle Std,Idle Max,Idle Min,Label
0,54865,3,2,0,12,0,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
1,55054,109,1,1,6,6,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
2,55055,52,1,1,6,6,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
3,46236,34,1,1,6,6,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN
4,54863,3,2,0,12,0,6,6,6.0,0.0,...,20,0.0,0.0,0,0,0.0,0.0,0,0,BENIGN


In [3]:
column_list = df1.columns.tolist()
print(column_list)

[' Destination Port', ' Flow Duration', ' Total Fwd Packets', ' Total Backward Packets', 'Total Length of Fwd Packets', ' Total Length of Bwd Packets', ' Fwd Packet Length Max', ' Fwd Packet Length Min', ' Fwd Packet Length Mean', ' Fwd Packet Length Std', 'Bwd Packet Length Max', ' Bwd Packet Length Min', ' Bwd Packet Length Mean', ' Bwd Packet Length Std', 'Flow Bytes/s', ' Flow Packets/s', ' Flow IAT Mean', ' Flow IAT Std', ' Flow IAT Max', ' Flow IAT Min', 'Fwd IAT Total', ' Fwd IAT Mean', ' Fwd IAT Std', ' Fwd IAT Max', ' Fwd IAT Min', 'Bwd IAT Total', ' Bwd IAT Mean', ' Bwd IAT Std', ' Bwd IAT Max', ' Bwd IAT Min', 'Fwd PSH Flags', ' Bwd PSH Flags', ' Fwd URG Flags', ' Bwd URG Flags', ' Fwd Header Length', ' Bwd Header Length', 'Fwd Packets/s', ' Bwd Packets/s', ' Min Packet Length', ' Max Packet Length', ' Packet Length Mean', ' Packet Length Std', ' Packet Length Variance', 'FIN Flag Count', ' SYN Flag Count', ' RST Flag Count', ' PSH Flag Count', ' ACK Flag Count', ' URG Flag 

### Labels présents:
Voici une liste détaillée des labels avec leurs descriptions :

1. **Destination Port** : Le port de destination utilisé pour la communication.
2. **Flow Duration** : La durée totale du flux de données, généralement en microsecondes[3].
3. **Total Fwd Packets** : Le nombre total de paquets envoyés dans le sens avant (forward).
4. **Total Backward Packets** : Le nombre total de paquets reçus dans le sens arrière (backward).
5. **Total Length of Fwd Packets** : La taille totale des paquets envoyés dans le sens avant.
6. **Total Length of Bwd Packets** : La taille totale des paquets reçus dans le sens arrière.
7. **Fwd Packet Length Max** : La taille maximale d'un paquet envoyé dans le sens avant.
8. **Fwd Packet Length Min** : La taille minimale d'un paquet envoyé dans le sens avant.
9. **Fwd Packet Length Mean** : La taille moyenne des paquets envoyés dans le sens avant.
10. **Fwd Packet Length Std** : L'écart-type de la taille des paquets envoyés dans le sens avant.
11. **Bwd Packet Length Max** : La taille maximale d'un paquet reçu dans le sens arrière.
12. **Bwd Packet Length Min** : La taille minimale d'un paquet reçu dans le sens arrière.
13. **Bwd Packet Length Mean** : La taille moyenne des paquets reçus dans le sens arrière.
14. **Bwd Packet Length Std** : L'écart-type de la taille des paquets reçus dans le sens arrière.
15. **Flow Bytes/s** : Le débit moyen en octets par seconde pour le flux.
16. **Flow Packets/s** : Le nombre moyen de paquets par seconde pour le flux.
17. **Flow IAT Mean** : Le temps moyen entre deux paquets dans le flux.
18. **Flow IAT Std** : L'écart-type du temps entre deux paquets dans le flux.
19. **Flow IAT Max** : Le temps maximum entre deux paquets dans le flux.
20. **Flow IAT Min** : Le temps minimum entre deux paquets dans le flux.
21. **Fwd IAT Total** : Le temps total entre les paquets envoyés dans le sens avant.
22. **Fwd IAT Mean** : Le temps moyen entre deux paquets envoyés dans le sens avant.
23. **Fwd IAT Std** : L'écart-type du temps entre deux paquets envoyés dans le sens avant.
24. **Fwd IAT Max** : Le temps maximum entre deux paquets envoyés dans le sens avant.
25. **Fwd IAT Min** : Le temps minimum entre deux paquets envoyés dans le sens avant.
26. **Bwd IAT Total** : Le temps total entre les paquets reçus dans le sens arrière.
27. **Bwd IAT Mean** : Le temps moyen entre deux paquets reçus dans le sens arrière.
28. **Bwd IAT Std** : L'écart-type du temps entre deux paquets reçus dans le sens arrière.
29. **Bwd IAT Max** : Le temps maximum entre deux paquets reçus dans le sens arrière.
30. **Bwd IAT Min** : Le temps minimum entre deux paquets reçus dans le sens arrière.
31. **Fwd PSH Flags** : Le nombre de fois où le flag PSH est défini dans les paquets envoyés dans le sens avant.
32. **Bwd PSH Flags** : Le nombre de fois où le flag PSH est défini dans les paquets reçus dans le sens arrière.
33. **Fwd URG Flags** : Le nombre de fois où le flag URG est défini dans les paquets envoyés dans le sens avant.
34. **Bwd URG Flags** : Le nombre de fois où le flag URG est défini dans les paquets reçus dans le sens arrière.
35. **Fwd Header Length** : La longueur totale des en-têtes des paquets envoyés dans le sens avant.
36. **Bwd Header Length** : La longueur totale des en-têtes des paquets reçus dans le sens arrière.
37. **Fwd Packets/s** : Le nombre moyen de paquets par seconde envoyés dans le sens avant.
38. **Bwd Packets/s** : Le nombre moyen de paquets par seconde reçus dans le sens arrière.
39. **Min Packet Length** : La taille minimale d'un paquet dans le flux.
40. **Max Packet Length** : La taille maximale d'un paquet dans le flux.
41. **Packet Length Mean** : La taille moyenne des paquets dans le flux.
42. **Packet Length Std** : L'écart-type de la taille des paquets dans le flux.
43. **Packet Length Variance** : La variance de la taille des paquets dans le flux.
44. **FIN Flag Count** : Le nombre de paquets avec le flag FIN.
45. **SYN Flag Count** : Le nombre de paquets avec le flag SYN.
46. **RST Flag Count** : Le nombre de paquets avec le flag RST.
47. **PSH Flag Count** : Le nombre total de paquets avec le flag PSH (avant et arrière).
48. **ACK Flag Count** : Le nombre de paquets avec le flag ACK.
49. **URG Flag Count** : Le nombre total de paquets avec le flag URG (avant et arrière).
50. **CWE Flag Count** : Le nombre de paquets avec le flag CWE.
51. **ECE Flag Count** : Le nombre de paquets avec le flag ECE.
52. **Down/Up Ratio** : Le rapport entre le trafic descendant et montant.
53. **Average Packet Size** : La taille moyenne des paquets dans le flux.
54. **Avg Fwd Segment Size** : La taille moyenne des segments envoyés dans le sens avant.
55. **Avg Bwd Segment Size** : La taille moyenne des segments reçus dans le sens arrière.
56. **Fwd Header Length.1** : Une autre mesure de la longueur des en-têtes des paquets envoyés (possiblement une erreur de duplication).
57. **Fwd Avg Bytes/Bulk** : Le nombre moyen d'octets par lot dans le sens avant.
58. **Fwd Avg Packets/Bulk** : Le nombre moyen de paquets par lot dans le sens avant.
59. **Fwd Avg Bulk Rate** : Le débit moyen par lot dans le sens avant.
60. **Bwd Avg Bytes/Bulk** : Le nombre moyen d'octets par lot dans le sens arrière.
61. **Bwd Avg Packets/Bulk** : Le nombre moyen de paquets par lot dans le sens arrière.
62. **Bwd Avg Bulk Rate** : Le débit moyen par lot dans le sens arrière.
63. **Subflow Fwd Packets** : Le nombre moyen de paquets dans un sous-flux envoyé dans le sens avant.
64. **Subflow Fwd Bytes** : Le nombre moyen d'octets dans un sous-flux envoyé dans le sens avant.
65. **Subflow Bwd Packets** : Le nombre moyen de paquets dans un sous-flux reçu dans le sens arrière.
66. **Subflow Bwd Bytes** : Le nombre moyen d'octets dans un sous-flux reçu dans le sens arrière.
67. **Init_Win_bytes_forward** : Le nombre total d'octets envoyés dans la fenêtre initiale dans le sens avant.
68. **Init_Win_bytes_backward** : Le nombre total d'octets envoyés dans la fenêtre initiale dans le sens arrière.
69. **act_data_pkt_fwd** : Le nombre de paquets avec au moins un octet de charge utile TCP envoyé dans le sens avant.
70. **min_seg_size_forward** : La taille minimale d'un segment envoyé dans le sens avant.
71. **Active Mean** : La durée moyenne pendant laquelle un flux est actif avant de devenir inactif.
72. **Active Std** : L'écart-type de la durée pendant laquelle un flux est actif.
73. **Active Max** : La durée maximale pendant laquelle un flux est actif.
74. **Active Min** : La durée minimale pendant laquelle un flux est actif.
75. **Idle Mean** : La durée moyenne pendant laquelle un flux est inactif avant de reprendre.
76. **Idle Std** : L'écart-type de la durée pendant laquelle un flux est inactif.
77. **Idle Max** : La durée maximale pendant laquelle un flux est inactif.
78. **Idle Min** : La durée minimale pendant laquelle un flux est inactif.
79. **Label** : La classification ou l'étiquette associée au flux (par exemple, normal ou anormal).

In [4]:
df1.describe()

  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)


Unnamed: 0,Destination Port,Flow Duration,Total Fwd Packets,Total Backward Packets,Total Length of Fwd Packets,Total Length of Bwd Packets,Fwd Packet Length Max,Fwd Packet Length Min,Fwd Packet Length Mean,Fwd Packet Length Std,...,act_data_pkt_fwd,min_seg_size_forward,Active Mean,Active Std,Active Max,Active Min,Idle Mean,Idle Std,Idle Max,Idle Min
count,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,...,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0,225745.0
mean,8879.61946,16241650.0,4.874916,4.572775,939.463346,5960.477,538.535693,27.882221,164.826715,214.907242,...,3.311497,21.482753,184826.1,12934.36,208084.9,177620.1,10322140.0,3611943.0,12878130.0,7755355.0
std,19754.6474,31524370.0,15.422874,21.755356,3249.403484,39218.34,1864.128991,163.324159,504.892965,797.411073,...,12.270018,4.166799,797925.0,210273.7,900235.0,784260.2,21853030.0,12756890.0,26921260.0,19831090.0
min,0.0,-1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,80.0,71180.0,2.0,1.0,26.0,0.0,6.0,0.0,6.0,0.0,...,1.0,20.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,80.0,1452333.0,3.0,4.0,30.0,164.0,20.0,0.0,8.666667,5.301991,...,2.0,20.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,80.0,8805237.0,5.0,5.0,63.0,11601.0,34.0,6.0,32.0,10.263203,...,4.0,20.0,1878.0,0.0,1878.0,1862.0,8239725.0,0.0,8253838.0,7422849.0
max,65532.0,119999900.0,1932.0,2942.0,183012.0,5172346.0,11680.0,1472.0,3867.0,6692.644993,...,1931.0,52.0,100000000.0,39500000.0,100000000.0,100000000.0,120000000.0,65300000.0,120000000.0,120000000.0


In [5]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 225745 entries, 0 to 225744
Data columns (total 79 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0    Destination Port             225745 non-null  int64  
 1    Flow Duration                225745 non-null  int64  
 2    Total Fwd Packets            225745 non-null  int64  
 3    Total Backward Packets       225745 non-null  int64  
 4   Total Length of Fwd Packets   225745 non-null  int64  
 5    Total Length of Bwd Packets  225745 non-null  int64  
 6    Fwd Packet Length Max        225745 non-null  int64  
 7    Fwd Packet Length Min        225745 non-null  int64  
 8    Fwd Packet Length Mean       225745 non-null  float64
 9    Fwd Packet Length Std        225745 non-null  float64
 10  Bwd Packet Length Max         225745 non-null  int64  
 11   Bwd Packet Length Min        225745 non-null  int64  
 12   Bwd Packet Length Mean       225745 non-nul

In [6]:
def print_columns_with_nan(df):
    """
    Prints the names of columns in a DataFrame that contain NaN values.

    Args:
        df: The pandas DataFrame to check.
    """
    nan_columns = df.columns[df.isnull().any()].tolist()

    if nan_columns:
        print("Columns containing NaN values:")
        for col in nan_columns:
            print(f"- {col}")
    else:
        print("No columns with NaN values found.")
        
print_columns_with_nan(df1)

Columns containing NaN values:
- Flow Bytes/s


In [7]:
nan_count = df1['Flow Bytes/s'].isnull().value_counts()
print(nan_count)

Flow Bytes/s
False    225741
True          4
Name: count, dtype: int64


In [None]:
sns.displot(df1['Flow Bytes/s'], kde=True)

## Préparation du dataset

In [None]:
data = df1.drop('label', axis=1)
target = df1['label']
# Encodage de la colonne Label
le = LabelEncoder()
target_encode = le.fit_transform(target)
# Standardisation des données
scaler = StandardScaler().fit(data)
data_standardized = scaler.transform(data)
# Création d'un ensemble d'entrainement et d'un ensemble de test
X_train, X_test, y_train, y_test = train_test_split(data_standardized, target_encode, test_size=0.2, random_state=42)

## Features selection

In [None]:
# Suppression des features de variance nulle, inutile à l'entrainement
sel = VarianceThreshold(1e-6)
sel.fit(X_train)
# Affichage des features supprimées
mask = sel.get_support()
plt.matshow(mask.reshape(1, -1), cmap='gray_r')
plt.xlabel("Index of features")

In [None]:
X_train = sel.transform(X_train)
X_test = sel.transform(X_test)

**Maintenant que nous avons supprimé les colonnes avec variance null, nous souhaitons connaitre les features les plus importantes. S'agissant d'un problème de classification, nous devons choisir entre 

In [None]:
# Choix des meilleures features abec SelectKbest
