# PROJET MACHINE LEARNING: Détection avancée des botnets à l'aide des algorithmes du Machine Learning

# N'DA WILLIAMS Master 1 Sécurité Cybersécurité et Intelligence Artificielle

### PARTIE 1: Prétraitement 

In [65]:
# Import des bibliothèques nécessaires
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score,confusion_matrix, classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB

In [66]:
#Charger le dataset
df=pd.read_csv('network-logs.csv')
df

Unnamed: 0,REMOTE_PORT,LATENCY,THROUGHPUT,ANOMALY
0,21,15.942875,16.202998,0
1,20,12.666451,15.899084,1
2,80,13.894550,12.958008,0
3,21,13.620813,15.459475,0
4,21,15.705485,15.339565,0
...,...,...,...,...
400,21,15.068575,15.623643,0
401,21,15.888901,16.337056,0
402,80,14.076014,15.842064,0
403,443,10.882213,13.461662,0


In [67]:
#Vérifions la taille du dataset
df.shape

(405, 4)

In [68]:
#Vérifier s'il y'a des valeurs nulles
df.isnull().sum()

REMOTE_PORT    0
LATENCY        0
THROUGHPUT     0
ANOMALY        0
dtype: int64

In [69]:
#Vérifier s'il y'a des doublons
df.duplicated().sum()

98

In [70]:
#Suppression des doublons
data=df.drop_duplicates()

In [71]:
#Vérifier la taille après suppression des doublons
data.shape

(307, 4)

#### Sélection des variables

In [72]:
#Selection des features et target
X=data[['REMOTE_PORT','LATENCY','THROUGHPUT']]
Y=data['ANOMALY']
X

Unnamed: 0,REMOTE_PORT,LATENCY,THROUGHPUT
0,21,15.942875,16.202998
1,20,12.666451,15.899084
2,80,13.894550,12.958008
3,21,13.620813,15.459475
4,21,15.705485,15.339565
...,...,...,...
364,80,13.896250,15.787763
365,80,15.969919,16.518305
366,21,15.255766,15.294273
367,80,15.334250,16.124700


In [73]:
#Quelques informations sur le dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 307 entries, 0 to 368
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   REMOTE_PORT  307 non-null    int64  
 1   LATENCY      307 non-null    float64
 2   THROUGHPUT   307 non-null    float64
 3   ANOMALY      307 non-null    int64  
dtypes: float64(2), int64(2)
memory usage: 12.0 KB


In [74]:
#Vérification des types dans le dataset
data.dtypes

REMOTE_PORT      int64
LATENCY        float64
THROUGHPUT     float64
ANOMALY          int64
dtype: object

### PARTIE 2: Prédiction avec les algorithmes de machine learning

#### Division du dataset en données de Test et Entraînement

In [75]:
# Diviser le dataset en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

### PREDICTION AVEC L'ALGORITHME KNN

##### Avec le KNN, on doit d'abord choisir un nombre k de meilleurs voisins, on va donc appliquer la validation croisée pour trouver de manière optimale le nombre de voisins.


In [76]:
#Liste des valeurs de K à tester pour obtenir le meilleur nombre de voisin entre 1 à 14
neighbors = list(range(1, 15))

# Effectuer la validation croisée pour chaque valeur de K
cv_scores = []
for k in neighbors:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, Y, cv=5, scoring='accuracy')  # Validation croisée avec 5 folds
    cv_scores.append(scores.mean())


In [77]:
# Trouver la meilleure valeur de K, celui avec le score le plus élevé
best_k = neighbors[cv_scores.index(max(cv_scores))]
best_score = max(cv_scores)
best_k

2

In [78]:
#Création et entraînement du modèle KNN avec le meilleur k dans notre cas, k=2
knn = KNeighborsClassifier(n_neighbors=best_k) 
knn.fit(X_train, y_train)

In [79]:
# Prédiction sur l'ensemble de test
y_pred = knn.predict(X_test)
y_pred

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0], dtype=int64)

##### Calculs des différents scores

In [80]:
# Évaluation des performances à l'aide des métriques
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("Performance du modèle KNN :")
print("Accuracy :", accuracy)
print("Precision :", precision)
print("Recall :", recall)
print("F1-score :", f1)

Performance du modèle KNN :
Accuracy : 0.989247311827957
Precision : 0.0
Recall : 0.0
F1-score : 0.0


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


##### On constate que le modèle ne prédit aucune classe positive, ce problème survient souvent dans le cas de données déséquilibré. Pour pallier à ce problème on peut utiliser un algorithme plus robuste.

### ARBRE DE DECISION

In [81]:
# Créer un modèle d'arbre de décision
dt_classifier = DecisionTreeClassifier()

##### On va utiliser le Grid-Search pour trouver les hyper paramètres optimaux pour notre modèle

In [82]:
# Définir les hyperparamètres à rechercher
param_grid = {
    'max_depth':list(range(1,16)),  # Profondeur maximale de l'arbre
    'criterion': ['gini', 'entropy']  # Critère de division
}

In [83]:
# Recherche des meilleurs hyperparamètres avec la validation croisée
grid_search = GridSearchCV(dt_classifier, param_grid, cv=5)
grid_search.fit(X_train, y_train)
# Afficher les meilleurs hyperparamètres
print("Meilleurs hyperparamètres :", grid_search.best_params_)

Meilleurs hyperparamètres : {'criterion': 'gini', 'max_depth': 2}


In [84]:
# Utiliser le modèle avec les meilleurs hyperparamètres
best_dt_classifier = grid_search.best_estimator_
# Prédire sur l'ensemble de test
y_pred1 = best_dt_classifier.predict(X_test)

In [85]:
# Afficher le rapport de classification
print("Rapport de classification :\n", classification_report(y_test, y_pred1))

Rapport de classification :
               precision    recall  f1-score   support

           0       0.99      1.00      0.99        92
           1       0.00      0.00      0.00         1

    accuracy                           0.99        93
   macro avg       0.49      0.50      0.50        93
weighted avg       0.98      0.99      0.98        93



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


##### Il y'a toujours un problème car le modèle prédit encore mal certaines classes

### NAIVE BAYES

In [86]:
# Initialiser le modèle gaussien Naive Bayes
gnb = GaussianNB()

In [87]:
# Entraîner le modèle gaussien Naive Bayes sur l'ensemble d'entraînement
gnb.fit(X_train, y_train)

In [88]:
# Prédire les étiquettes de l'ensemble de test
y_pred2 = gnb.predict(X_test)
y_pred2

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0], dtype=int64)

In [89]:
# Calculer les différentes métriques de performance
accuracy = accuracy_score(y_test, y_pred2)
precision = precision_score(y_test, y_pred2)
recall = recall_score(y_test, y_pred2)
f1 = f1_score(y_test, y_pred2)
conf_matrix = confusion_matrix(y_test, y_pred2)

print("Performance du modèle Naive Bayes :")
print("Accuracy :", accuracy)
print("Precision :", precision)
print("Rappel :", recall)
print("F1-score :", f1)

Performance du modèle Naive Bayes :
Accuracy : 0.989247311827957
Precision : 0.5
Rappel : 1.0
F1-score : 0.6666666666666666


In [90]:
print("Rapport de classification :\n", classification_report(y_test, y_pred2))

Rapport de classification :
               precision    recall  f1-score   support

           0       1.00      0.99      0.99        92
           1       0.50      1.00      0.67         1

    accuracy                           0.99        93
   macro avg       0.75      0.99      0.83        93
weighted avg       0.99      0.99      0.99        93



##### En utilisant le modèle Naive Bayes, on a pas d'erreur, le modèle arrive à mieux prédire les différentes classes que les précédents algorithmes.

### PARTIE 3: CONCLUSION

On constate que les prédictions du Naive Bayes sont les meilleures. En effet ils nous donnent de meilleurs resultats en terme de Rappel,Précision et Accuracy.
Ce qu'il faut retenir c'est qu'il ne faut pas toujours se fier au rappel, car il est très facile d'obtenir un bon rappel (proche à 1), pour cela il faut toujours associer le rappel à la precision afin de confirmer la qualité de la prédiction.
Dans notre cas la précision etait mauvaise pour le KNN et l'arbre de décision; c'est souvent le cas quand on travaille sur des données déséquilibrées (exemple dans la détection d'anomalies ou de fraude, on sait que les fraudeurs sont peux nombreux donc le rappel sera forcement de bonne qualité ce qui ne garanti pas forcément la qualité du modèle.)
Pour résoudre ce problème plussieurs techniques existent telles que le suréchantillonnage ou le sous-échantillonnage, ou encore choisir un autre modèle.
Pour résumer rappel et précision en un seul nombre, on peut calculer également la F-mesure(F1-score)
Dans notre cas, le modèle  Naive Bayes nous offrent des métriques relativement meilleures comparées aux 2 précédents, on le privilegiera donc comme modèle pour nos prédictions.