<a href="https://colab.research.google.com/github/moAllElite/admin-app/blob/master/ClassificationMalwareProject.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Projet: Detection de Malware basée sur le Machine Learning

 ## Pipeline

Pipeline Tpour l'Analyse et le Déploiement de Modèles de classification de malware basé sur le machine learning.

**1. Importation du Dataset:**


Prétraitement des Données:

**2. Séparer le dataset en features (caractéristiques) et label (étiquettes).**

**3. Division des Données:**

 Diviser le dataset en ensembles distincts pour l'entraînement (70%) et les tests (30%).

**4 . Choix des Algorithmes:**

 Sélectionner 4 algorithmes de Machine Learning pertinents en fonction du problème.

**5. Entraînement des Modèles:**

Entrainer chaque modèle sur l'ensemble d'entraînement.

**6. Tester la performance de chaque modèle**

**7. Évaluer les Modèles:** en utilisant des métriques d'évaluation appropriées (précision, rappel, F1-score, etc.).

**8. Sélection du Meilleur Modèle:**

**9. Identifier et enregistrer le modèle présentant la meilleure précision.**

**10.  Déploiement du Modèle:**
  Mettre en œuvre le déploiement du modèle en utilisant des frameworks tels que Django, Flask, Streamlit, ou des plates-formes cloud comme Heroku.












**Présentation du jeu de données :**
À partir de 137 444 exécutables, nous avons extrait huit caractéristiques pour chaque exécutable et attribué une étiquette correspondante.

**Liste des caractéristiques :**


* ajorLinkerVersion

* MajorImageVersion

* MajorOperatingSystemVersion

* SizeOfStackReserve

* NumberOfSections

* ResourceSize

* legitimate

**Definition des features:**

**AddressOfEntryPoint:** L'adresse dans le fichier exécutable où l'exécution du programme doit commencer.

**MajorLinkerVersion:**  La version majeure du programme utilisé pour lier le fichier exécutable.

**MajorImageVersion:** La version majeure de l'image du fichier exécutable.

**MajorOperatingSystemVersion:** La version majeure du système d'exploitation sous lequel le fichier exécutable est destiné à s'exécuter.

**DllCharacteristics:**  Les caractéristiques spécifiques de la DLL (Dynamic Link Library) associée au fichier exécutable.

 **SizeOfStackReserve:** La taille de la mémoire réservée pour la pile d'exécution du programme.

**NumberOfSections:** Le nombre de sections dans le fichier exécutable.

**ResourceSize:**  La taille des ressources (comme les images, les icônes, etc.) incluses dans le fichier exécutable.

**label= legitimate**

legitimite=1 <===> malware
legitimate=0 <===> benigne (non malware)



Lien du dataset:
https://drive.google.com/drive/folders/1E0RpyEh0g42jFFsNVNm9QzAorSo4QtWq?usp=drive_link

Outils: Scikit learn pour entrainer les modeles,pandas pour importer le dataset


**1. Importation du Dataset:**

In [None]:
import sklearn
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_curve, auc
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:

mondataSet = pd.read_csv("/content/drive/MyDrive/machinelearning/DatasetmalwareExtrait.csv")
print(mondataSet)

        AddressOfEntryPoint  MajorLinkerVersion  MajorImageVersion  \
0                     10407                   9                  6   
1                      5354                   9                  6   
2                     58807                   9                  6   
3                     25166                   9                  6   
4                     70387                   9                  6   
...                     ...                 ...                ...   
137439               123291                  11                  0   
137440                40000                   2                  6   
137441                59610                  10                  0   
137442                51216                   2                  0   
137443                22731                  11                  0   

        MajorOperatingSystemVersion  DllCharacteristics  SizeOfStackReserve  \
0                                 6               33088              262144   
1

**2. Séparer le dataset en features (caractéristiques) et label (étiquettes).**

In [None]:
caractéristiques = mondataSet.drop("legitimate", axis=1)
étiquettes = mondataSet["legitimate"]
print(caractéristiques)

        AddressOfEntryPoint  MajorLinkerVersion  MajorImageVersion  \
0                     10407                   9                  6   
1                      5354                   9                  6   
2                     58807                   9                  6   
3                     25166                   9                  6   
4                     70387                   9                  6   
...                     ...                 ...                ...   
137439               123291                  11                  0   
137440                40000                   2                  6   
137441                59610                  10                  0   
137442                51216                   2                  0   
137443                22731                  11                  0   

        MajorOperatingSystemVersion  DllCharacteristics  SizeOfStackReserve  \
0                                 6               33088              262144   
1

**3. Division des Données en features et label:**

In [None]:
print(étiquettes)

0         1
1         1
2         1
3         1
4         1
         ..
137439    0
137440    0
137441    0
137442    0
137443    0
Name: legitimate, Length: 137444, dtype: int64


**3. Division des Données en données en train et test:**

In [None]:
X_train, X_test, y_train, y_test = train_test_split(caractéristiques, étiquettes, test_size=0.3, random_state=42)


**4 . Choix des Algorithmes:**

 Sélectionner 4 algorithmes de Machine Learning pertinents en fonction du problème.



In [None]:
from sklearn.svm import SVC

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [38]:
models = {
    'SVM': SVC(),
    'Random Forest': RandomForestClassifier(),
    'KNN': KNeighborsClassifier(),
    'Decision Tree': DecisionTreeClassifier()
}

**5. Entraînement de chaque Modèle choisi:**







In [35]:
trained_models = {}

In [42]:
for name, model in models.items():
    model.fit(X_train, y_train)
    trained_models[name] = model

print(trained_models)

{'SVM': SVC(), 'Random Forest': RandomForestClassifier(), 'KNN': KNeighborsClassifier(), 'Decision Tree': DecisionTreeClassifier()}




**6. Tester la performance de chaque modèle**



In [41]:
results = {}
for name, model in trained_models.items():
    y_pred = model.predict(X_test)
    results[name] = accuracy_score(y_test, y_pred)

print(results)

{}


**7. Évaluer les Modèles:** en utilisant des métriques d'évaluation appropriées (précision, rappel, F1-score, etc.).


In [34]:
for name, accuracy in results.items():
    print(f"{name} - Accuracy: {accuracy}")


**8. Sélection du Meilleur Modèle:**


In [40]:
best_model_name = max(results,  key=results.get)
best_model = trained_models[best_model_name]

ValueError: max() arg is an empty sequence


**9. Identifier et enregistrer le modèle présentant la meilleure précision.**



In [None]:
import joblib
joblib.dump(best_model, "ClassificationMalwareBestModel.pkl")

['ClassificationMalwareBestModel.pkl']

**10.  Déploiement du Modèle:**

#               **FIN**

NB: Projet a faire par groupe de 3.

A rendre au plutard Mercredi  24 Janvier 2023.