<a href="https://colab.research.google.com/github/securitylab-repository/TPS-IA/blob/master/projet_malware_detection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Projet classification de malwares***

**L' ojectif de ce projet est de construire un anti-malware basé sur l'entrainement d'un algorithme de machine learning (IA) avec des données issues d'exécutables associés à de vrais malwares et d'exécutables sains. Cette approche est une alternative à l'approche traditionnelle basée sur les signatures. Son avantage est de permettre la détection de malwares inconnus (zero-day malwares).**

# ***Travail à faire***

> Vous devez vous constituer en groupes de 4 élèves. 
> La dernière séance sera réservée pour les soutenances 

## ***Partie 1***

> En utilisant  l'approche vue lors du TP3:
> -  Lire les données de ce [dataset](https://raw.githubusercontent.com/securitylab-repository/malware_classification/master/datasets/malware-detection/malwaredata.csv) au format CSV.  Les colonnes (observations ou ***features*** pour reprendre le jargon machine learning) de chaque ligne de ce fichier CSV correspondent aux caractéristiques d'un exécutable windows (taille de l'executable, nombre de sections, l'entropie, etc). La dernière colonne (`legitimate`) nous informe si l'exécutable est un malware ou non (c'est l'étiquette ou ***label*** pour reprendre le jargon machine learning) 
> - Comprendre la structure du dataset
> - Création de l'ensemble d'entrainement et de test
> - Analyse de la corrélation des données
> - Extraction des étiquettes
> - Nettoyage du dataset
> - Feature Scaling

> Le code python qui suit donne des exemples d'algorithmes de machine learning (knn, decision tree et SVM).





## Knn Algorithm (Algorithme des plus proches voisins)

In [0]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

# Entraînement
knn.fit(X_train,y_train)

# Test
y_eval = knn.predict(X_test)

# Calcul et affichage du score
print("Test set score: {:.2f}".format(metrics.accuracy_score(y_test, y_eval)))
print(confusion_matrix(y_test, y_eval))
print("Test set score: {:.2f}".format(np.mean(y_eval == y_test)))

> Utilisez la validation croisée pour choisir la valeur de l'hyper-paramètre `n_neighbors` 

# Decision tree algorithm (Arbre de décision)

In [0]:
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics
from sklearn import tree
%matplotlib inline

dt = DecisionTreeClassifier(random_state=0,max_depth=2)

# Entraînement
dt.fit(X_train, y_train)

# Test
y_eval = dt.predict(X_test)

# Calcul et affichage du score
print("Test set score: {:.2f}".format(metrics.accuracy_score(y_test, y_eval)))

print(confusion_matrix(y_test, y_eval))

tree.plot_tree(dt.fit(X_train, y_train),fontsize=10)


> Soit la figure ci-dessus qui représente le résultat de l'algorithme d'arbre de décision. Que signifie:

> - gini ?
> - samples ?
> - value ?

> Utilisez la validation croisée pour choisir la valeur de l'hyper-paramètre `max_depth`

![Texte alternatif…](https://github.com/securitylab-repository/malware_classification/raw/master/tree_based_image.png)

## SVM 

In [0]:
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn import metrics

poly_kernel_svm_clf = Pipeline([       
                                ("scaler", StandardScaler()),   
                                ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=10))    
                                ])

# Entraînement
poly_kernel_svm_clf.fit(X_train, y_train)

# Test
y_eval = poly_kernel_svm_clf.predict(X_test)

# Calcul et affichage du score
print(metrics.accuracy_score(y_test, y_eval))


> - Donnez la signification des paramètres **kernel**, **degree**, **coef0** et **C** de l'algorithme SVM représenté ici par la classe SVC.
> - Utilisez la validation croisée pour choisir la valeur de chacun d'eux.

> - Proposez une méthode pour choisir entre les 3 algorithmes
> - Optimisez la phase d'apprentissage en choisissant les features les plus pertinents
> - Procédez à la phase de test

## ***Partie 2***

> La deuxième partie du projet est de reconstituer le dataset en incluant de nouvelles lignes correspondant à de vrais malwares  windows ([Lien Drive Ecole](https://efrei365net-my.sharepoint.com/:f:/g/personal/boussad_ait_salem_intervenants_efrei_net/EhgtTDejF75AtJh3I5au3_QB3_v91AgmukkRIYtZq7RXMA?e=1tDob0)).

> ***Attention: Ne décompresser ces fichiers que dans une VM.***

> Pour cela, vous allez démarrer à partir du fichier python [extract_malware.py](https://raw.githubusercontent.com/securitylab-repository/malware_classification/master/extract_features.py). Pour l'insant ce code retourne, sous frome d'un vecteur à une dimension, le nombre de sections et l'entropie moyenne d'un fichier binaire windows. Il est basé sur la librairie [lief](https://github.com/lief-project/LIEF).  





## ***Partie 3***

> Construire une IHM (ex. page Web), qui permettra:

> - De soumettre un fichier exécutable pour l'analyse
> - D'afficher le résultat de l'analyse




## ***Liens:***
- https://www.ritchieng.com/programming-languages/
- https://www.ritchieng.com/machine-learning-resources/
- https://virusshare.com/torrents.4n6
- https://scikit-learn.org/stable/supervised_learning.html