In [33]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib

# Chargement des données
data = pd.read_excel("data1.xlsx")

# Encodage de la colonne 'Target Audience'
label_encoder = LabelEncoder()
data['Target Audience'] = label_encoder.fit_transform(data['Target Audience'])

# Préparation des données
X = data.drop(columns=['Hacker', 'Id'])  # Suppression de la colonne 'Id' qui n'est pas nécessaire pour le modèle
y = data['Hacker']

# Mise à l'échelle des données
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Division en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Entraînement des modèles
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)

rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)

svm = SVC()
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)

# Évaluation des performances
model_accuracies = {
    "KNN": accuracy_score(y_test, y_pred_knn),
    "Random Forest": accuracy_score(y_test, y_pred_rf),
    "Decision Tree": accuracy_score(y_test, y_pred_dt),
    "SVM": accuracy_score(y_test, y_pred_svm)
}

# Sélection du meilleur modèle
best_model_name = max(model_accuracies, key=model_accuracies.get)
best_model = {'KNN': knn, 'Random Forest': rf, 'Decision Tree': dt, 'SVM': svm}[best_model_name]

# Afficher la matrice de confusion et le rapport de classification pour le meilleur modèle
y_pred_best = best_model.predict(X_test)
print(f"Meilleur modèle : {best_model_name} avec une accuracy de {model_accuracies[best_model_name]:.2f}")
print("Matrice de confusion :\n", confusion_matrix(y_test, y_pred_best))
print("Rapport de classification :\n", classification_report(y_test, y_pred_best))

# Sauvegarde du meilleur modèle, scaler et label encoder
joblib.dump(best_model, 'best_model.pkl')
joblib.dump(scaler, 'scaler.pkl')
joblib.dump(label_encoder, 'label_encoder.pkl')

Meilleur modèle : KNN avec une accuracy de 1.00
Matrice de confusion :
 [[2 0]
 [0 2]]
Rapport de classification :
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         2
           1       1.00      1.00      1.00         2

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



['label_encoder.pkl']

In [38]:
import pandas as pd
import numpy as np
import joblib
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier

# Charger le modèle, le scaler, et le label encoder
best_model = joblib.load('best_model.pkl')
scaler = joblib.load('scaler.pkl')
label_encoder = joblib.load('label_encoder.pkl')

# Liste complète des valeurs possibles pour 'Target Audience'
target_audience_values = [
    "Particuliers", "Utilisateurs de périphériques USB", "Amis", "Clients", "Collègues", 
    "Famille", "Professionnels", "Internautes", "Utilisateurs de sites de téléchargement", 
    "Employes d'entreprise", "Utilisateurs de messagerie électronique", 
    "Partenaires professionnels", "Utilisateurs d'applications mobiles", 
    "Utilisateurs de messagerie électronique"
]

# Initialiser le LabelEncoder et ajuster avec toutes les valeurs possibles
label_encoder = LabelEncoder()
label_encoder.fit(target_audience_values)

# Fonction de prédiction
def predire(data_simulation):
    # Encoder 'Target Audience' avec le même label encoder
    if 'Target Audience' in data_simulation:
        try:
            data_simulation['Target Audience'] = label_encoder.transform([data_simulation['Target Audience']])[0]
        except ValueError as e:
            print(f"Erreur lors de l'encodage du 'Target Audience': {e}")
            return None  # ou une valeur par défaut si vous préférez gérer autrement

    # Convertir le dictionnaire en DataFrame
    df_simulation = pd.DataFrame([data_simulation])

    # Assurez-vous que les colonnes correspondent exactement à celles utilisées dans l'entraînement
    expected_columns = scaler.feature_names_in_  # Colonnes attendues par le scaler
    missing_columns = set(expected_columns) - set(df_simulation.columns)
    extra_columns = set(df_simulation.columns) - set(expected_columns)

    # Ajouter des colonnes manquantes avec des valeurs par défaut (0 ou autre selon votre contexte)
    for col in missing_columns:
        df_simulation[col] = 0  # Vous pouvez aussi ajouter d'autres valeurs par défaut ou utiliser la moyenne

    # Supprimer les colonnes supplémentaires
    df_simulation = df_simulation[expected_columns]

    # Mise à l'échelle des données
    features = scaler.transform(df_simulation.values)

    # Prédire avec le meilleur modèle chargé
    prediction = best_model.predict(features)[0]
    return prediction

# Fonction pour calculer la matrice de confusion
def calculer_matrice_confusion(data_simulation):
    # Prédiction du modèle
    prediction = predire(data_simulation)

    # "Vérité" pour la matrice de confusion (label réel de Hacker)
    y_true = [data_simulation['Hacker']]  # Label réel
    y_pred = [prediction]  # Prédiction du modèle

    # Calculer la matrice de confusion
    matrix = confusion_matrix(y_true, y_pred)
    return matrix

# Exemple de simulation de données pour prédire
data_simulation = {
    "Delivery_usb": 1, "Delivery_Web": 0, "Delivery_email": 0,
    "fileType_docx": 1, "fileType_xlsx": 1, "fileType_pdf": 1, "fileType_exe": 0, "fileType_zip": 0, "fileType_rar": 0,
    "FileEncryptionMethod_AES": 1, "FileEncryptionMethod_DES": 0, "FileEncryptionMethod_RSA": 1,
    "Deleting Backup": 0, "Communication C&C status": 0, "Payment Information": 0,
    "Target Audience": "Particuliers", "Normal": 1, "Hacker": 0  # Assurez-vous d'inclure le label 'Hacker' pour la comparaison
}

# Utiliser la fonction pour calculer la matrice de confusion
matrix = calculer_matrice_confusion(data_simulation)

# Afficher la prédiction et la matrice de confusion
resultat = predire(data_simulation)
print(f"Prédiction : {'Hacker' if resultat == 1 else 'Non Hacker'}")
print("Matrice de confusion :\n", matrix)

Erreur lors de l'encodage du 'Target Audience': y contains previously unseen labels: '7'
Prédiction : Non Hacker
Matrice de confusion :
 [[0 1]
 [0 0]]




In [None]:
# Entraînement du modèle
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred_rf = rf.predict(X_test)

# Évaluation des performances
print("Accuracy Random Forest:", accuracy_score(y_test, y_pred_rf))
print("Rapport de classification Random Forest:\n", classification_report(y_test, y_pred_rf))

# Sauvegarde du modèle et du scaler pour l'utiliser en production
joblib.dump(rf, 'best_model.pkl')
joblib.dump(scaler, 'scaler.pkl')