In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib

# Chargement des données
data = pd.read_excel("data1.xlsx")

# Exploration et prétraitement des données
label_encoder = LabelEncoder()
data['Target Audience'] = label_encoder.fit_transform(data['Target Audience'])

# Préparation des données
X = data.drop(columns=['Hacker'])
y = data['Hacker']

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Division en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Entraînement de différents modèles
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)

rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)

svm = SVC()
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)

# Évaluation des performances
model_accuracies = {
    "KNN": accuracy_score(y_test, y_pred_knn),
    "Random Forest": accuracy_score(y_test, y_pred_rf),
    "Decision Tree": accuracy_score(y_test, y_pred_dt),
    "SVM": accuracy_score(y_test, y_pred_svm)
}

# Sélection du meilleur modèle
best_model_name = max(model_accuracies, key=model_accuracies.get)
best_model = {'KNN': knn, 'Random Forest': rf, 'Decision Tree': dt, 'SVM': svm}[best_model_name]

# Afficher la matrice de confusion et le rapport de classification pour le meilleur modèle
y_pred_best = best_model.predict(X_test)
print(f"Meilleur modèle : {best_model_name} avec une accuracy de {model_accuracies[best_model_name]:.2f}")
print("Matrice de confusion :\n", confusion_matrix(y_test, y_pred_best))
print("Rapport de classification :\n", classification_report(y_test, y_pred_best))

# Sauvegarde du meilleur modèle, scaler et label encoder
joblib.dump(best_model, 'best_model.pkl')
joblib.dump(scaler, 'scaler.pkl')
joblib.dump(label_encoder, 'label_encoder.pkl')

Meilleur modèle : KNN avec une accuracy de 1.00
Matrice de confusion :
 [[2 0]
 [0 2]]
Rapport de classification :
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         2
           1       1.00      1.00      1.00         2

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



['label_encoder.pkl']