In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import xgboost as xgb
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
#chargement de dataset

In [None]:
df=pd.read_excel('final_d.xlsx')

In [None]:
print(df['label'].value_counts())

In [None]:
print(df.isnull().sum())

In [None]:
label_counts=df['label'].value_counts()
print(label_counts)
plt.figure(figsize=(5,3))
sns.barplot(x=label_counts.index, y=label_counts.values, palette=['blue', 'red'])
plt.xlabel("Label (0=normal, 1=panne")
plt.ylabel("Nombre d'exemples")
plt.title("Repartition des classes dans le dataset")
plt.show()

In [None]:
plt.figure(figsize=(12,6))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title("Matrice de correlation")
plt.show()

In [None]:
# Définir les features (X) et la cible (y)
X = df[['cpu_usage','ram_usage','disk_usage','network_sent','network_received','reallocated_sectors', 'event_id']] 
y = df['label']


In [None]:
print(X.shape)
print(y.shape)

In [None]:

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 1. Entraînement d'un modèle XGBoost avec des hyperparamètres par défaut
xgb_default = xgb.XGBClassifier(random_state=42)
xgb_default.fit(X_train, y_train)

In [None]:
# 2. Calcul de l'accuracy sur les ensembles d'entraînement et de test
y_train_pred = xgb_default.predict(X_train)
y_test_pred = xgb_default.predict(X_test)

train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy = accuracy_score(y_test, y_test_pred)

print("Accuracy sur l'entraînement (XGBoost par défaut) :", train_accuracy)
print("Accuracy sur le test (XGBoost par défaut) :", test_accuracy)

In [None]:
# 3. Ajustement des hyperparamètres avec Random Search
param_dist = {
    'n_estimators': [50, 100, 200, 500],  # Nombre d'arbres
    'max_depth': [3, 5, 7, 10],  # Profondeur maximale des arbres
    'learning_rate': [0.01, 0.1, 0.2, 0.3],  # Taux d'apprentissage
    'subsample': [0.8, 0.9, 1.0],  # Proportion d'échantillons utilisés pour chaque arbre
    'colsample_bytree': [0.8, 0.9, 1.0],  # Proportion de features utilisées pour chaque arbre
    'gamma': [0, 0.1, 0.2],  # Réduction minimale de la perte requise pour diviser un nœud
    'reg_alpha': [0, 0.1, 1],  # Régularisation L1
    'reg_lambda': [0, 0.1, 1]  # Régularisation L2
}

random_search = RandomizedSearchCV(
    estimator=xgb.XGBClassifier(random_state=42),
    param_distributions=param_dist,
    n_iter=50,  # Nombre de combinaisons à tester
    cv=5,  # 5-fold cross-validation
    scoring='accuracy',
    n_jobs=-1,  # Utiliser tous les cœurs disponibles
    random_state=42
)

random_search.fit(X_train, y_train)

In [None]:
# 4. Meilleurs hyperparamètres trouvés par Random Search
best_params_xgb = random_search.best_params_
print("Meilleurs hyperparamètres (XGBoost Random Search) :", best_params_xgb)


In [None]:
# 5. Évaluation du meilleur modèle sur l'ensemble de test
best_model_xgb = random_search.best_estimator_
y_test_pred_xgb = best_model_xgb.predict(X_test)
test_accuracy_xgb = accuracy_score(y_test, y_test_pred_xgb)
print("Accuracy sur le test (XGBoost optimisé) :", test_accuracy_xgb)


In [None]:
# 6. Matrice de confusion pour XGBoost
cm_xgb = confusion_matrix(y_test, y_test_pred_xgb)
print("\nMatrice de confusion (XGBoost) :")
print(cm_xgb)


In [None]:
# 7. Visualisation de la matrice de confusion
sns.heatmap(cm_xgb, annot=True, fmt='d', cmap='Blues', xticklabels=data.target_names, yticklabels=data.target_names)
plt.xlabel('Prédit')
plt.ylabel('Vrai')
plt.title('Matrice de confusion (XGBoost)')
plt.show()


In [None]:
# 8. Rapport de classification pour XGBoost
print("\nRapport de classification (XGBoost) :")
print(classification_report(y_test, y_test_pred_xgb, target_names=data.target_names))