In [7]:
import pandas as pd
import xgboost as xgb
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split

# Charger les données
data = pd.read_csv('data/data_clusters_anomaly.csv')

# Supprimer les lignes avec des valeurs manquantes dans la colonne 'anomalie' avant de continuer
df_without_nan = data.dropna(subset=['anomalie'])

# Pour chaque cluster (0, 1, 2), appliquer XGBoost pour une classification multiclasse
for cluster in [0, 1, 2]:
    print(f"\n--- Modèle pour Cluster {cluster} ---")
    
    # Filtrer les données du cluster
    cluster_data = df_without_nan[df_without_nan['cluster'] == cluster]
    
    if len(cluster_data) > 0:
        X = cluster_data[['Consommation']]  # Features
        y = cluster_data['anomalie']  # Label (doit contenir 0, 1, 2)
        
        # Diviser les données en train et test
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        
        # Créer le modèle XGBoost pour classification multiclasse
        model = xgb.XGBClassifier(objective='multi:softmax', num_class=3, n_estimators=100, random_state=42)
        
        # Entraîner le modèle
        model.fit(X_train, y_train)
        
        # Prédire les anomalies
        y_pred = model.predict(X_test)
        
        # Évaluer le modèle
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Accuracy pour le Cluster {cluster}: {accuracy:.4f}")
        print("Classification Report:")
        print(classification_report(y_test, y_pred))
    
    else:
        print(f"Pas de données pour le cluster {cluster}.")




--- Modèle pour Cluster 0 ---
Accuracy pour le Cluster 0: 0.9950
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     38241
           1       0.83      0.44      0.58       296

    accuracy                           1.00     38537
   macro avg       0.92      0.72      0.79     38537
weighted avg       0.99      1.00      0.99     38537


--- Modèle pour Cluster 1 ---
Accuracy pour le Cluster 1: 0.9829
Classification Report:
              precision    recall  f1-score   support

           0       0.98      1.00      0.99     27965
           1       0.97      0.29      0.45       682

    accuracy                           0.98     28647
   macro avg       0.98      0.65      0.72     28647
weighted avg       0.98      0.98      0.98     28647


--- Modèle pour Cluster 2 ---
Accuracy pour le Cluster 2: 0.9946
Classification Report:
              precision    recall  f1-score   support

           0       0.99 