# 100 CLIENTS SEUIL :: 90e percentile

In [None]:
import pandas as pd
import itertools
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from math import sqrt
import numpy as np

# Charger et préparer les données
data = pd.read_csv(r"S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\preprocessedR90_FRAUDE_100_Client.csv", header=0, parse_dates=[0], index_col=0, squeeze=True)
df_transposed = data.set_index('CONS_NO').T
df_transposed.index = pd.to_datetime(df_transposed.index)

# Définir le seuil de pic
seuil_pic = 0.622

# Grid search configurations
p_range = range(0, 5)
d_range = range(0, 5)
q_range = range(0, 5)
pdq = list(itertools.product(p_range, d_range, q_range))

results = []

# Analyse pour chaque client
for cons_no, selected_data in df_transposed.iteritems():
    try:
        # Grid search pour ARIMA
        best_aic = float("inf")
        best_pdq = None
        for params in pdq:
            try:
                model = ARIMA(selected_data.dropna(), order=params)
                result = model.fit()
                if result.aic < best_aic:
                    best_aic = result.aic
                    best_pdq = params
            except:
                continue

        # Création et ajustement du modèle ARIMA
        model = ARIMA(selected_data.dropna(), order=best_pdq)
        model_fit = model.fit()

        # Faire des prédictions
        predictions = model_fit.predict(start=0, end=len(selected_data) - 1)

        # Identifier les pics
        real_pics = selected_data[selected_data > seuil_pic]
        pred_pics = predictions[selected_data > seuil_pic]

        # Calculer les différences
        differences = pred_pics - real_pics
        max_diff = differences.max()
        min_diff = differences.min()
        mean_diff = differences.mean()  # Calcul de la moyenne des différences

        # Stocker les résultats
        results.append({
            'CONS_NO': cons_no,
            'Max_Difference': max_diff,
            'Min_Difference': min_diff,
            'Mean_Difference': mean_diff,  # Ajout de la moyenne des différences
            'Number_of_Peaks': len(real_pics),
            'Estimated_Peak_Values': pred_pics.mean()  # Moyenne des valeurs estimées des pics
        })
    except Exception as e:
        print(f"Error processing {cons_no}: {e}")

# Convertir les résultats en DataFrame
results_df = pd.DataFrame(results)

# Chemin du fichier où vous souhaitez enregistrer les résultats
output_file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_100_Analysis.csv'

# Enregistrer le DataFrame dans un fichier CSV
results_df.to_csv(output_file_path, index=False)

print("Results saved to CSV file.")


# 100 CLIENTS SEUIL :: Validation Croisée

In [None]:
import pandas as pd
import itertools
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from math import sqrt
import numpy as np

# Charger et préparer les données
data = pd.read_csv(r"S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\preprocessedR90_FRAUDE_100_Client.csv", header=0, parse_dates=[0], index_col=0, squeeze=True)
df_transposed = data.set_index('CONS_NO').T
df_transposed.index = pd.to_datetime(df_transposed.index)

# Définir le seuil de pic
seuil_pic = 0.8

# Grid search configurations
p_range = range(0, 5)
d_range = range(0, 5)
q_range = range(0, 5)
pdq = list(itertools.product(p_range, d_range, q_range))

results = []

# Analyse pour chaque client
for cons_no, selected_data in df_transposed.iteritems():
    try:
        # Grid search pour ARIMA
        best_aic = float("inf")
        best_pdq = None
        for params in pdq:
            try:
                model = ARIMA(selected_data.dropna(), order=params)
                result = model.fit()
                if result.aic < best_aic:
                    best_aic = result.aic
                    best_pdq = params
            except:
                continue

        # Création et ajustement du modèle ARIMA
        model = ARIMA(selected_data.dropna(), order=best_pdq)
        model_fit = model.fit()

        # Faire des prédictions
        predictions = model_fit.predict(start=0, end=len(selected_data) - 1)

        # Identifier les pics
        real_pics = selected_data[selected_data > seuil_pic]
        pred_pics = predictions[selected_data > seuil_pic]

        # Calculer les différences
        differences = pred_pics - real_pics
        max_diff = differences.max()
        min_diff = differences.min()
        mean_diff = differences.mean()  # Calcul de la moyenne des différences

        # Stocker les résultats
        results.append({
            'CONS_NO': cons_no,
            'Max_Difference': max_diff,
            'Min_Difference': min_diff,
            'Mean_Difference': mean_diff,  # Ajout de la moyenne des différences
            'Number_of_Peaks': len(real_pics),
            'Estimated_Peak_Values': pred_pics.mean()  # Moyenne des valeurs estimées des pics
        })
    except Exception as e:
        print(f"Error processing {cons_no}: {e}")

# Convertir les résultats en DataFrame
results_df = pd.DataFrame(results)

# Chemin du fichier où vous souhaitez enregistrer les résultats
output_file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_SAUIL_ValidationCroise_100_Analysis.csv'

# Enregistrer le DataFrame dans un fichier CSV
results_df.to_csv(output_file_path, index=False)

print("Results saved to CSV file.")


# 100 CLIENTS SEUIL :: Modèle de Mélange Gaussien

In [None]:
import pandas as pd
import itertools
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from math import sqrt
import numpy as np

# Charger et préparer les données
data = pd.read_csv(r"S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\preprocessedR90_FRAUDE_100_Client.csv", header=0, parse_dates=[0], index_col=0, squeeze=True)
df_transposed = data.set_index('CONS_NO').T
df_transposed.index = pd.to_datetime(df_transposed.index)

# Définir le seuil de pic
seuil_pic = 0.34700620142162725

# Grid search configurations
p_range = range(0, 5)
d_range = range(0, 5)
q_range = range(0, 5)
pdq = list(itertools.product(p_range, d_range, q_range))

results = []

# Analyse pour chaque client
for cons_no, selected_data in df_transposed.iteritems():
    try:
        # Grid search pour ARIMA
        best_aic = float("inf")
        best_pdq = None
        for params in pdq:
            try:
                model = ARIMA(selected_data.dropna(), order=params)
                result = model.fit()
                if result.aic < best_aic:
                    best_aic = result.aic
                    best_pdq = params
            except:
                continue

        # Création et ajustement du modèle ARIMA
        model = ARIMA(selected_data.dropna(), order=best_pdq)
        model_fit = model.fit()

        # Faire des prédictions
        predictions = model_fit.predict(start=0, end=len(selected_data) - 1)

        # Identifier les pics
        real_pics = selected_data[selected_data > seuil_pic]
        pred_pics = predictions[selected_data > seuil_pic]

        # Calculer les différences
        differences = pred_pics - real_pics
        max_diff = differences.max()
        min_diff = differences.min()
        mean_diff = differences.mean()  # Calcul de la moyenne des différences

        # Stocker les résultats
        results.append({
            'CONS_NO': cons_no,
            'Max_Difference': max_diff,
            'Min_Difference': min_diff,
            'Mean_Difference': mean_diff,  # Ajout de la moyenne des différences
            'Number_of_Peaks': len(real_pics),
            'Estimated_Peak_Values': pred_pics.mean()  # Moyenne des valeurs estimées des pics
        })
    except Exception as e:
        print(f"Error processing {cons_no}: {e}")

# Convertir les résultats en DataFrame
results_df = pd.DataFrame(results)

# Chemin du fichier où vous souhaitez enregistrer les résultats
output_file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_SAUIL_Gaussien_100_Analysis.csv'

# Enregistrer le DataFrame dans un fichier CSV
results_df.to_csv(output_file_path, index=False)

print("Results saved to CSV file.")


# 100 CLIENTS SEUIL :: la Moyenne + Écart Type

In [None]:
import pandas as pd
import itertools
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from math import sqrt
import numpy as np

# Charger et préparer les données
data = pd.read_csv(r"S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\preprocessedR90_FRAUDE_100_Client.csv", header=0, parse_dates=[0], index_col=0, squeeze=True)
df_transposed = data.set_index('CONS_NO').T
df_transposed.index = pd.to_datetime(df_transposed.index)

# Définir le seuil de pic
seuil_pic = 0.7932744727771972

# Grid search configurations
p_range = range(0, 5)
d_range = range(0, 5)
q_range = range(0, 5)
pdq = list(itertools.product(p_range, d_range, q_range))

results = []

# Analyse pour chaque client
for cons_no, selected_data in df_transposed.iteritems():
    try:
        # Grid search pour ARIMA
        best_aic = float("inf")
        best_pdq = None
        for params in pdq:
            try:
                model = ARIMA(selected_data.dropna(), order=params)
                result = model.fit()
                if result.aic < best_aic:
                    best_aic = result.aic
                    best_pdq = params
            except:
                continue

        # Création et ajustement du modèle ARIMA
        model = ARIMA(selected_data.dropna(), order=best_pdq)
        model_fit = model.fit()

        # Faire des prédictions
        predictions = model_fit.predict(start=0, end=len(selected_data) - 1)

        # Identifier les pics
        real_pics = selected_data[selected_data > seuil_pic]
        pred_pics = predictions[selected_data > seuil_pic]

        # Calculer les différences
        differences = pred_pics - real_pics
        max_diff = differences.max()
        min_diff = differences.min()
        mean_diff = differences.mean()  # Calcul de la moyenne des différences

        # Stocker les résultats
        results.append({
            'CONS_NO': cons_no,
            'Max_Difference': max_diff,
            'Min_Difference': min_diff,
            'Mean_Difference': mean_diff,  # Ajout de la moyenne des différences
            'Number_of_Peaks': len(real_pics),
            'Estimated_Peak_Values': pred_pics.mean()  # Moyenne des valeurs estimées des pics
        })
    except Exception as e:
        print(f"Error processing {cons_no}: {e}")

# Convertir les résultats en DataFrame
results_df = pd.DataFrame(results)

# Chemin du fichier où vous souhaitez enregistrer les résultats
output_file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_SAUIL_EcartMean_100_Analysis.csv'

# Enregistrer le DataFrame dans un fichier CSV
results_df.to_csv(output_file_path, index=False)

print("Results saved to CSV file.")


In [None]:
import pandas as pd

# Charger les données depuis le fichier CSV
file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_SAUIL_ValidationCroise_100_Analysis.csv'
#file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_SAUIL_EcartMean_100_Analysis.csv'
#file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_100_Analysis.csv'
#file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_SAUIL_Gaussien_100_Analysis.csv'
results_df = pd.read_csv(file_path)

# Calcul du minimum des nombres de pics
min_number_of_peaks = results_df['Number_of_Peaks'].min()

# Calcul du maximum des nombres de pics
max_number_of_peaks = results_df['Number_of_Peaks'].max()

# Calcul du maximum des nombres de pics
mean_number_of_peaks = results_df['Number_of_Peaks'].mean()

# Calcul de l'intervalle pour Min_Difference et Max_Difference
interval_min_diff = results_df['Min_Difference'].min()
interval_max_diff = results_df['Max_Difference'].max()

# Calcul de moyenne des moyennes 
mean_diff = abs(results_df['Mean_Difference']).mean()

# Afficher les résultats calculés
print(f"Minimum Number of Peaks: {min_number_of_peaks}")
print(f"Maximum Number of Peaks: {max_number_of_peaks}")
print(f"Mean Number of Peaks: {mean_number_of_peaks}")
print(f"Interval for Differences: [{interval_min_diff}, {interval_max_diff}]")

print(f"Mean Mean diff: {mean_diff}")


# TEST DE VALISATION 

In [None]:
import pandas as pd

# Chemin vers les fichiers de données
file_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Results_FRAUDE_SAUIL_ValidationCroise_100_Analysis.csv'

# Charger le fichier
results_df = pd.read_csv(file_path)

# Seuil pour déterminer un pic de consommation
threshold = 0.8

# Charger les données non étiquetées
df_sans_flag = pd.read_csv(r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Validation_SansFLAG.csv')

# Fonction pour calculer le nombre de pics de consommation
def calculate_peaks(row, threshold):
    return (row.iloc[2:] > threshold).sum()

# Fonction pour calculer la moyenne de consommation
def calculate_mean(row):
    return (row.iloc[2:]).mean()

# Appliquer la fonction sur chaque ligne pour calculer le nombre de pics
df_sans_flag['Number_of_Peaks'] = df_sans_flag.apply(calculate_peaks, threshold=threshold, axis=1)

# Appliquer la fonction sur chaque ligne pour calculer la moyenne de consommation
df_sans_flag['Mean_Of_Consommation'] = df_sans_flag.apply(calculate_mean, axis=1)

# Calcul du maximum des nombres de pics
mean_number_of_peaks = results_df['Number_of_Peaks'].mean()

# Calcul de moyenne des moyennes 
mean_diff = abs(results_df['Mean_Difference']).mean()

# Filtrer les clients avec une moyenne de consommation supérieure à mean_diff
df_filtered = df_sans_flag[df_sans_flag['Mean_Of_Consommation'] > mean_diff]

# Étiqueter les données basées sur le nombre de pics et la moyenne de consommation
df_filtered['FLAG'] = df_filtered[['Number_of_Peaks', 'Mean_Of_Consommation']].apply(
    lambda row: 1 if row['Number_of_Peaks'] > mean_number_of_peaks else 0, axis=1)

# Sauvegarder le fichier avec les nouvelles étiquettes
output_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Validation_Etiquetee_CrossValidation.csv'
df_filtered.to_csv(output_path, index=False)

print("Données étiquetées et sauvegardées dans le fichier Validation_Etiquetee.csv.")
print(df_filtered[['CONS_NO', 'Number_of_Peaks', 'FLAG', 'Mean_Of_Consommation']].head())

In [None]:
import pandas as pd
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix, roc_curve, auc

# Chemin vers les fichiers de données étiquetées et les données brutes
output_path = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Validation_Etiquetee_CrossValidation.csv'
path_validation = r'S:\Mes documents\Bureau\PFE MID\Les articles\ElectricityTheftDetection\SmartGridFraudDetection-master\SmartGridFraudDetection-master\data\Validation10.csv'

# Charger le fichier étiqueté
df_etiquetee = pd.read_csv(output_path)

# Charger le fichier de données brutes
df_validation = pd.read_csv(path_validation)

# Vérifier la présence de la colonne 'FLAG' dans les deux DataFrames
if 'FLAG' not in df_validation.columns:
    raise ValueError("La colonne 'FLAG' est manquante dans le fichier de données brutes.")
if 'FLAG' not in df_etiquetee.columns:
    raise ValueError("La colonne 'FLAG' est manquante dans le fichier de données étiquetées.")

# S'assurer que les deux DataFrames sont triés de la même manière
df_etiquetee = df_etiquetee.sort_values(by='CONS_NO').reset_index(drop=True)
df_validation = df_validation.sort_values(by='CONS_NO').reset_index(drop=True)

# Vérifier les 'CONS_NO' présents dans les deux DataFrames
cons_no_common = df_etiquetee['CONS_NO'].isin(df_validation['CONS_NO'])

# Filtrer les DataFrames pour ne garder que les 'CONS_NO' communs
df_etiquetee = df_etiquetee[cons_no_common]
df_validation = df_validation[df_validation['CONS_NO'].isin(df_etiquetee['CONS_NO'])]

# S'assurer que les deux DataFrames sont alignés
df_etiquetee = df_etiquetee.sort_values(by='CONS_NO').reset_index(drop=True)
df_validation = df_validation.sort_values(by='CONS_NO').reset_index(drop=True)

# Comparer les étiquettes 'FLAG' dans les deux DataFrames
y_true = df_validation['FLAG']
y_pred = df_etiquetee['FLAG']

# Calculer les métriques de performance
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred, zero_division=0)
recall = recall_score(y_true, y_pred, zero_division=0)
f1 = f1_score(y_true, y_pred, zero_division=0)

print(f"Accuracy: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1:.2f}")

# 1. Histogramme des Correspondances et Non-Correspondances
match = y_true == y_pred
match_counts = match.value_counts()

plt.figure(figsize=(10, 6))
sns.barplot(x=match_counts.index, y=match_counts.values, palette='viridis')
plt.title('Correspondances et Non-Correspondances des Étiquettes')
plt.xlabel('Correspondance')
plt.ylabel('Nombre')
plt.xticks(ticks=[0, 1], labels=['Non-Correspondance', 'Correspondance'])
plt.show()

# 2. Matrice de Confusion
conf_matrix = confusion_matrix(y_true, y_pred)

plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Matrice de Confusion')
plt.xlabel('Étiquettes Prédites')
plt.ylabel('Étiquettes Réelles')
plt.show()

# 3. Courbe ROC et AUC
fpr, tpr, _ = roc_curve(y_true, y_pred)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taux de Faux Positifs')
plt.ylabel('Taux de Vrais Positifs')
plt.title('Courbe ROC')
plt.legend(loc='lower right')
plt.show()
