REDUCTION DU NOMBRE DE LIGNES DES DIFFERENTS DATASETS

In [None]:
import pandas as pd

# Liste des noms de fichiers avec les initiales suivies du chiffre dans leur nom
noms_fichiers = ['boiler_226.csv', 'computer_44.csv', 'dishwasher_53.csv', 'dryer_219.csv', 'fridge_284.csv', 'laptop_289.csv', 'tv_290.csv', 'vacuum_236.csv', 'washing_machine_343.csv']

# Nombre d'observations cibles pour chaque fichier
nombre_observation_cible = 2000

# Boucle sur chaque fichier CSV dans la liste
for nom_fichier in noms_fichiers:
    # Extraire les initiales du fichier de base
    initiales = ''.join([mot[0] for mot in nom_fichier.split('.')[:-1]])

    # Extraire le chiffre du nom de fichier
    chiffre = ''.join(filter(str.isdigit, nom_fichier))

    # Charger le fichier CSV
    df = pd.read_csv(nom_fichier)

    # Convertir la colonne 'timestamp' en type datetime
    df['timestamp'] = pd.to_datetime(df['timestamp'])

    # Trier le DataFrame par ordre chronologique
    df_sorted = df.sort_values(by='timestamp')

    # Récupérer toutes les valeurs uniques de la colonne 'power'
    valeurs_uniques = df_sorted['power'].unique()

    # Calculer le nombre d'occurrences de chaque valeur
    occurrences_par_valeur = df_sorted['power'].value_counts()

    # Créer une liste pour stocker les lignes sélectionnées
    lignes_selectionnees = []

    # Boucler sur chaque valeur unique et ajouter un nombre approprié de lignes à la liste
    for valeur in valeurs_uniques:
        lignes = df_sorted[df_sorted['power'] == valeur].sample(min(occurrences_par_valeur[valeur], nombre_observation_cible // len(valeurs_uniques)))
        lignes_selectionnees.append(lignes)

    # Concaténer les lignes sélectionnées en un seul DataFrame
    df_echantillon = pd.concat(lignes_selectionnees)

    # Si le nombre d'observations est inférieur à 2000, échantillonner aléatoirement davantage de lignes
    if len(df_echantillon) < nombre_observation_cible:
        df_echantillon = pd.concat([df_echantillon, df_sorted.sample(n=nombre_observation_cible-len(df_echantillon))])

    # Réinitialiser l'index pour avoir une nouvelle indexation à partir de 0
    df_echantillon = df_echantillon.reset_index(drop=True)

    # Spécifier le nom du nouveau fichier CSV
    nom_nouveau_fichier = initiales + '_' + chiffre + '_reduits.csv'

    # Écrire les données échantillonnées dans le nouveau fichier CSV
    df_echantillon.to_csv(nom_nouveau_fichier, index=False)

    print("Les données échantillonnées ont été écrites dans", nom_nouveau_fichier)


In [3]:
import os
file_name = 'boiler_226.csv'
datasets_path = "./datasets/raw/"
full_path = os.path.join(datasets_path, file_name)

In [4]:
import pandas as pd
boiler_data = pd.read_csv(full_path, parse_dates=True,index_col='timestamp') # Remplacer la colonne des index par celle de 'timestamp'

In [5]:
boiler_data.head()

Unnamed: 0_level_0,power
timestamp,Unnamed: 1_level_1
2021-02-18 05:28:53+00:00,1.0
2021-02-18 05:28:54+00:00,1.0
2021-02-18 05:28:55+00:00,1.0
2021-02-18 05:28:56+00:00,1.0
2021-02-18 05:28:57+00:00,1.0


In [6]:
boiler_data

Unnamed: 0_level_0,power
timestamp,Unnamed: 1_level_1
2021-02-18 05:28:53+00:00,1.0
2021-02-18 05:28:54+00:00,1.0
2021-02-18 05:28:55+00:00,1.0
2021-02-18 05:28:56+00:00,1.0
2021-02-18 05:28:57+00:00,1.0
...,...
2021-03-20 05:28:48+00:00,1.0
2021-03-20 05:28:49+00:00,1.0
2021-03-20 05:28:50+00:00,1.0
2021-03-20 05:28:51+00:00,1.0


In [53]:
boiler_data.resample('10min').sum()

Unnamed: 0_level_0,power
timestamp,Unnamed: 1_level_1
2021-02-18 05:20:00+00:00,0.671642
2021-02-18 05:30:00+00:00,0.550000
2021-02-18 05:40:00+00:00,0.594167
2021-02-18 05:50:00+00:00,0.375000
2021-02-18 06:00:00+00:00,0.236667
...,...
2021-03-20 04:40:00+00:00,1.000000
2021-03-20 04:50:00+00:00,1.000000
2021-03-20 05:00:00+00:00,1.000000
2021-03-20 05:10:00+00:00,1.000000


In [None]:
boiler_data.resample('10min').sum()

In [55]:
2592000/600

4320.0

In [14]:
# Resampling the data with mean function

import pandas as pd

# read csv file
boiler_data = pd.read_csv(full_path, parse_dates=['timestamp'],index_col='timestamp')

# Resampling data all 10 minutes
df_resampled = boiler_data.resample('10T').mean()

# save the new dataframe in a new csv file
df_resampled.to_csv('bouilloire.csv')

# Display data
print(df_resampled)


                              power
timestamp                          
2021-02-18 05:20:00+00:00  0.671642
2021-02-18 05:30:00+00:00  0.550000
2021-02-18 05:40:00+00:00  0.594167
2021-02-18 05:50:00+00:00  0.375000
2021-02-18 06:00:00+00:00  0.236667
...                             ...
2021-03-20 04:40:00+00:00  1.000000
2021-03-20 04:50:00+00:00  1.000000
2021-03-20 05:00:00+00:00  1.000000
2021-03-20 05:10:00+00:00  1.000000
2021-03-20 05:20:00+00:00  1.000000

[4321 rows x 1 columns]


In [13]:
# Resampling the data with sum function
import pandas as pd

# read csv file
boiler_data = pd.read_csv(full_path, parse_dates=['timestamp'],index_col='timestamp')

# Resampling data all 10 minutes
df_resampled = boiler_data.resample('10T').sum()

# save the new dataframe in a new csv file
df_resampled.to_csv('chauffe_eau.csv')

# Display data
print(df_resampled)

                           power
timestamp                       
2021-02-18 05:20:00+00:00   45.0
2021-02-18 05:30:00+00:00  330.0
2021-02-18 05:40:00+00:00  356.5
2021-02-18 05:50:00+00:00  225.0
2021-02-18 06:00:00+00:00  142.0
...                          ...
2021-03-20 04:40:00+00:00  600.0
2021-03-20 04:50:00+00:00  600.0
2021-03-20 05:00:00+00:00  600.0
2021-03-20 05:10:00+00:00  600.0
2021-03-20 05:20:00+00:00  533.0

[4321 rows x 1 columns]


Apply ADPC on new dtaset pretreated 

In [15]:
# Importer des modules
import numpy as np
import pandas as pd
from scipy.spatial.distance import cdist
import time

def calculate_power_sequence(power_consumption_sequence, rho_threshold, delta_threshold, d_c):
    # Initialisation des variables
    num_time_steps = len(power_consumption_sequence)
    rho_values = np.zeros(num_time_steps)
    delta_values = np.zeros(num_time_steps)

    # Calcul des distances entre toutes les paires de valeurs de consommation d'énergie
    distance_matrix = cdist(power_consumption_sequence.reshape(-1, 1), power_consumption_sequence.reshape(-1, 1), metric='euclidean')
    
    # Calcul des valeurs rho
    for i in range(1, num_time_steps):
        for j in range(i + 1, num_time_steps):
            rho_values[i] += chi(distance_matrix[i, j] - d_c)
            rho_values[j] += chi(distance_matrix[i, j] - d_c)

    # Trier les indices par valeurs rho dans l'ordre décroissant
    sorted_indices = np.argsort(-rho_values)

    # Calcul des valeurs delta
    delta_values.fill(np.max(distance_matrix) * num_time_steps)
    delta_values[sorted_indices[0]] = -1
    for i in range(1, num_time_steps):
        for j in range(i):
            if distance_matrix[sorted_indices[i], sorted_indices[j]] < delta_values[sorted_indices[i]]:
                delta_values[sorted_indices[i]] = distance_matrix[sorted_indices[i], sorted_indices[j]]

    delta_values[sorted_indices[0]] = np.max(delta_values)

    # Déterminer la séquence de puissance correspondant aux différents états de fonctionnement de l'appareil
    power_sequence = [power_consumption_sequence[i] for i in range(num_time_steps) if rho_values[i] > rho_threshold and delta_values[i] > delta_threshold]
    num_working_states = len(power_sequence)

    return sorted(power_sequence), num_working_states  # Tri des valeurs avant de les retourner


def chi(x) :
    
    return x 


# Liste des noms de fichiers CSV à lire
file_names = ['bouilloire.csv']

# Créer un DataFrame vide pour stocker les résultats
results_df = pd.DataFrame(columns=["device", "real_power", "num_states"])

# Mesurer le temps d'exécution total
total_start_time = time.time()

# Boucle à travers chaque fichier
for file_name in file_names:
    # Lire le fichier CSV dans un DataFrame
    df = pd.read_csv(file_name)
    
    # Obtenir la séquence de consommation d'énergie
    power_consumption_sequence = df['power'].values
    
    # Définissez vos paramètres spécifiques ici
    rho_threshold = 0.01 * (len(power_consumption_sequence) - max(power_consumption_sequence))
    delta_threshold = 0.1 * (max(power_consumption_sequence))
    d_c = 5
    
    # Mesurer le temps d'exécution pour chaque itération
    start_time = time.time()
    
    # Appeler la fonction calculate_power_sequence avec vos paramètres
    power_sequence, num_working_states = calculate_power_sequence(power_consumption_sequence, rho_threshold, delta_threshold, d_c)
    
    # Ajouter les résultats au DataFrame
    results_df = pd.concat([results_df, pd.DataFrame({"device": [file_name.split('_')[0]], 
                                                       "real_power": [power_sequence], 
                                                       "num_states": [num_working_states]})], ignore_index=True)

# Trier les valeurs à l'intérieur de chaque liste de résultats par ordre croissant
results_df['real_power'] = results_df['real_power'].apply(sorted)

# Mesurer le temps d'exécution total
total_execution_time = time.time() - total_start_time

# Stocker les résultats dans un nouveau fichier CSV
results_df.to_csv("new_dataset_appliances.csv", index=False)

# Afficher le DataFrame
print(results_df)

# Signes de démarcation
print('='*60)

# Afficher le temps d'exécution total
print(f"Total computational time: {total_execution_time:.4f} seconds")


           device real_power num_states
0  bouilloire.csv         []          0
Total computational time: 17.8730 seconds


In [16]:
import os
file_name = 'dishwasher_53.csv'
datasets_path = "./datasets/raw/"
full_path = os.path.join(datasets_path, file_name)

In [17]:
import pandas as pd
dw_data = pd.read_csv(full_path, parse_dates=True,index_col='timestamp') # Remplacer la colonne des index par celle de 'timestamp'

In [18]:
dw_data.head()

Unnamed: 0_level_0,power
timestamp,Unnamed: 1_level_1
2021-01-18 00:51:25+00:00,2.0
2021-01-18 00:51:26+00:00,2.0
2021-01-18 00:51:27+00:00,2.0
2021-01-18 00:51:28+00:00,2.0
2021-01-18 00:51:29+00:00,2.0


In [19]:
dw_data

Unnamed: 0_level_0,power
timestamp,Unnamed: 1_level_1
2021-01-18 00:51:25+00:00,2.0
2021-01-18 00:51:26+00:00,2.0
2021-01-18 00:51:27+00:00,2.0
2021-01-18 00:51:28+00:00,2.0
2021-01-18 00:51:29+00:00,2.0
...,...
2021-02-17 00:51:21+00:00,3.0
2021-02-17 00:51:22+00:00,3.0
2021-02-17 00:51:23+00:00,3.0
2021-02-17 00:51:24+00:00,3.0


In [20]:
# Resampling the data with mean function

import pandas as pd

# read csv file
dw_data = pd.read_csv(full_path, parse_dates=['timestamp'],index_col='timestamp')

# Resampling data all 10 minutes
df_resampled = dw_data.resample('10T').mean()

# save the new dataframe in a new csv file
df_resampled.to_csv('lave_vaissel.csv')

# Display data
print(df_resampled)


                              power
timestamp                          
2021-01-18 00:50:00+00:00  2.671845
2021-01-18 01:00:00+00:00  2.650833
2021-01-18 01:10:00+00:00  2.642500
2021-01-18 01:20:00+00:00  2.774167
2021-01-18 01:30:00+00:00  2.693750
...                             ...
2021-02-17 00:10:00+00:00  2.765000
2021-02-17 00:20:00+00:00  2.770833
2021-02-17 00:30:00+00:00  2.887500
2021-02-17 00:40:00+00:00  2.847500
2021-02-17 00:50:00+00:00  2.854651

[4321 rows x 1 columns]


In [21]:
# Resampling the data with mean function

import pandas as pd

# read csv file
dw_data = pd.read_csv(full_path, parse_dates=['timestamp'],index_col='timestamp')

# Resampling data all 10 minutes
df_resampled = dw_data.resample('10T').sum()

# save the new dataframe in a new csv file
df_resampled.to_csv('l_v.csv')

# Display data
print(df_resampled)

                             power
timestamp                         
2021-01-18 00:50:00+00:00  1376.00
2021-01-18 01:00:00+00:00  1590.50
2021-01-18 01:10:00+00:00  1585.50
2021-01-18 01:20:00+00:00  1664.50
2021-01-18 01:30:00+00:00  1616.25
...                            ...
2021-02-17 00:10:00+00:00  1659.00
2021-02-17 00:20:00+00:00  1662.50
2021-02-17 00:30:00+00:00  1732.50
2021-02-17 00:40:00+00:00  1708.50
2021-02-17 00:50:00+00:00   245.50

[4321 rows x 1 columns]


In [22]:
# Importer des modules
import numpy as np
import pandas as pd
from scipy.spatial.distance import cdist
import time

def calculate_power_sequence(power_consumption_sequence, rho_threshold, delta_threshold, d_c):
    # Initialisation des variables
    num_time_steps = len(power_consumption_sequence)
    rho_values = np.zeros(num_time_steps)
    delta_values = np.zeros(num_time_steps)

    # Calcul des distances entre toutes les paires de valeurs de consommation d'énergie
    distance_matrix = cdist(power_consumption_sequence.reshape(-1, 1), power_consumption_sequence.reshape(-1, 1), metric='euclidean')
    
    # Calcul des valeurs rho
    for i in range(1, num_time_steps):
        for j in range(i + 1, num_time_steps):
            rho_values[i] += chi(distance_matrix[i, j] - d_c)
            rho_values[j] += chi(distance_matrix[i, j] - d_c)

    # Trier les indices par valeurs rho dans l'ordre décroissant
    sorted_indices = np.argsort(-rho_values)

    # Calcul des valeurs delta
    delta_values.fill(np.max(distance_matrix) * num_time_steps)
    delta_values[sorted_indices[0]] = -1
    for i in range(1, num_time_steps):
        for j in range(i):
            if distance_matrix[sorted_indices[i], sorted_indices[j]] < delta_values[sorted_indices[i]]:
                delta_values[sorted_indices[i]] = distance_matrix[sorted_indices[i], sorted_indices[j]]

    delta_values[sorted_indices[0]] = np.max(delta_values)

    # Déterminer la séquence de puissance correspondant aux différents états de fonctionnement de l'appareil
    power_sequence = [power_consumption_sequence[i] for i in range(num_time_steps) if rho_values[i] > rho_threshold and delta_values[i] > delta_threshold]
    num_working_states = len(power_sequence)

    return sorted(power_sequence), num_working_states  # Tri des valeurs avant de les retourner


def chi(x) :
    
    return x 


# Liste des noms de fichiers CSV à lire
file_names = ['lave_vaissel.csv']

# Créer un DataFrame vide pour stocker les résultats
results_df = pd.DataFrame(columns=["device", "real_power", "num_states"])

# Mesurer le temps d'exécution total
total_start_time = time.time()

# Boucle à travers chaque fichier
for file_name in file_names:
    # Lire le fichier CSV dans un DataFrame
    df = pd.read_csv(file_name)
    
    # Obtenir la séquence de consommation d'énergie
    power_consumption_sequence = df['power'].values
    
    # Définissez vos paramètres spécifiques ici
    rho_threshold = 0.01 * (len(power_consumption_sequence) - max(power_consumption_sequence))
    delta_threshold = 0.1 * (max(power_consumption_sequence))
    d_c = 5
    
    # Mesurer le temps d'exécution pour chaque itération
    start_time = time.time()
    
    # Appeler la fonction calculate_power_sequence avec vos paramètres
    power_sequence, num_working_states = calculate_power_sequence(power_consumption_sequence, rho_threshold, delta_threshold, d_c)
    
    # Ajouter les résultats au DataFrame
    results_df = pd.concat([results_df, pd.DataFrame({"device": [file_name.split('_')[0]], 
                                                       "real_power": [power_sequence], 
                                                       "num_states": [num_working_states]})], ignore_index=True)

# Trier les valeurs à l'intérieur de chaque liste de résultats par ordre croissant
results_df['real_power'] = results_df['real_power'].apply(sorted)

# Mesurer le temps d'exécution total
total_execution_time = time.time() - total_start_time

# Stocker les résultats dans un nouveau fichier CSV
results_df.to_csv("new_dataset_appliances.csv", index=False)

# Afficher le DataFrame
print(results_df)

# Signes de démarcation
print('='*60)

# Afficher le temps d'exécution total
print(f"Total computational time: {total_execution_time:.4f} seconds")


  device real_power num_states
0   lave         []          0
Total computational time: 17.2169 seconds
