In [30]:
import pandas as pd
import numpy as np 
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [31]:
full_dataset = pd.read_csv('./full_dataset.csv', delimiter=';')

In [32]:
full_dataset.shape

(10871, 165)

In [33]:
print(full_dataset.columns.tolist())

['date', 'production', 'latitude', 'longitude', 'vmp', 'imp', 'voc', 'isc', 'p_per_m2', 'p_max', 'panel_area', 'facade_area', 'total_panel_area', 'exploitation_ratio', 'air_temp_mean', 'air_temp_std', 'air_temp_min', 'air_temp_q1', 'air_temp_q2', 'air_temp_q3', 'air_temp_max', 'albedo_mean', 'albedo_std', 'albedo_min', 'albedo_q1', 'albedo_q2', 'albedo_q3', 'albedo_max', 'azimuth_mean', 'azimuth_std', 'azimuth_min', 'azimuth_q1', 'azimuth_q2', 'azimuth_q3', 'azimuth_max', 'clearsky_dhi_mean', 'clearsky_dhi_std', 'clearsky_dhi_min', 'clearsky_dhi_q1', 'clearsky_dhi_q2', 'clearsky_dhi_q3', 'clearsky_dhi_max', 'clearsky_dni_mean', 'clearsky_dni_std', 'clearsky_dni_min', 'clearsky_dni_q1', 'clearsky_dni_q2', 'clearsky_dni_q3', 'clearsky_dni_max', 'clearsky_ghi_mean', 'clearsky_ghi_std', 'clearsky_ghi_min', 'clearsky_ghi_q1', 'clearsky_ghi_q2', 'clearsky_ghi_q3', 'clearsky_ghi_max', 'clearsky_gti_mean', 'clearsky_gti_std', 'clearsky_gti_min', 'clearsky_gti_q1', 'clearsky_gti_q2', 'clearsky_

### Suppression des colonnes inutiles

In [34]:
cols_to_drop = [
    'latitude', 'longitude', 'vmp', 'imp', 'voc', 'isc', 'p_max', 'exploitation_ratio',
    'air_temp_min', 'air_temp_q1', 'air_temp_q2', 'air_temp_q3', 'air_temp_max',
    'albedo_mean', 'albedo_std', 'albedo_min', 'albedo_q1', 'albedo_q2', 'albedo_q3', 'albedo_max',
    'azimuth_mean', 'azimuth_std', 'azimuth_min', 'azimuth_q1', 'azimuth_q2', 'azimuth_q3', 'azimuth_max',
    'clearsky_dhi_mean', 'clearsky_dhi_std', 'clearsky_dhi_min', 'clearsky_dhi_q1', 'clearsky_dhi_q2',
    'clearsky_dhi_q3', 'clearsky_dhi_max', 'clearsky_dni_mean', 'clearsky_dni_std', 'clearsky_dni_min',
    'clearsky_dni_q1', 'clearsky_dni_q2', 'clearsky_dni_q3', 'clearsky_dni_max', 'clearsky_ghi_mean',
    'clearsky_ghi_std', 'clearsky_ghi_min', 'clearsky_ghi_q1', 'clearsky_ghi_q2', 'clearsky_ghi_q3',
    'clearsky_ghi_max', 'clearsky_gti_mean', 'clearsky_gti_std', 'clearsky_gti_min',
    'clearsky_gti_q1', 'clearsky_gti_q2', 'clearsky_gti_q3', 'clearsky_gti_max',
    'cloud_opacity_std',
    'dewpoint_temp_mean', 'dewpoint_temp_std', 'dewpoint_temp_min', 'dewpoint_temp_q1',
    'dewpoint_temp_q2', 'dewpoint_temp_q3', 'dewpoint_temp_max',
    'dhi_mean', 'dhi_std', 'dhi_min', 'dhi_q1', 'dhi_q2', 'dhi_q3', 'dhi_max',
    'dni_min', 'dni_q1', 'dni_q2',
    'gti_min', 'gti_q1', 'gti_q2',
    'ghi_min', 'ghi_q1', 'ghi_q2',
    'precipitable_water_mean', 'precipitable_water_std', 'precipitable_water_min',
    'precipitable_water_q1', 'precipitable_water_q2', 'precipitable_water_q3',
    'precipitable_water_max', 'precipitation_rate_mean', 'precipitation_rate_std',
    'precipitation_rate_min', 'precipitation_rate_q1', 'precipitation_rate_q2',
    'precipitation_rate_q3', 'precipitation_rate_max',
    'relative_humidity_max', 'relative_humidity_q2', 'relative_humidity_q3',
    'surface_pressure_mean', 'surface_pressure_std', 'surface_pressure_min', 'surface_pressure_q1',
    'surface_pressure_q2', 'surface_pressure_q3', 'surface_pressure_max',
    'wind_direction_100m_mean', 'wind_direction_100m_std', 'wind_direction_100m_min',
    'wind_direction_100m_q1', 'wind_direction_100m_q2', 'wind_direction_100m_q3',
    'wind_direction_100m_max', 'wind_direction_10m_mean', 'wind_direction_10m_std',
    'wind_direction_10m_min', 'wind_direction_10m_q1', 'wind_direction_10m_q2',
    'wind_direction_10m_q3', 'wind_direction_10m_max',
    'wind_speed_100m_mean', 'wind_speed_100m_std', 'wind_speed_100m_min',
    'wind_speed_100m_q1', 'wind_speed_100m_q2', 'wind_speed_100m_q3', 'wind_speed_100m_max',
    'wind_speed_10m_mean', 'wind_speed_10m_std', 'wind_speed_10m_min',
    'wind_speed_10m_q1', 'wind_speed_10m_q2', 'wind_speed_10m_q3', 'wind_speed_10m_max',
     'day', 'month', 'year'
]


In [35]:
full_dataset_cleaned_columns = full_dataset.drop(columns=cols_to_drop, axis=1)


In [36]:
full_dataset_cleaned_columns.shape

(10871, 31)

In [37]:
print(full_dataset_cleaned_columns.columns.tolist())

['date', 'production', 'p_per_m2', 'panel_area', 'facade_area', 'total_panel_area', 'air_temp_mean', 'air_temp_std', 'cloud_opacity_mean', 'cloud_opacity_min', 'cloud_opacity_q1', 'cloud_opacity_q2', 'cloud_opacity_q3', 'cloud_opacity_max', 'dni_mean', 'dni_std', 'dni_q3', 'dni_max', 'ghi_mean', 'ghi_std', 'ghi_q3', 'ghi_max', 'gti_mean', 'gti_std', 'gti_q3', 'gti_max', 'relative_humidity_mean', 'relative_humidity_std', 'relative_humidity_min', 'relative_humidity_q1', 'building_id']


### dealing with columns type 

In [38]:
full_dataset_cleaned_columns.dtypes.to_dict()

{'date': dtype('O'),
 'production': dtype('float64'),
 'p_per_m2': dtype('float64'),
 'panel_area': dtype('float64'),
 'facade_area': dtype('float64'),
 'total_panel_area': dtype('float64'),
 'air_temp_mean': dtype('float64'),
 'air_temp_std': dtype('float64'),
 'cloud_opacity_mean': dtype('float64'),
 'cloud_opacity_min': dtype('float64'),
 'cloud_opacity_q1': dtype('float64'),
 'cloud_opacity_q2': dtype('float64'),
 'cloud_opacity_q3': dtype('float64'),
 'cloud_opacity_max': dtype('float64'),
 'dni_mean': dtype('float64'),
 'dni_std': dtype('float64'),
 'dni_q3': dtype('float64'),
 'dni_max': dtype('int64'),
 'ghi_mean': dtype('float64'),
 'ghi_std': dtype('float64'),
 'ghi_q3': dtype('float64'),
 'ghi_max': dtype('int64'),
 'gti_mean': dtype('float64'),
 'gti_std': dtype('float64'),
 'gti_q3': dtype('float64'),
 'gti_max': dtype('int64'),
 'relative_humidity_mean': dtype('float64'),
 'relative_humidity_std': dtype('float64'),
 'relative_humidity_min': dtype('float64'),
 'relative_hu

In [39]:
full_dataset_cleaned_columns["date"] = pd.to_datetime(full_dataset_cleaned_columns["date"], format="%d/%m/%Y")

In [40]:
full_dataset_cleaned_columns.dtypes.to_dict()

{'date': dtype('<M8[ns]'),
 'production': dtype('float64'),
 'p_per_m2': dtype('float64'),
 'panel_area': dtype('float64'),
 'facade_area': dtype('float64'),
 'total_panel_area': dtype('float64'),
 'air_temp_mean': dtype('float64'),
 'air_temp_std': dtype('float64'),
 'cloud_opacity_mean': dtype('float64'),
 'cloud_opacity_min': dtype('float64'),
 'cloud_opacity_q1': dtype('float64'),
 'cloud_opacity_q2': dtype('float64'),
 'cloud_opacity_q3': dtype('float64'),
 'cloud_opacity_max': dtype('float64'),
 'dni_mean': dtype('float64'),
 'dni_std': dtype('float64'),
 'dni_q3': dtype('float64'),
 'dni_max': dtype('int64'),
 'ghi_mean': dtype('float64'),
 'ghi_std': dtype('float64'),
 'ghi_q3': dtype('float64'),
 'ghi_max': dtype('int64'),
 'gti_mean': dtype('float64'),
 'gti_std': dtype('float64'),
 'gti_q3': dtype('float64'),
 'gti_max': dtype('int64'),
 'relative_humidity_mean': dtype('float64'),
 'relative_humidity_std': dtype('float64'),
 'relative_humidity_min': dtype('float64'),
 'relat

In [41]:
full_dataset_cleaned_columns['date'].max()

Timestamp('2023-03-31 00:00:00')

## Creation des dataset (csv)
### all_data

In [42]:
dataset_cleaned = full_dataset_cleaned_columns.copy()
dataset_cleaned = dataset_cleaned.drop(columns = ['date', 'building_id'], axis=1)
dataset_cleaned.dtypes.to_dict()

{'production': dtype('float64'),
 'p_per_m2': dtype('float64'),
 'panel_area': dtype('float64'),
 'facade_area': dtype('float64'),
 'total_panel_area': dtype('float64'),
 'air_temp_mean': dtype('float64'),
 'air_temp_std': dtype('float64'),
 'cloud_opacity_mean': dtype('float64'),
 'cloud_opacity_min': dtype('float64'),
 'cloud_opacity_q1': dtype('float64'),
 'cloud_opacity_q2': dtype('float64'),
 'cloud_opacity_q3': dtype('float64'),
 'cloud_opacity_max': dtype('float64'),
 'dni_mean': dtype('float64'),
 'dni_std': dtype('float64'),
 'dni_q3': dtype('float64'),
 'dni_max': dtype('int64'),
 'ghi_mean': dtype('float64'),
 'ghi_std': dtype('float64'),
 'ghi_q3': dtype('float64'),
 'ghi_max': dtype('int64'),
 'gti_mean': dtype('float64'),
 'gti_std': dtype('float64'),
 'gti_q3': dtype('float64'),
 'gti_max': dtype('int64'),
 'relative_humidity_mean': dtype('float64'),
 'relative_humidity_std': dtype('float64'),
 'relative_humidity_min': dtype('float64'),
 'relative_humidity_q1': dtype('fl

In [43]:
dataset_cleaned.shape

(10871, 29)

In [44]:
dataset_cleaned.to_csv('./scaled_dataset.csv', index=False)

### group by month (month_year)

Cette méthode agrège les données par bâtiment et par mois/année pour calculer la moyenne et la médiane mensuelles. Elle permet de simplifier le dataset en réduisant le nombre de lignes tout en conservant une vue globale et régulière de l’évolution des indicateurs sur le temps.

In [45]:
dataset_month_year = full_dataset_cleaned_columns.copy()

dataset_month_year["month_year"] = dataset_month_year["date"].dt.strftime("%Y-%m")

# Calculer la moyenne et la médiane
mean_values = dataset_month_year.groupby(["building_id", "month_year"]).mean().reset_index()
median_values = dataset_month_year.groupby(["building_id", "month_year"]).median().reset_index()

# Ajouter une colonne 'stat_type' pour identifier les types de stats
mean_values["stat_type"] = "mean"
median_values["stat_type"] = "median"

# Concaténer les deux DataFrames pour avoir les statistiques sous forme de lignes
dataset_month_year = pd.concat([mean_values, median_values])

# Trier les valeurs pour garder un bon ordre d'affichage
dataset_month_year = dataset_month_year.sort_values(by=["building_id", "month_year", "stat_type"])
dataset_month_year.shape

(726, 33)

In [46]:
dataset_month_year = dataset_month_year.drop(columns = ['building_id', 'month_year', 'date', 'stat_type'])

In [47]:
dataset_month_year.shape

(726, 29)

In [48]:
dataset_month_year.to_csv('./mouth_year.csv', index=False)

### group by week (year_week)

Cette approche regroupe les données par bâtiment et par semaine de l'année, afin de calculer la moyenne et la médiane hebdomadaire de chaque variable. Elle permet de lisser les fluctuations quotidiennes tout en conservant une granularité temporelle utile pour l’analyse de tendances.

In [49]:
dataset_year_week = full_dataset_cleaned_columns.copy()

dataset_year_week["year_week"] = dataset_year_week["date"].dt.strftime("%Y-%U")

# Calculer la moyenne et la médiane
mean_values = dataset_year_week.groupby(["building_id", "year_week"]).mean().reset_index()
median_values = dataset_year_week.groupby(["building_id", "year_week"]).median().reset_index()

# Ajouter une colonne 'stat_type' pour identifier les types de stats
mean_values["stat_type"] = "mean"
median_values["stat_type"] = "median"

# Concaténer les deux DataFrames pour avoir les statistiques sous forme de lignes
dataset_year_week = pd.concat([mean_values, median_values])

# Trier les valeurs pour garder un bon ordre d'affichage
dataset_year_week = dataset_year_week.sort_values(by=["building_id", "year_week", "stat_type"])
dataset_year_week.shape

(3174, 33)

In [50]:
dataset_year_week = dataset_year_week.drop(columns = ['building_id', 'year_week', 'date', 'stat_type'])

In [51]:
dataset_year_week.shape

(3174, 29)

In [52]:
dataset_year_week.to_csv('./year_week.csv', index=False)

### group by day (day_month)

Cette logique regroupe les données par bâtiment et par jour/mois (sans tenir compte de l'année) afin de calculer la moyenne et la médiane pour chaque groupe. Cela permet de lisser les variations journalières sur plusieurs années et de réduire le nombre total de lignes tout en conservant une vue représentative des tendances.

In [53]:
dataset_day_month = full_dataset_cleaned_columns.copy()

dataset_day_month["day_month"] = dataset_day_month["date"].dt.strftime("%d-%m")

# Calculer la moyenne et la médiane
mean_values = dataset_day_month.groupby(["building_id", "day_month"]).mean().reset_index()
median_values = dataset_day_month.groupby(["building_id", "day_month"]).median().reset_index()

# Ajouter une colonne 'stat_type' pour identifier les types de stats
mean_values["stat_type"] = "mean"
median_values["stat_type"] = "median"

# Concaténer les deux DataFrames pour avoir les statistiques sous forme de lignes
dataset_day_month = pd.concat([mean_values, median_values])

# Trier les valeurs pour garder un bon ordre d'affichage
dataset_day_month = dataset_day_month.sort_values(by=["building_id", "day_month", "stat_type"])
dataset_day_month.shape

(6586, 33)

In [54]:
dataset_day_month = dataset_day_month.drop(columns = ['building_id', 'day_month', 'date', 'stat_type'])

In [55]:
dataset_day_month.shape

(6586, 29)

In [56]:
dataset_day_month.to_csv('./day_month.csv', index=False)

# Création des fichiers CSV par bâtiment

Ce code sépare les données nettoyées en fichiers CSV distincts pour chaque bâtiment.

In [57]:
import os
os.makedirs("A - CSV par bâtiment", exist_ok=True)

# Séparer les données nettoyées par bâtiment
for building_id in range(1, 10):
    group = full_dataset_cleaned_columns[full_dataset_cleaned_columns["building_id"] == building_id]
    group = group.drop(columns = ['date', 'building_id'], axis=1)
    group.to_csv(f"A - CSV par bâtiment/batiment_{building_id}.csv", index=False)



# Création des fichiers CSV de statistiques hebdomadaires par bâtiment

Ce code calcule la moyenne et la médiane des données pour chaque semaine de l'année, puis sépare ces statistiques par bâtiment dans des fichiers CSV distincts.

In [58]:
import os
os.makedirs("B - CSV Statistiques Hebdomadaires par Bâtiment", exist_ok=True)

# Créer une copie du DataFrame avant la suppression des colonnes
dataset_year_week_with_id = full_dataset_cleaned_columns.copy()

dataset_year_week_with_id["year_week"] = dataset_year_week_with_id["date"].dt.strftime("%Y-%U")

# Calculer la moyenne et la médiane
mean_values = dataset_year_week_with_id.groupby(["building_id", "year_week"]).mean().reset_index()
median_values = dataset_year_week_with_id.groupby(["building_id", "year_week"]).median().reset_index()

# Ajouter une colonne 'stat_type' pour identifier les types de stats
mean_values["stat_type"] = "mean"
median_values["stat_type"] = "median"

# Concaténer les deux DataFrames pour avoir les statistiques sous forme de lignes
dataset_year_week_with_id = pd.concat([mean_values, median_values])

# Pour chaque bâtiment
for building_id in range(1, 10):
    # Filtrer les données pour le bâtiment actuel
    building_data = dataset_year_week_with_id[dataset_year_week_with_id["building_id"] == building_id].copy()
    
    # Supprimer les colonnes date et building_id
    building_data = building_data.drop(columns=['date', 'building_id', 'year_week'])
    
    # Sauvegarder dans un fichier CSV
    building_data.to_csv(f"B - CSV Statistiques Hebdomadaires par Bâtiment/batiment_{building_id}_year_week.csv", index=False)

print("Les fichiers CSV de statistiques hebdomadaires par bâtiment ont été créés avec succès!")

Les fichiers CSV de statistiques hebdomadaires par bâtiment ont été créés avec succès!
