# Prédiction de Consommation Énergétique en kWh et Détection des Heures de Pic

## Résumé Exécutif

Ce projet vise à développer des modèles d'apprentissage automatique pour **prédire la consommation électrique totale (en kWh)** des bâtiments résidentiels marocains et **détecter les heures de pic énergétique**. En combinant techniques de régression et classification, nous cherchons à fournir des outils permettant une meilleure gestion de l'énergie, l'optimisation des tarifs d'électricité et la planification des ressources énergétiques.



## Objectifs Principaux

### 1. **Prédiction de Consommation Énergétique**

Développer un modèle de régression capable de **prédire la consommation électrique totale (y)** en kilowatts-heures (kWh) pour une période donnée (minute, heure, ou jour).

**Sous-objectifs :**
- Modéliser les patterns temporels de consommation (houraire, quotidien, saisonnier)
- Capturer les relations non-linéaires entre features temporelles et consommation
- Intégrer les métadonnées des bâtiments (nombre d'occupants, type de logement)
- Évaluer la performance du modèle via RMSE, MAE et MAPE

### 2. **Détection des Heures de Pic**

Identifier les **périodes d'anomalie ou de surcharge énergétique** où la consommation dépasse les seuils normaux.

**Sous-objectifs :**
- Classifier les heures comme "pic" ou "normal" via approche seuil et/ou machine learning
- Détecter les appareils à forte consommation (four, chauffe-eau, climatisation)
- Fournir une alerte précoce sur les heures critiques
- Optimiser les tarifs et la planification du réseau électrique

---

## Contexte et Enjeux

### Pourquoi ce projet ?

La gestion efficace de l'énergie est devenue un enjeu majeur :

**Consommation croissante** : La demande d'électricité augmente rapidement, notamment dans les pays en développement comme le Maroc.

**Surcharge réseau** : Les pics de consommation causent une instabilité du réseau et augmentent les coûts opérationnels.

**Coûts énergétiques** : Les ménages et entreprises cherchent à optimiser leurs dépenses et réduire leur empreinte énergétique.

**Transition énergétique** : L'intégration croissante des énergies renouvelables (solaire, éolienne) rend la prédiction énergétique critique pour équilibrer l'offre et la demande.

### Applications Pratiques

Ce projet peut bénéficier à plusieurs acteurs :

- **Distributeurs d'électricité** : optimiser la gestion du réseau et prévenir les surcharges
- **Consommateurs** : identifier les périodes de forte consommation et ajuster leur usage
- **Entreprises** : planifier leur consommation et réduire leurs factures énergétiques
- **Planificateurs énergétiques** : estimer les besoins futurs et dimensionner les installations


### Livrables du Projet

**Modèles entraînés** : fichiers de poids/coefficients réutilisables

**Rapports de performance** : comparaison des modèles (baseline vs avancé)

**Analyse exploratoire** : visualisations des patterns temporels et pics

**Pipeline complet** : code Python réutilisable pour intégration en production

**Documentation technique** : guide d'utilisation et interprétation des résultats



## Planification Générale

| Phase | Durée | Tâches |
|-------|-------|--------|
| **1. Exploration & Nettoyage** | 1-2 semaines | Charger MORED, EDA, gestion des anomalies |
| **2. Feature Engineering** | 2-3 semaines | Créer features temporelles, statistiques, cycliques |
| **3. Régression** | 3-4 semaines | Entraîner modèles, tuning hyperparamètres, évaluation |
| **4. Classification (Pics)** | 2-3 semaines | Définir labels, entraîner classifieurs, optimisation |
| **5. Comparaison & Documentation** | 1-2 semaines | Benchmarking, visualisations finales, rapport |



# Introduction au Dataset MORED

## Vue d'ensemble

**MORED** est le premier dataset africain ouvert de consommation électrique de bâtiments. Il contient des données labellisées de consommation globale (WP) et par appareil (IL), ainsi que des signatures de charges individuelles provenant de plusieurs ménages et charges marocains.

Le dataset a été mis à disposition par le TICLab de l'Université Internationale de Rabat (UIR). La collecte des données s'est déroulée dans le cadre du projet de recherche **PVBuild**, coordonné par le Prof. Mounir Ghogho et financé par l'Agence des États-Unis pour le développement international (USAID).

---

## Objectif et Motivation

MORED est destiné à la recherche dans les domaines liés à l'énergie, tels que la désagrégation de charge (NILM - Non-Intrusive Load Monitoring) et la prévision énergétique.

Le dataset vise à progresser dans le domaine de la désagrégation énergétique en offrant plus de données et en utilisant les avancées récentes du secteur. L'importance de ce dataset réside notamment dans sa nature **pionnière** : c'est le premier dataset de consommation électrique collecté auprès de ménages marocains.

---

## Structure et Composantes Principales

MORED fournit trois types principaux de composantes de données :

### 1. **Whole Premises (WP) - Consommation Globale**

Les mesures WP reflètent la consommation électrique totale des bâtiments. Elles sont acquises au niveau du compteur principal et caractérisent l'ensemble du bâtiment/ménage.

**Caractéristiques des données WP :**
- Acquisitionnées à des taux bas (1/5 ou 1/10 échantillons/s) depuis 12 ménages
- Puissance instantanée en watts (W)
- Tension RMS (Vrms) en volts
- Mesures temporelles avec granularité fine (10 à 20 secondes)

Il existe bien autres types de datasets (Individual Load Ground-Truth (ILGT) ou Individual Load Signatures (ILS)) qui ne sont pas utilisable dans le cas de notre projet de consommation énergétique des bâtiment de manière globale.

---

## Couverture Géographique et Diversité

Le dataset couvre plusieurs villes marocaines :
- **Salé** (ménages en zones défavorisées)
- **Tétuan** (ménages en zones aisées et défavorisées)
- **Rabat** (ménages en zones aisées)


## Caractéristiques des Données Acquises

### Métadonnées des Ménages

Pour chaque ménage ou bâtiment, le dataset inclut :

| Métadonnée | Description |
|-----------|------------|
| **Nombre d'occupants** | Varie de 1 à 8 personnes |
| **Composition démographique** | Nombre d'enfants, adultes, personnes âgées (>65 ans) |
| **Surface habitable** | De 50 à 103 m² |
| **Nombre de pièces** | Généralement 3 à 6 pièces |
| **Nombre d'étages** | De 1 à 3 étages |
| **Statut de propriété** | Location (R) ou Propriété (B) |
| **Appareils monitorés** | De 2 à 8 charges individuelles selon le ménage |

### Taux d'Échantillonnage

- **WP** : 1/5 s (0,2 s) ou 1/10 s (0,1 s) — environ 5 à 10 mesures par seconde

### Durée des Acquisitions

- **WP** : de 14 à 90 jours par ménage
- Couverture temporelle suffisante pour capturer patterns quotidiens, hebdomadaires et saisonniers


Le dataset MORED est particulièrement adapté à notre projet pour :

1. **Détection d'anomalies** : identification des pics de consommation et des heures critiques
2. **Prédire les quantités d'énergie** : utilisation pour estimer les besoins énergétiques


### Références

Le dataset est accessible via :
- [Site officiel MORED](https://moredataset.github.io/MORED/)
- [Dépôt GitHub MOREDataset/MORED](https://github.com/MOREDataset/MORED)



## Exploration des données

On va expliquer le processus avec un seul fichier APT et son fichier associé de metadonné, puis on applique tout sur le reste des fichiers de données APTx sous /premises_data ainsi les fichiers de metadonnées associés sous /metadata.

In [None]:
import pandas as pd
import numpy as np

N_FILES = 12
SEC_PER_SAMPLE = 10

df = pd.read_csv('premises_data/APT1.csv')
df.info()

In [None]:
df.head()

In [None]:
# convertit la colonne timestamp en type datetime
df['timestamp'] = pd.to_datetime(df['timestamp'], format='%d/%m/%Y %H:%M:%S', errors='coerce') #Si une valeur ne peut pas être parsée => NAT
df = df.sort_values('timestamp').reset_index(drop=True)
df.head()

#### Remarques
- la colonne 'real_power' est une puissance en watt.
- Dans ce projet, nous avons besoin de l'energie **instantannée** en (Kw/h), c-à-d:   **Ei =Pi×Δt**

In [None]:
df['kWh_sample'] = df['real_power'] * (SEC_PER_SAMPLE / 3600.0) / 1000.0
df.head()

Traitons maintenant la redondance des données

In [None]:
df = df.groupby('timestamp').agg({'kWh_sample':'sum'}).reset_index()  #
df.head()

Dans la cellule suivante, nous allons remédier aux timestamps monquants:  
a. Nous allons créé les timestamps du *start_time* jusqu'à *end_time* avec un intervalle de 10s.  
b. Réindexer la df par la colonne *timestamp*.  
c. Aligner le DataFrame sur *full_index*, en ajoutant des lignes pour tous les timestamps manquants.  
1) Si df n’avait pas de donnée pour un timestamp dans full_index, la ligne est ajoutée avec NaN.  
2) Si df avait déjà la donnée, elle reste inchangée.

d. Renommer la colonne de l'indice par *timestamp*.  
e. Remettre l’index en colonne normale, donc df['timestamp'] redevient une colonne.

In [None]:
start_time = df['timestamp'].min()
end_time = df['timestamp'].max()
full_index = pd.date_range(start=df['timestamp'].min(), end=df['timestamp'].max(), freq=f'{SEC_PER_SAMPLE}s')
df = df.set_index('timestamp').reindex(full_index).rename_axis('timestamp').reset_index()
df.head()

In [None]:
# S'assurer que la difference entre les timestamps est exactement 10s
df['delta'] = df['timestamp'].diff().dt.total_seconds()
df['delta'].value_counts()
df = df.drop('delta', axis=1)

Calculons la consomtion d'energie par heure (Kw/h)

In [None]:
df_hour = (
    df.resample('1h', on='timestamp')
      .sum()[['kWh_sample']]
      .rename(columns={'kWh_sample': 'y_kWh'})
      .reset_index()
)
df_hour.head()

Les nouvelles infos sur la df => nous avons 992 lignes

In [None]:
df_hour.info()

In [None]:
#Visualisation de la cible y_Kwh en fonction de timestamp
import matplotlib.pyplot as plt

plt.figure(figsize=(15,5))
plt.plot(df_hour['timestamp'], df_hour['y_kWh'], marker='o', linestyle='-')
plt.title("Variation de la consommation horaire (y_kWh) dans le temps")
plt.xlabel("Timestamp")
plt.ylabel("y_kWh")
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
import yaml

# importer le fichier building correspondant à ce batiment
# Ouvrir le fichier YAML
with open("metadata/building1.yaml", "r") as file:
    building_meta = yaml.safe_load(file)
building_meta

In [None]:
df_hour['n_occupants'] = building_meta.get('n_occupants', 0)

building_type = building_meta.get('building_type', 'flat')
df_hour['building_type'] = 1 if building_type == 'flat' else 0

ownership = building_meta.get('ownership', 'rented')
mapping_own = {'rented': 0, 'owned': 1, 'bought': 2}
df_hour['ownership'] = mapping_own.get(ownership, 0)

df_hour.head()

#### Ajout de données temporels

In [None]:
df_hour['hour'] = df_hour['timestamp'].dt.hour
df_hour['year'] = df_hour['timestamp'].dt.year
df_hour['day_of_week'] = df_hour['timestamp'].dt.dayofweek
df_hour['is_weekend'] = df_hour['day_of_week'].isin([5,6]).astype(int)
df_hour['month'] = df_hour['timestamp'].dt.month

nouvel_ordre = [
    'timestamp', 
    'year',         
    'month', 
    'day_of_week', 
    'hour', 
    'is_weekend',  
    'n_occupants', 
    'building_type', 
    'ownership',
    'y_kWh',
]

# Réorganisation
df_hour = df_hour[nouvel_ordre]
df_hour.head()

Dans la cellule suivante nous allons appliquer une transformation cyclique grâce aux *sin* et *cos* pour hour, day_of_week, month ; permet aux modèles ML de capturer la circularité (ex. **23h proche de 0h**) sans ordonner linéairement.

In [None]:
df_hour['hour_sin'] = np.sin(2*np.pi*df_hour['hour']/24)
df_hour['hour_cos'] = np.cos(2*np.pi*df_hour['hour']/24)
df_hour['dow_sin'] = np.sin(2*np.pi*df_hour['day_of_week']/7)
df_hour['dow_cos'] = np.cos(2*np.pi*df_hour['day_of_week']/7)
df_hour['month_sin'] = np.sin(2*np.pi*df_hour['month']/12)
df_hour['month_cos'] = np.cos(2*np.pi*df_hour['month']/12)

df_hour.head()

In [None]:
nouvel_ordre = [
    'timestamp', 
    'year',         
    'month', 
    'day_of_week', 
    'hour', 
    'is_weekend',  
    'n_occupants', 
    'building_type', 
    'ownership',
    'is_peak',
    'hour_sin',
    'hour_cos',
    'dow_sin',
    'dow_cos',
    'month_sin',
    'month_cos',
    'y_kWh'
]
df_hour = df_hour[nouvel_ordre]
df_hour.head()

- Il ne nous reste, alors, que d'enregistrer le résultat final du traitement dans un dossier appart.

In [None]:
#output_file = os.path.join(OUTPUT_FILLED_DIR, f"APT{i}_features_filled.csv")

fichier_final = 'preprocessing_results/APT1_processed.csv'
df_hour.to_csv(fichier_final, index=False)
print(f"{fichier_final} créé avec {df_hour['y_kWh'].isna().sum()} NaN restants")

#### Vérification d'existance de valeur y_kWh = 0 (problème de collecte d'information)

In [None]:
df = pd.read_csv('preprocessing_results/APT1_processed.csv')
nb_zeros = (df["y_kWh"] == 0).sum()
print("Nombre de lignes où y_kWh = 0 :", nb_zeros)
print("*"*150)

Dans la cellule suivante, nous définissons une fonction destinée à compléter les valeurs nulles de y_kWh selon les règles suivantes :
1) Toute valeur y_kWh = 0 est considérée comme un gap.
2) Si ce gap est encadré par deux valeurs non nulles, une interpolation linéaire est appliquée.
3) Dans les autres cas, la valeur est remplacée par la consommation énergétique moyenne observée à la même heure pour le bâtiment concerné.

In [None]:
import pandas as pd
import numpy as np

def fix_energy_gaps(df):
    
    df = df.copy()
    df['timestamp'] = pd.to_datetime(df['timestamp'], format='%Y-%m-%d %H:%M:%S', errors='coerce') #Si une valeur ne peut pas être parsée => NAT
    df = df.sort_values('timestamp').reset_index(drop=True)

    # Identifier les gaps = valeurs Nan ou égales à 0
    df["is_gap"] = df["y_kWh"].isna() | (df["y_kWh"] == 0)

    # Copie de travail
    df["y_kWh_fixed"] = df["y_kWh"].replace(0, np.nan)

    # Interpolation pour valeurs réellement encadrées
    df["y_kWh_interpolated"] = df["y_kWh_fixed"].interpolate(
        method="linear",
        limit_direction="both"
    )

    # Détection : interpolation valide SEULEMENT si la valeur interpolée est entre deux non-null
    mask_start_valid = df["y_kWh_fixed"].notna() | df["y_kWh_fixed"].notna().shift(-1)
    mask_end_valid   = df["y_kWh_fixed"].notna() | df["y_kWh_fixed"].notna().shift(1)

    # Gap réellement encadré par 2 valeurs non-nulles
    df["is_encadré"] = mask_start_valid & mask_end_valid & df["is_gap"]

    # On ne met l’interpolation QUE pour les gaps encadrés
    df.loc[df["is_encadré"], "y_kWh_fixed"] = df.loc[df["is_encadré"], "y_kWh_interpolated"]

    # Pour les autres (début/fin série ou blocs de gaps)
    df["problematic_gap"] = df["is_gap"] & (~df["is_encadré"])

    # === Solution proposée pour ces gaps ===
    # OPTION 1 : remplacer par moyenne horaire historique
    df["hour"] = df["timestamp"].dt.hour
    
    # Calculer moyenne horaire SANS les zéros (car ce sont des gaps)
    hourly_mean = df.loc[df["y_kWh"] > 0].groupby("hour")["y_kWh"].mean()

    # Remplacer les gaps problématiques
    df.loc[df["problematic_gap"], "y_kWh_fixed"] = \
    df.loc[df["problematic_gap"], "hour"].map(hourly_mean)

    # S'il reste des NaN à cause d'une heure totalement vide, fallback sur moyenne globale
    global_mean = df.loc[df["y_kWh"] > 0, "y_kWh"].mean()

    df["y_kWh_fixed"].fillna(global_mean, inplace=True)

    # Nettoyage colonnes internes
    df.drop(columns=["y_kWh_interpolated"], inplace=True)
    return df

Appliquons cette fonction sur notre data frame:

In [None]:
df = fix_energy_gaps(df)
print(df.loc[indices, ["y_kWh", "y_kWh_fixed"]])

In [None]:
# Remplacer les valeurs y_kWh = 0 par les valeurs y_kWh_fixed
df.loc[df["y_kWh"] == 0, "y_kWh"] = df.loc[df["y_kWh"] == 0, "y_kWh_fixed"]

# Supprimer la colonne y_kWh_fixed
#df.drop(columns=["y_kWh_fixed"], inplace=True)
df.drop(columns=["y_kWh_fixed","is_gap", "is_encadré", "problematic_gap"], inplace=True)

# Vérification
print(df.loc[indices, "y_kWh"])

Enregistrement des nouvelles valeurs dans le fichier csv

In [None]:
csv_file = "preprocessing_results_part2/APT1_features_filled.csv"
df.to_csv(csv_file, index=False)
print(f"Fichier {csv_file} mis à jour avec les valeurs corrigées de y_kWh.")

In [None]:
# visualisation des changements
plt.figure(figsize=(15,5))
plt.plot(df['timestamp'], df['y_kWh'], marker='o', linestyle='-')
plt.title("Variation de la consommation horaire (y_kWh) dans le temps")
plt.xlabel("Timestamp")
plt.ylabel("y_kWh")
plt.grid(True)
plt.tight_layout()
plt.show()

### Refaire la même procedure pour tous les autres fichiers des deux dossiers

In [None]:
N_FILES = 12

for i in range(2, N_FILES + 1):
    print(f"Traitement du {i}ème bâtiment")
    # lecture du fichier csv des données
    df = pd.read_csv(f"preprocessing_results/APT{i}_processed.csv")

    
    
    
    if nb_zeros != 0:
        df = fix_energy_gaps(df)
        
        # Remplacer les valeurs y_kWh = 0 par les valeurs y_kWh_fixed
        df.loc[df["y_kWh"] == 0, "y_kWh"] = df.loc[df["y_kWh"] == 0, "y_kWh_fixed"]

        # Supprimer la colonne y_kWh_fixed
        df.drop(columns=["y_kWh_fixed", "is_gap", "is_encadré", "problematic_gap"], inplace=True)

    # Enregistrement des modifications
    csv_file = f"preprocessing_results_part2/APT{i}_features_filled.csv"
    df.to_csv(csv_file, index=False)
    nb_zeros = (df["y_kWh"] == 0).sum()
    print("Nombre de lignes où y_kWh = 0 après traitement:", nb_zeros)
    print(f"Fichier {csv_file} mis à jour avec les valeurs corrigées de y_kWh.")
        
    # visualisation des changements
    plt.figure(figsize=(15,5))
    plt.plot(df['timestamp'], df['y_kWh'], marker='o', linestyle='-')
    plt.title(f"Variation de la consommation horaire du {i}ème dans le temps")
    plt.xlabel("Timestamp")
    plt.ylabel("y_kWh")
    plt.grid(True)
    plt.tight_layout()
    plt.show()

#### Dans ce code en dessous, nous allons juste regrouper le résultat de prétraitement de données dans une seule dataset.

In [None]:
import pandas as pd
import glob
import os

# Récupère tous les fichiers CSV dans le dossier
chemin_fichiers = "preprocessing_results_part2/*.csv"
liste_fichiers = glob.glob(chemin_fichiers)

In [None]:
dfs = []
import re
for fichier in liste_fichiers:
    df = pd.read_csv(fichier)
    
    nom_fichier = os.path.basename(fichier)  # ex: 'APT9_features_filled.csv'
    match = re.search(r'APT(\d+)_', nom_fichier)
    if match:
        building_id = int(match.group(1))
    else:
        building_id = None  # ou une valeur par défaut si besoin
    
    df['building_id'] = building_id
    
    dfs.append(df)

In [None]:
# Concaténation
df_total = pd.concat(dfs, ignore_index=True)

In [None]:
print(df_total.shape)
print(df_total.head())
print(df_total['building_id'].unique()) 

In [None]:
df_total.head()

In [None]:
# sauvegarde des données finales
csv_file = "final_dataset/data.csv"
df_total.to_csv(csv_file, index=False)

Dans le code suivant, nous allons afficher la variation de la cible y_Kwh en fonction des  autres features.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

df = pd.read_csv('final_dataset/data.csv')

# Liste des features à analyser (hors timestamp et y_kWh)
features = [
    'year', 'month', 'day_of_week', 'hour', 'is_weekend', 
    'n_occupants', 'building_type', 'ownership', 
    'is_peak'
]

# Création d'une grande figure avec une grille 3×3 (9 features)
fig, axes = plt.subplots(3, 3, figsize=(18, 12))
axes = axes.flatten()  # Facilite l'accès aux sous-plots

for idx, feature in enumerate(features):
    ax = axes[idx]
    
    # Numériques
    if df[feature].dtype in ['int64', 'float64']:
        sns.scatterplot(
            x=df[feature], y=df['y_kWh'], 
            hue=df['building_id'], palette='tab10', alpha=0.4, ax=ax, legend=False
        )
        sns.lineplot(
            x=df[feature],
            y=df['y_kWh'].rolling(50, min_periods=1).mean(),
            color='black', ax=ax
        )
        ax.set_title(f"{feature} vs y_kWh (numérique)")
    
    # Catégorielles
    else:
        sns.boxplot(
            x=df[feature], y=df['y_kWh'], 
            hue=df['building_id'], palette='tab10', ax=ax
        )
        ax.set_title(f"{feature} (catégorielle)")
        ax.legend().remove()  # Pour éviter trop de légendes répétées
    
    ax.set_xlabel(feature)
    ax.set_ylabel("y_kWh")
    ax.grid(True, linestyle='--', alpha=0.4)

# Une seule légende globale pour les buildings
handles, labels = axes[0].get_legend_handles_labels()
fig.legend(handles, labels, title='Building ID', loc='upper right')

plt.tight_layout(rect=[0, 0, 0.95, 1])  # Légende à droite
plt.show()


On va maintenant mesurer à quel point chaque feature a une relation linéaire ou non linéaire avec ta cible y_kWh

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score
import warnings

warnings.filterwarnings("ignore")

def analyse_linearite(df, target='y_kWh'):
    results = []

    # Liste features numériques seulement
    numeric_features = df.select_dtypes(include=['int64','float64']).columns
    numeric_features = [f for f in numeric_features if f != target]

    for feature in numeric_features:
        # Drop NA
        sub = df[[feature, target]].dropna()
        if len(sub) < 30:
            continue

        X = sub[[feature]].values
        y = sub[target].values

        # ---- Régression linéaire ----
        lin_model = LinearRegression()
        lin_model.fit(X, y)
        y_pred_lin = lin_model.predict(X)
        r2_lin = r2_score(y, y_pred_lin)

        # Corrélation de Pearson
        corr = sub[[feature, target]].corr().iloc[0,1]

        # ---- Modèle non-linéaire ----
        rf = RandomForestRegressor(n_estimators=80, random_state=0)
        rf.fit(X, y)
        y_pred_rf = rf.predict(X)
        r2_rf = r2_score(y, y_pred_rf)

        # Importance de non-linéarité
        nonlinear_gain = r2_rf - r2_lin

        results.append({
            "feature": feature,
            "corr_pearson": corr,
            "R²_lin": r2_lin,
            "R²_random_forest": r2_rf,
            "gain_non_lineaire": nonlinear_gain
        })

    # Résultats triés selon importance de non-linéarité, Plus ce gain est grand, plus la non-linéarité est importante.
    results_df = pd.DataFrame(results)
    return results_df.sort_values(by="gain_non_lineaire", ascending=False)


In [None]:
# on visualise les résultats
results = analyse_linearite(df)
print(results)

## Entrainement de modèle

D'après ce qu'on a fait avant, on constate que :
- building_id n’est pas vraiment une feature informative pour la consommation.

    - La valeur en elle-même (1, 2, 3…) n’a pas de lien physique avec y_kWh.

    - Les patterns que ton modèle pourrait “apprendre” seraient juste des idiosyncrasies propres à chaque bâtiment, pas des relations généralisables.
- ownership n'est pas un feature intéressant pour l'entraînement :
    - 10 bâtiments “rented”, 1 “bought”, 1 “owned”.

    - La catégorie “rented” domine largement.

    - Les modèles vont très probablement apprendre à prédire “rented” tout le temps, et donc l’effet des autres catégories sera quasiment invisible. 

## Baseline Models

Nous allons commencer par entraîner et comparer 3 modèles baseline de régression pour prédire la consommation énergétique (y_kWh) :

- Ridge Regression (linéaire régularisé)
- Random Forest (ensemble non-linéaire)
- LightGBM (gradient boosting avancé)

Ce bloc calcule (ou recalcule) R² et RMSE pour les modèles entrainés dans ce notebook : Ridge, Le résultat est affiché sous forme d'un tableau pandas (DataFrame) pour faciliter la comparaison.

In [None]:
# Calcul et tableau récapitulatif des métriques (R² & RMSE)

import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor
import lightgbm as lgb

# Re-construction des splits si nécessaire
try:
    X_train, X_test, y_train, y_test
except NameError:
    df = pd.read_csv("./final_dataset/data.csv", parse_dates=["timestamp"])
    features = [
        "n_occupants",
        "hour",
        "hour_sin",
        "hour_cos",
        "day_of_week",
        "dow_sin",
        "dow_cos",
        "month",
        "month_sin",
        "month_cos",
        "is_weekend",
        "is_peak"
    ]
    target = "y_kWh"
    X = df[features]
    y = df[target]
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False, random_state=42)
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

metrics = []

# 1) Ridge (use scaled features)
try:
    ridge = Ridge(alpha=1.0)
    ridge.fit(X_train_scaled, y_train)
    pred_ridge = ridge.predict(X_test_scaled)
    r2_ridge = r2_score(y_test, pred_ridge)
    rmse_ridge = np.sqrt(mean_squared_error(y_test, pred_ridge))
    metrics.append({"model": "Ridge", "R2": r2_ridge, "RMSE": rmse_ridge})
except Exception as e:
    print("Erreur Ridge:", e)

# 2) Random Forest
try:
    rf = RandomForestRegressor(n_estimators=100, random_state=42, max_depth=10)
    rf.fit(X_train, y_train)
    pred_rf = rf.predict(X_test)
    r2_rf = r2_score(y_test, pred_rf)
    rmse_rf = np.sqrt(mean_squared_error(y_test, pred_rf))
    metrics.append({"model": "RandomForest", "R2": r2_rf, "RMSE": rmse_rf})
except Exception as e:
    print("Erreur RandomForest:", e)

# 3) LightGBM (sklearn wrapper) - fallback automatique si early_stopping not supported
try:
    lgbm = lgb.LGBMRegressor(objective='regression', n_estimators=500, learning_rate=0.05, num_leaves=31, random_state=42)
    lgbm.fit(
        X_train, y_train,
        eval_set=[(X_test, y_test)],
        early_stopping_rounds=50,
        verbose=False
    )
    pred_lgb = lgbm.predict(X_test)
    r2_lgb = r2_score(y_test, pred_lgb)
    rmse_lgb = np.sqrt(mean_squared_error(y_test, pred_lgb))
    metrics.append({"model": "LightGBM", "R2": r2_lgb, "RMSE": rmse_lgb, "best_iter": getattr(lgbm, 'best_iteration_', None)})
except TypeError:
    # fallback si la version de LightGBM n'accepte pas early_stopping_rounds
    try:
        callbacks = [lgb.callback.early_stopping(50)]
    except Exception:
        callbacks = []
    lgbm = lgb.LGBMRegressor(objective='regression', n_estimators=500, learning_rate=0.05, num_leaves=31, random_state=42)
    lgbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], callbacks=callbacks, verbose=False)
    pred_lgb = lgbm.predict(X_test)
    r2_lgb = r2_score(y_test, pred_lgb)
    rmse_lgb = np.sqrt(mean_squared_error(y_test, pred_lgb))
    metrics.append({"model": "LightGBM", "R2": r2_lgb, "RMSE": rmse_lgb, "best_iter": getattr(lgbm, 'best_iteration_', None)})
except Exception as e:
    print("Erreur LightGBM:", e)

# Résultats en tableau
metrics_df = pd.DataFrame(metrics).round(4)
metrics_df = metrics_df[["model", "R2", "RMSE"]]
metrics_df = metrics_df.sort_values(by="R2", ascending=False).reset_index(drop=True)

print("Résumé des métriques (R² et RMSE) :")
metrics_df


#### Résultats
| Modèle | R² Test | RMSE | Analyse |
|--------|---------|------|---------|
| **Ridge** | 0.1343 | 0.2655 | Baseline linéaire acceptable |
| **Random Forest** | 0.2031 | 0.2547 | Meilleur modèle non-linéaire initial |
| **LightGBM** | 0.2117 | 0.2534 | Légère amélioration sur RF |

- Les performances actuelles (R² ≈ 0.2 pour LGBM) sont conformes pour une première étape, surtout sur des séries temporelles avec beaucoup de bruit et peu de features.

    - Ce n’est pas encore très performant si tu vises une prédiction précise de la consommation. R² de 0.2 signifie que ~80 % de la variance n’est pas expliquée par ton modèle actuel.

##### Possibilités d’amélioration

- Hyperparamètres : tu peux tuner les modèles d’arbres (Random Forest / LGBM) via GridSearch ou Optuna pour optimiser max_depth, num_leaves, learning_rate, etc.

- Features supplémentaires : interactions entre hour, day_of_week, month, ou lissage/rolling sur les consommations précédentes peuvent aider.

- Modèles séquentiels : si ton dataset est dense et régulier, des modèles comme LSTM ou Temporal Convolutional Networks (TCN) peuvent capturer les dépendances temporelles mieux que des modèles statiques.

- Ensemble : combiner LGBM + RF + Ridge via moyenne pondérée ou stacking peut stabiliser et améliorer légèrement les prédictions.

Nous allons essayer enrechir l'ensemble des caractéristiques par plus de features dérivées tout en étudiant leur corrélation avec la variable cible y_kwh

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score
import warnings

warnings.filterwarnings("ignore")

# ============================
# Charger le dataset
# ============================
df = pd.read_csv('final_dataset/data.csv', parse_dates=['timestamp'])

# Création de features dérivées pour capter patterns temporels
df['hour_day_interaction'] = df['hour'] * df['day_of_week']
df['month_day_interaction'] = df['month'] * df['day_of_week']
df['hour_n_occupants'] = df['hour'] * df['n_occupants']

# Rolling features sur consommation précédente (lag=1h)
df['y_kWh_lag1'] = df['y_kWh'].shift(1)
df['y_kWh_lag2'] = df['y_kWh'].shift(2)
df = df.fillna(0)  # Remplacer NA des lags par 0 ou autre stratégie

# ============================
# Liste features à analyser (hors timestamp et y_kWh)
# ============================
features_to_analyse = [
    'year',
    'month',
    'day_of_week',
    'hour',
    'is_weekend',
    'n_occupants',
    'is_peak',
    'hour_day_interaction',
    'month_day_interaction',
    'hour_n_occupants',
    'y_kWh_lag1',
    'y_kWh_lag2'
]


def analyse_linearite(df, target='y_kWh'):
    results = []
    
    # Sélection features numériques seulement
    numeric_features = df[features_to_analyse].select_dtypes(
        include=['int64', 'float64']
    ).columns
    
    for feature in numeric_features:
        sub = df[[feature, target]].dropna()
        if len(sub) < 30:
            continue
        
        X = sub[[feature]].values
        y = sub[target].values
        
        # ---- Régression linéaire ----
        lin_model = LinearRegression()
        lin_model.fit(X, y)
        y_pred_lin = lin_model.predict(X)
        r2_lin = r2_score(y, y_pred_lin)
        
        # Corrélation de Pearson
        corr = sub[[feature, target]].corr().iloc[0, 1]
        
        # ---- Modèle non-linéaire avec Random Forest mieux paramétré ----
        rf = RandomForestRegressor(
            n_estimators=200,        # plus d'arbres
            max_depth=15,            # plus profond
            min_samples_split=5,     # éviter overfitting
            min_samples_leaf=3,
            random_state=42,
            n_jobs=-1
        )
        rf.fit(X, y)
        y_pred_rf = rf.predict(X)
        r2_rf = r2_score(y, y_pred_rf)
        
        nonlinear_gain = r2_rf - r2_lin
        
        results.append({
            "feature": feature,
            "corr_pearson": corr,
            "R²_lin": r2_lin,
            "R²_random_forest": r2_rf,
            "gain_non_lineaire": nonlinear_gain
        })
    
    results_df = pd.DataFrame(results)
    return results_df.sort_values(by="gain_non_lineaire", ascending=False)


# ============================
# Exécution
# ============================
linearite_results = analyse_linearite(df)
print(linearite_results)

- Features avec fort gain non-linéaire (top 3) :

    - y_kWh_lag2 : +0.269 → La consommation il y a 2h a une relation fortement non-linéaire avec la consommation actuelle
    - y_kWh_lag1 : +0.222 → La consommation précédente aussi (effet mémoire complexe)
    - hour_n_occupants : +0.050 → L'interaction heure × occupants capture mieux les patterns non-linéaires

- Features linéaires pures :

    - is_peak : gain = 0 → Parfaitement linéaire (classification binaire simple)
    - year : gain ≈ 0 → Peu informatif ou purement linéaire

- Features faibles :

    - day_of_week, month, is_weekend : Très faibles corrélations et gains → Peu prédictifs individuellement

Maintenant, on va entraîner à nouveau nos 3 modèles baseline et voir l'effet.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor
import lightgbm as lgb
from sklearn.metrics import mean_squared_error, r2_score

# ============================
# Charger le dataset
# ============================
df = pd.read_csv('final_dataset/data.csv', parse_dates=['timestamp'])


# Création de features dérivées
df['hour_day_interaction'] = df['hour'] * df['day_of_week']
df['hour_n_occupants'] = df['hour'] * df['n_occupants']

# Lag features
df['y_kWh_lag1'] = df['y_kWh'].shift(1)
df['y_kWh_lag2'] = df['y_kWh'].shift(2)
df = df.fillna(0)

# ============================
# Features sélectionnées
# ============================
features = [
    'n_occupants',
    'hour',
    'hour_n_occupants',
    'y_kWh_lag1',
    'y_kWh_lag2',
    'is_peak'
]
target = 'y_kWh'

X = df[features]
y = df[target]

# ============================
# Split train/test
# ============================
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
    shuffle=False
)

# ============================
# Normalisation pour Ridge
# ============================
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# ============================
# 1) Ridge Regression
# ============================
ridge_model = Ridge(alpha=1.0)
ridge_model.fit(X_train_scaled, y_train)
y_pred_ridge = ridge_model.predict(X_test_scaled)

print("Ridge R²:", r2_score(y_test, y_pred_ridge))
print("Ridge RMSE:", np.sqrt(mean_squared_error(y_test, y_pred_ridge)))

# ============================
# 2) Random Forest Regressor
# ============================
rf_model = RandomForestRegressor(
    n_estimators=200,
    max_depth=15,
    min_samples_split=5,
    min_samples_leaf=3,
    random_state=42,
    n_jobs=-1
)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

print("Random Forest R²:", r2_score(y_test, y_pred_rf))
print("Random Forest RMSE:", np.sqrt(mean_squared_error(y_test, y_pred_rf)))

# ============================
# 3) LightGBM Regressor
# ============================
lgb_train = lgb.Dataset(X_train, label=y_train)
lgb_test = lgb.Dataset(X_test, label=y_test, reference=lgb_train)

params = {
    "objective": "regression",
    "metric": "rmse",
    "boosting_type": "gbdt",
    "learning_rate": 0.05,
    "num_leaves": 31,
    "verbose": -1,
    "seed": 42
}

lgb_model = lgb.train(
    params,
    lgb_train,
    num_boost_round=500,
    valid_sets=[lgb_test],
    callbacks=[lgb.early_stopping(stopping_rounds=50)]
)

y_pred_lgb = lgb_model.predict(X_test, num_iteration=lgb_model.best_iteration)

print("LightGBM R²:", r2_score(y_test, y_pred_lgb))
print("LightGBM RMSE:", np.sqrt(mean_squared_error(y_test, y_pred_lgb)))

##### Résultats 
| Modèle | R² Test | RMSE | Notes |
|--------|---------|------|-------|
| **Ridge (features enrichies)** | 0.4069 | 0.2198 | Amélioration majeure |
| **Random Forest (features enrichies)** | 0.3700 | 0.2265 | Bon mais moins stable |
| **LightGBM (features enrichies)** | 0.3677 | 0.2269 | Surpassé par Ridge |

- On remarque bien que ```(y_kWh_lag1, y_kWh_lag2)``` et des interactions ```(hour_n_occupants)``` a clairement amélioré la performance.
- On va maintenant essayerune approche Ensemble :
**un stacking** simple pour combiner Ridge et LightGBM (ou Random Forest) afin de tirer parti à la fois de la partie linéaire et de la capacité à capturer les non-linéarités.

L'ensemble des features qu'on dispose jusqu'à maintenant :


In [None]:
features = [
    'year','month','day_of_week','hour','is_weekend','n_occupants','is_peak',
    'hour_day_interaction','month_day_interaction','y_kWh_lag1','y_kWh_lag2'
]

Si on définit un split normalement comme suivant :

In [None]:
X = df[features].values
y = df['y_kWh'].values

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, shuffle=False
)

On risque le `data leakage`. Le data leakage (fuite de données) survient quand des informations du test set ou du futur s'infiltrent dans l'entraînement du modèle. Cela rend le modèle suroptimiste sur les performances réelles.
On utilise le KFold Stacking qui est la bonne pratique.
    - KFold strict est stricte : À chaque fold, le modèle voit seulement X_tr → jamais contaminé par X_val
    - OOF (Out-Of-Fold) predictions : Les prédictions sur la validation deviennent les features du méta-modèle

Le méta-modèle n'a jamais vu les données brutes de train, alors pas de leakage entre niveau 0 et niveau 1.

- Niveau 0 : Ridge, LightGBM → génèrent oof_ridge, oof_lgb 
                        ↓
- Niveau 1 : Ridge(méta) → prend oof_ridge + oof_lgb comme input

On définit donc le split de la manière suivante :

In [None]:
# KFold stacking (no leakage)

kf = KFold(n_splits=5, shuffle=False)

oof_ridge = np.zeros(len(X_train)) 
oof_lgb   = np.zeros(len(X_train)) 

In [None]:
#entraîenment des modèles de base
ridge_models = []
lgb_models = []

for train_idx, valid_idx in kf.split(X_train):
    X_tr, X_val = X_train[train_idx], X_train[valid_idx]
    y_tr, y_val = y_train[train_idx], y_train[valid_idx]

    # Ridge
    ridge = Ridge(alpha=1.0)
    ridge.fit(X_tr, y_tr)
    oof_ridge[valid_idx] = ridge.predict(X_val)
    ridge_models.append(ridge)

    # LightGBM
    train_data = lgb.Dataset(X_tr, label=y_tr)
    lgb_model = lgb.train(
        {"objective": "regression", "metric": "rmse", "learning_rate": 0.05, "num_leaves": 31},
        train_data,
        num_boost_round=100
    )
    oof_lgb[valid_idx] = lgb_model.predict(X_val)
    lgb_models.append(lgb_model)


In [None]:

# OOF predictions = dataset du méta-modèle (niveau 1)
X_meta_train = np.column_stack([oof_ridge, oof_lgb])

# ============================
# Méta-modèle (Ridge)
# ============================
meta = Ridge(alpha=1.0)
meta.fit(X_meta_train, y_train)


In [None]:
# Test predictions

# Moyenne des prédictions des modèles entraînés en KFold
ridge_test_pred = np.mean([m.predict(X_test) for m in ridge_models], axis=0)
lgb_test_pred   = np.mean([m.predict(X_test) for m in lgb_models], axis=0)

X_meta_test = np.column_stack([ridge_test_pred, lgb_test_pred])
y_pred_stack = meta.predict(X_meta_test)


In [None]:
# Évaluation des performances

print("Stacked R²:", r2_score(y_test, y_pred_stack))
print("Stacked RMSE:", np.sqrt(mean_squared_error(y_test, y_pred_stack)))


##### Analyse des résultats obtenus
 Les chiffres qu'on a obtienu sont un signe que le stacking est proprement implémenté, mais il n’apporte pas d’amélioration par rapport au meilleur modèle seul (Ridge amélioré).

- Et c’est totalement normal à ce stade :
    - On vient d’appliquer un stacking “classique”, mais les deux modèles de base (Ridge et LightGBM) sont trop similaires dans leur comportement pour que le méta-modèle apprenne quelque chose de très différent.


- Stacked R² ≈ 0.408 — RMSE ≈ 0.2196 est pratiquement identique à notre meilleur modèle avant stacking (Ridge R² ≈ 0.4069).

    - Pas de perte → pas de fuite.
    - Pas de gain → modèles pas encore assez complémentaires.


- Maintenant on va améliorer la diversité de notre stacking par l'ajout de XGBoost

In [None]:
features = [
    'year','month','day_of_week','hour','is_weekend','n_occupants','is_peak',
    'hour_day_interaction','month_day_interaction','y_kWh_lag1','y_kWh_lag2'
]

X = df[features].values
y = df['y_kWh'].values


# Train/Test split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, shuffle=False # pour respecter l'ordre des timestamps des séries temporelles
)
# Echapper le data leakage
kf = KFold(n_splits=5, shuffle=False)

oof_ridge = np.zeros(len(X_train))
oof_lgb   = np.zeros(len(X_train))
oof_xgb   = np.zeros(len(X_train))
  
ridge_models = []
lgb_models = []
xgb_models = []  

In [None]:

# On entraîne à nouveau les modèles de base avec la nouvelle stratégie de stacking
# Ridge + LightGBM (KFold OOF) + XGBoost (KFold OOF)

for train_idx, valid_idx in kf.split(X_train):
    X_tr, X_val = X_train[train_idx], X_train[valid_idx]
    y_tr, y_val = y_train[train_idx], y_train[valid_idx]

    # -------------------------
    # Ridge
    # -------------------------
    ridge = Ridge(alpha=1.0)
    ridge.fit(X_tr, y_tr)
    oof_ridge[valid_idx] = ridge.predict(X_val)
    ridge_models.append(ridge)

    # -------------------------
    # LightGBM
    # -------------------------
    train_data = lgb.Dataset(X_tr, label=y_tr)
    lgb_model = lgb.train(
        {"objective": "regression", "metric": "rmse",
         "learning_rate": 0.05, "num_leaves": 31},
        train_data,
        num_boost_round=100
    )
    oof_lgb[valid_idx] = lgb_model.predict(X_val)
    lgb_models.append(lgb_model)

    # -------------------------
    # XGBoost (NON-LINEAIRE ++)
    # -------------------------
    xgb = XGBRegressor(
        n_estimators=200,
        learning_rate=0.05,
        max_depth=6,
        subsample=0.8,
        colsample_bytree=0.8,
        objective='reg:squarederror',
        random_state=42
    )
    xgb.fit(X_tr, y_tr)
    oof_xgb[valid_idx] = xgb.predict(X_val)
    xgb_models.append(xgb)


Hyperparamètres de XGBoost :

n_estimators=200 : 200 arbres
max_depth=6 : arbres peu profonds (stable)
subsample=0.8 : 80% données par arbre (regularisation)
colsample_bytree=0.8 : 80% features par arbre

Raison d'ajouter XGBoost : Diversité → stacking plus puissant

In [None]:
# Dataset pour méta-modèle

X_meta_train = np.column_stack([oof_ridge, oof_lgb, oof_xgb])
# Méta-modèle (Ridge simple)

meta = Ridge(alpha=1.0)
meta.fit(X_meta_train, y_train)

In [None]:
# Test predictions

ridge_test_pred = np.mean([m.predict(X_test) for m in ridge_models], axis=0)
lgb_test_pred   = np.mean([m.predict(X_test) for m in lgb_models], axis=0)
xgb_test_pred   = np.mean([m.predict(X_test) for m in xgb_models], axis=0)

X_meta_test = np.column_stack([ridge_test_pred, lgb_test_pred, xgb_test_pred])
y_pred_stack = meta.predict(X_meta_test)


In [None]:
# Évaluation des performancesà nouveau

print("Stacked R²:", r2_score(y_test, y_pred_stack))
print("Stacked RMSE:", np.sqrt(mean_squared_error(y_test, y_pred_stack)))


On remarque que le R² =  0.3945, ce qui montre une dégradation (-0.0124), cela est peut être dû à la forte corrélation entre les modèles.

On va donc essayer de :

- Augmenter la régularisation dans le stacking en remplaçant le méta-modèle Ridge par un ElasticNet. ElasticNet mélange la pénalité L2 (Ridge, douce et régulière) avec la L1 (Lasso, qui force certains poids à zéro). C’est comme dire au méta-modèle : « si un modèle ne sert à rien, tu as le droit de l’ignorer ».
- Remplacer Ridge par un méta-modèle plus expressif, par exemple un petit GradientBoostingRegressor. C’est un méta-modèle non linéaire capable d’apprendre les erreurs spécifiques de chaque base learner

#### Approche d'essai 1    
- XGBoost dans les base learners

- Stacking sans fuite (OOF correct)

- Méta-modèle ElasticNet (régularisation L1+L2)

- Préparation test/validation cohérente

In [None]:

features = [
    'year','month','day_of_week','hour','is_weekend','n_occupants','is_peak',
    'hour_day_interaction','month_day_interaction','y_kWh_lag1','y_kWh_lag2'
]

X = df[features].values
y = df['y_kWh'].values

# ============================
# 3. Train/Test split
# ============================
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, shuffle=False
)

# ============================
# 4. KFold Stacking (no leakage)
# ============================
kf = KFold(n_splits=5, shuffle=False)

oof_ridge = np.zeros(len(X_train))
oof_lgb   = np.zeros(len(X_train))
oof_xgb   = np.zeros(len(X_train))

ridge_models = []
lgb_models = []
xgb_models = []

for train_idx, valid_idx in kf.split(X_train):
    X_tr, X_val = X_train[train_idx], X_train[valid_idx]
    y_tr, y_val = y_train[train_idx], y_train[valid_idx]

    # -------------------------
    # Ridge
    # -------------------------
    ridge = Ridge(alpha=1.0)
    ridge.fit(X_tr, y_tr)
    oof_ridge[valid_idx] = ridge.predict(X_val)
    ridge_models.append(ridge)

    # -------------------------
    # LightGBM
    # -------------------------
    train_data = lgb.Dataset(X_tr, label=y_tr)
    lgb_model = lgb.train(
        {"objective": "regression", "metric": "rmse",
         "learning_rate": 0.05, "num_leaves": 31},
        train_data,
        num_boost_round=100
    )
    oof_lgb[valid_idx] = lgb_model.predict(X_val)
    lgb_models.append(lgb_model)

    # -------------------------
    # XGBoost
    # -------------------------
    xgb = XGBRegressor(
        n_estimators=200, learning_rate=0.05,
        max_depth=6, subsample=0.8, colsample_bytree=0.8,
        objective='reg:squarederror', random_state=42
    )
    xgb.fit(X_tr, y_tr)
    oof_xgb[valid_idx] = xgb.predict(X_val)
    xgb_models.append(xgb)

# ============================
# 5. Meta dataset
# ============================
X_meta_train = np.column_stack([oof_ridge, oof_lgb, oof_xgb])

# ============================
# 6. Méta-modèle régularisé (ElasticNet)
# ============================
meta = ElasticNet(alpha=0.1, l1_ratio=0.3)
meta.fit(X_meta_train, y_train)

# ============================
# 7. Test predictions
# ============================
ridge_test_pred = np.mean([m.predict(X_test) for m in ridge_models], axis=0)
lgb_test_pred   = np.mean([m.predict(X_test) for m in lgb_models], axis=0)
xgb_test_pred   = np.mean([m.predict(X_test) for m in xgb_models], axis=0)

X_meta_test = np.column_stack([ridge_test_pred, lgb_test_pred, xgb_test_pred])
y_pred_stack = meta.predict(X_meta_test)

# ============================
# 8. Evaluation
# ============================
print("Stacked R²:", r2_score(y_test, y_pred_stack))
print("Stacked RMSE:", np.sqrt(mean_squared_error(y_test, y_pred_stack)))


#### Analyse de résultat de l'approche 1 :
Le stacking régularisé est devenu pire qu’une ligne horizontale qui prédit la moyenne. Ce résultat est typique quand :

Le méta-modèle est trop pénalisé (ElasticNet a trop écrasé les poids).

Les base learners ont des prédictions corrélées ⇒ ElasticNet a annulé l’information utile.

Les OOF du stack ne sont pas bien calibrés.

L1 pénalise trop dans un stack avec 3 colonnes seulement.

Bref : l’ElasticNet n’a pas aimé ce dataset.

### Approche d'essai 2 
- XGBoost dans les base learners

- Stacking sans fuite (OOF correct)

- Méta-modèle GradientBoost 

- Préparation test/validation cohérente

In [None]:
kf = KFold(n_splits=5, shuffle=False)

oof_ridge = np.zeros(len(X_train))
oof_lgb   = np.zeros(len(X_train))
oof_xgb   = np.zeros(len(X_train))

ridge_models = []
lgb_models = []
xgb_models = []

for train_idx, valid_idx in kf.split(X_train):
    X_tr, X_val = X_train[train_idx], X_train[valid_idx]
    y_tr, y_val = y_train[train_idx], y_train[valid_idx]

    # -------------------------
    # Ridge
    # -------------------------
    ridge = Ridge(alpha=1.0)
    ridge.fit(X_tr, y_tr)
    oof_ridge[valid_idx] = ridge.predict(X_val)
    ridge_models.append(ridge)

    # -------------------------
    # LightGBM
    # -------------------------
    train_data = lgb.Dataset(X_tr, label=y_tr)
    lgb_model = lgb.train(
        {"objective": "regression", "metric": "rmse",
         "learning_rate": 0.05, "num_leaves": 31},
        train_data,
        num_boost_round=100
    )
    oof_lgb[valid_idx] = lgb_model.predict(X_val)
    lgb_models.append(lgb_model)

    # -------------------------
    # XGBoost
    # -------------------------
    xgb = XGBRegressor(
        n_estimators=200, learning_rate=0.05,
        max_depth=6, subsample=0.8, colsample_bytree=0.8,
        objective='reg:squarederror', random_state=42
    )
    xgb.fit(X_tr, y_tr)
    oof_xgb[valid_idx] = xgb.predict(X_val)
    xgb_models.append(xgb)

# ============================
# 5. Meta dataset
# ============================
X_meta_train = np.column_stack([oof_ridge, oof_lgb, oof_xgb])

# ============================
# 6. Méta-modèle régularisé (ElasticNet)
# ============================
meta = GradientBoostingRegressor(
    n_estimators=200,
    learning_rate=0.05,
    max_depth=3,
    subsample=0.8
)
meta.fit(X_meta_train, y_train)

# ============================
# 7. Test predictions
# ============================
ridge_test_pred = np.mean([m.predict(X_test) for m in ridge_models], axis=0)
lgb_test_pred   = np.mean([m.predict(X_test) for m in lgb_models], axis=0)
xgb_test_pred   = np.mean([m.predict(X_test) for m in xgb_models], axis=0)

X_meta_test = np.column_stack([ridge_test_pred, lgb_test_pred, xgb_test_pred])
y_pred_stack = meta.predict(X_meta_test)

# ============================
# 8. Evaluation
# ============================
print("Stacked R²:", r2_score(y_test, y_pred_stack))
print("Stacked RMSE:", np.sqrt(mean_squared_error(y_test, y_pred_stack)))


Il fait même légèrement moins bien que ton Ridge (≈0.40 R²) et ton stacking initial (~0.41 R²).

C’est un signal très instructif :
ton ensemble de modèles ne contient probablement plus d’information nouvelle à combiner.

En clair :
ton Ridge + LightGBM + XGBoost donnent tous à peu près la même structure prédictive.
Donc un méta-modèle (même non linéaire) ne peut pas exploiter une différence informative → il n’y a rien à "empiler" pour améliorer.

- Ce comportement est normal quand :

    - les features sont plutôt simples,

    - les modèles capturent déjà le maximum de signal,

    - les lags dominent la prédiction, et la variabilité restante est du bruit.
- On a R² maxi actuel ≈ 0.41 (≈ 41% de variance expliquée)

- Ce plafond suggère que :

    - soit notre dataset manque de features explicatives,
    - soit une partie importante de la consommation est intrinsèquement imprévisible,
    - soit les transformations actuelles n’exposent pas bien certaines relations temporelles.

- Ce qu'il faut faire dans ce cas :
    - Ajouter des features temporelles plus riches
    - Ajouter des features de périodicité
    - On peut penser à un modèle séquentiel si ça va marcher.


Nous allons essayer d'ajouter plus des features et étudier leurs corrélations

In [None]:
# Création de features dérivées pour capter patterns temporels

df['hour_day_interaction'] = df['hour'] * df['day_of_week']
df['month_day_interaction'] = df['month'] * df['day_of_week']
df['y_kWh_lag1'] = df['y_kWh'].shift(1)
df['y_kWh_lag2'] = df['y_kWh'].shift(2)

# Lags longs
df["lag_24"] = df["y_kWh"].shift(24)
df["lag_48"] = df["y_kWh"].shift(48)
df["lag_168"] = df["y_kWh"].shift(168)

# Rolling means
df["rolling_6h"] = df["y_kWh"].rolling(6).mean()
df["rolling_24h"] = df["y_kWh"].rolling(24).mean()
df["rolling_7d"] = df["y_kWh"].rolling(168).mean()

# Rolling volatility
df["std_24h"] = df["y_kWh"].rolling(24).std()

# Expanding features
df["expanding_mean"] = df["y_kWh"].expanding().mean()
df["expanding_std"] = df["y_kWh"].expanding().std()

df = df.fillna(0)

features = [
    'year','month','day_of_week','hour','is_weekend','n_occupants','is_peak',
    'hour_day_interaction','month_day_interaction',
    'y_kWh_lag1','y_kWh_lag2','lag_24','lag_48','lag_168',
    'rolling_6h','rolling_24h','rolling_7d',
    'std_24h','expanding_mean','expanding_std'
]



On étudie la corrélation de ces nouvelles features avec la variable cible :

In [None]:

# ====== Features avancées ajoutées ======
advanced_features = [
    'hour_day_interaction',
    'month_day_interaction',
    'y_kWh_lag1',
    'y_kWh_lag2',
    'lag_24',
    'lag_48',
    'lag_168',
    'lag_336',
    'rolling_6h',
    'rolling_24h',
    'rolling_7d',
    'std_24h',
    'expanding_mean',
    'expanding_std',
    'diff_1h',
    'diff_24h',
    'rolling_24h_pct_change',
    'hour_n_occupants',
    'dow_weekend'
]

# Calculer la corrélation avec la cible
correlations = []
for feature in advanced_features:
    corr = df[feature].corr(df['y_kWh'])
    correlations.append({
        'Feature Avancée': feature,
        'Corrélation avec y_kWh': corr
    })

# Créer un DataFrame et trier par corrélation décroissante
df_corr = pd.DataFrame(correlations)
df_corr = df_corr.sort_values('Corrélation avec y_kWh', ascending=False, key=abs)

# Afficher le résultat
print("=" * 60)
print("Corrélation des Features Avancées avec la Cible (y_kWh)")
print("=" * 60)
print(df_corr.to_string(index=False))
print("=" * 60)

Maintenant on va essayer l'approche séquetielle :

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping

SEQ_LEN = 168  # 1 semaine

# Features enrichies
features += ['hour_sin','hour_cos','dow_sin','dow_cos','month_sin','month_cos']

# Normalisation
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(df[features].fillna(0))

# Séquences
def build_sequences(X, y, seq_len=SEQ_LEN):
    X_seq, y_seq = [], []
    for i in range(seq_len, len(X)):
        X_seq.append(X[i-seq_len:i])
        y_seq.append(y[i])
    return np.array(X_seq), np.array(y_seq)

y_values = df['y_kWh'].values
X_seq, y_seq = build_sequences(X_scaled, y_values, SEQ_LEN)

split = int(len(X_seq) * 0.8)
X_train, X_test = X_seq[:split], X_seq[split:]
y_train, y_test = y_seq[:split], y_seq[split:]

# Model
model = Sequential([
    LSTM(128, return_sequences=True, input_shape=(SEQ_LEN, X_train.shape[2])),
    Dropout(0.2),
    LSTM(64),
    Dropout(0.2),
    Dense(1)
])

model.compile(loss="mse", optimizer=Adam(learning_rate=0.001))

# EarlyStopping
early_stop = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

history = model.fit(
    X_train, y_train,
    validation_split=0.1,
    epochs=100,
    batch_size=32,
    callbacks=[early_stop],
    verbose=1
)

# Évaluation
y_pred = model.predict(X_test)
from sklearn.metrics import r2_score, mean_squared_error
print("LSTM R²:", r2_score(y_test, y_pred))
print("LSTM RMSE:", np.sqrt(mean_squared_error(y_test, y_pred)))


##### Résultat d'approche séquentielle
R² = 0.044 → ça veut dire que notre modèle explique 4 % de la variance, autrement dit presque rien, c'est catastrophique les gars...

Un R² proche de 0 signifie : « ce modèle ne capture presque aucune structure dans les données ». 
On déduit que le LSTM se trompe beaucoup.

Aucune des statégies de stacking n'a donnée une amélioration de performance. Puisqu'on a remarqué que l'enrechissement par les features temporelles avancées, les lag et les moyennes glissantes ont montré une forte corrélation avec la variable cible y_kwh, et le meilleur R² était presque 0.40 avec Ridge initialement sont ajout des features avancées, on a décidé qu'on va migrer vers une approche Ridge avec sélection intelligente des features lesplus significatives.

### Comparaison entre Ridge et Elastic Net

In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Ridge, ElasticNet
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from sklearn.feature_selection import RFE

# Charger le dataset

df = pd.read_csv('final_dataset/data.csv')

# ====== Features temporelles avancées ====== donnes

df['hour_day_interaction'] = df['hour'] * df['day_of_week']
df['month_day_interaction'] = df['month'] * df['day_of_week']
df['y_kWh_lag1'] = df['y_kWh'].shift(1)
df['y_kWh_lag2'] = df['y_kWh'].shift(2)
df['lag_24'] = df['y_kWh'].shift(24)
df['lag_48'] = df['y_kWh'].shift(48)
df['lag_168'] = df['y_kWh'].shift(168)
df['lag_336'] = df['y_kWh'].shift(336)
df['rolling_6h'] = df['y_kWh'].shift(1).rolling(6).mean()
df['rolling_24h'] = df['y_kWh'].shift(1).rolling(24).mean()
df['rolling_7d'] = df['y_kWh'].shift(1).rolling(168).mean()
df['std_24h'] = df['y_kWh'].shift(1).rolling(24).std()
df['expanding_mean'] = df['y_kWh'].shift(1).expanding().mean()
df['expanding_std'] = df['y_kWh'].shift(1).expanding().std()
df['diff_1h'] = df['y_kWh'] - df['y_kWh_lag1']
df['diff_24h'] = df['y_kWh'] - df['lag_24']
df['rolling_24h_pct_change'] = (df['y_kWh'].shift(1) - df['rolling_24h']) / df['rolling_24h'].replace(0,1)
df['hour_n_occupants'] = df['hour'] * df['n_occupants']
df['dow_weekend'] = df['day_of_week'] * df['is_weekend']
df = df.fillna(0)

# Liste complète des features

features = [
'year','month','day_of_week','hour','is_weekend','n_occupants','is_peak',
'hour_day_interaction','month_day_interaction',
'y_kWh_lag1','y_kWh_lag2','lag_24','lag_48','lag_168','lag_336',
'rolling_6h','rolling_24h','rolling_7d',
'std_24h','expanding_mean','expanding_std',
'diff_1h','diff_24h','rolling_24h_pct_change',
'hour_n_occupants','dow_weekend',
'hour_sin','hour_cos','dow_sin','dow_cos','month_sin','month_cos'
]

# Split train/test

X = df[features].values
y = df['y_kWh'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

# Normalisation

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# ===== Dictionnaire pour stocker les résultats =====

results = []

# Fonction pour entraîner un modèle et récupérer les métriques

def evaluate_model(model, param_grid, X_train, y_train, X_test, y_test, model_name, use_rfe=False, n_features=20):
    grid = GridSearchCV(model, param_grid=param_grid, cv=5, scoring='r2')
    grid.fit(X_train, y_train)
    best_model = grid.best_estimator_


    if use_rfe:
        selector = RFE(best_model, n_features_to_select=n_features)
        selector.fit(X_train, y_train)
        X_train_sel = selector.transform(X_train)
        X_test_sel = selector.transform(X_test)
        best_model.fit(X_train_sel, y_train)
        y_pred = best_model.predict(X_test_sel)
    else:
        y_pred = best_model.predict(X_test)

    
    # Calcul métriques
    r2_cv = grid.best_score_
    r2_test = r2_score(y_test, y_pred) 
    r2_cv = grid.best_score_ 
    r2_test = r2_score(y_test, y_pred) 
    mae = mean_absolute_error(y_test, y_pred) 
    mse = mean_squared_error(y_test, y_pred) 
    rmse = np.sqrt(mse) 
    mape = np.mean(np.abs((y_test - y_pred) / np.where(y_test==0,1,y_test))) * 100
    
    results.append({ 
                    'Modèle': model_name + (' + RFE' if use_rfe else ''),
                    'Meilleur alpha': grid.best_params_.get('alpha', '-'),
                    'Meilleur l1_ratio': grid.best_params_.get('l1_ratio', '-'),
                    'R² CV': r2_cv, 'R² test': r2_test,
                    'MAE': mae,
                    'MSE': mse,
                    'RMSE': rmse,
                    'MAPE (%)': mape })


# ===== Évaluation Ridge + RFE =====

ridge_params = {'alpha':[0.01, 0.1, 1, 10, 100]}
evaluate_model(Ridge(), ridge_params, X_train, y_train, X_test, y_test, 'Ridge', use_rfe=True, n_features=20)

# ===== Évaluation ElasticNet + RFE =====

enet_params = {'alpha':[0.01, 0.1, 1, 10], 'l1_ratio':[0.1, 0.5, 0.9]}
evaluate_model(ElasticNet(max_iter=10000), enet_params, X_train, y_train, X_test, y_test, 'ElasticNet', use_rfe=True, n_features=20)

# Créer un DataFrame récapitulatif

df_results = pd.DataFrame(results)
print(df_results)


#### Résultats

R² très proches de 1 → les modèles expliquent presque parfaitement la variance de la consommation (y_kWh).

MAE et RMSE extrêmement faibles → erreurs absolues très petites (Ridge est quasiment parfait, erreur moyenne ~0.0002 kWh).

MAPE très faible → les prédictions sont précises en pourcentage (<2 %).

Maintenant on va appliquer une sélection des meilleurs 20 features à travers RFE, sur lequelles on fait l'entraîenement :

In [None]:
features = [
'year','month','day_of_week','hour','is_weekend','n_occupants','is_peak',
'hour_day_interaction','month_day_interaction',
'y_kWh_lag1','y_kWh_lag2','lag_24','lag_48','lag_168','lag_336',
'rolling_6h','rolling_24h','rolling_7d',
'std_24h','expanding_mean','expanding_std',
'diff_1h','diff_24h','rolling_24h_pct_change',
'hour_n_occupants','dow_weekend',
'hour_sin','hour_cos','dow_sin','dow_cos','month_sin','month_cos'
]

# Split train/test

X = df[features].values
y = df['y_kWh'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

# Normalisation

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# ===== Ridge + RFE =====

ridge = Ridge(alpha=0.01)
rfe_ridge = RFE(ridge, n_features_to_select=20)
rfe_ridge.fit(X_train, y_train)
ridge_selected_features = [f for f, s in zip(features, rfe_ridge.support_) if s]
print("Ridge + RFE - Features sélectionnées :")
print(ridge_selected_features)

# ===== ElasticNet + RFE =====

enet = ElasticNet(alpha=0.01, l1_ratio=0.1, max_iter=10000)
rfe_enet = RFE(enet, n_features_to_select=20)
rfe_enet.fit(X_train, y_train)
enet_selected_features = [f for f, s in zip(features, rfe_enet.support_) if s]
print("\nElasticNet + RFE - Features sélectionnées :")
print(enet_selected_features)

Le meilleur modèle global est Ridge + RFE, car :

- Il a la plus haute performance sur le test (R² ≈ 0.999999).

- Il est régularisé (Ridge) et utilise une sélection de 20 features, ce qui simplifie le modèle sans perte de précision.

- ElasticNet est plus orienté vers la sparsité (L1) et n’apporte pas d’avantage ici.

Les résultats confirment que les variables temporelles avancées et les lags importants (y_kWh_lag1, lag_24, lag_336) sont critiques pour la prédiction.

### Détection des heures de pic

Pour détecter les heures de pic de consommation énergétique, nous allons utiliser la fonction `.find_peaks()` de `scipy.signal`

In [None]:
from scipy.signal import find_peaks


In [None]:
#On charge notre meilleur modèle

best_ridge = Ridge(alpha=0.01)  # notre alpha optimal
selector = RFE(best_ridge, n_features_to_select=20)
selector.fit(X_train, y_train)

#On effectue le split
X_train_sel = selector.transform(X_train)
X_test_sel = selector.transform(X_test)
best_ridge.fit(X_train_sel, y_train)
y_pred = best_ridge.predict(X_test_sel)

# y_pred : prédictions du modèle
y_range = y_pred.max() - y_pred.min()
peaks, _ = find_peaks(y_pred, prominence=y_range*0.1) # régler prominence selon sensibilité
y_peak = np.zeros_like(y_pred, dtype=int)
y_peak[peaks] = 1

# Vérifier extrémités s'elles contiennent des pics
if y[0] > y[1]:
    peaks = np.insert(peaks, 0, 0)
if y[-1] > y[-2]:
    peaks = np.append(peaks, len(y)-1)

# Ajouter dans un DataFrame pour analyse

df_peaks = pd.DataFrame({
'y_true': y_test,
'y_pred': y_pred,
'peak_pred': y_peak
})
print(df_peaks.head())


### Construire les données finales qui seront stockées et exportées pour l'application Streamlit

In [None]:
from sklearn.linear_model import Ridge
from sklearn.feature_selection import RFE
import pickle

# Entraîner RFE + Ridge
best_ridge = Ridge(alpha=0.01)
selector = RFE(best_ridge, n_features_to_select=20)
selector.fit(X_train, y_train)

# Transformer les données
X_train_sel = selector.transform(X_train)
X_test_sel = selector.transform(X_test)
best_ridge.fit(X_train_sel, y_train)
y_pred = best_ridge.predict(X_test_sel)

# Construire la liste des 20 features sélectionnées
ridge_selected_features = [f for f, s in zip(features, selector.support_) if s]
selected_features = ridge_selected_features

# Sauvegarder les objets pour qu'ils soient exportés et utilisés dans l'application streamlit

with open("scaler.pkl", "wb") as f:
    pickle.dump(scaler, f)

with open("selector.pkl", "wb") as f:
    pickle.dump(selector, f)

with open("selected_features.pkl", "wb") as f:
    pickle.dump(selected_features, f)

with open("ridge_model.pkl", "wb") as f:
    pickle.dump(best_ridge, f)

print("Fichiers exportés : scaler.pkl, selector.pkl, selected_features.pkl, ridge_model.pkl")
