# 03 — Feature Engineering

Objectif : construire un jeu de données "prêt modélisation" à partir du dataset horaire final
(consommation + météo), en créant des variables temporelles, retardées et dérivées,
sans fuite d'information (time leakage), puis en définissant un split temporel
(train/validation/test).

**Entrée :** `data/processed/dataset_model_hourly.parquet`  
**Sortie :** `data/processed/dataset_features.parquet` (ou splits séparés)


In [31]:
from pathlib import Path
import numpy as np
import pandas as pd

PROJECT_ROOT = Path("/home/onyxia/france-grid-stress-prediction")
DATA_PROCESSED = PROJECT_ROOT / "data" / "processed"

IN_PATH = DATA_PROCESSED / "dataset_model_hourly.parquet"
OUT_PATH = DATA_PROCESSED / "dataset_features.parquet"

assert IN_PATH.exists(), f"Missing input: {IN_PATH}"


In [32]:
df = pd.read_parquet(IN_PATH)
df["datetime"] = pd.to_datetime(df["datetime"])
df = df.sort_values("datetime").reset_index(drop=True)

df.head()


Unnamed: 0,datetime,load_mw,temperature_2m,wind_speed_10m,direct_radiation,diffuse_radiation,cloud_cover
0,2010-01-01 00:00:00,52685.0,4.273719,12.397994,0.0,0.0,93.96875
1,2010-01-01 01:00:00,52142.5,4.036219,12.709288,0.0,0.0,95.40625
2,2010-01-01 02:00:00,52081.5,3.812781,13.122019,0.0,0.0,96.46875
3,2010-01-01 03:00:00,52331.5,3.598719,13.30827,0.0,0.0,96.875
4,2010-01-01 04:00:00,52171.0,3.426844,14.0818,0.0,0.0,94.78125


## Verification de cohérence

Vérifications minimales :
- période couverte (min/max)
- fréquence horaire (pas dominant)
- valeurs manquantes par colonne


In [33]:
print("Min datetime:", df["datetime"].min())
print("Max datetime:", df["datetime"].max())
print("N rows:", len(df))

# fréquence dominante
dt_diff = df["datetime"].diff().value_counts().head(5)
print("\nTop time diffs:")
print(dt_diff)

# NA par colonne
na_pct = (df.isna().mean() * 100).round(2).sort_values(ascending=False)
print("\nMissing values (%):")
print(na_pct.head(20))


Min datetime: 2010-01-01 00:00:00
Max datetime: 2024-12-31 23:00:00
N rows: 131496

Top time diffs:
datetime
0 days 01:00:00    131495
Name: count, dtype: int64

Missing values (%):
load_mw              3.92
datetime             0.00
temperature_2m       0.00
wind_speed_10m       0.00
direct_radiation     0.00
diffuse_radiation    0.00
cloud_cover          0.00
dtype: float64


## Définition de la cible

On commence avec une cible "à l’heure" : `y = load_mw`.
Ensuite, on pourra créer une variante H+24 : `y_h24 = load_mw(t+24)`.


In [34]:
TARGET_COL = "load_mw"
assert TARGET_COL in df.columns, f"Missing target column: {TARGET_COL}"

df["y"] = df[TARGET_COL].astype(float)

# df["y_h24"] = df["y"].shift(-24)


## Features calendaires

But : capturer les effets "humains" (heures, jours ouvrés/week-end) et la saisonnalité.


In [35]:
df["hour"] = df["datetime"].dt.hour
df["dayofweek"] = df["datetime"].dt.weekday  # 0=Monday
df["is_weekend"] = (df["dayofweek"] >= 5).astype(int)
df["month"] = df["datetime"].dt.month
df["dayofyear"] = df["datetime"].dt.dayofyear

# Encodage cyclique (optionnel mais propre)
df["hour_sin"] = np.sin(2 * np.pi * df["hour"] / 24)
df["hour_cos"] = np.cos(2 * np.pi * df["hour"] / 24)
df["doy_sin"] = np.sin(2 * np.pi * df["dayofyear"] / 365.25)
df["doy_cos"] = np.cos(2 * np.pi * df["dayofyear"] / 365.25)


## Lags

But : donner au modèle l'inertie de la consommation (heure précédente, veille, semaine).
Attention : cela crée des NA au début de la série (normal).


In [36]:
LAGS_H = [1, 24, 48, 168]

for lag in LAGS_H:
    df[f"load_lag_{lag}h"] = df["y"].shift(lag)


## Rolling statistics

But : fournir un contexte recent (niveau moyen, variabilité).
Fenêtres typiques : 24h, 7j.


In [37]:
ROLL_WINDOWS = [24, 168]

for w in ROLL_WINDOWS:
    df[f"load_roll_mean_{w}h"] = df["y"].shift(1).rolling(w).mean()
    df[f"load_roll_std_{w}h"] = df["y"].shift(1).rolling(w).std()


## Features météo dérivées

On calcule des degrés-jours chauffage (HDD) et climatisation (CDD) si une température existe.
Adapte `TEMP_COL` selon le nom réel dans ton dataset.


In [38]:
# Adapte ce nom à ta colonne température réelle (ex: "temperature", "temp", "t2m", etc.)
TEMP_COL_CANDIDATES = [c for c in df.columns if "temp" in c.lower()]
print("Temp candidates:", TEMP_COL_CANDIDATES[:10])

# Exemple : tu fixes explicitement la colonne
# TEMP_COL = "temp"
TEMP_COL = None

if TEMP_COL and TEMP_COL in df.columns:
    df["hdd_18"] = (18 - df[TEMP_COL]).clip(lower=0)
    df["cdd_22"] = (df[TEMP_COL] - 22).clip(lower=0)


Temp candidates: ['temperature_2m']


## Interactions (optionnel)

Ajouter peu d’interactions (2–3 max) si elles sont justifiées.


In [39]:
# Exemple si TEMP_COL existe
# if TEMP_COL and TEMP_COL in df.columns:
#     df["temp_x_weekend"] = df[TEMP_COL] * df["is_weekend"]
#     df["temp_x_hour"] = df[TEMP_COL] * df["hour"]


## Gestion des valeurs manquantes

On applique une règle simple : suppression des lignes contenant des NA dans les variables
utilisées pour l'entraînement. On documente combien de lignes sont retirées.


In [40]:
# Colonnes features (exclure datetime et target)
feature_cols = [
    c for c in df.columns
    if c not in {"datetime", TARGET_COL, "y"} and not c.startswith("y_")
]

before = len(df)
df_feat = df.dropna(subset=feature_cols + ["y"]).copy()
after = len(df_feat)

print("Rows before:", before)
print("Rows after dropna:", after)
print("Dropped:", before - after)


Rows before: 131496
Rows after dropna: 125832
Dropped: 5664


## Split temporel

Découpage chronologique strict. Exemple :
- train : 2010–2018
- valid : 2019
- test  : 2021–2022

2020 peut être exclue (trou + période atypique) ou traitée à part.
Adapte selon ta disponibilité réelle (min/max).


In [41]:
df_feat["year"] = df_feat["datetime"].dt.year

def assign_split(y: int) -> str:
    if 2010 <= y <= 2018:
        return "train"
    if y == 2019:
        return "valid"
    if 2021 <= y <= 2022:
        return "test"
    return "ignore"

df_feat["split"] = df_feat["year"].apply(assign_split)

print(df_feat["split"].value_counts())


split
train     78720
ignore    21000
test      17352
valid      8760
Name: count, dtype: int64


## Export

On exporte un dataset unique avec une colonne `split`.


In [42]:
keep_cols = ["datetime", "y", "split"] + feature_cols
df_out = df_feat[keep_cols].copy()

OUT_PATH.parent.mkdir(parents=True, exist_ok=True)
df_out.to_parquet(OUT_PATH, index=False)

print("Saved:", OUT_PATH)
print(df_out.head())


Saved: /home/onyxia/france-grid-stress-prediction/data/processed/dataset_features.parquet
               datetime        y  split  temperature_2m  wind_speed_10m  \
168 2010-01-08 00:00:00  74564.5  train       -2.365344       12.290582   
169 2010-01-08 01:00:00  77065.5  train       -2.537219       12.808883   
170 2010-01-08 02:00:00  82297.0  train       -2.552844       13.657961   
171 2010-01-08 03:00:00  87563.0  train       -2.551281       14.603605   
172 2010-01-08 04:00:00  89394.5  train       -2.530969       15.812960   

     direct_radiation  diffuse_radiation  cloud_cover  hour  dayofweek  ...  \
168               0.0                0.0     67.06250     0          4  ...   
169               0.0                0.0     70.78125     1          4  ...   
170               0.0                0.0     73.93750     2          4  ...   
171               0.0                0.0     77.56250     3          4  ...   
172               0.0                0.0     80.96875     4     

In [43]:
report = (
    df_out.groupby("split")
    .agg(
        n_rows=("y", "size"),
        start=("datetime", "min"),
        end=("datetime", "max"),
    )
    .sort_index()
)
report


Unnamed: 0_level_0,n_rows,start,end
split,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ignore,21000,2020-01-01,2024-12-31 23:00:00
test,17352,2021-01-08,2022-12-31 23:00:00
train,78720,2010-01-08,2018-12-31 23:00:00
valid,8760,2019-01-01,2019-12-31 23:00:00


## Conclusion

Le dataset `dataset_features.parquet` contient :
- la cible `y`
- des variables calendaires + retardées + glissantes (+ météo dérivées si disponibles)
- un split temporel strict (train/valid/test)

La prochaine étape (`04_modeling.ipynb`) consiste à entraîner des modèles de référence
(naïf, régression linéaire), puis des modèles ML (XGBoost/LightGBM), et comparer les performances.
