##############################################################################
##############################################################################
### **Atelier "Faire du Machine Learning et du Deep Learning sur des Time Series"**
##############################################################################
##############################################################################
<br>
<br>
<br>
<br>
#### **Partie 2 : Machine Learning sur des Times Series multivari√©e** 

Dans cette deuxi√®me partie, nous allons ajouter des variables exog√®nes √† la s√©rie univari√©e historique de consommation d'√©lectricit√© de la m√©tropole de Brest. Nous allons rajouter tout d'abord des donn√©e m√©t√©orologiques, puis des donn√©es li√©es aux √©v√®nements calendaires.
<br>
<br>
Niveau Mod√®les, nous allons entrainer un LSTM, qui est tout √† fait design√© pour g√©rer des s√©ries multivari√©es. La phase un peu compliqu√©e sera celle de la cr√©ation des s√©quences qui serviront de s√©quence historique pour une inf√©rence.
<br>
<br>
En bonus, nous explorerons le premier mod√®le de fondation pour donn√©es multivari√©e, MOIRAI, qui est capable de faire des pr√©dictions en zero-shot learning. Nous verrons si cette approche permet d√©j√† des r√©sultats corrects
<br>


## Section 0 : r√©cup√©ration, pr√©paration et Fusion des Datasets ##

L'analyse multivari√©e repose sur l'int√©gration de variables exog√®nes (externes) pour am√©liorer la pr√©cision pr√©dictive. Ici, nous fusionnons les donn√©es de consommation √©lectrique avec les donn√©es m√©t√©orologiques.

    Alignement temporel : Synchronisation des deux sources sur un index commun via une jointure interne (inner merge).

  

In [None]:
import requests
import pandas as pd
import time

def fetch_brest_electricity_data():
    base_url = "https://odre.opendatasoft.com/api/explore/v2.1/catalog/datasets/eco2mix-metropoles-tr/exports/json"
    
    # Param√®tres de la requ√™te
    params = {
        "where": "libelle_metropole='Brest M√©tropole' AND date_heure >= '2020-01-01' AND date_heure <= '2025-12-31'",
        "order_by": "date_heure ASC",
        "timezone": "UTC"
    }
    
    print("R√©cup√©ration des donn√©es pour Brest M√©tropole (2020-2025)...")
    
    try:
        response = requests.get(base_url, params=params)
        response.raise_for_status()
        
        data = response.json()
        df = pd.DataFrame(data)
        print(df.head())
            
        df = df[['date_heure', 'consommation']].dropna()
        
        print(f"Chargement Termin√© ! {len(df)} lignes r√©cup√©r√©es.")
        return df

    except Exception as e:
        print(f"Erreur lors de la r√©cup√©ration : {e}")
        return None


df_conso_brest = fetch_brest_electricity_data()

if df_conso_brest is not None:
    print(df_conso_brest.head())
    # Sauvegarde pour l'atelier
    df_conso_brest.to_csv("conso_brest_2020_2025.csv", index=False)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt


# 1. indexation temporelle
df_conso_brest = df_conso_brest.rename(columns={"date_heure": "date"})
df_conso_brest['date'] = pd.to_datetime(df_conso_brest['date'], utc=True)
df_conso_brest = df_conso_brest.set_index('date').sort_index()

# changement de temporalit√© des donn√©es
df_conso_brest_journ = df_conso_brest['consommation'].resample('D').mean().interpolate()




In [None]:
import openmeteo_requests
import requests_cache
import pandas as pd
from retry_requests import retry

# Configuration de l'API avec cache et relance automatique en cas d'erreur
cache_session = requests_cache.CachedSession('.cache', expire_after=-1)
retry_session = retry(cache_session, retries=5, backoff_factor=0.2)
openmeteo = openmeteo_requests.Client(session=retry_session)

def get_weather_data_brest(start_date, end_date):
    url = "https://archive-api.open-meteo.com/v1/archive"
    
    params = {
        "latitude": 48.3904, # Brest
        "longitude": -4.4861,
        "start_date": start_date,
        "end_date": end_date,
        "hourly": ["temperature_2m", "relative_humidity_2m", "wind_speed_10m", "shortwave_radiation"],
        "timezone": "Europe/Berlin"
    }
    
    responses = openmeteo.weather_api(url, params=params)
    response = responses[0]

    # Processus de transformation des donn√©es horaires
    hourly = response.Hourly()
    hourly_data = {"date": pd.date_range(
        start=pd.to_datetime(hourly.Time(), unit="s", utc=True),
        end=pd.to_datetime(hourly.TimeEnd(), unit="s", utc=True),
        freq=pd.Timedelta(seconds=hourly.Interval()),
        inclusive="left"
    )}
    
    hourly_data["temp_moy"] = hourly.Variables(0).ValuesAsNumpy()
    hourly_data["humidity"] = hourly.Variables(1).ValuesAsNumpy()
    hourly_data["vent_vitesse"] = hourly.Variables(2).ValuesAsNumpy()
    hourly_data["rayonnement_moyen"] = hourly.Variables(3).ValuesAsNumpy()

    df_meteo = pd.DataFrame(data=hourly_data)
    
    # Passage en format journalier
    df_meteo_journ = df_meteo.resample('D', on='date').mean()
    
    return df_meteo_journ


df_meteo_brest_journ = get_weather_data_brest("2020-01-01", "2025-12-31")
print(df_meteo_brest_journ.head())

In [None]:
# 2. Fusion (Jointure sur la date)

df_data_multi_brest = pd.merge(df_conso_brest_journ, df_meteo_brest_journ, on='date', how='inner')

print(df_data_multi_brest.head())



## Section 1  : Ing√©nierie des caract√©ristiques ##

Nous allons aider le mod√®le en construisant des caract√©ristiques refl√©tant la position du charg√© de pr√©diction le jour j.


In [None]:

# --- PASS√â (Lags) ---
# Consommation de la veille (J-1), de l'avant veille (J-2) et de la semaine derni√®re (J-7) pour la saisonnalit√©
#######################################
#lignes √† remplir
#######################################
df_data_multi_brest['conso_obs_j-1'] = df_data_multi_brest['consommation'].
df_data_multi_brest['conso_obs_j-2'] = df_data_multi_brest['consommation'].
df_data_multi_brest['conso_obs_j-7'] = df_data_multi_brest['consommation'].

# M√©t√©o observ√©e hier (J-1) pour l'inertie thermique
df_data_multi_brest['temp_obs_j-1'] = df_data_multi_brest['temp_moy'].

# M√©t√©o observ√©e hier (J-1) pour l'humidit√©
df_data_multi_brest['humidity_j-1'] = df_data_multi_brest['humidity'].

# M√©t√©o observ√©e hier (J-1) pour le rayonnement
df_data_multi_brest['rayonnement_moyen_j-1'] = df_data_multi_brest['rayonnement_moyen'].

# M√©t√©o observ√©e hier (J-1) pour le vent
df_data_multi_brest['vent_vitesse_j-1'] = df_data_multi_brest['vent_vitesse'].

# --- FUTUR / PR√âVISIONS (Leads) ---
# On utilise la donn√©e r√©elle de J comme si c'√©tait la pr√©vision faite le matin m√™me
df_data_multi_brest['temp_prev_j'] = df_data_multi_brest['temp_moy'] 

# On utilise la donn√©e de J+1 comme pr√©vision pour demain (Lead)
df_data_multi_brest['temp_prev_j+1'] = df_data_multi_brest['temp_moy'].


df_data_multi_brest = df_data_multi_brest.dropna()

print(df_data_multi_brest.head())






Nous allons ajouter les informations calendaires comme caract√©ristiques potentiellement utiles

In [None]:
import holidays

fr_holidays = holidays.France()

def add_calendar_features(df):
    
    df_enriched = df.copy()
    
    # 1. Variables temporelles basiques
    df_enriched['day_of_week'] = df_enriched.index.dayofweek
    df_enriched['month'] = df_enriched.index.month
    df_enriched['is_weekend'] = df_enriched.index.dayofweek.isin([5, 6]).astype(int)
    
    # 2. Jours f√©ri√©s (Boolean : 1 si f√©ri√©, 0 sinon)
    df_enriched['is_holiday'] = df_enriched.index.map(lambda x: 1 if x in fr_holidays else 0)
    
    # 3. Veille et Lendemain de jour f√©ri√© 
    df_enriched['is_holiday_prev'] = df_enriched['is_holiday'].shift(-1, fill_value=0)
    df_enriched['is_holiday_next'] = df_enriched['is_holiday'].shift(1, fill_value=0)
    
    return df_enriched


df_data_multi_brest = add_calendar_features(df_data_multi_brest)




Enfin, nous allons s√©parer les donn√©es en donn√©es d'entrainement et de test

In [None]:
dataset_train = df_data_multi_brest['2015-01-01':'2024-12-31']
dataset_test = df_data_multi_brest['2025-01-01':'2025-12-31']

## Section 2 : Normalisation des donn√©es (Scaling) ##

Les mod√®les de Machine Learning (et particuli√®rement les r√©seaux de neurones ou SVR) sont sensibles √† l'√©chelle des donn√©es.

    MinMaxScaler / StandardScaler : Transformation des valeurs pour les ramener dans un intervalle r√©duit (ex: [0,1]).

    Objectif : √âviter que la variable "Consommation" (en centaines de MW) n'√©crase par exemple la variable "Temp√©rature" (en dizaines de degr√©s).

In [None]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# 1. Normalisation
scaler_uni = MinMaxScaler(feature_range=(0, 1))
scaler_multi_x = MinMaxScaler(feature_range=(0, 1))
scaler_multi_y = MinMaxScaler(feature_range=(0, 1))

# S√©lection des colonnes pour le mod√®le
features = [
    'conso_obs_j-1','conso_obs_j-2', 'conso_obs_j-7', 
    'temp_moy',   'humidity',  'vent_vitesse', 'rayonnement_moyen',
    'temp_obs_j-1',  'humidity_j-1', 'rayonnement_moyen_j-1', 'rayonnement_moyen_j-1','vent_vitesse_j-1',
    'temp_prev_j',  'temp_prev_j+1',
    'day_of_week','month','is_weekend','is_holiday','is_holiday_prev','is_holiday_next'
]
target = 'consommation'

X_train_multi = dataset_train[features].values
y_train_multi = dataset_train[target].values

X_test_multi = dataset_test[features].values
y_test_multi = dataset_test[target].values

X_train_multi_scaled = scaler_multi_x.fit_transform(X_train_multi)
X_test_multi_scaled = scaler_multi_x.transform(X_test_multi)
y_train_multi_scaled = scaler_multi_y.fit_transform(y_train_multi.reshape(-1, 1))
y_test_multi_scaled = scaler_multi_y.transform(y_test_multi.reshape(-1, 1))


Nous allons maintenant cr√©er les s√©quences qui serviront au LSTM

In [None]:

def create_sequences_for_multivariate(X, y, window_size):
    X_seq, y_seq = [], []
    for i in range(window_size, len(X)):
        # On prend une fen√™tre de 'window_size' jours pour X
        X_seq.append(X[i-window_size:i])
        # La cible est la valeur de y juste apr√®s cette fen√™tre
        y_seq.append(y[i])
    return np.array(X_seq), np.array(y_seq)

#Param√®tre critique : quelle longueur d'historicit√© nous voulons ? Ici ce param√®tre est r√©gl√© √† 30, mais c'est potentiellement beaucoup trop long
window_size = 30 

X_train_multi_scaled_seq, y_train_multi_scaled_seq = create_sequences_for_multivariate(X_train_multi_scaled, y_train_multi_scaled, window_size)
X_test_multi_scaled_seq, y_test_multi_scaled_seq = create_sequences_for_multivariate(X_test_multi_scaled, y_test_multi_scaled, window_size)


print(f"Forme de dataset_train : {dataset_train.shape}")
print(f"Forme de dataset_test : {dataset_test.shape}") 

print(f"Forme de X_train_scaled_multi : {X_train_multi.shape}")
print(f"Forme de y_train_scaled_multi : {y_train_multi.shape}")

print(f"Forme de X_train_multi_scaled_seq : {X_train_multi_scaled_seq.shape}") 

## Section 3 : cr√©ation et entrainement du mod√®le LSTM ##

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping

# Initialisation du mod√®le
model_lstm_multi = Sequential([
   
    # input_shape = (nb_pas_de_temps, nb_features)
    #######################################
    #ligne √† remplir
    #######################################
    LSTM(50, activation='relu', input_shape=(,)),
    
    
    # Dropout pour √©viter le sur-apprentissage (overfitting)
    Dropout(0.2),   
    
    # Couche de sortie : 1 neurone pour la pr√©diction finale (valeur continue)
    Dense(1)
])

# Compilation
model_lstm_multi.compile(optimizer='adam', loss='mean_squared_error')

early_stop = EarlyStopping(monitor='val_loss', patience=30, restore_best_weights=True)
# 3. Entra√Ænement
# epochs : nombre de passages sur les donn√©es
# batch_size : nombre d'√©chantillons trait√©s avant la mise √† jour des poids
history = model_lstm_multi.fit(
    #X_train_multi_scaled_seq[:,:,0], y_train_multi_scaled_seq, 
    X_train_multi_scaled_seq,y_train_multi_scaled_seq,
    epochs=1000, 
    batch_size=32, 
    validation_split=0.1, # On garde 10% pour valider pendant l'entra√Ænement
    callbacks=[early_stop],
    verbose=1
)



In [None]:
# 1. Pr√©dictions
predictions_scaled = model_lstm_multi.predict(X_test_multi_scaled_seq)

# 2. D√©normalisation des pr√©dictions
y_pred = scaler_multi_y.inverse_transform(predictions_scaled)
y_actual = scaler_multi_y.inverse_transform(y_test_multi_scaled_seq)



In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(15, 6))
plt.plot(y_actual, label='Consommation R√©elle (MW)', color='blue', alpha=0.7)
plt.plot(y_pred, label='Pr√©diction LSTM (MW)', color='red', linestyle='--')

plt.title('Pr√©diction de la consommation √©lectrique √† Brest (Multivari√© : M√©t√©o + Lags)')
plt.xlabel('Date')
plt.ylabel('Puissance (MW)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# 1. MAE : Mean Absolute Error (Erreur Absolue Moyenne)
#######################################
#ligne √† remplir
#######################################
mae = mean_absolute_error()

# 2. RMSE : Root Mean Squared Error (Erreur Quadratique Moyenne)
#######################################
#ligne √† remplir
#######################################
rmse = np.sqrt(mean_squared_error())

# 3. MAPE : Mean Absolute Percentage Error (Erreur en Pourcentage)
#######################################
#ligne √† remplir
#######################################
mape = np.mean(np.abs(() / )) * 100

print(f"üìä Performances du mod√®le LSTM :")
print(f"MAE  : {mae:.2f} MW")
print(f"RMSE : {rmse:.2f} MW")
print(f"MAPE : {mape:.2f} %")

## Test du mod√®le de fondation MOIRAI ##

<br>
<br>
Les mod√®les de fondations, tr√®s connus pour le traitement d'images ou pour le NLP, arrivent depuis peu de temps pour les donn√©es tabulaires et les time series. La promesse : faire des pr√©dictions en zero-shot learning, sans fine tuning sur nos propres data, avec seulement des donn√©es de "contexte".

Cette approche est √©mergente, les librairies sont encore mouvantes, pas simple d'arriver √† les faire fonctionner.

<br>
<br>
Nous utilisons ici MOIRAI, un mod√®le de fondation √† l'√©tat de l'art, voyons ce qu'il est capable de faire .....

In [None]:
import torch
import pandas as pd
from gluonts.dataset.pandas import PandasDataset
import uni2ts.model.moirai as moirai
from uni2ts.model.moirai import MoiraiModule, MoiraiForecast
# 1. S√©lection des donne√©s utilis√©es comme historique (ou contexte) par MOIRAI, soit les 200 jours avant le mois de d√©cembre 2025
data_for_prediction = dataset_test.iloc[-230:-30].copy()
data_for_prediction.index = pd.to_datetime(data_for_prediction.index)

#Explicitation de la nature journali√®re des donn√©es
base_freq = "D"
data_for_prediction = data_for_prediction.asfreq(base_freq)

data_for_prediction = data_for_prediction.ffill()

# 2. Preparation du dataset au format GluonTS
# Ici, la date est l'index
dataset = PandasDataset(
    data_for_prediction,
    target="consommation",
    timestamp=None,
    freq=base_freq,
    feat_dynamic_real=features
)

# 3. Longueurs de pr√©diction et de contexte
requested_prediction_length = 30
context_length = 150

max_pred = len(data_for_prediction) - context_length
if max_pred <= 0:
    raise ValueError(
        f"Pas assez de donnees: len(data_for_prediction)={len(data_for_prediction)} "
        f"< context_length={context_length}."
    )

prediction_length = min(requested_prediction_length, max_pred)


# On charge ici le mod√®le small, si vous avez une bonne bande passante vous pouvez charger le mod√®le large!
module = MoiraiModule.from_pretrained("Salesforce/moirai-1.0-R-small")

predictor = MoiraiForecast(
    module=module,
    prediction_length=prediction_length,
    context_length=context_length,
    patch_size="auto",
    num_samples=100,
    target_dim=1,
    feat_dynamic_real_dim=len(features),
    past_feat_dynamic_real_dim=0
)

final_predictor = predictor.create_predictor(batch_size=32)
forecast_it = final_predictor.predict(dataset)



In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 1. On recupere le premier (et seul) forecast de notre liste
forecasts = list(forecast_it)

if len(forecasts) == 0:
    raise ValueError(
        "Aucun forecast renvoy√©."
    )
forecast_entry = forecasts[0]


plt.figure(figsize=(12, 6))


forecast_index = forecast_entry.index

# Normalise les types d'index (Period -> Timestamp) et les timezones
if isinstance(forecast_index, pd.PeriodIndex):
    forecast_index = forecast_index.to_timestamp()

series = dataset_test['consommation']


# Historique: on prend juste avant le debut de la prediction
history_end = forecast_index[0]
history = series.loc[:history_end].iloc[-100:]
plt.plot(history.index, history.values, label="Historique (MW)", color="black", linewidth=1.5)

actual = series.reindex(forecast_index)
plt.plot(actual.index, actual.values, label="Realite (Ground Truth)", color="red", linestyle="--", linewidth=2)

# 3. Trace de la mediane + intervalles
q50 = forecast_entry.quantile(0.5)
q90 = forecast_entry.quantile(0.9)
q10 = forecast_entry.quantile(0.1)

plt.plot(forecast_index, q50, color='g', label="Prediction MOIRAI (Mediane)")
plt.fill_between(forecast_index, q10, q90, color='g', alpha=0.2, label="Intervalle 10-90%")

plt.title("Prediction de Consommation electrique : MOIRAI (Zero-Shot)", fontsize=14)
plt.ylabel("Puissance (MW)")
plt.xlabel("Temps")
plt.legend(loc="upper left")
plt.grid(alpha=0.3)
plt.show()
