# Introduction aux RNN pour les S√©ries Temporelles

## Objectifs de ce notebook

Dans ce notebook, nous allons explorer l'application des architectures r√©currentes aux **s√©ries temporelles** :

1. **RNN Simple** - L'architecture de base pour les s√©quences temporelles
2. **LSTM (Long Short-Term Memory)** - Pour capturer les d√©pendances √† long terme
3. **GRU (Gated Recurrent Unit)** - Version optimis√©e et efficace

Nous travaillerons sur un probl√®me de **pr√©diction de consommation √©nerg√©tique**, un cas d'usage classique en industrie.

## Pourquoi les RNN pour les s√©ries temporelles ?

Les s√©ries temporelles ont des caract√©ristiques uniques :
- **D√©pendance temporelle** : Les valeurs pass√©es influencent les valeurs futures
- **Tendances** : √âvolution √† long terme (croissance, d√©croissance)
- **Saisonnalit√©** : Patterns qui se r√©p√®tent (jour/nuit, semaine, saison)
- **Cycles** : Variations p√©riodiques

**Applications** :
- üìà **Finance** : Pr√©diction de prix d'actions, taux de change
- ‚ö° **√ânergie** : Pr√©vision de consommation √©lectrique
- üå°Ô∏è **M√©t√©o** : Pr√©visions m√©t√©orologiques
- üè≠ **Industrie** : Maintenance pr√©dictive, optimisation de production
- üè• **Sant√©** : Surveillance de signaux vitaux, pr√©diction d'√©pid√©mies

## 1. Imports et configuration

In [None]:
# Biblioth√®ques principales
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import clear_output
import warnings
warnings.filterwarnings('ignore')

# TensorFlow et Keras
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
from tensorflow.keras.callbacks import Callback, EarlyStopping

# Sklearn pour normalisation et m√©triques
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Configuration GPU
try:
    gpus = tf.config.list_physical_devices('GPU')
    if gpus:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        print(f"GPU(s) d√©tect√©(s): {len(gpus)} - Croissance m√©moire activ√©e")
    else:
        print("Aucun GPU d√©tect√© - Utilisation du CPU")
except Exception as e:
    print(f"Configuration GPU: {e}")
    print("Utilisation du CPU par d√©faut")

# Configuration graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 6)

# Reproductibilit√©
np.random.seed(42)
tf.random.set_seed(42)

print(f"\nTensorFlow version: {tf.__version__}")
print(f"Keras version: {keras.__version__}")

## 2. G√©n√©ration et Exploration des Donn√©es

### 2.1 Cr√©ation d'une s√©rie temporelle synth√©tique

Nous allons g√©n√©rer une s√©rie temporelle de **consommation √©nerg√©tique** avec plusieurs composantes r√©alistes :
- **Tendance** : Croissance graduelle de la consommation
- **Saisonnalit√© quotidienne** : Pics le matin et le soir
- **Saisonnalit√© hebdomadaire** : Plus faible consommation le weekend
- **Bruit** : Variations al√©atoires

In [None]:
# Param√®tres de g√©n√©ration
n_hours = 24 * 365 * 2  # 2 ans de donn√©es horaires
time = np.arange(n_hours)

# Composante 1: Tendance (croissance l√©g√®re)
trend = 0.01 * time

# Composante 2: Saisonnalit√© annuelle (√©t√©/hiver)
seasonal_yearly = 30 * np.sin(2 * np.pi * time / (24 * 365))

# Composante 3: Saisonnalit√© quotidienne (jour/nuit)
seasonal_daily = 20 * np.sin(2 * np.pi * time / 24) + 10 * np.sin(4 * np.pi * time / 24)

# Composante 4: Saisonnalit√© hebdomadaire (weekend)
seasonal_weekly = 15 * np.sin(2 * np.pi * time / (24 * 7))

# Composante 5: Bruit al√©atoire
np.random.seed(42)
noise = np.random.normal(0, 5, n_hours)

# S√©rie temporelle finale
base_consumption = 100
energy_consumption = (base_consumption + trend + seasonal_yearly + 
                     seasonal_daily + seasonal_weekly + noise)

# Cr√©er un DataFrame
dates = pd.date_range(start='2022-01-01', periods=n_hours, freq='H')
df = pd.DataFrame({
    'datetime': dates,
    'consumption': energy_consumption
})

print(f"{'='*70}")
print(f"INFORMATIONS SUR LES DONN√âES")
print(f"{'='*70}")
print(f"Nombre total d'observations: {len(df):,}")
print(f"P√©riode: {df['datetime'].min()} √† {df['datetime'].max()}")
print(f"Fr√©quence: Horaire")
print(f"\nStatistiques de consommation (kWh):")
print(df['consumption'].describe())
print(f"{'='*70}")

### 2.2 Visualisation de la s√©rie temporelle compl√®te

In [None]:
fig, axes = plt.subplots(3, 1, figsize=(18, 12))

# Vue compl√®te (2 ans)
axes[0].plot(df['datetime'], df['consumption'], linewidth=0.8, color='steelblue', alpha=0.8)
axes[0].set_xlabel('Date', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[0].set_title('S√©rie Temporelle Compl√®te - 2 Ans de Donn√©es', fontsize=14, fontweight='bold')
axes[0].grid(alpha=0.3)

# Zoom sur 1 mois
month_data = df[df['datetime'].dt.month == 6].iloc[:24*30]
axes[1].plot(month_data['datetime'], month_data['consumption'], 
            linewidth=1.5, color='darkgreen', marker='o', markersize=2)
axes[1].set_xlabel('Date', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[1].set_title('Zoom sur 1 Mois - Saisonnalit√© Visible', fontsize=14, fontweight='bold')
axes[1].grid(alpha=0.3)

# Zoom sur 1 semaine
week_data = df.iloc[:24*7]
axes[2].plot(week_data['datetime'], week_data['consumption'], 
            linewidth=2, color='crimson', marker='o', markersize=4)
axes[2].set_xlabel('Date', fontsize=12, fontweight='bold')
axes[2].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[2].set_title('Zoom sur 1 Semaine - Pattern Quotidien Clair', fontsize=14, fontweight='bold')
axes[2].grid(alpha=0.3)

plt.tight_layout()
plt.show()

### 2.3 Analyse des patterns temporels

In [None]:
# Extraction des features temporelles
df['hour'] = df['datetime'].dt.hour
df['day_of_week'] = df['datetime'].dt.dayofweek
df['month'] = df['datetime'].dt.month

fig, axes = plt.subplots(1, 3, figsize=(20, 5))

# Pattern horaire (moyenne par heure de la journ√©e)
hourly_avg = df.groupby('hour')['consumption'].mean()
axes[0].bar(hourly_avg.index, hourly_avg.values, color='steelblue', 
           edgecolor='black', linewidth=1.5, alpha=0.8)
axes[0].set_xlabel('Heure de la journ√©e', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Consommation moyenne (kWh)', fontsize=12, fontweight='bold')
axes[0].set_title('Pattern Quotidien - Moyenne par Heure', fontsize=14, fontweight='bold')
axes[0].grid(alpha=0.3, axis='y')
axes[0].set_xticks(range(0, 24, 3))

# Pattern hebdomadaire
weekly_avg = df.groupby('day_of_week')['consumption'].mean()
day_names = ['Lun', 'Mar', 'Mer', 'Jeu', 'Ven', 'Sam', 'Dim']
colors_week = ['#3498db' if i < 5 else '#e74c3c' for i in range(7)]
axes[1].bar(range(7), weekly_avg.values, color=colors_week, 
           edgecolor='black', linewidth=1.5, alpha=0.8)
axes[1].set_xlabel('Jour de la semaine', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Consommation moyenne (kWh)', fontsize=12, fontweight='bold')
axes[1].set_title('Pattern Hebdomadaire', fontsize=14, fontweight='bold')
axes[1].grid(alpha=0.3, axis='y')
axes[1].set_xticks(range(7))
axes[1].set_xticklabels(day_names)

# Pattern mensuel
monthly_avg = df.groupby('month')['consumption'].mean()
month_names = ['Jan', 'F√©v', 'Mar', 'Avr', 'Mai', 'Jui', 
               'Jul', 'Ao√ª', 'Sep', 'Oct', 'Nov', 'D√©c']
axes[2].plot(monthly_avg.index, monthly_avg.values, marker='o', 
            linewidth=3, markersize=10, color='darkgreen')
axes[2].set_xlabel('Mois', fontsize=12, fontweight='bold')
axes[2].set_ylabel('Consommation moyenne (kWh)', fontsize=12, fontweight='bold')
axes[2].set_title('Pattern Annuel - Saisonnalit√©', fontsize=14, fontweight='bold')
axes[2].grid(alpha=0.3)
axes[2].set_xticks(range(1, 13))
axes[2].set_xticklabels(month_names)

plt.tight_layout()
plt.show()

print("\nüìä Observations:")
print(f"  - Pic de consommation quotidien: {hourly_avg.idxmax()}h ({hourly_avg.max():.1f} kWh)")
print(f"  - Creux de consommation quotidien: {hourly_avg.idxmin()}h ({hourly_avg.min():.1f} kWh)")
print(f"  - Consommation plus √©lev√©e en semaine (Lun-Ven) vs weekend")
print(f"  - Pic saisonnier: {month_names[monthly_avg.idxmax()-1]} ({monthly_avg.max():.1f} kWh)")

## 3. Pr√©paration des Donn√©es pour les RNN

### 3.1 Concepts cl√©s pour les s√©ries temporelles

**Fen√™tre glissante (Sliding Window)** :
- Nous utilisons les `n` derni√®res observations pour pr√©dire la prochaine valeur
- Exemple: Les 24 derni√®res heures ‚Üí Pr√©dire l'heure suivante

```
Donn√©es: [h1, h2, h3, h4, h5, h6, h7, h8, ...]
         
X (input)           y (target)
[h1, h2, h3]    ‚Üí      h4
[h2, h3, h4]    ‚Üí      h5
[h3, h4, h5]    ‚Üí      h6
...
```

**Normalisation** :
- Les RNN sont sensibles √† l'√©chelle des donn√©es
- Nous normalisons entre 0 et 1 avec MinMaxScaler

In [None]:
# Param√®tres
LOOKBACK = 24 * 7  # 7 jours (168 heures) pour pr√©dire 1 heure
TRAIN_SPLIT = 0.7  # 70% train, 15% validation, 15% test
VAL_SPLIT = 0.85

print(f"Configuration de la fen√™tre temporelle:")
print(f"  - Lookback: {LOOKBACK} heures ({LOOKBACK//24} jours)")
print(f"  - Pr√©diction: 1 heure √† l'avance")
print(f"  - Split: {TRAIN_SPLIT*100:.0f}% train / {(VAL_SPLIT-TRAIN_SPLIT)*100:.0f}% val / {(1-VAL_SPLIT)*100:.0f}% test")

### 3.2 Normalisation des donn√©es

In [None]:
# Extraction des valeurs
data = df['consumption'].values.reshape(-1, 1)

# Division train/val/test
train_size = int(len(data) * TRAIN_SPLIT)
val_size = int(len(data) * VAL_SPLIT)

train_data = data[:train_size]
val_data = data[train_size:val_size]
test_data = data[val_size:]

print(f"\nTailles des ensembles:")
print(f"  Train: {len(train_data):,} observations ({len(train_data)/24:.0f} jours)")
print(f"  Val:   {len(val_data):,} observations ({len(val_data)/24:.0f} jours)")
print(f"  Test:  {len(test_data):,} observations ({len(test_data)/24:.0f} jours)")

# Normalisation (fit uniquement sur train pour √©viter le data leakage)
scaler = MinMaxScaler()
train_scaled = scaler.fit_transform(train_data)
val_scaled = scaler.transform(val_data)
test_scaled = scaler.transform(test_data)

# Visualisation avant/apr√®s normalisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18, 5))

sample_size = 24 * 30  # 1 mois
ax1.plot(data[:sample_size], linewidth=1.5, color='steelblue')
ax1.set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
ax1.set_title('Donn√©es Originales', fontsize=14, fontweight='bold')
ax1.grid(alpha=0.3)

ax2.plot(train_scaled[:sample_size], linewidth=1.5, color='crimson')
ax2.set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
ax2.set_ylabel('Valeur normalis√©e [0, 1]', fontsize=12, fontweight='bold')
ax2.set_title('Donn√©es Normalis√©es (MinMaxScaler)', fontsize=14, fontweight='bold')
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\n‚úÖ Normalisation effectu√©e:")
print(f"  Min normalis√©: {train_scaled.min():.4f}")
print(f"  Max normalis√©: {train_scaled.max():.4f}")

### 3.3 Cr√©ation des s√©quences (Sliding Window)

In [None]:
def create_sequences(data, lookback):
    """
    Cr√©e des s√©quences avec fen√™tre glissante.
    
    Args:
        data: Array de donn√©es normalis√©es
        lookback: Nombre d'observations pass√©es √† utiliser
    
    Returns:
        X: S√©quences d'input (n_samples, lookback, 1)
        y: Valeurs cibles (n_samples, 1)
    """
    X, y = [], []
    for i in range(lookback, len(data)):
        X.append(data[i-lookback:i, 0])
        y.append(data[i, 0])
    return np.array(X), np.array(y)

# Cr√©ation des s√©quences
X_train, y_train = create_sequences(train_scaled, LOOKBACK)
X_val, y_val = create_sequences(val_scaled, LOOKBACK)
X_test, y_test = create_sequences(test_scaled, LOOKBACK)

# Reshape pour RNN (samples, timesteps, features)
X_train = X_train.reshape((X_train.shape[0], X_train.shape[1], 1))
X_val = X_val.reshape((X_val.shape[0], X_val.shape[1], 1))
X_test = X_test.reshape((X_test.shape[0], X_test.shape[1], 1))

print(f"\n{'='*70}")
print(f"FORMES DES DONN√âES APR√àS CR√âATION DES S√âQUENCES")
print(f"{'='*70}")
print(f"X_train: {X_train.shape} - ({X_train.shape[0]} s√©quences, {X_train.shape[1]} timesteps, {X_train.shape[2]} feature)")
print(f"y_train: {y_train.shape} - ({y_train.shape[0]} valeurs cibles)")
print(f"\nX_val:   {X_val.shape}")
print(f"y_val:   {y_val.shape}")
print(f"\nX_test:  {X_test.shape}")
print(f"y_test:  {y_test.shape}")
print(f"{'='*70}")

# Visualisation d'un exemple de s√©quence
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(16, 8))

# Exemple de s√©quence d'input
sample_idx = 100
ax1.plot(range(LOOKBACK), X_train[sample_idx, :, 0], 
        marker='o', linewidth=2, markersize=3, color='steelblue')
ax1.axvline(x=LOOKBACK-1, color='red', linestyle='--', linewidth=2, 
           label=f'Prochaine valeur √† pr√©dire: {y_train[sample_idx]:.3f}')
ax1.set_xlabel('Position dans la s√©quence (heures)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Valeur normalis√©e', fontsize=12, fontweight='bold')
ax1.set_title(f'Exemple de S√©quence d\'Input - {LOOKBACK} Observations Pass√©es', 
             fontsize=14, fontweight='bold')
ax1.legend(fontsize=11)
ax1.grid(alpha=0.3)

# Plusieurs exemples pour montrer le glissement
n_examples = 5
for i in range(n_examples):
    idx = sample_idx + i * 24  # Un exemple par jour
    ax2.plot(range(LOOKBACK), X_train[idx, :, 0], 
            alpha=0.7, linewidth=1.5, label=f'S√©quence {i+1}')
ax2.set_xlabel('Position dans la s√©quence (heures)', fontsize=12, fontweight='bold')
ax2.set_ylabel('Valeur normalis√©e', fontsize=12, fontweight='bold')
ax2.set_title('Fen√™tre Glissante - Plusieurs S√©quences Cons√©cutives', fontsize=14, fontweight='bold')
ax2.legend(fontsize=10)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

## 4. Callback pour visualisation en temps r√©el

In [None]:
class LivePlotCallback(Callback):
    """
    Callback pour visualiser les m√©triques d'entra√Ænement en temps r√©el.
    """
    def on_train_begin(self, logs=None):
        self.epochs = []
        self.loss = []
        self.val_loss = []
        self.mae = []
        self.val_mae = []
        
    def on_epoch_end(self, epoch, logs=None):
        self.epochs.append(epoch + 1)
        self.loss.append(logs.get('loss'))
        self.val_loss.append(logs.get('val_loss'))
        self.mae.append(logs.get('mae'))
        self.val_mae.append(logs.get('val_mae'))
        
        clear_output(wait=True)
        
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 5))
        
        # Loss (MSE)
        ax1.plot(self.epochs, self.loss, 'o-', label='Loss Train', 
                linewidth=2, markersize=8, color='#2E86AB')
        ax1.plot(self.epochs, self.val_loss, 's-', label='Loss Validation', 
                linewidth=2, markersize=8, color='#A23B72')
        ax1.set_xlabel('Epoch', fontsize=12, fontweight='bold')
        ax1.set_ylabel('Loss (MSE)', fontsize=12, fontweight='bold')
        ax1.set_title('√âvolution de la Loss', fontsize=14, fontweight='bold')
        ax1.legend(fontsize=11)
        ax1.grid(alpha=0.3)
        
        # MAE
        ax2.plot(self.epochs, self.mae, 'o-', label='MAE Train', 
                linewidth=2, markersize=8, color='#2E86AB')
        ax2.plot(self.epochs, self.val_mae, 's-', label='MAE Validation', 
                linewidth=2, markersize=8, color='#A23B72')
        ax2.set_xlabel('Epoch', fontsize=12, fontweight='bold')
        ax2.set_ylabel('MAE', fontsize=12, fontweight='bold')
        ax2.set_title('√âvolution de la MAE', fontsize=14, fontweight='bold')
        ax2.legend(fontsize=11)
        ax2.grid(alpha=0.3)
        
        plt.tight_layout()
        plt.show()
        
        print(f"\nEpoch {epoch + 1}/{self.params['epochs']}")
        print(f"Loss: {logs.get('loss'):.6f} - MAE: {logs.get('mae'):.6f}")
        print(f"Val Loss: {logs.get('val_loss'):.6f} - Val MAE: {logs.get('val_mae'):.6f}")

---

# PARTIE 1 : RNN SIMPLE

## 5. Architecture RNN pour S√©ries Temporelles

### Adaptation du RNN aux s√©ries temporelles

Pour les s√©ries temporelles, le RNN traite chaque timestep s√©quentiellement :

```
Entr√©e (168 heures)  ‚Üí  RNN  ‚Üí  Sortie (1 valeur)
[t-167, ..., t-1]    ‚Üí  [64]  ‚Üí  pr√©diction de t
```

**Architecture** :
- Input: (batch_size, 168, 1) - 168 heures, 1 feature
- SimpleRNN: 64 unit√©s
- Dense: 1 unit√© (r√©gression)

**Loss fonction** : MSE (Mean Squared Error) - standard pour la r√©gression

**M√©triques** : MAE (Mean Absolute Error) - interpr√©table en kWh

### 5.1 Construction du mod√®le RNN

In [None]:
def create_rnn_model(lookback):
    """
    Cr√©e un mod√®le RNN simple pour la pr√©diction de s√©ries temporelles.
    """
    model = keras.Sequential([
        # Couche RNN
        layers.SimpleRNN(64, input_shape=(lookback, 1), name='simple_rnn'),
        
        # Dropout pour r√©gularisation
        layers.Dropout(0.2, name='dropout'),
        
        # Couche de sortie (r√©gression)
        layers.Dense(1, name='output')
    ])
    
    return model

# Cr√©ation du mod√®le
rnn_model = create_rnn_model(LOOKBACK)

# Affichage de l'architecture
rnn_model.summary()

# Comptage des param√®tres
total_params_rnn = rnn_model.count_params()
print(f"\n{'='*60}")
print(f"Total de param√®tres RNN: {total_params_rnn:,}")
print(f"{'='*60}")

### 5.2 Compilation du mod√®le RNN

In [None]:
# Compilation avec m√©triques adapt√©es aux s√©ries temporelles
rnn_model.compile(
    optimizer=keras.optimizers.Adam(learning_rate=0.001),
    loss='mse',  # Mean Squared Error
    metrics=['mae']  # Mean Absolute Error
)

print("‚úÖ Mod√®le RNN compil√© avec succ√®s !")
print(f"Optimiseur: Adam (lr=0.001)")
print(f"Loss: MSE (Mean Squared Error)")
print(f"M√©triques: MAE (Mean Absolute Error)")

### 5.3 Entra√Ænement du mod√®le RNN

In [None]:
# Callbacks
live_plot_rnn = LivePlotCallback()
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

# Entra√Ænement
print("üöÄ D√©but de l'entra√Ænement du mod√®le RNN...\n")

history_rnn = rnn_model.fit(
    X_train, y_train,
    validation_data=(X_val, y_val),
    epochs=50,
    batch_size=32,
    callbacks=[live_plot_rnn, early_stopping],
    verbose=0
)

print(f"\n‚úÖ Entra√Ænement termin√© ! (Early stopping √† l'epoch {len(history_rnn.history['loss'])})")

### 5.4 √âvaluation du mod√®le RNN

In [None]:
# Pr√©dictions sur le test set
y_pred_rnn_scaled = rnn_model.predict(X_test, verbose=0)

# D√©normalisation pour obtenir les vraies valeurs
y_test_original = scaler.inverse_transform(y_test.reshape(-1, 1))
y_pred_rnn_original = scaler.inverse_transform(y_pred_rnn_scaled)

# Calcul des m√©triques
mse_rnn = mean_squared_error(y_test_original, y_pred_rnn_original)
mae_rnn = mean_absolute_error(y_test_original, y_pred_rnn_original)
rmse_rnn = np.sqrt(mse_rnn)
r2_rnn = r2_score(y_test_original, y_pred_rnn_original)

print("="*70)
print("R√âSULTATS FINAUX - MOD√àLE RNN")
print("="*70)
print(f"MSE (Mean Squared Error):  {mse_rnn:.2f}")
print(f"MAE (Mean Absolute Error): {mae_rnn:.2f} kWh")
print(f"RMSE (Root MSE):           {rmse_rnn:.2f} kWh")
print(f"R¬≤ Score:                  {r2_rnn:.4f}")
print(f"\nüìä Interpr√©tation: En moyenne, l'erreur de pr√©diction est de {mae_rnn:.2f} kWh")
print("="*70)

### 5.5 Visualisation des pr√©dictions RNN

In [None]:
fig, axes = plt.subplots(2, 1, figsize=(18, 10))

# Vue d'ensemble (tous les tests)
axes[0].plot(y_test_original, label='Valeurs R√©elles', linewidth=1.5, color='steelblue', alpha=0.8)
axes[0].plot(y_pred_rnn_original, label='Pr√©dictions RNN', linewidth=1.5, color='crimson', alpha=0.8)
axes[0].set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[0].set_title('RNN - Pr√©dictions vs R√©alit√© (Set de Test Complet)', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=11)
axes[0].grid(alpha=0.3)

# Zoom sur une semaine
zoom_size = 24 * 7  # 1 semaine
axes[1].plot(range(zoom_size), y_test_original[:zoom_size], 
            label='Valeurs R√©elles', linewidth=2, color='steelblue', marker='o', markersize=4)
axes[1].plot(range(zoom_size), y_pred_rnn_original[:zoom_size], 
            label='Pr√©dictions RNN', linewidth=2, color='crimson', marker='s', markersize=4)
axes[1].set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[1].set_title('RNN - Zoom sur 1 Semaine de Pr√©dictions', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=11)
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Distribution des erreurs
errors_rnn = y_test_original.flatten() - y_pred_rnn_original.flatten()

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 5))

# Histogramme des erreurs
ax1.hist(errors_rnn, bins=50, color='steelblue', edgecolor='black', alpha=0.7)
ax1.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Erreur = 0')
ax1.axvline(x=errors_rnn.mean(), color='green', linestyle='--', linewidth=2, 
           label=f'Erreur moyenne: {errors_rnn.mean():.2f} kWh')
ax1.set_xlabel('Erreur de Pr√©diction (kWh)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Fr√©quence', fontsize=12, fontweight='bold')
ax1.set_title('Distribution des Erreurs - RNN', fontsize=14, fontweight='bold')
ax1.legend(fontsize=10)
ax1.grid(alpha=0.3)

# Scatter plot: pr√©dictions vs r√©alit√©
ax2.scatter(y_test_original, y_pred_rnn_original, alpha=0.5, s=20, color='steelblue')
ax2.plot([y_test_original.min(), y_test_original.max()], 
        [y_test_original.min(), y_test_original.max()], 
        'r--', linewidth=2, label='Pr√©diction parfaite')
ax2.set_xlabel('Valeurs R√©elles (kWh)', fontsize=12, fontweight='bold')
ax2.set_ylabel('Pr√©dictions (kWh)', fontsize=12, fontweight='bold')
ax2.set_title(f'Pr√©dictions vs R√©alit√© - RNN (R¬≤={r2_rnn:.3f})', fontsize=14, fontweight='bold')
ax2.legend(fontsize=10)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

---

# PARTIE 2 : LSTM

## 6. Architecture LSTM pour S√©ries Temporelles

### Pourquoi LSTM pour les s√©ries temporelles ?

Les **LSTM** sont particuli√®rement efficaces pour les s√©ries temporelles car :
- ‚úÖ Ils capturent les **d√©pendances √† long terme** (tendances)
- ‚úÖ Ils g√®rent mieux les **variations temporelles** complexes
- ‚úÖ Ils sont **robustes au probl√®me du gradient qui dispara√Æt**

**Applications** :
- Pr√©diction de prix d'actions (patterns sur plusieurs jours/semaines)
- Pr√©visions m√©t√©orologiques (saisonnalit√© complexe)
- D√©tection d'anomalies dans les capteurs IoT

### 6.1 Construction du mod√®le LSTM

In [None]:
def create_lstm_model(lookback):
    """
    Cr√©e un mod√®le LSTM pour la pr√©diction de s√©ries temporelles.
    """
    model = keras.Sequential([
        # Couche LSTM
        layers.LSTM(64, input_shape=(lookback, 1), name='lstm'),
        
        # Dropout pour r√©gularisation
        layers.Dropout(0.2, name='dropout'),
        
        # Couche de sortie
        layers.Dense(1, name='output')
    ])
    
    return model

# Cr√©ation du mod√®le
lstm_model = create_lstm_model(LOOKBACK)

# Affichage de l'architecture
lstm_model.summary()

# Comptage des param√®tres
total_params_lstm = lstm_model.count_params()
print(f"\n{'='*60}")
print(f"Total de param√®tres LSTM: {total_params_lstm:,}")
print(f"Ratio LSTM/RNN: {total_params_lstm/total_params_rnn:.2f}√ó")
print(f"{'='*60}")

### 6.2 Compilation et entra√Ænement du mod√®le LSTM

In [None]:
# Compilation
lstm_model.compile(
    optimizer=keras.optimizers.Adam(learning_rate=0.001),
    loss='mse',
    metrics=['mae']
)

print("‚úÖ Mod√®le LSTM compil√© avec succ√®s !")

# Callbacks
live_plot_lstm = LivePlotCallback()
early_stopping_lstm = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

# Entra√Ænement
print("\nüöÄ D√©but de l'entra√Ænement du mod√®le LSTM...\n")

history_lstm = lstm_model.fit(
    X_train, y_train,
    validation_data=(X_val, y_val),
    epochs=50,
    batch_size=32,
    callbacks=[live_plot_lstm, early_stopping_lstm],
    verbose=0
)

print(f"\n‚úÖ Entra√Ænement termin√© ! (Early stopping √† l'epoch {len(history_lstm.history['loss'])})")

### 6.3 √âvaluation du mod√®le LSTM

In [None]:
# Pr√©dictions
y_pred_lstm_scaled = lstm_model.predict(X_test, verbose=0)
y_pred_lstm_original = scaler.inverse_transform(y_pred_lstm_scaled)

# M√©triques
mse_lstm = mean_squared_error(y_test_original, y_pred_lstm_original)
mae_lstm = mean_absolute_error(y_test_original, y_pred_lstm_original)
rmse_lstm = np.sqrt(mse_lstm)
r2_lstm = r2_score(y_test_original, y_pred_lstm_original)

print("="*70)
print("R√âSULTATS FINAUX - MOD√àLE LSTM")
print("="*70)
print(f"MSE (Mean Squared Error):  {mse_lstm:.2f}")
print(f"MAE (Mean Absolute Error): {mae_lstm:.2f} kWh")
print(f"RMSE (Root MSE):           {rmse_lstm:.2f} kWh")
print(f"R¬≤ Score:                  {r2_lstm:.4f}")
print(f"\nüìä Am√©lioration vs RNN: {((mae_rnn - mae_lstm)/mae_rnn * 100):.1f}% de r√©duction de la MAE")
print("="*70)

### 6.4 Visualisation des pr√©dictions LSTM

In [None]:
fig, axes = plt.subplots(2, 1, figsize=(18, 10))

# Vue d'ensemble
axes[0].plot(y_test_original, label='Valeurs R√©elles', linewidth=1.5, color='steelblue', alpha=0.8)
axes[0].plot(y_pred_lstm_original, label='Pr√©dictions LSTM', linewidth=1.5, color='darkgreen', alpha=0.8)
axes[0].set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[0].set_title('LSTM - Pr√©dictions vs R√©alit√© (Set de Test Complet)', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=11)
axes[0].grid(alpha=0.3)

# Zoom sur une semaine
zoom_size = 24 * 7
axes[1].plot(range(zoom_size), y_test_original[:zoom_size], 
            label='Valeurs R√©elles', linewidth=2, color='steelblue', marker='o', markersize=4)
axes[1].plot(range(zoom_size), y_pred_lstm_original[:zoom_size], 
            label='Pr√©dictions LSTM', linewidth=2, color='darkgreen', marker='s', markersize=4)
axes[1].set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[1].set_title('LSTM - Zoom sur 1 Semaine de Pr√©dictions', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=11)
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Distribution des erreurs
errors_lstm = y_test_original.flatten() - y_pred_lstm_original.flatten()

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 5))

ax1.hist(errors_lstm, bins=50, color='darkgreen', edgecolor='black', alpha=0.7)
ax1.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Erreur = 0')
ax1.axvline(x=errors_lstm.mean(), color='orange', linestyle='--', linewidth=2, 
           label=f'Erreur moyenne: {errors_lstm.mean():.2f} kWh')
ax1.set_xlabel('Erreur de Pr√©diction (kWh)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Fr√©quence', fontsize=12, fontweight='bold')
ax1.set_title('Distribution des Erreurs - LSTM', fontsize=14, fontweight='bold')
ax1.legend(fontsize=10)
ax1.grid(alpha=0.3)

ax2.scatter(y_test_original, y_pred_lstm_original, alpha=0.5, s=20, color='darkgreen')
ax2.plot([y_test_original.min(), y_test_original.max()], 
        [y_test_original.min(), y_test_original.max()], 
        'r--', linewidth=2, label='Pr√©diction parfaite')
ax2.set_xlabel('Valeurs R√©elles (kWh)', fontsize=12, fontweight='bold')
ax2.set_ylabel('Pr√©dictions (kWh)', fontsize=12, fontweight='bold')
ax2.set_title(f'Pr√©dictions vs R√©alit√© - LSTM (R¬≤={r2_lstm:.3f})', fontsize=14, fontweight='bold')
ax2.legend(fontsize=10)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

---

# PARTIE 3 : GRU

## 7. Architecture GRU pour S√©ries Temporelles

### Avantages du GRU pour les s√©ries temporelles

Le **GRU** est souvent le choix pr√©f√©r√© en production pour les s√©ries temporelles :
- ‚úÖ **Performance proche du LSTM** avec moins de param√®tres
- ‚úÖ **Entra√Ænement plus rapide** (important pour re-entra√Ænement fr√©quent)
- ‚úÖ **Moins de risque d'overfitting** sur des datasets limit√©s
- ‚úÖ **D√©ploiement plus l√©ger** (edge computing, IoT)

### 7.1 Construction du mod√®le GRU

In [None]:
def create_gru_model(lookback):
    """
    Cr√©e un mod√®le GRU pour la pr√©diction de s√©ries temporelles.
    """
    model = keras.Sequential([
        # Couche GRU
        layers.GRU(64, input_shape=(lookback, 1), name='gru'),
        
        # Dropout
        layers.Dropout(0.2, name='dropout'),
        
        # Couche de sortie
        layers.Dense(1, name='output')
    ])
    
    return model

# Cr√©ation du mod√®le
gru_model = create_gru_model(LOOKBACK)

# Affichage de l'architecture
gru_model.summary()

# Comptage des param√®tres
total_params_gru = gru_model.count_params()
print(f"\n{'='*70}")
print(f"Total de param√®tres GRU:  {total_params_gru:,}")
print(f"Ratio GRU/RNN:  {total_params_gru/total_params_rnn:.2f}√ó")
print(f"Ratio GRU/LSTM: {total_params_gru/total_params_lstm:.2f}√ó (GRU ~25% plus l√©ger)")
print(f"{'='*70}")

### 7.2 Compilation et entra√Ænement du mod√®le GRU

In [None]:
# Compilation
gru_model.compile(
    optimizer=keras.optimizers.Adam(learning_rate=0.001),
    loss='mse',
    metrics=['mae']
)

print("‚úÖ Mod√®le GRU compil√© avec succ√®s !")

# Callbacks
live_plot_gru = LivePlotCallback()
early_stopping_gru = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

# Entra√Ænement
print("\nüöÄ D√©but de l'entra√Ænement du mod√®le GRU...\n")

history_gru = gru_model.fit(
    X_train, y_train,
    validation_data=(X_val, y_val),
    epochs=50,
    batch_size=32,
    callbacks=[live_plot_gru, early_stopping_gru],
    verbose=0
)

print(f"\n‚úÖ Entra√Ænement termin√© ! (Early stopping √† l'epoch {len(history_gru.history['loss'])})")

### 7.3 √âvaluation du mod√®le GRU

In [None]:
# Pr√©dictions
y_pred_gru_scaled = gru_model.predict(X_test, verbose=0)
y_pred_gru_original = scaler.inverse_transform(y_pred_gru_scaled)

# M√©triques
mse_gru = mean_squared_error(y_test_original, y_pred_gru_original)
mae_gru = mean_absolute_error(y_test_original, y_pred_gru_original)
rmse_gru = np.sqrt(mse_gru)
r2_gru = r2_score(y_test_original, y_pred_gru_original)

print("="*70)
print("R√âSULTATS FINAUX - MOD√àLE GRU")
print("="*70)
print(f"MSE (Mean Squared Error):  {mse_gru:.2f}")
print(f"MAE (Mean Absolute Error): {mae_gru:.2f} kWh")
print(f"RMSE (Root MSE):           {rmse_gru:.2f} kWh")
print(f"R¬≤ Score:                  {r2_gru:.4f}")
print(f"\nüìä Am√©lioration vs RNN:  {((mae_rnn - mae_gru)/mae_rnn * 100):.1f}% de r√©duction de la MAE")
print(f"üìä Comparaison vs LSTM: {abs((mae_lstm - mae_gru)/mae_lstm * 100):.1f}% {'meilleur' if mae_gru < mae_lstm else 'moins bon'}")
print("="*70)

### 7.4 Visualisation des pr√©dictions GRU

In [None]:
fig, axes = plt.subplots(2, 1, figsize=(18, 10))

# Vue d'ensemble
axes[0].plot(y_test_original, label='Valeurs R√©elles', linewidth=1.5, color='steelblue', alpha=0.8)
axes[0].plot(y_pred_gru_original, label='Pr√©dictions GRU', linewidth=1.5, color='purple', alpha=0.8)
axes[0].set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[0].set_title('GRU - Pr√©dictions vs R√©alit√© (Set de Test Complet)', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=11)
axes[0].grid(alpha=0.3)

# Zoom sur une semaine
zoom_size = 24 * 7
axes[1].plot(range(zoom_size), y_test_original[:zoom_size], 
            label='Valeurs R√©elles', linewidth=2, color='steelblue', marker='o', markersize=4)
axes[1].plot(range(zoom_size), y_pred_gru_original[:zoom_size], 
            label='Pr√©dictions GRU', linewidth=2, color='purple', marker='s', markersize=4)
axes[1].set_xlabel('Temps (heures)', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
axes[1].set_title('GRU - Zoom sur 1 Semaine de Pr√©dictions', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=11)
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Distribution des erreurs
errors_gru = y_test_original.flatten() - y_pred_gru_original.flatten()

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 5))

ax1.hist(errors_gru, bins=50, color='purple', edgecolor='black', alpha=0.7)
ax1.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Erreur = 0')
ax1.axvline(x=errors_gru.mean(), color='orange', linestyle='--', linewidth=2, 
           label=f'Erreur moyenne: {errors_gru.mean():.2f} kWh')
ax1.set_xlabel('Erreur de Pr√©diction (kWh)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Fr√©quence', fontsize=12, fontweight='bold')
ax1.set_title('Distribution des Erreurs - GRU', fontsize=14, fontweight='bold')
ax1.legend(fontsize=10)
ax1.grid(alpha=0.3)

ax2.scatter(y_test_original, y_pred_gru_original, alpha=0.5, s=20, color='purple')
ax2.plot([y_test_original.min(), y_test_original.max()], 
        [y_test_original.min(), y_test_original.max()], 
        'r--', linewidth=2, label='Pr√©diction parfaite')
ax2.set_xlabel('Valeurs R√©elles (kWh)', fontsize=12, fontweight='bold')
ax2.set_ylabel('Pr√©dictions (kWh)', fontsize=12, fontweight='bold')
ax2.set_title(f'Pr√©dictions vs R√©alit√© - GRU (R¬≤={r2_gru:.3f})', fontsize=14, fontweight='bold')
ax2.legend(fontsize=10)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

---

## 8. COMPARAISON FINALE : RNN vs LSTM vs GRU

### 8.1 Tableau comparatif des performances

In [None]:
# Tableau comparatif
comparison_data = {
    'M√©trique': ['MAE (kWh)', 'RMSE (kWh)', 'R¬≤ Score', 'Param√®tres', 'Epochs (Early Stop)'],
    'RNN Simple': [
        f"{mae_rnn:.2f}",
        f"{rmse_rnn:.2f}",
        f"{r2_rnn:.4f}",
        f"{total_params_rnn:,}",
        f"{len(history_rnn.history['loss'])}"
    ],
    'LSTM': [
        f"{mae_lstm:.2f}",
        f"{rmse_lstm:.2f}",
        f"{r2_lstm:.4f}",
        f"{total_params_lstm:,}",
        f"{len(history_lstm.history['loss'])}"
    ],
    'GRU': [
        f"{mae_gru:.2f}",
        f"{rmse_gru:.2f}",
        f"{r2_gru:.4f}",
        f"{total_params_gru:,}",
        f"{len(history_gru.history['loss'])}"
    ]
}

df_comparison = pd.DataFrame(comparison_data)

print("\n" + "="*100)
print("COMPARAISON FINALE : RNN vs LSTM vs GRU - S√©ries Temporelles")
print("="*100)
print(df_comparison.to_string(index=False))
print("="*100)

# D√©termination du meilleur mod√®le
maes = [mae_rnn, mae_lstm, mae_gru]
model_names = ['RNN', 'LSTM', 'GRU']
best_idx = np.argmin(maes)
print(f"\nüèÜ Meilleur mod√®le en MAE : {model_names[best_idx]} ({maes[best_idx]:.2f} kWh)")

r2s = [r2_rnn, r2_lstm, r2_gru]
best_r2_idx = np.argmax(r2s)
print(f"üèÜ Meilleur mod√®le en R¬≤ : {model_names[best_r2_idx]} ({r2s[best_r2_idx]:.4f})")

### 8.2 Visualisation comparative des pr√©dictions

In [None]:
# Comparaison visuelle sur une semaine
zoom_size = 24 * 7  # 1 semaine

fig, axes = plt.subplots(2, 2, figsize=(20, 12))
fig.suptitle('Comparaison RNN vs LSTM vs GRU - S√©ries Temporelles', 
            fontsize=18, fontweight='bold', y=0.995)

# Vue compl√®te
axes[0, 0].plot(y_test_original, label='R√©alit√©', linewidth=1.5, color='black', alpha=0.6)
axes[0, 0].plot(y_pred_rnn_original, label='RNN', linewidth=1, color='#3498db', alpha=0.8)
axes[0, 0].plot(y_pred_lstm_original, label='LSTM', linewidth=1, color='#2ecc71', alpha=0.8)
axes[0, 0].plot(y_pred_gru_original, label='GRU', linewidth=1, color='#9b59b6', alpha=0.8)
axes[0, 0].set_xlabel('Temps (heures)', fontsize=11, fontweight='bold')
axes[0, 0].set_ylabel('Consommation (kWh)', fontsize=11, fontweight='bold')
axes[0, 0].set_title('Comparaison sur le Test Set Complet', fontsize=13, fontweight='bold')
axes[0, 0].legend(fontsize=10)
axes[0, 0].grid(alpha=0.3)

# Zoom sur 1 semaine
axes[0, 1].plot(range(zoom_size), y_test_original[:zoom_size], 
               label='R√©alit√©', linewidth=2.5, color='black', marker='o', markersize=3)
axes[0, 1].plot(range(zoom_size), y_pred_rnn_original[:zoom_size], 
               label='RNN', linewidth=1.5, color='#3498db', marker='s', markersize=2)
axes[0, 1].plot(range(zoom_size), y_pred_lstm_original[:zoom_size], 
               label='LSTM', linewidth=1.5, color='#2ecc71', marker='^', markersize=2)
axes[0, 1].plot(range(zoom_size), y_pred_gru_original[:zoom_size], 
               label='GRU', linewidth=1.5, color='#9b59b6', marker='d', markersize=2)
axes[0, 1].set_xlabel('Temps (heures)', fontsize=11, fontweight='bold')
axes[0, 1].set_ylabel('Consommation (kWh)', fontsize=11, fontweight='bold')
axes[0, 1].set_title('Zoom sur 1 Semaine', fontsize=13, fontweight='bold')
axes[0, 1].legend(fontsize=10)
axes[0, 1].grid(alpha=0.3)

# Comparaison des MAE
models = ['RNN', 'LSTM', 'GRU']
maes_list = [mae_rnn, mae_lstm, mae_gru]
colors = ['#3498db', '#2ecc71', '#9b59b6']
bars = axes[1, 0].bar(models, maes_list, color=colors, edgecolor='black', linewidth=2, width=0.6)
axes[1, 0].set_ylabel('MAE (kWh)', fontsize=11, fontweight='bold')
axes[1, 0].set_title('Comparaison de la MAE', fontsize=13, fontweight='bold')
axes[1, 0].grid(alpha=0.3, axis='y')
for bar, mae in zip(bars, maes_list):
    height = bar.get_height()
    axes[1, 0].text(bar.get_x() + bar.get_width()/2., height,
                   f'{mae:.2f} kWh',
                   ha='center', va='bottom', fontsize=11, fontweight='bold')

# Comparaison des R¬≤
r2s_list = [r2_rnn, r2_lstm, r2_gru]
bars2 = axes[1, 1].bar(models, r2s_list, color=colors, edgecolor='black', linewidth=2, width=0.6)
axes[1, 1].set_ylabel('R¬≤ Score', fontsize=11, fontweight='bold')
axes[1, 1].set_title('Comparaison du R¬≤ Score', fontsize=13, fontweight='bold')
axes[1, 1].set_ylim([min(r2s_list) - 0.02, 1.0])
axes[1, 1].grid(alpha=0.3, axis='y')
for bar, r2 in zip(bars2, r2s_list):
    height = bar.get_height()
    axes[1, 1].text(bar.get_x() + bar.get_width()/2., height,
                   f'{r2:.4f}',
                   ha='center', va='bottom', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.show()

### 8.3 Comparaison des courbes d'apprentissage

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(18, 6))
fig.suptitle('Courbes d\'Apprentissage - Comparaison', fontsize=16, fontweight='bold')

colors_comp = ['#3498db', '#2ecc71', '#9b59b6']

# Loss de validation
axes[0].plot(history_rnn.history['val_loss'], 'o-', label='RNN', 
            linewidth=2.5, markersize=6, color=colors_comp[0])
axes[0].plot(history_lstm.history['val_loss'], 's-', label='LSTM', 
            linewidth=2.5, markersize=6, color=colors_comp[1])
axes[0].plot(history_gru.history['val_loss'], '^-', label='GRU', 
            linewidth=2.5, markersize=6, color=colors_comp[2])
axes[0].set_xlabel('Epoch', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Validation Loss (MSE)', fontsize=12, fontweight='bold')
axes[0].set_title('√âvolution de la Loss de Validation', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=11)
axes[0].grid(alpha=0.3)

# MAE de validation
axes[1].plot(history_rnn.history['val_mae'], 'o-', label='RNN', 
            linewidth=2.5, markersize=6, color=colors_comp[0])
axes[1].plot(history_lstm.history['val_mae'], 's-', label='LSTM', 
            linewidth=2.5, markersize=6, color=colors_comp[1])
axes[1].plot(history_gru.history['val_mae'], '^-', label='GRU', 
            linewidth=2.5, markersize=6, color=colors_comp[2])
axes[1].set_xlabel('Epoch', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Validation MAE', fontsize=12, fontweight='bold')
axes[1].set_title('√âvolution de la MAE de Validation', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=11)
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

## 9. Pr√©diction Multi-Step (Bonus)

### Pr√©dire plusieurs heures √† l'avance

Dans la pratique, on veut souvent pr√©dire **plusieurs timesteps futurs** :
- Pr√©dire les 24 prochaines heures
- Pr√©dire la semaine suivante

**M√©thodes** :
1. **Recursive** : Pr√©dire t+1, puis utiliser cette pr√©diction pour pr√©dire t+2, etc.
2. **Direct** : Entra√Æner un mod√®le s√©par√© pour chaque horizon
3. **Multi-output** : Un seul mod√®le qui pr√©dit tous les horizons simultan√©ment

Testons l'approche **recursive** avec le meilleur mod√®le.

In [None]:
def predict_multi_step(model, initial_sequence, n_steps, scaler):
    """
    Pr√©dit n_steps √† l'avance de mani√®re r√©cursive.
    
    Args:
        model: Mod√®le entra√Æn√©
        initial_sequence: S√©quence initiale normalis√©e (lookback, 1)
        n_steps: Nombre d'√©tapes √† pr√©dire
        scaler: Scaler pour d√©normalisation
    
    Returns:
        Pr√©dictions d√©normalis√©es
    """
    predictions = []
    current_sequence = initial_sequence.copy()
    
    for _ in range(n_steps):
        # Pr√©dire le prochain timestep
        current_input = current_sequence.reshape(1, LOOKBACK, 1)
        next_pred = model.predict(current_input, verbose=0)[0, 0]
        predictions.append(next_pred)
        
        # Mettre √† jour la s√©quence (glisser la fen√™tre)
        current_sequence = np.append(current_sequence[1:], next_pred)
    
    # D√©normaliser
    predictions = np.array(predictions).reshape(-1, 1)
    predictions_original = scaler.inverse_transform(predictions)
    
    return predictions_original.flatten()

# Choisir le meilleur mod√®le
if mae_gru <= mae_lstm and mae_gru <= mae_rnn:
    best_model = gru_model
    best_name = 'GRU'
elif mae_lstm <= mae_rnn:
    best_model = lstm_model
    best_name = 'LSTM'
else:
    best_model = rnn_model
    best_name = 'RNN'

print(f"Utilisation du mod√®le {best_name} pour la pr√©diction multi-step\n")

# Pr√©dire les 72 prochaines heures (3 jours)
n_future_steps = 72
start_idx = 0

initial_seq = X_test[start_idx].flatten()
predictions_future = predict_multi_step(best_model, initial_seq, n_future_steps, scaler)

# Valeurs r√©elles correspondantes
actual_future = y_test_original[start_idx:start_idx+n_future_steps].flatten()

# Visualisation
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(18, 10))

# Pr√©diction 72h √† l'avance
time_range = range(n_future_steps)
ax1.plot(time_range, actual_future, label='Valeurs R√©elles', 
        linewidth=2.5, color='steelblue', marker='o', markersize=4)
ax1.plot(time_range, predictions_future, label=f'Pr√©dictions {best_name} (Recursive)', 
        linewidth=2.5, color='crimson', marker='s', markersize=4)
ax1.set_xlabel('Heures √† l\'avance', fontsize=12, fontweight='bold')
ax1.set_ylabel('Consommation (kWh)', fontsize=12, fontweight='bold')
ax1.set_title(f'Pr√©diction Multi-Step - {n_future_steps}h √† l\'avance ({best_name})', 
             fontsize=14, fontweight='bold')
ax1.legend(fontsize=11)
ax1.grid(alpha=0.3)

# Erreur cumulative
errors_cumulative = np.abs(actual_future - predictions_future)
ax2.plot(time_range, errors_cumulative, linewidth=2.5, color='darkgreen', marker='o', markersize=4)
ax2.axhline(y=errors_cumulative.mean(), color='red', linestyle='--', linewidth=2, 
           label=f'Erreur moyenne: {errors_cumulative.mean():.2f} kWh')
ax2.set_xlabel('Heures √† l\'avance', fontsize=12, fontweight='bold')
ax2.set_ylabel('Erreur Absolue (kWh)', fontsize=12, fontweight='bold')
ax2.set_title('√âvolution de l\'Erreur de Pr√©diction', fontsize=14, fontweight='bold')
ax2.legend(fontsize=11)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

mae_multistep = mean_absolute_error(actual_future, predictions_future)
print(f"\nüìä MAE pour la pr√©diction {n_future_steps}h √† l'avance: {mae_multistep:.2f} kWh")
print(f"üìä D√©gradation vs pr√©diction 1h: {((mae_multistep - eval(f'mae_{best_name.lower()}')) / eval(f'mae_{best_name.lower()}') * 100):.1f}%")
print(f"\n‚ö†Ô∏è  Note: L'erreur augmente avec l'horizon de pr√©diction (effet cumulatif)")

## 10. Conclusion et Points Cl√©s

### üìö Ce que nous avons appris

#### 1. **Pr√©paration des Donn√©es pour S√©ries Temporelles**
- ‚úÖ Fen√™tre glissante (sliding window) pour cr√©er les s√©quences
- ‚úÖ Normalisation essentielle pour les RNN
- ‚úÖ Split temporel (pas de shuffle !)
- ‚úÖ Lookback = compromis entre contexte et complexit√©

#### 2. **RNN Simple**
- ‚úÖ Architecture de base, rapide √† entra√Æner
- ‚úÖ Fonctionne bien sur s√©quences courtes avec patterns simples
- ‚ùå Difficult√© avec d√©pendances √† long terme
- ‚ùå Gradient qui dispara√Æt sur longues s√©quences

#### 3. **LSTM**
- ‚úÖ Excellente capture des d√©pendances temporelles longues
- ‚úÖ G√®re les tendances et saisonnalit√©s complexes
- ‚úÖ Architecture de r√©f√©rence pour s√©ries temporelles
- ‚ùå Plus de param√®tres = risque d'overfitting
- ‚ùå Entra√Ænement plus lent

#### 4. **GRU**
- ‚úÖ Performance comparable au LSTM
- ‚úÖ Moins de param√®tres (~25% de moins)
- ‚úÖ Plus rapide √† entra√Æner et √† d√©ployer
- ‚úÖ **Choix recommand√© pour la production**

### üéØ Recommandations Pratiques

| Situation | Recommandation |
|-----------|----------------|
| **Prototypage rapide** | GRU (meilleur rapport perf/vitesse) |
| **Donn√©es limit√©es** | RNN ou GRU (moins de risque d'overfitting) |
| **Patterns complexes** | LSTM (meilleure capacit√© d'apprentissage) |
| **Production/Edge** | GRU (l√©ger et rapide) |
| **Pr√©diction temps r√©el** | GRU (inf√©rence rapide) |
| **Lookback court (<24h)** | RNN peut suffire |
| **Lookback long (>1 semaine)** | LSTM ou GRU obligatoire |

### üîß Optimisations Possibles

1. **Architecture** :
   - Bidirectional RNN/LSTM/GRU
   - Stacked layers (2-3 couches r√©currentes)
   - Residual connections
   - Attention mechanisms

2. **Features** :
   - Ajout de features temporelles (heure, jour, mois)
   - Features externes (temp√©rature, jours f√©ri√©s)
   - Lags multiples

3. **Entra√Ænement** :
   - Learning rate scheduling
   - Augmentation de donn√©es temporelles
   - Cross-validation temporelle (Time Series Split)

### üöÄ Pour Aller Plus Loin

**Architectures modernes** :
- **Temporal Convolutional Networks (TCN)** : CNN 1D pour s√©ries temporelles
- **Transformers** : Attention-based models (Temporal Fusion Transformer)
- **N-BEATS** : Architecture sp√©cialis√©e pour forecasting
- **Prophet / NeuralProphet** : Mod√®les de Meta pour s√©ries temporelles

**Techniques avanc√©es** :
- Pr√©diction probabiliste (quantiles, intervalles de confiance)
- D√©tection d'anomalies temporelles
- Multi-variate forecasting
- Transfer learning sur s√©ries temporelles

### üí° Message Final

**Les RNN/LSTM/GRU sont des outils puissants pour les s√©ries temporelles** :
- Ils capturent naturellement les d√©pendances temporelles
- Le **GRU** offre le meilleur compromis en production
- Les **LSTM** restent la r√©f√©rence pour les patterns complexes
- La **pr√©paration des donn√©es** est cruciale (normalisation, lookback)

**Note importante** : Les Transformers commencent √† dominer m√™me les s√©ries temporelles, mais les RNN/LSTM/GRU restent pertinents car :
- ‚úÖ Plus l√©gers et rapides
- ‚úÖ N√©cessitent moins de donn√©es
- ‚úÖ Excellents pour l'edge computing / IoT
- ‚úÖ Interpr√©tabilit√© sup√©rieure

## 11. Exercices Pratiques

### Exercice 1 : Modifier le Lookback
- Testez avec un lookback de 24h (1 jour) vs 336h (2 semaines)
- Comparez les performances et le temps d'entra√Ænement

### Exercice 2 : Architecture Bidirectionnelle
- Modifiez le GRU pour utiliser `Bidirectional(GRU(64))`
- Est-ce que cela am√©liore les performances sur ce probl√®me ?

### Exercice 3 : Features Suppl√©mentaires
- Ajoutez l'heure du jour et le jour de la semaine comme features
- Modifiez l'architecture pour accepter 3 features au lieu de 1

### Exercice 4 : Stacked RNN
- Cr√©ez un mod√®le avec 2 couches GRU empil√©es
- Utilisez `return_sequences=True` sur la premi√®re couche

### Exercice 5 : Autre S√©rie Temporelle
- Appliquez ces techniques sur vos propres donn√©es
- Prix d'actions, temp√©rature, trafic r√©seau, etc.