# üîã LSTM Complet Interface Entra√Ænement - Syst√®me de Pr√©diction √ânerg√©tique

## üéØ Objectif
Ce notebook permet √† l'utilisateur de choisir entre :
1. **Utiliser les mod√®les pr√©-entra√Æn√©s** de la r√©gion Benten 
2. **R√©-entra√Æner de nouveaux mod√®les** sur ses propres donn√©es

Le notebook combine les fonctionnalit√©s de "LSTM complet" et "LSTM Generation" sans optimisation Optuna pour r√©duire le temps d'ex√©cution.

## üìã Structure du Notebook
1. **Configuration et choix utilisateur** - S√©lection du mode d'utilisation
2. **Chargement et pr√©paration des donn√©es** - Import et preprocessing
3. **Mod√®les pr√©-entra√Æn√©s OU Entra√Ænement** - Selon le choix utilisateur
4. **Pr√©dictions et √©valuation** - G√©n√©ration des r√©sultats
5. **Sauvegarde et export** - Enregistrement des mod√®les et r√©sultats

---

## üìö 1. Importation des Biblioth√®ques

In [None]:
# Importation des biblioth√®ques essentielles
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Deep Learning
import tensorflow as tf
from tensorflow.keras.models import Sequential, load_model
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

# Preprocessing et m√©triques
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split

# Utilitaires
import os
import pickle
import joblib
from datetime import datetime, timedelta
import ipywidgets as widgets
from IPython.display import display, clear_output

print("‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!")
print(f"üîß Version TensorFlow: {tf.__version__}")
print(f"üìä Version Pandas: {pd.__version__}")
print(f"üî¢ Version NumPy: {np.__version__}")

In [None]:
# Configuration des variables d'environnement
import os

# Variables configurables depuis l'interface Streamlit
LSTM_MODE = os.environ.get('LSTM_MODE', 'pretrained')  # 'pretrained' ou 'retrain'
DATA_FILE = os.environ.get('DATA_FILE', 'data.csv')
STREAMLIT_MODE = os.environ.get('STREAMLIT_MODE', 'false').lower() == 'true'

print(f"üîß Configuration d'environnement :")
print(f"   ‚Ä¢ Mode LSTM : {LSTM_MODE}")
print(f"   ‚Ä¢ Fichier de donn√©es : {DATA_FILE}")
print(f"   ‚Ä¢ Ex√©cution Streamlit : {STREAMLIT_MODE}")

# Configuration pour compatibilit√© avec l'interface
if STREAMLIT_MODE:
    print("üñ•Ô∏è Mode interface Streamlit activ√© - Configuration automatique")

## ‚öôÔ∏è 2. Configuration et Choix Utilisateur

Choisissez le mode d'utilisation :
- **Mode 1** : Utiliser les mod√®les pr√©-entra√Æn√©s de la r√©gion Benten
- **Mode 2** : R√©-entra√Æner de nouveaux mod√®les sur vos donn√©es

In [None]:
# Configuration des chemins
DATA_PATH = "../Data/"
MODELS_PATH = "models/"
SCALERS_PATH = "scalers/"

# Cr√©er les dossiers s'ils n'existent pas
os.makedirs(MODELS_PATH, exist_ok=True)
os.makedirs(SCALERS_PATH, exist_ok=True)

print("üîã Syst√®me de Pr√©diction √ânerg√©tique LSTM")
print("=" * 50)

# Variables globales pour stocker les choix
selected_mode = None
selected_data_file = None

if STREAMLIT_MODE:
    # En mode Streamlit, utiliser les variables d'environnement
    selected_mode = LSTM_MODE
    selected_data_file = DATA_FILE
    print("üîß Configuration automatique (mode Streamlit):")
    print(f"üìä Mode s√©lectionn√©: {selected_mode}")
    print(f"üìÅ Fichier de donn√©es: {selected_data_file}")
    
    if selected_mode == 'pretrained':
        print("üéØ Vous allez utiliser les mod√®les pr√©-entra√Æn√©s de la r√©gion Benten")
    else:
        print("üîÑ Vous allez r√©-entra√Æner de nouveaux mod√®les")
        
else:
    # Mode interactif avec widgets
    # Interface de choix utilisateur
    mode_selection = widgets.RadioButtons(
        options=[
            ('üéØ Utiliser les mod√®les pr√©-entra√Æn√©s (R√©gion Benten)', 'pretrained'),
            ('üîÑ R√©-entra√Æner de nouveaux mod√®les', 'retrain')
        ],
        value='pretrained',
        description='Mode:',
        disabled=False,
        style={'description_width': 'initial'}
    )

    # Widget de s√©lection du fichier de donn√©es
    data_file_selection = widgets.Dropdown(
        options=['data.csv', 'train_data.csv', 'test_data.csv', 'uploaded_test_data.csv'],
        value='data.csv',
        description='Fichier de donn√©es:',
        disabled=False,
        style={'description_width': 'initial'}
    )

    # Bouton pour confirmer la s√©lection
    confirm_button = widgets.Button(
        description="‚úÖ Confirmer la s√©lection",
        button_style='success',
        tooltip='Cliquez pour confirmer votre choix'
    )

    def on_confirm_clicked(b):
        global selected_mode, selected_data_file
        selected_mode = mode_selection.value
        selected_data_file = data_file_selection.value
        
        clear_output()
        print("‚úÖ Configuration confirm√©e!")
        print(f"üìä Mode s√©lectionn√©: {selected_mode}")
        print(f"üìÅ Fichier de donn√©es: {selected_data_file}")
        
        if selected_mode == 'pretrained':
            print("üéØ Vous allez utiliser les mod√®les pr√©-entra√Æn√©s de la r√©gion Benten")
        else:
            print("üîÑ Vous allez r√©-entra√Æner de nouveaux mod√®les")

    confirm_button.on_click(on_confirm_clicked)

    # Affichage de l'interface
    print("üîß Configuration manuelle (mode interactif):")
    display(mode_selection)
    display(data_file_selection)
    display(confirm_button)

## üìä 3. Chargement et Pr√©paration des Donn√©es

In [None]:
# Fonction de chargement des donn√©es
def load_and_prepare_data(file_name):
    """Charge et pr√©pare les donn√©es pour l'entra√Ænement LSTM"""
    try:
        # Chargement des donn√©es
        data_path = os.path.join(DATA_PATH, file_name)
        data = pd.read_csv(data_path)
        
        print(f"‚úÖ Donn√©es charg√©es depuis: {data_path}")
        print(f"üìä Forme des donn√©es: {data.shape}")
        print(f"üìã Colonnes disponibles: {list(data.columns)}")
        
        # V√©rification de la colonne date
        if 'date' in data.columns:
            data['date'] = pd.to_datetime(data['date'])
            data = data.sort_values('date')
            print("üìÖ Colonne date format√©e et donn√©es tri√©es")
        
        # Identification des colonnes de pr√©diction
        prediction_columns = [col for col in data.columns if col != 'date']
        print(f"üéØ Colonnes de pr√©diction: {prediction_columns}")
        
        # V√©rification des valeurs manquantes
        missing_values = data.isnull().sum()
        if missing_values.sum() > 0:
            print("‚ö†Ô∏è Valeurs manquantes d√©tect√©es:")
            print(missing_values[missing_values > 0])
            data = data.fillna(method='ffill').fillna(method='bfill')
            print("‚úÖ Valeurs manquantes corrig√©es")
        
        return data, prediction_columns
        
    except Exception as e:
        print(f"‚ùå Erreur lors du chargement des donn√©es: {str(e)}")
        return None, None

# D√©terminer le fichier de donn√©es √† utiliser
if STREAMLIT_MODE:
    # En mode Streamlit, utiliser le fichier t√©l√©vers√©
    data_file_to_use = selected_data_file if 'selected_data_file' in globals() else DATA_FILE
    print(f"üîß Mode Streamlit: Utilisation du fichier {data_file_to_use}")
else:
    # En mode interactif, utiliser la s√©lection utilisateur ou fichier par d√©faut
    data_file_to_use = selected_data_file if 'selected_data_file' in globals() and selected_data_file else 'data.csv'
    print(f"üîß Mode interactif: Utilisation du fichier {data_file_to_use}")

# Chargement des donn√©es
data, prediction_columns = load_and_prepare_data(data_file_to_use)

if data is not None:
    print("\nüìà Aper√ßu des donn√©es:")
    display(data.head())
    
    print("\nüìä Statistiques descriptives:")
    display(data.describe())
    
    # Visualisation des donn√©es (seulement en mode non-Streamlit pour √©viter les conflits)
    if not STREAMLIT_MODE:
        plt.figure(figsize=(15, 10))
        
        # Graphique temporel si colonne date disponible
        if 'date' in data.columns:
            for i, col in enumerate(prediction_columns[:4]):  # Limite √† 4 colonnes pour la lisibilit√©
                plt.subplot(2, 2, i+1)
                plt.plot(data['date'], data[col])
                plt.title(f'√âvolution de {col}')
                plt.xlabel('Date')
                plt.ylabel(col)
                plt.xticks(rotation=45)
        
        plt.tight_layout()
        plt.show()
    else:
        print("üìä Visualisations d√©sactiv√©es en mode Streamlit")
    
else:
    print("‚ùå Impossible de charger les donn√©es. V√©rifiez le nom du fichier.")
    if STREAMLIT_MODE:
        raise FileNotFoundError(f"Fichier de donn√©es non trouv√©: {data_file_to_use}")

## üéØ 4. Choix entre Mod√®les Pr√©-entra√Æn√©s et R√©-entra√Ænement

Cette section ex√©cute diff√©rents processus selon votre choix :
- **Mod√®les pr√©-entra√Æn√©s** : Chargement des mod√®les de la r√©gion Benten
- **R√©-entra√Ænement** : Cr√©ation et entra√Ænement de nouveaux mod√®les

In [None]:
# Fonctions utilitaires pour le preprocessing
def create_sequences(data, target_col, sequence_length=60):
    """Cr√©e des s√©quences pour l'entra√Ænement LSTM"""
    X, y = [], []
    for i in range(sequence_length, len(data)):
        X.append(data[i-sequence_length:i])
        y.append(data[i, target_col])
    return np.array(X), np.array(y)

def prepare_data_for_training(data, target_columns, sequence_length=60, test_size=0.2):
    """Pr√©pare les donn√©es pour l'entra√Ænement"""
    results = {}
    
    for target_col in target_columns:
        print(f"\nüéØ Pr√©paration des donn√©es pour: {target_col}")
        
        # S√©lection des features (toutes les colonnes num√©riques)
        feature_columns = [col for col in data.columns if col != 'date' and data[col].dtype in ['float64', 'int64']]
        features_data = data[feature_columns].values
        
        # Normalisation
        scaler = MinMaxScaler()
        scaled_data = scaler.fit_transform(features_data)
        
        # Index de la colonne cible
        target_idx = feature_columns.index(target_col)
        
        # Cr√©ation des s√©quences
        X, y = create_sequences(scaled_data, target_idx, sequence_length)
        
        # Division train/test
        X_train, X_test, y_train, y_test = train_test_split(
            X, y, test_size=test_size, random_state=42, shuffle=False
        )
        
        results[target_col] = {
            'X_train': X_train,
            'X_test': X_test,
            'y_train': y_train,
            'y_test': y_test,
            'scaler': scaler,
            'feature_columns': feature_columns
        }
        
        print(f"‚úÖ Donn√©es pr√©par√©es - Train: {X_train.shape}, Test: {X_test.shape}")
    
    return results

# Fonction pour cr√©er un mod√®le LSTM
def create_lstm_model(input_shape, neurons=[50, 50], dropout_rate=0.2):
    """Cr√©e un mod√®le LSTM avec architecture simple"""
    model = Sequential()
    
    # Premi√®re couche LSTM
    model.add(LSTM(neurons[0], return_sequences=True, input_shape=input_shape))
    model.add(Dropout(dropout_rate))
    
    # Deuxi√®me couche LSTM
    model.add(LSTM(neurons[1], return_sequences=False))
    model.add(Dropout(dropout_rate))
    
    # Couche de sortie
    model.add(Dense(1))
    
    # Compilation
    model.compile(optimizer=Adam(learning_rate=0.001), loss='mse', metrics=['mae'])
    
    return model

# V√©rification des variables d'environnement pour compatibilit√© Streamlit
if STREAMLIT_MODE:
    # En mode Streamlit, utiliser les variables d'environnement
    selected_mode = LSTM_MODE
    selected_data_file = DATA_FILE
    print(f"üîß Mode Streamlit d√©tect√© - Configuration automatique:")
    print(f"   ‚Ä¢ Mode: {selected_mode}")
    print(f"   ‚Ä¢ Fichier: {selected_data_file}")

# Ex√©cution selon le mode choisi
if 'selected_mode' in globals() and selected_mode and data is not None:
    
    if selected_mode == 'pretrained':
        print("üéØ Mode: Utilisation des mod√®les pr√©-entra√Æn√©s")
        print("=" * 50)
        
        # V√©rification de l'existence des mod√®les pr√©-entra√Æn√©s
        pretrained_models = {}
        available_models = []
        
        for col in prediction_columns:
            model_path = os.path.join(MODELS_PATH, f"{col}_LSTM.h5")
            scaler_path = os.path.join(SCALERS_PATH, f"{col}_scaler.pkl")
            
            if os.path.exists(model_path) and os.path.exists(scaler_path):
                try:
                    model = load_model(model_path)
                    with open(scaler_path, 'rb') as f:
                        scaler = pickle.load(f)
                    
                    pretrained_models[col] = {'model': model, 'scaler': scaler}
                    available_models.append(col)
                    print(f"‚úÖ Mod√®le pr√©-entra√Æn√© charg√© pour: {col}")
                except Exception as e:
                    print(f"‚ùå Erreur lors du chargement du mod√®le {col}: {str(e)}")
            else:
                print(f"‚ö†Ô∏è Mod√®le pr√©-entra√Æn√© non trouv√© pour: {col}")
        
        if available_models:
            print(f"\nüéâ {len(available_models)} mod√®les pr√©-entra√Æn√©s disponibles!")
            models_ready = True
        else:
            print("‚ùå Aucun mod√®le pr√©-entra√Æn√© trouv√©. Passez au mode r√©-entra√Ænement.")
            models_ready = False
    
    else:  # Mode r√©-entra√Ænement
        print("üîÑ Mode: R√©-entra√Ænement de nouveaux mod√®les")
        print("=" * 50)
        
        # Pr√©paration des donn√©es pour l'entra√Ænement
        training_data = prepare_data_for_training(data, prediction_columns)
        trained_models = {}
        
        for target_col in prediction_columns:
            print(f"\nüöÄ Entra√Ænement du mod√®le pour: {target_col}")
            
            # R√©cup√©ration des donn√©es pr√©par√©es
            data_dict = training_data[target_col]
            X_train, y_train = data_dict['X_train'], data_dict['y_train']
            X_test, y_test = data_dict['X_test'], data_dict['y_test']
            
            # Cr√©ation du mod√®le
            input_shape = (X_train.shape[1], X_train.shape[2])
            model = create_lstm_model(input_shape)
            
            print(f"üìä Architecture du mod√®le: {model.summary()}")
            
            # Callbacks
            early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
            
            # Entra√Ænement
            print("üîÑ D√©but de l'entra√Ænement...")
            history = model.fit(
                X_train, y_train,
                epochs=50,  # Nombre d'√©poques r√©duit pour √©conomiser du temps
                batch_size=32,
                validation_data=(X_test, y_test),
                callbacks=[early_stopping],
                verbose=1
            )
            
            # Sauvegarde du mod√®le et du scaler
            model_path = os.path.join(MODELS_PATH, f"{target_col}_LSTM.h5")
            scaler_path = os.path.join(SCALERS_PATH, f"{target_col}_scaler.pkl")
            
            model.save(model_path)
            with open(scaler_path, 'wb') as f:
                pickle.dump(data_dict['scaler'], f)
            
            trained_models[target_col] = {
                'model': model,
                'scaler': data_dict['scaler'],
                'history': history,
                'test_data': (X_test, y_test)
            }
            
            print(f"‚úÖ Mod√®le entra√Æn√© et sauvegard√© pour: {target_col}")
            
            # Affichage de la courbe d'apprentissage
            plt.figure(figsize=(12, 4))
            plt.subplot(1, 2, 1)
            plt.plot(history.history['loss'], label='Train Loss')
            plt.plot(history.history['val_loss'], label='Validation Loss')
            plt.title(f'Courbe d\'apprentissage - {target_col}')
            plt.xlabel('√âpoque')
            plt.ylabel('Loss')
            plt.legend()
            
            plt.subplot(1, 2, 2)
            plt.plot(history.history['mae'], label='Train MAE')
            plt.plot(history.history['val_mae'], label='Validation MAE')
            plt.title(f'Erreur absolue moyenne - {target_col}')
            plt.xlabel('√âpoque')
            plt.ylabel('MAE')
            plt.legend()
            
            plt.tight_layout()
            plt.show()
        
        print(f"\nüéâ Entra√Ænement termin√© pour {len(trained_models)} mod√®les!")
        models_ready = True

else:
    print("‚ö†Ô∏è Veuillez d'abord confirmer votre s√©lection et charger les donn√©es.")

## üîÆ 5. G√©n√©ration des Pr√©dictions

Cette section utilise les mod√®les (pr√©-entra√Æn√©s ou nouvellement entra√Æn√©s) pour g√©n√©rer des pr√©dictions sur les donn√©es.

In [None]:
# Fonction pour g√©n√©rer des pr√©dictions
def generate_predictions(models_dict, data, sequence_length=60, prediction_days=30):
    """G√©n√®re des pr√©dictions avec les mod√®les disponibles"""
    predictions_results = {}
    
    for target_col, model_info in models_dict.items():
        print(f"\nüîÆ G√©n√©ration des pr√©dictions pour: {target_col}")
        
        model = model_info['model']
        scaler = model_info['scaler']
        
        # Pr√©paration des donn√©es pour pr√©diction
        feature_columns = [col for col in data.columns if col != 'date' and data[col].dtype in ['float64', 'int64']]
        features_data = data[feature_columns].values
        
        # Normalisation avec le scaler du mod√®le
        scaled_data = scaler.transform(features_data)
        
        # Index de la colonne cible
        target_idx = feature_columns.index(target_col)
        
        # Prendre les derni√®res s√©quences pour commencer les pr√©dictions
        last_sequence = scaled_data[-sequence_length:]
        
        # G√©n√©ration des pr√©dictions futures
        future_predictions = []
        current_sequence = last_sequence.copy()
        
        for _ in range(prediction_days):
            # Reshape pour le mod√®le LSTM
            input_seq = current_sequence.reshape(1, sequence_length, len(feature_columns))
            
            # Pr√©diction
            pred = model.predict(input_seq, verbose=0)[0, 0]
            future_predictions.append(pred)
            
            # Mettre √† jour la s√©quence pour la prochaine pr√©diction
            new_row = current_sequence[-1].copy()
            new_row[target_idx] = pred
            
            # D√©caler la s√©quence
            current_sequence = np.vstack([current_sequence[1:], new_row])
        
        # D√©normalisation des pr√©dictions
        # Cr√©er un array temporaire pour la d√©normalisation
        temp_array = np.zeros((len(future_predictions), len(feature_columns)))
        temp_array[:, target_idx] = future_predictions
        denormalized = scaler.inverse_transform(temp_array)
        final_predictions = denormalized[:, target_idx]
        
        # Pr√©dictions sur les donn√©es historiques pour √©valuation
        historical_predictions = []
        for i in range(sequence_length, len(scaled_data)):
            input_seq = scaled_data[i-sequence_length:i].reshape(1, sequence_length, len(feature_columns))
            pred = model.predict(input_seq, verbose=0)[0, 0]
            historical_predictions.append(pred)
        
        # D√©normalisation des pr√©dictions historiques
        temp_hist = np.zeros((len(historical_predictions), len(feature_columns)))
        temp_hist[:, target_idx] = historical_predictions
        denorm_hist = scaler.inverse_transform(temp_hist)
        final_hist_predictions = denorm_hist[:, target_idx]
        
        # Stockage des r√©sultats
        predictions_results[target_col] = {
            'future_predictions': final_predictions,
            'historical_predictions': final_hist_predictions,
            'actual_values': data[target_col].values[sequence_length:],
            'feature_columns': feature_columns,
            'dates': data['date'].values if 'date' in data.columns else None
        }
        
        print(f"‚úÖ {len(final_predictions)} pr√©dictions futures g√©n√©r√©es")
        print(f"üìä {len(final_hist_predictions)} pr√©dictions historiques g√©n√©r√©es")
    
    return predictions_results

# G√©n√©ration des pr√©dictions selon le mode
if 'models_ready' in globals() and models_ready:
    print("üîÆ G√©n√©ration des pr√©dictions en cours...")
    
    # S√©lection des mod√®les selon le mode
    if selected_mode == 'pretrained':
        active_models = pretrained_models
        print("üìä Utilisation des mod√®les pr√©-entra√Æn√©s")
    else:
        active_models = trained_models
        print("üìä Utilisation des mod√®les nouvellement entra√Æn√©s")
    
    # Param√®tres de pr√©diction
    SEQUENCE_LENGTH = 60
    PREDICTION_DAYS = 30
    
    print(f"‚öôÔ∏è Param√®tres: S√©quence={SEQUENCE_LENGTH}, Pr√©dictions futures={PREDICTION_DAYS} jours")
    
    # G√©n√©ration des pr√©dictions
    all_predictions = generate_predictions(
        active_models, 
        data, 
        sequence_length=SEQUENCE_LENGTH, 
        prediction_days=PREDICTION_DAYS
    )
    
    print(f"\nüéâ Pr√©dictions g√©n√©r√©es pour {len(all_predictions)} variables!")
    
    # Affichage des r√©sultats pour chaque variable
    for target_col, results in all_predictions.items():
        print(f"\nüìà R√©sultats pour {target_col}:")
        print(f"   ‚Ä¢ Pr√©dictions futures: {len(results['future_predictions'])} valeurs")
        print(f"   ‚Ä¢ Pr√©dictions historiques: {len(results['historical_predictions'])} valeurs")
        print(f"   ‚Ä¢ Valeurs min/max futures: {results['future_predictions'].min():.2f} / {results['future_predictions'].max():.2f}")

else:
    print("‚ö†Ô∏è Les mod√®les ne sont pas pr√™ts. Ex√©cutez d'abord les cellules pr√©c√©dentes.")

## üìä 6. √âvaluation des Mod√®les

Cette section √©value les performances des mod√®les en calculant diff√©rentes m√©triques et en g√©n√©rant des visualisations.

In [None]:
# Fonction d'√©valuation des mod√®les
def evaluate_model_performance(predictions_results):
    """√âvalue les performances des mod√®les avec diff√©rentes m√©triques"""
    evaluation_results = {}
    
    print("üìä √âvaluation des performances des mod√®les")
    print("=" * 50)
    
    for target_col, results in predictions_results.items():
        print(f"\nüéØ √âvaluation pour: {target_col}")
        
        actual = results['actual_values']
        predicted = results['historical_predictions']
        
        # Calcul des m√©triques
        mse = mean_squared_error(actual, predicted)
        rmse = np.sqrt(mse)
        mae = mean_absolute_error(actual, predicted)
        r2 = r2_score(actual, predicted)
        
        # MAPE (Mean Absolute Percentage Error)
        mape = np.mean(np.abs((actual - predicted) / actual)) * 100
        
        # Stockage des m√©triques
        metrics = {
            'MSE': mse,
            'RMSE': rmse,
            'MAE': mae,
            'R¬≤': r2,
            'MAPE': mape
        }
        
        evaluation_results[target_col] = metrics
        
        # Affichage des m√©triques
        print(f"   üìà MSE (Mean Squared Error): {mse:.4f}")
        print(f"   üìà RMSE (Root Mean Squared Error): {rmse:.4f}")
        print(f"   üìà MAE (Mean Absolute Error): {mae:.4f}")
        print(f"   üìà R¬≤ (Coefficient de d√©termination): {r2:.4f}")
        print(f"   üìà MAPE (Mean Absolute Percentage Error): {mape:.2f}%")
        
        # Interpr√©tation du R¬≤
        if r2 >= 0.9:
            print("   ‚úÖ Excellent mod√®le (R¬≤ ‚â• 0.9)")
        elif r2 >= 0.8:
            print("   üü¢ Bon mod√®le (R¬≤ ‚â• 0.8)")
        elif r2 >= 0.6:
            print("   üü° Mod√®le acceptable (R¬≤ ‚â• 0.6)")
        else:
            print("   üî¥ Mod√®le √† am√©liorer (R¬≤ < 0.6)")
    
    return evaluation_results

# Fonction de visualisation des r√©sultats
def visualize_predictions(predictions_results, max_points=1000):
    """Visualise les pr√©dictions vs valeurs r√©elles"""
    n_models = len(predictions_results)
    
    # Calcul du nombre de lignes et colonnes pour les sous-graphiques
    cols = min(2, n_models)
    rows = (n_models + cols - 1) // cols
    
    plt.figure(figsize=(15, 5 * rows))
    
    for idx, (target_col, results) in enumerate(predictions_results.items()):
        # Graphique 1: Comparaison pr√©dictions vs r√©alit√©
        plt.subplot(rows, cols, idx + 1)
        
        actual = results['actual_values']
        predicted = results['historical_predictions']
        
        # Limitation du nombre de points pour la lisibilit√©
        if len(actual) > max_points:
            step = len(actual) // max_points
            actual_plot = actual[::step]
            predicted_plot = predicted[::step]
        else:
            actual_plot = actual
            predicted_plot = predicted
        
        plt.plot(actual_plot, label='Valeurs r√©elles', alpha=0.7, linewidth=1)
        plt.plot(predicted_plot, label='Pr√©dictions', alpha=0.7, linewidth=1)
        plt.title(f'Pr√©dictions vs R√©alit√© - {target_col}')
        plt.xlabel('√âchantillons')
        plt.ylabel('Valeurs')
        plt.legend()
        plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Graphique des pr√©dictions futures
    plt.figure(figsize=(15, 5 * rows))
    
    for idx, (target_col, results) in enumerate(predictions_results.items()):
        plt.subplot(rows, cols, idx + 1)
        
        future_pred = results['future_predictions']
        
        # Affichage des derni√®res valeurs historiques pour contexte
        if len(results['actual_values']) > 0:
            last_actual = results['actual_values'][-30:]  # Derniers 30 points
            x_hist = range(-len(last_actual), 0)
            plt.plot(x_hist, last_actual, label='Historique r√©cent', color='blue', alpha=0.7)
        
        # Pr√©dictions futures
        x_future = range(0, len(future_pred))
        plt.plot(x_future, future_pred, label='Pr√©dictions futures', color='red', marker='o', markersize=3)
        
        plt.axvline(x=0, color='gray', linestyle='--', alpha=0.5, label='D√©but des pr√©dictions')
        plt.title(f'Pr√©dictions futures - {target_col}')
        plt.xlabel('Jours')
        plt.ylabel('Valeurs')
        plt.legend()
        plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

# Ex√©cution de l'√©valuation
if 'all_predictions' in globals() and all_predictions:
    print("üìä D√©but de l'√©valuation des mod√®les...")
    
    # √âvaluation des performances
    model_metrics = evaluate_model_performance(all_predictions)
    
    # Cr√©ation d'un DataFrame r√©capitulatif
    metrics_df = pd.DataFrame(model_metrics).T
    print("\nüìã R√©capitulatif des m√©triques:")
    display(metrics_df.round(4))
    
    # Visualisation des r√©sultats
    print("\nüìà G√©n√©ration des graphiques...")
    visualize_predictions(all_predictions)
    
    # Graphique en barres des m√©triques R¬≤
    plt.figure(figsize=(12, 6))
    r2_values = [metrics['R¬≤'] for metrics in model_metrics.values()]
    model_names = list(model_metrics.keys())
    
    colors = ['green' if r2 >= 0.8 else 'orange' if r2 >= 0.6 else 'red' for r2 in r2_values]
    
    plt.bar(model_names, r2_values, color=colors, alpha=0.7)
    plt.title('Coefficient de d√©termination (R¬≤) par mod√®le')
    plt.ylabel('R¬≤')
    plt.xlabel('Variables')
    plt.xticks(rotation=45, ha='right')
    plt.ylim(0, 1)
    plt.grid(True, alpha=0.3)
    
    # Ligne de r√©f√©rence pour un bon mod√®le
    plt.axhline(y=0.8, color='red', linestyle='--', alpha=0.5, label='Seuil bon mod√®le (0.8)')
    plt.legend()
    
    plt.tight_layout()
    plt.show()
    
    print("\n‚úÖ √âvaluation termin√©e!")

else:
    print("‚ö†Ô∏è Aucune pr√©diction trouv√©e. Ex√©cutez d'abord la section de g√©n√©ration des pr√©dictions.")

## üíæ 7. Sauvegarde et Export des R√©sultats

Cette section sauvegarde les mod√®les, les m√©triques et exporte les r√©sultats dans diff√©rents formats.

In [None]:
# Fonction de sauvegarde des r√©sultats
def save_results(predictions_results, model_metrics, output_dir="results"):
    """Sauvegarde les r√©sultats dans diff√©rents formats"""
    
    # Cr√©er le dossier de r√©sultats
    os.makedirs(output_dir, exist_ok=True)
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    print(f"üíæ Sauvegarde des r√©sultats dans: {output_dir}/")
    
    # 1. Sauvegarde des pr√©dictions en CSV
    for target_col, results in predictions_results.items():
        # Pr√©dictions futures
        future_df = pd.DataFrame({
            'jour': range(1, len(results['future_predictions']) + 1),
            'prediction': results['future_predictions']
        })
        future_file = os.path.join(output_dir, f"{target_col}_predictions_futures_{timestamp}.csv")
        future_df.to_csv(future_file, index=False)
        print(f"   ‚úÖ Pr√©dictions futures sauv√©es: {future_file}")
        
        # Pr√©dictions historiques vs r√©alit√©
        historical_df = pd.DataFrame({
            'valeur_reelle': results['actual_values'],
            'prediction': results['historical_predictions'],
            'erreur': results['actual_values'] - results['historical_predictions']
        })
        historical_file = os.path.join(output_dir, f"{target_col}_evaluation_{timestamp}.csv")
        historical_df.to_csv(historical_file, index=False)
        print(f"   ‚úÖ √âvaluation historique sauv√©e: {historical_file}")
    
    # 2. Sauvegarde des m√©triques
    metrics_df = pd.DataFrame(model_metrics).T
    metrics_file = os.path.join(output_dir, f"metriques_modeles_{timestamp}.csv")
    metrics_df.to_csv(metrics_file)
    print(f"   ‚úÖ M√©triques sauv√©es: {metrics_file}")
    
    # 3. Rapport de synth√®se
    report_file = os.path.join(output_dir, f"rapport_synthese_{timestamp}.txt")
    with open(report_file, 'w', encoding='utf-8') as f:
        f.write("üîã RAPPORT DE SYNTH√àSE - SYST√àME DE PR√âDICTION √âNERG√âTIQUE\\n")
        f.write("=" * 60 + "\\n\\n")
        f.write(f"üìÖ Date de g√©n√©ration: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\\n")
        f.write(f"üìä Mode utilis√©: {selected_mode}\\n")
        f.write(f"üìÅ Fichier de donn√©es: {selected_data_file}\\n")
        f.write(f"üéØ Nombre de variables pr√©dites: {len(predictions_results)}\\n\\n")
        
        f.write("üìà R√âSUM√â DES PERFORMANCES:\\n")
        f.write("-" * 30 + "\\n")
        for target_col, metrics in model_metrics.items():
            f.write(f"\\nüî∏ {target_col}:\\n")
            f.write(f"   ‚Ä¢ R¬≤ (coefficient de d√©termination): {metrics['R¬≤']:.4f}\\n")
            f.write(f"   ‚Ä¢ RMSE (erreur quadratique moyenne): {metrics['RMSE']:.4f}\\n")
            f.write(f"   ‚Ä¢ MAE (erreur absolue moyenne): {metrics['MAE']:.4f}\\n")
            f.write(f"   ‚Ä¢ MAPE (erreur absolue en pourcentage): {metrics['MAPE']:.2f}%\\n")
            
            # √âvaluation qualitative
            if metrics['R¬≤'] >= 0.9:
                f.write(f"   ‚Ä¢ √âvaluation: Excellent mod√®le ‚úÖ\\n")
            elif metrics['R¬≤'] >= 0.8:
                f.write(f"   ‚Ä¢ √âvaluation: Bon mod√®le üü¢\\n")
            elif metrics['R¬≤'] >= 0.6:
                f.write(f"   ‚Ä¢ √âvaluation: Mod√®le acceptable üü°\\n")
            else:
                f.write(f"   ‚Ä¢ √âvaluation: Mod√®le √† am√©liorer üî¥\\n")
        
        f.write(f"\\n\\nüìä PR√âDICTIONS G√âN√âR√âES:\\n")
        f.write("-" * 25 + "\\n")
        for target_col, results in predictions_results.items():
            f.write(f"\\nüî∏ {target_col}:\\n")
            f.write(f"   ‚Ä¢ Pr√©dictions futures: {len(results['future_predictions'])} jours\\n")
            f.write(f"   ‚Ä¢ Valeur min pr√©dite: {results['future_predictions'].min():.2f}\\n")
            f.write(f"   ‚Ä¢ Valeur max pr√©dite: {results['future_predictions'].max():.2f}\\n")
            f.write(f"   ‚Ä¢ Valeur moyenne pr√©dite: {results['future_predictions'].mean():.2f}\\n")
    
    print(f"   ‚úÖ Rapport de synth√®se sauv√©: {report_file}")
    
    return output_dir

# Fonction de sauvegarde des mod√®les (si mode r√©-entra√Ænement)
def backup_models(models_dict, backup_dir="models_backup"):
    """Sauvegarde de s√©curit√© des mod√®les"""
    os.makedirs(backup_dir, exist_ok=True)
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    print(f"üíæ Sauvegarde de s√©curit√© des mod√®les dans: {backup_dir}/")
    
    for target_col, model_info in models_dict.items():
        # Sauvegarde du mod√®le
        model_backup_path = os.path.join(backup_dir, f"{target_col}_LSTM_backup_{timestamp}.h5")
        model_info['model'].save(model_backup_path)
        
        # Sauvegarde du scaler
        scaler_backup_path = os.path.join(backup_dir, f"{target_col}_scaler_backup_{timestamp}.pkl")
        with open(scaler_backup_path, 'wb') as f:
            pickle.dump(model_info['scaler'], f)
        
        print(f"   ‚úÖ Mod√®le et scaler sauv√©s pour: {target_col}")

# Ex√©cution de la sauvegarde
if 'all_predictions' in globals() and 'model_metrics' in globals():
    print("üíæ D√©but de la sauvegarde des r√©sultats...")
    
    # Sauvegarde des r√©sultats
    results_dir = save_results(all_predictions, model_metrics)
    
    # Sauvegarde de s√©curit√© des mod√®les si mode r√©-entra√Ænement
    if selected_mode == 'retrain' and 'trained_models' in globals():
        backup_models(trained_models)
    
    print(f"\\nüéâ Sauvegarde termin√©e avec succ√®s!")
    print(f"üìÅ Tous les fichiers sont disponibles dans: {os.path.abspath(results_dir)}")
    
    # R√©sum√© final
    print("\\nüìã R√âSUM√â FINAL:")
    print("=" * 40)
    print(f"üéØ Mode utilis√©: {selected_mode}")
    print(f"üìä Variables pr√©dites: {len(all_predictions)}")
    print(f"üìà Pr√©dictions futures: 30 jours par variable")
    
    # Affichage des meilleures performances
    best_model = max(model_metrics.items(), key=lambda x: x[1]['R¬≤'])
    worst_model = min(model_metrics.items(), key=lambda x: x[1]['R¬≤'])
    
    print(f"üèÜ Meilleur mod√®le: {best_model[0]} (R¬≤ = {best_model[1]['R¬≤']:.4f})")
    print(f"‚ö†Ô∏è Mod√®le √† am√©liorer: {worst_model[0]} (R¬≤ = {worst_model[1]['R¬≤']:.4f})")
    
    avg_r2 = np.mean([metrics['R¬≤'] for metrics in model_metrics.values()])
    print(f"üìä R¬≤ moyen: {avg_r2:.4f}")
    
    if avg_r2 >= 0.8:
        print("‚úÖ Performance globale: EXCELLENTE")
    elif avg_r2 >= 0.6:
        print("üü¢ Performance globale: BONNE")
    else:
        print("üü° Performance globale: √Ä AM√âLIORER")

else:
    print("‚ö†Ô∏è Aucun r√©sultat √† sauvegarder. Ex√©cutez d'abord les sections pr√©c√©dentes.")

## üéØ 8. Conclusion et Guide d'Utilisation

### ‚úÖ F√©licitations !

Vous avez termin√© avec succ√®s l'utilisation du syst√®me de pr√©diction √©nerg√©tique LSTM !

### üìã R√©capitulatif des √©tapes accomplies :

1. **‚öôÔ∏è Configuration** - Choix entre mod√®les pr√©-entra√Æn√©s ou r√©-entra√Ænement
2. **üìä Donn√©es** - Chargement et pr√©paration des donn√©es
3. **ü§ñ Mod√®les** - Utilisation ou cr√©ation des mod√®les LSTM
4. **üîÆ Pr√©dictions** - G√©n√©ration des pr√©dictions futures (30 jours)
5. **üìà √âvaluation** - Calcul des m√©triques de performance
6. **üíæ Sauvegarde** - Export des r√©sultats en CSV et rapport de synth√®se

### üìÅ Fichiers g√©n√©r√©s :

- **Pr√©dictions futures** : `[variable]_predictions_futures_[timestamp].csv`
- **√âvaluations** : `[variable]_evaluation_[timestamp].csv`  
- **M√©triques** : `metriques_modeles_[timestamp].csv`
- **Rapport** : `rapport_synthese_[timestamp].txt`
- **Mod√®les sauv√©s** : Dossiers `models/` et `scalers/`

### üîÑ Pour de nouvelles pr√©dictions :

1. **Nouvelles donn√©es** : Changez le fichier dans la section 2
2. **Nouveaux mod√®les** : S√©lectionnez "R√©-entra√Æner" dans la section 2
3. **Param√®tres** : Modifiez `SEQUENCE_LENGTH` et `PREDICTION_DAYS` dans la section 5

### üìû Support :

Pour toute question ou am√©lioration, consultez la documentation du projet ou contactez l'√©quipe de d√©veloppement.

---

**üîã Merci d'utiliser le Syst√®me de Pr√©diction √ânerg√©tique LSTM !**

## ü§ñ 4. Entra√Ænement des Mod√®les LSTM

Cette section entra√Æne les mod√®les LSTM pour chaque variable si le mode "retrain" est s√©lectionn√©.

In [None]:
# Configuration pour l'entra√Ænement
SEQUENCE_LENGTH = 30
EPOCHS = 50
BATCH_SIZE = 32
VALIDATION_SPLIT = 0.2

# Variables √† pr√©dire
variables_to_predict = [
    'prectotcorr', 'suface_pressure(pa)', 'temp2_ave(c)', 
    'temp2_max(c)', 'temp2_min(c)', 'total_demand(mw)',
    'wind_speed50_ave(ms)', 'wind_speed50_max(ms)', 'wind_speed50_min(ms)'
]

def create_lstm_model(input_shape):
    """Cr√©er un mod√®le LSTM optimis√©"""
    model = Sequential([
        LSTM(100, return_sequences=True, input_shape=input_shape),
        Dropout(0.2),
        LSTM(50, return_sequences=False),
        Dropout(0.2),
        Dense(25, activation='relu'),
        Dense(1)
    ])
    
    model.compile(
        optimizer=Adam(learning_rate=0.001),
        loss='mean_squared_error',
        metrics=['mae']
    )
    
    return model

def prepare_sequences(data, sequence_length):
    """Pr√©parer les s√©quences pour l'entra√Ænement LSTM"""
    X, y = [], []
    for i in range(sequence_length, len(data)):
        X.append(data[i-sequence_length:i])
        y.append(data[i])
    return np.array(X), np.array(y)

# Dictionnaires pour stocker les mod√®les et scalers
trained_models = {}
trained_scalers = {}
training_history = {}

if user_mode == 'retrain':
    print("üîÑ D√©but de l'entra√Ænement des mod√®les personnalis√©s...")
    print("=" * 60)
    
    # Entra√Æner un mod√®le pour chaque variable
    for i, variable in enumerate(variables_to_predict):
        print(f"\nü§ñ Entra√Ænement du mod√®le pour : {variable}")
        print(f"üìä Progression : {i+1}/{len(variables_to_predict)}")
        
        if variable in df.columns:
            # Pr√©paration des donn√©es
            data = df[variable].values.reshape(-1, 1)
            
            # Normalisation
            scaler = MinMaxScaler()
            scaled_data = scaler.fit_transform(data)
            
            # Cr√©ation des s√©quences
            X, y = prepare_sequences(scaled_data, SEQUENCE_LENGTH)
            
            if len(X) > 0:
                # Division train/test
                X_train, X_test, y_train, y_test = train_test_split(
                    X, y, test_size=0.2, shuffle=False
                )
                
                # Cr√©ation et entra√Ænement du mod√®le
                model = create_lstm_model((SEQUENCE_LENGTH, 1))
                
                # Callbacks
                early_stopping = EarlyStopping(
                    monitor='val_loss', 
                    patience=10, 
                    restore_best_weights=True
                )
                
                model_checkpoint = ModelCheckpoint(
                    f'{MODELS_PATH}{variable}_LSTM.h5',
                    monitor='val_loss',
                    save_best_only=True
                )
                
                # Entra√Ænement
                history = model.fit(
                    X_train, y_train,
                    epochs=EPOCHS,
                    batch_size=BATCH_SIZE,
                    validation_split=VALIDATION_SPLIT,
                    callbacks=[early_stopping, model_checkpoint],
                    verbose=1
                )
                
                # Sauvegarde
                trained_models[variable] = model
                trained_scalers[variable] = scaler
                training_history[variable] = history.history
                
                # Sauvegarde du scaler
                joblib.dump(scaler, f'{SCALERS_PATH}{variable}_scaler.pkl')
                
                # √âvaluation rapide
                train_loss = model.evaluate(X_train, y_train, verbose=0)
                test_loss = model.evaluate(X_test, y_test, verbose=0)
                
                print(f"‚úÖ {variable} - Train Loss: {train_loss[0]:.4f}, Test Loss: {test_loss[0]:.4f}")
            else:
                print(f"‚ö†Ô∏è Donn√©es insuffisantes pour {variable}")
        else:
            print(f"‚ùå Variable {variable} non trouv√©e dans les donn√©es")
    
    print("\nüéâ Entra√Ænement termin√© pour tous les mod√®les!")
    print(f"üìÅ Mod√®les sauvegard√©s dans : {MODELS_PATH}")
    print(f"üìÅ Scalers sauvegard√©s dans : {SCALERS_PATH}")

else:
    print("üéØ Utilisation des mod√®les pr√©-entra√Æn√©s...")
    
    # Charger les mod√®les pr√©-entra√Æn√©s
    for variable in variables_to_predict:
        model_path = f'{MODELS_PATH}{variable}_LSTM.h5'
        scaler_path = f'{SCALERS_PATH}{variable}_scaler.pkl'
        
        if os.path.exists(model_path) and os.path.exists(scaler_path):
            try:
                trained_models[variable] = load_model(model_path)
                trained_scalers[variable] = joblib.load(scaler_path)
                print(f"‚úÖ Mod√®le charg√© pour {variable}")
            except Exception as e:
                print(f"‚ùå Erreur lors du chargement de {variable}: {e}")
        else:
            print(f"‚ö†Ô∏è Mod√®le pr√©-entra√Æn√© non trouv√© pour {variable}")

print(f"\nüìä Mod√®les disponibles : {len(trained_models)}")
print(f"üîß Scalers disponibles : {len(trained_scalers)}")

In [None]:
# Sauvegarde des r√©sultats pour l'interface Streamlit
def save_results_for_streamlit(predictions_results, output_path="../results.csv"):
    """Sauvegarde les r√©sultats dans le format attendu par Streamlit"""
    
    # Cr√©er un DataFrame avec les r√©sultats
    results_data = []
    
    # G√©n√©rer les dates futures (30 jours √† partir d'aujourd'hui)
    from datetime import datetime, timedelta
    base_date = datetime.now()
    
    # Prendre le premier mod√®le pour d√©terminer le nombre de pr√©dictions
    first_key = list(predictions_results.keys())[0]
    num_predictions = len(predictions_results[first_key]['future_predictions'])
    
    for i in range(num_predictions):
        date = (base_date + timedelta(days=i+1)).strftime('%Y-%m-%d')
        
        # Initialiser le dictionnaire de r√©sultats pour ce jour
        result_row = {'date': date}
        
        # Ajouter les pr√©dictions pour chaque variable
        for variable, data in predictions_results.items():
            if i < len(data['future_predictions']):
                result_row[f'{variable}_predit'] = data['future_predictions'][i]
        
        # Calculer g√©n√©ration et consommation si les variables appropri√©es existent
        generation_vars = ['prectotcorr', 'wind_speed50_ave(ms)', 'wind_speed50_max(ms)']
        consumption_vars = ['total_demand(mw)', 'temp2_ave(c)', 'temp2_max(c)']
        
        # Estimation de la g√©n√©ration (bas√©e sur les variables m√©t√©o)
        generation = 0
        gen_count = 0
        for var in generation_vars:
            if f'{var}_predit' in result_row:
                # Normalisation et pond√©ration pour estimation g√©n√©ration
                if 'wind' in var:
                    generation += result_row[f'{var}_predit'] * 10  # Facteur √©olien
                    gen_count += 1
                elif 'prectot' in var:
                    generation += result_row[f'{var}_predit'] * 5   # Facteur hydro√©lectrique
                    gen_count += 1
        
        if gen_count > 0:
            generation = generation / gen_count
        else:
            generation = 100  # Valeur par d√©faut
        
        # Consommation (bas√©e sur la demande totale ou temp√©rature)
        consumption = 0
        cons_count = 0
        for var in consumption_vars:
            if f'{var}_predit' in result_row:
                if 'demand' in var:
                    consumption = result_row[f'{var}_predit']  # Demande directe
                    cons_count = 1
                    break
                elif 'temp' in var:
                    # Estimation bas√©e sur la temp√©rature
                    temp = result_row[f'{var}_predit']
                    consumption += abs(temp - 20) * 5  # Facteur de climatisation/chauffage
                    cons_count += 1
        
        if cons_count == 0:
            consumption = 80  # Valeur par d√©faut
        elif 'demand' not in [var for var in consumption_vars if f'{var}_predit' in result_row]:
            consumption = consumption / cons_count
        
        result_row['generation_predite'] = max(0, generation)
        result_row['consommation_predite'] = max(0, consumption)
        
        results_data.append(result_row)
    
    # Cr√©er le DataFrame final
    results_df = pd.DataFrame(results_data)
    
    # Sauvegarder en CSV
    results_df.to_csv(output_path, index=False)
    print(f"‚úÖ R√©sultats sauvegard√©s pour Streamlit : {output_path}")
    print(f"üìä {len(results_df)} jours de pr√©dictions sauvegard√©es")
    
    # Afficher un aper√ßu
    print("\\nüìã Aper√ßu des r√©sultats :")
    display(results_df.head())
    
    return results_df

# Ex√©cuter la sauvegarde si des pr√©dictions ont √©t√© g√©n√©r√©es
if 'all_predictions' in globals() and all_predictions:
    print("üíæ Sauvegarde des r√©sultats pour l'interface Streamlit...")
    streamlit_results = save_results_for_streamlit(all_predictions)
    print("‚úÖ Sauvegarde termin√©e !")
else:
    print("‚ö†Ô∏è Aucune pr√©diction trouv√©e √† sauvegarder")