<h1 style="text-align: center;">Electricity price forecasting by Elmy Centré</h1>

**Data description**

**Index**

**DELIVERY_START** : date et heure de livraison de l'électricité

**Variables explicatives**

**load_forecast** : prévision de consommation totale d'éléctricité en France

**coal_power_available**, **gas_power_available**, **nucelear_power_available** : capacité de production totale d'électricité des centrales à charbon, gaz et nucléaire respectivement,

**wind_power_forecasts_average**, **solar_power_forecasts_average** : moyenne de différentes prévisions de production totale d'électricité éolienne et solaire (respectivement),

**wind_power_forecasts_std**, **solar_power_forecasts_std** : écart-type de ces mêmes prévisions,

**predicted_spot_price** : prévision du prix SPOT de l'électricité issues d'un modèle interne de Elmy. Ce modèle est lancé chaque jour avant la fermeture des enchères SPOT pour le lendemain.


**Variable cible**

**spot_id_delta** : l'écart entre le VWAP des transactions sur le marché infra-journalier (Intraday) et le prix SPOT pour 1MWh d'électricité **(spot_id_delta = Intraday - SPOT)** : si la valeur est positive, le prix Intraday est supérieur au prix SPOT et inversement.

In [None]:
#Instalattion des packages
#!pip install pandas
#!pip install numpy
#!pip install seaborn
#!pip install missingno
#!pip install matplotlib
#!pip install scikit-learn
#!pip install statsmodels
#!pip install xgboost

In [None]:
#pip install xgboost

In [None]:
#Importation des libraries
import pandas as pd
import numpy as np
import seaborn as sns
import missingno as msno
import matplotlib.pyplot as plt
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

In [None]:
import statsmodels.api as sm

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV
from sklearn.feature_selection import SelectKBest, chi2, f_regression

from sklearn.linear_model import LinearRegression, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, ExtraTreesRegressor, AdaBoostRegressor
from xgboost import XGBRegressor
from sklearn.neural_network import MLPRegressor

from sklearn.metrics import mean_squared_error, r2_score

In [None]:
from sklearn.model_selection import RandomizedSearchCV, KFold, cross_val_score

__Importation des bases de données__

In [None]:
# Charger le fichier CSV dans un DataFrame
Xty = pd.read_csv("X_train_add.csv", sep=",")
Y_dt = pd.read_csv("y_train.csv",sep=",")
X_test = pd.read_csv("X_test.csv",sep=",")

In [None]:
Y_dt.head(4)

In [None]:
Xty.head(4)

In [None]:
Y_dt=Y_dt.sort_values(['DELIVERY_START'])

In [None]:
# Convertir directement avec utc=True pour éviter les avertissements
Y_dt['DELIVERY_START'] = pd.to_datetime(Y_dt['DELIVERY_START'], utc=True, errors='coerce')
# Convertir directement avec utc=True pour éviter les avertissements
Xty['DELIVERY_START'] = pd.to_datetime(Xty['DELIVERY_START'], utc=True, errors='coerce')

In [None]:
data_merge = pd.merge(Y_dt, Xty, on="DELIVERY_START")

In [None]:
data_merge.info()

__Verification des valeurs manquantes et leur gestion__

In [None]:
round((data_merge.isna().sum()/len(data_merge))*100,2)

In [None]:
sns.heatmap(data_merge.isnull(),yticklabels=False, cbar=False,cmap='viridis')

__Traitement des valeurs manquantes__

In [None]:
# Créer un imputer IterativeImputer
imputer = IterativeImputer(max_iter=30, random_state=0, sample_posterior=True)

# Sélectionner les colonnes à imputer
columns_to_impute = ['wind_power_forecasts_average',
                                                   'solar_power_forecasts_average','wind_power_forecasts_std',
                                                   'solar_power_forecasts_std','coal_power_available','gas_power_available',
                                                   'nucelear_power_available', 'prod_eolienne_MWh','prod_solaire_MWh']
# Imputer les colonnes spécifiées
data_merge[columns_to_impute] = imputer.fit_transform(data_merge[columns_to_impute])
# Imputation par interpolation spline
# Imputation avec interpolation linéaire
#data_merge[columns_to_impute] = data_merge[columns_to_impute].interpolate(method='linear', axis=0)

In [None]:
# Création des nouvelles variables temporelles
def create_variable_temporelle (data_merge):
    data_merge['hour'] = data_merge['DELIVERY_START'].dt.hour
    data_merge['day_of_week'] = data_merge['DELIVERY_START'].dt.dayofweek
    data_merge['month'] = data_merge['DELIVERY_START'].dt.month
    data_merge['year'] = data_merge['DELIVERY_START'].dt.year
    data_merge['dayofyear'] = data_merge['DELIVERY_START'].dt.dayofyear
    data_merge['quarter'] = data_merge['DELIVERY_START'].dt.quarter
    # Création de la variable "jour ouvré"
    #data_merge['is_workday'] = data_merge['day_of_week'].apply(lambda x: 1 if x < 5 else 0)
    return data_merge

In [None]:
data_merge=create_variable_temporelle (data_merge)

In [None]:
# Carte des corrélations

plt.figure(figsize=(9,9))

mask = np.triu(np.ones_like(data_merge.iloc[:, 1:].corr(), dtype=bool))

sns.heatmap(data_merge.iloc[:, 1:].corr(),
            mask=mask, center=0, cmap='RdBu', linewidths=1,
            annot=True, fmt=".2f", vmin=-1, vmax=1
)

plt.title('Carte des corrélations', fontsize=15, fontweight="bold")

plt.show()

# La variable load_forecast

In [None]:
data_loadf = data_merge.dropna(subset=['load_forecast'])
#data_loadf=data_loadf.drop(columns=['predicted_spot_price','solar_power_forecasts_average','wind_power_forecasts_std'])
data_loadf=data_loadf.drop(columns=['predicted_spot_price'])
round((data_loadf.isna().sum()/len(data_loadf))*100,2)

In [None]:
# Séparer la variable cible et les variables explicatives
X_loadf_train = data_loadf.drop(columns=['load_forecast', 'DELIVERY_START'])
y_loadf_train = data_loadf['load_forecast']

# Séparer les données d'entraînement et de test
Xlf_train, Xlf_test, ylf_train, ylf_test = train_test_split(X_loadf_train, y_loadf_train, test_size=0.1, random_state=42)


In [None]:
#Standadiser
# Initialisation du scaler
scaler = StandardScaler()
# Appliquer le scaler sur les données d'entraînement
Xlf_train = scaler.fit_transform(Xlf_train)

# Appliquer le même scaler sur les données de test
Xlf_test = scaler.transform(Xlf_test)

In [None]:
seed=123

# Initialisation du modèle avec des hyperparamètres ajustés
rf_model = RandomForestRegressor(
    n_estimators=500,         # Augmenter le nombre d'arbres
    #max_depth=50,             # Profondeur maximale des arbres
    min_samples_split=2,      # Minimum d'échantillons pour diviser un nœud
    min_samples_leaf=2,       # Minimum d'échantillons dans une feuille
    max_features="sqrt",      # Nombre de caractéristiques à considérer lors de la division
    random_state=seed,
    bootstrap=False,           # Tirage avec remise pour les échantillons
                            # Utilisation de l'erreur quadratique moyenne (par défaut)
)

xgb_model = XGBRegressor(
    n_estimators=500, # Augmenter le nombre d'arbres
    learning_rate=0.01,  # Taux d'apprentissage plus faible
    #max_depth=50,        # Profondeur des arbres
    min_child_weight=2,  # Poids minimum pour diviser
    subsample=0.8,      # Utiliser 80% des échantillons pour chaque arbre
    colsample_bytree=0.8,  # Utiliser 80% des caractéristiques pour chaque arbre
    gamma=0.1,          # Régularisation pour réduire la complexité
    random_state=seed
)
# Entraîner les modèles
rf_model.fit(Xlf_train, ylf_train)
xgb_model.fit(Xlf_train, ylf_train)

# Prédictions
rf_pred_train= rf_model.predict(Xlf_train)
xgb_pred_train = xgb_model.predict(Xlf_train)
rf_pred = rf_model.predict(Xlf_test)
xgb_pred = xgb_model.predict(Xlf_test)

# Calculer les métriques
rf_rmse_train = np.sqrt(mean_squared_error(ylf_train, rf_pred_train))
xgb_rmse_train = np.sqrt(mean_squared_error(ylf_train, xgb_pred_train))

rf_rmse = np.sqrt(mean_squared_error(ylf_test, rf_pred))
xgb_rmse = np.sqrt(mean_squared_error(ylf_test, xgb_pred))

# Calcule de R²
R2rf = r2_score(ylf_test, rf_pred)
R2xg = r2_score(ylf_test, xgb_pred)

print(f"RMSE pour Random Forest train : {rf_rmse_train}")
print(f"RMSE pour XGBoost train : {xgb_rmse_train}")
print(f"RMSE pour Random Forest : {rf_rmse}")
print(f"RMSE pour XGBoost : {xgb_rmse}")
print(f"R² pour Random Forest : {R2rf}")
print(f"R² pour XGBoost : {R2xg}")

In [None]:
#la base avec les valeurs manquantes
data_lf_with_na = data_merge[data_merge['load_forecast'].isna()]

#definir les valeurs pour la prediction
Xlf_predi= data_lf_with_na.drop(columns=['DELIVERY_START', 'load_forecast','predicted_spot_price'])

In [None]:
xU = Xlf_predi.copy()

In [None]:
# Appliquer le même scaler sur les données de test
Xlf_predi = scaler.transform(Xlf_predi)

In [None]:
# Remplir les valeurs manquantes dans le DataFrame d'origine
data_merge.loc[data_merge['load_forecast'].isna(), 'load_forecast'] =xgb_model.predict(Xlf_predi)

In [None]:
round((data_merge.isna().sum()/len(data_merge))*100,2)

# Traitement de la variable predicted_spot_price

In [None]:
data_predspot = data_merge.dropna(subset=['predicted_spot_price'])

round((data_predspot.isna().sum()/len(data_predspot))*100,2)

In [None]:
# Séparer la variable cible et les variables explicatives
X_Spot_price_train = data_predspot.drop(columns=['predicted_spot_price', 'DELIVERY_START'])
y_Spot_price_train = data_predspot['predicted_spot_price']

# Séparer les données d'entraînement et de test
Xsp_train, Xsp_test, ysp_train, ysp_test = train_test_split(X_Spot_price_train, y_Spot_price_train, test_size=0.1, random_state=42)

In [None]:
#Standadiser
# Initialisation du scaler
scaler = StandardScaler()

# Appliquer le scaler sur les données d'entraînement
Xsp_train = scaler.fit_transform(Xsp_train)

# Appliquer le même scaler sur les données de test
Xsp_test = scaler.transform(Xsp_test)

In [None]:
# Initialisation du seed
seed = 123

# Initialisation du modèle avec des hyperparamètres ajustés
rf_model_sp = RandomForestRegressor(
    n_estimators=700,         # Augmenter le nombre d'arbres
    #max_depth=50,             # Profondeur maximale des arbres
    min_samples_split=2,      # Minimum d'échantillons pour diviser un nœud
    min_samples_leaf=2,       # Minimum d'échantillons dans une feuille
    max_features="sqrt",      # Nombre de caractéristiques à considérer lors de la division
    random_state=seed,
    bootstrap=False,           # Tirage avec remise pour les échantillons
                            # Utilisation de l'erreur quadratique moyenne (par défaut)
)

xgb_model_sp = XGBRegressor(
   n_estimators=1000,  # Augmenter le nombre d'arbres
    learning_rate=0.01,  # Taux d'apprentissage plus faible
    #max_depth=50,        # Profondeur des arbres
    min_child_weight=2,  # Poids minimum pour diviser
    subsample=0.8,      # Utiliser 80% des échantillons pour chaque arbre
    colsample_bytree=0.8,  # Utiliser 80% des caractéristiques pour chaque arbre
    gamma=0.1,          # Régularisation pour réduire la complexité
    random_state=seed
)

# Entraîner les modèles avec les données d'entraînement de Spot Price
rf_model_sp.fit(Xsp_train, ysp_train)
xgb_model_sp.fit(Xsp_train, ysp_train)

# Prédictions avec les données de test de Spot Price
rf_pred_sp = rf_model_sp.predict(Xsp_test)
xgb_pred_sp = xgb_model_sp.predict(Xsp_test)

rf_pred_sp_train= rf_model_sp.predict(Xsp_train)
xgb_pred_sp_train = xgb_model_sp.predict(Xsp_train)

# Calculer les métriques (RMSE)
rf_rmse_sp = np.sqrt(mean_squared_error(ysp_test, rf_pred_sp))
xgb_rmse_sp = np.sqrt(mean_squared_error(ysp_test, xgb_pred_sp))

rf_rmse_sp_train = np.sqrt(mean_squared_error(ysp_train, rf_pred_sp_train))
xgb_rmse_sp_train = np.sqrt(mean_squared_error(ysp_train, xgb_pred_sp_train))

# Calculer le R²
R2rf_sp = r2_score(ysp_test, rf_pred_sp)
R2xg_sp = r2_score(ysp_test, xgb_pred_sp)

# Afficher les résultats
print(f"RMSE pour Random Forest train : {rf_rmse_sp_train}")
print(f"RMSE pour Random Forest : {rf_rmse_sp}")
print(f"RMSE pour XGBoost : {xgb_rmse_sp}")
print(f"RMSE pour XGBoost train  : {xgb_rmse_sp_train}")
print(f"R² pour Random Forest : {R2rf_sp}")
print(f"R² pour XGBoost : {R2xg_sp}")

In [None]:
#la base avec les valeurs manquantes
data_sp_with_na = data_merge[data_merge['predicted_spot_price'].isna()]

#definir les valeurs pour la prediction
Xsp_predi= data_sp_with_na.drop(columns=['DELIVERY_START','predicted_spot_price'])

In [None]:
Xui = Xsp_predi.copy()

In [None]:
#Standadiser
# Initialisation du scaler
scale = StandardScaler()
# Appliquer le même scaler sur les données de test
Xsp_predi = scale.fit_transform(Xsp_predi)

In [None]:
# Remplir les valeurs manquantes dans le DataFrame d'origine
data_merge.loc[data_merge['predicted_spot_price'].isna(), 'predicted_spot_price'] =xgb_model_sp.predict(Xsp_predi)

In [None]:
round((data_merge.isna().sum()/len(data_merge))*100,2)

In [None]:
data_merge.describe()

In [None]:
plt.figure(figsize=(12, 6))
plt.plot(data_merge['DELIVERY_START'], data_merge['predicted_spot_price'], linestyle='-')
#plt.axvline(x=pd.to_datetime('2022-07-26 20:00:00+00:00'), color='r', linestyle='--', label='Valeur extrême')
plt.title('Évolution de predicted_spot_price ')
plt.xlabel('Date')
plt.ylabel('predicted_spot_price')
plt.legend()
plt.grid()
plt.show()

In [None]:
date_range

# la variable spot_id_delta

In [None]:
def create_lags(df, columns, lag_periods, rolling_windows=[6, 12, 24]):
    # Créer les lags
    for col in columns:
        for lag in lag_periods:
            df[f'{col}_lag_{lag}'] = df[col].shift(lag)
    
    # Appliquer les moyennes mobiles et écarts-types sur les colonnes spécifiées
    for col in columns:
        for window in rolling_windows:
            df[f'{col}_rolling_mean_{window}'] = df[col].rolling(window=window).mean()
            df[f'{col}_rolling_std_{window}'] = df[col].rolling(window=window).std()

    # Appliquer l'interpolation pour remplir les NaN créés par les lags et les rolling
    df = df.interpolate(method='linear', axis=0)
    
    # Remplir les NaN restants avec 'bfill' ou 'ffill'
    df = df.bfill()  # Remplir les NaN avec la valeur suivante dans la colonne
    df = df.ffill()  # Remplir les NaN restants avec la valeur précédente dans la colonne

    return df


In [None]:
# Variables pour lesquelles créer des lags
"columns_to_lag = ['predicted_spot_price', 'load_forecast', 'coal_power_available', 
                  'gas_power_available', 'nucelear_power_available', 
                  'wind_power_forecasts_average', 'solar_power_forecasts_average']"

In [None]:
columns_to_lag = ['predicted_spot_price', 'load_forecast', 'prod_solaire_MWh','Consommation (MW)','prod_eolienne_MWh','coal_power_available']

# Périodes de lags horaires (par exemple 1 heure, 2 heures, 3 heures)
lag_periods = [6, 12, 24]  # Tu peux aussi augmenter ces valeurs

# Appliquer la fonction pour créer les lags
df_with_lags = create_lags(data_merge, columns_to_lag, lag_periods)

In [None]:
# Séparer la variable cible et les variables explicatives
X_Spot_delta_train = df_with_lags.drop(columns=['spot_id_delta', 'DELIVERY_START'])
y_Spot_delta_train = df_with_lags['spot_id_delta']

# Séparer les données d'entraînement et de test
Xdel_train, Xdel_test, ydel_train, ydel_test = train_test_split(X_Spot_delta_train, y_Spot_delta_train, test_size=0.1, random_state=42)

In [None]:
X_Spot_delta_train.info()

In [None]:
# Séparer la variable cible et les variables explicatives
X_Spot_delta_train = data_merge.drop(columns=['spot_id_delta', 'DELIVERY_START'])
y_Spot_delta_train = data_merge['spot_id_delta']

# Séparer les données d'entraînement et de test
Xdel_train, Xdel_test, ydel_train, ydel_test = train_test_split(X_Spot_delta_train, y_Spot_delta_train, test_size=0.1, random_state=42)

In [None]:
#Standadiser
# Initialisation du scaler
scaler = StandardScaler()

# Appliquer le scaler sur les données d'entraînement
Xdel_train = scaler.fit_transform(Xdel_train)

# Appliquer le même scaler sur les données de test
Xdel_test = scaler.transform(Xdel_test)

In [None]:
df_with_lags.info()

In [None]:
# Initialisation du seed
seed = 123

# Initialisation du modèle avec des hyperparamètres ajustés
rf_model_del = RandomForestRegressor(
    n_estimators= 2000,         # Augmenter le nombre d'arbres
                # Profondeur maximale des arbres
    min_samples_split=4,      # Minimum d'échantillons pour diviser un nœud
    min_samples_leaf=2,       # Minimum d'échantillons dans une feuille
    max_features=20,      # Nombre de caractéristiques à considérer lors de la division
    random_state=seed,
    bootstrap=False,           # Tirage avec remise pour les échantillons
                            # Utilisation de l'erreur quadratique moyenne (par défaut)
)

xgb_model_del = XGBRegressor(
    n_estimators=700,  # Augmenter le nombre d'arbres
    learning_rate=0.01,  # Taux d'apprentissage plus faible
    #max_depth=50,        # Profondeur des arbres
    min_child_weight=2,  # Poids minimum pour diviser
    subsample=0.8,      # Utiliser 80% des échantillons pour chaque arbre
    colsample_bytree=0.8,  # Utiliser 80% des caractéristiques pour chaque arbre
    gamma=0.1,          # Régularisation pour réduire la complexité
    random_state=seed
)

# Entraîner les modèles avec les données d'entraînement de Spot Delta
rf_model_del.fit(Xdel_train, ydel_train)
xgb_model_del.fit(Xdel_train, ydel_train)

# Prédictions avec les données de test de Spot Delta
rf_pred_del = rf_model_del.predict(Xdel_test)
xgb_pred_del = xgb_model_del.predict(Xdel_test)

rf_pred_del_train = rf_model_del.predict(Xdel_train)
xgb_pred_del_train = xgb_model_del.predict(Xdel_train)

# Calculer les métriques (RMSE)
rf_rmse_del = np.sqrt(mean_squared_error(ydel_test, rf_pred_del))
xgb_rmse_del = np.sqrt(mean_squared_error(ydel_test, xgb_pred_del))

rf_rmse_del_train = np.sqrt(mean_squared_error(ydel_train, rf_pred_del_train))
xgb_rmse_del_train = np.sqrt(mean_squared_error(ydel_train, xgb_pred_del_train))

# Calculer le R²
R2rf_del = r2_score(ydel_test, rf_pred_del)
R2xg_del = r2_score(ydel_test, xgb_pred_del)

# Afficher les résultats
print(f"RMSE pour Random Forest (Spot Delta) train  : {rf_rmse_del_train}")
print(f"RMSE pour Random Forest (Spot Delta) : {rf_rmse_del}")
print(f"RMSE pour XGBoost (Spot Delta) train  : {xgb_rmse_del_train}")
print(f"RMSE pour XGBoost (Spot Delta) : {xgb_rmse_del}")
print(f"R² pour Random Forest (Spot Delta) : {R2rf_del}")
print(f"R² pour XGBoost (Spot Delta) : {R2xg_del}")


In [None]:
importances = rf_model_del.feature_importances_

In [None]:
# Créez un DataFrame pour les importances
importance_df = pd.DataFrame({
    'Feature': X_Spot_delta_train.columns,
    'Importance': importances
})

# Triez les variables par importance
importance_df = importance_df.sort_values(by='Importance', ascending=False)
importance_df.head(20)

In [None]:
# Affichez un graphique des importances
plt.figure(figsize=(10, 8))
plt.barh(importance_df['Feature'], importance_df['Importance'])
plt.xlabel("Importance")
plt.ylabel("Variables")
plt.title("Importance des variables dans le modèle de forêt aléatoire")
plt.gca().invert_yaxis()  # Inverse l'ordre pour que la variable la plus importante soit en haut
plt.show()

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor

# Exemple : Ajustez un modèle CART sur les données d’entraînement
cart_model = DecisionTreeRegressor(random_state=0)
cart_model.fit(X_train, y_train)

# Récupérez l'importance des variables
importances = cart_model.feature_importances_

# Convertir en DataFrame pour plus de lisibilité
importance_df = pd.DataFrame({
    'Feature': X_train.columns,
    'Importance': importances
}).sort_values(by='Importance', ascending=False)

# Définir un seuil pour éliminer les variables
# Par exemple, on garde les variables avec une importance supérieure à 1% de la somme des importances
threshold = 0.01 * np.sum(importances)

# Plot des importances des variables
plt.figure(figsize=(12, 8))

# Tracer l'estimation des importances avec une ligne continue
plt.plot(importance_df['Feature'], importance_df['Importance'], label='CART estimation', linewidth=2)

# Tracer la ligne pointillée correspondant à l’importance de chaque variable
plt.plot(importance_df['Feature'], importance_df['Importance'], 'o', linestyle='dotted', label='Importance par variable')

# Tracer la ligne horizontale pour le seuil d'élimination
plt.axhline(y=threshold, color='red', linestyle='--', label=f'Seuil d\'élimination : {threshold:.4f}')

plt.xlabel("Variables")
plt.ylabel("Importance")
plt.title("Importance des variables avec seuil d'élimination (zoom)")
plt.legend()

# Zoom sur les variables avec faible importance (optionnel)
plt.ylim(0, threshold * 2)  # Ajustez le zoom pour mettre en évidence les variables proches du seuil
plt.xticks(rotation=90)
plt.show()


# Traitement de la base X_test

In [None]:
X_test = pd.read_csv("X_test_added.csv",sep=",")
X_test['DELIVERY_START'] = pd.to_datetime(X_test['DELIVERY_START'])
X_test=create_variable_temporelle(X_test)

In [None]:
X_test.info()

In [None]:
# Sélectionner les colonnes à imputer
columns_to_impute_test = ['solar_power_forecasts_average','solar_power_forecasts_std']
# Imputer les colonnes spécifiées
X_test[columns_to_impute_test] = imputer.fit_transform(X_test[columns_to_impute_test])

In [None]:
round((X_test.isna().sum()/len(X_test))*100,2)

In [None]:
data_predspot_test = X_test.dropna(subset=['predicted_spot_price'])

In [None]:
# Séparer la variable cible et les variables explicatives
X_Spot_test_train = data_predspot_test.drop(columns=['predicted_spot_price', 'DELIVERY_START'])
y_Spot_test_train = data_predspot_test['predicted_spot_price']

# Séparer les données d'entraînement et de test
Xsptest_train, Xsptest_test, ysptest_train, ysptest_test = train_test_split(X_Spot_test_train, y_Spot_test_train, test_size=0.1, random_state=42)

In [None]:
#Standadiser

# Appliquer le scaler sur les données d'entraînement
Xsptest_train = scaler.fit_transform(Xsptest_train)

# Appliquer le même scaler sur les données de test
Xsptest_test = scaler.transform(Xsptest_test)

In [None]:
# Initialisation du seed
seed = 123

# Initialisation du modèle RandomForestRegressor avec des hyperparamètres ajustés
rf_model_xt = RandomForestRegressor(
    n_estimators=700,         # Augmenter le nombre d'arbres
    #max_depth=50,             # Profondeur maximale des arbres
    min_samples_split=2,      # Minimum d'échantillons pour diviser un nœud
    min_samples_leaf=2,       # Minimum d'échantillons dans une feuille
    max_features="sqrt",      # Nombre de caractéristiques à considérer lors de la division
    random_state=seed,
    bootstrap=False,         
)

# Initialisation du modèle XGBRegressor avec des hyperparamètres ajustés
xgb_model_xt = XGBRegressor(
    n_estimators=1000,  # Augmenter le nombre d'arbres
    learning_rate=0.01,  # Taux d'apprentissage plus faible
    #max_depth=50,        # Profondeur des arbres
    min_child_weight=2,  # Poids minimum pour diviser
    subsample=0.8,      # Utiliser 80% des échantillons pour chaque arbre
    colsample_bytree=0.8,  # Utiliser 80% des caractéristiques pour chaque arbre
    gamma=0.1,          # Régularisation pour réduire la complexité
    random_state=seed
)

# Entraîner les modèles avec les données d'entraînement de Spot Delta (données X_Spot_test_train)
rf_model_xt.fit(Xsptest_train, ysptest_train)
xgb_model_xt.fit(Xsptest_train, ysptest_train)

# Prédictions avec les données de test
rf_pred_xt_train = rf_model_xt.predict(Xsptest_train)
xgb_pred_xt_train = xgb_model_xt.predict(Xsptest_train)

rf_pred_xt = rf_model_xt.predict(Xsptest_test)
xgb_pred_xt = xgb_model_xt.predict(Xsptest_test)

# Calculer les métriques (RMSE)
rf_rmse_xt_train = np.sqrt(mean_squared_error(ysptest_train, rf_pred_xt_train))
xgb_rmse_xt_train = np.sqrt(mean_squared_error(ysptest_train, xgb_pred_xt_train))

rf_rmse_xt = np.sqrt(mean_squared_error(ysptest_test, rf_pred_xt))
xgb_rmse_xt = np.sqrt(mean_squared_error(ysptest_test, xgb_pred_xt))

# Calculer le R²
R2rf_xt = r2_score(ysptest_test, rf_pred_xt)
R2xg_xt = r2_score(ysptest_test, xgb_pred_xt)

# Afficher les résultats
print(f"RMSE pour Random Forest (Spot Delta) train: {rf_rmse_xt_train}")
print(f"RMSE pour Random Forest (Spot Delta) : {rf_rmse_xt}")
print(f"RMSE pour XGBoost (Spot Delta) train : {xgb_rmse_xt_train}")
print(f"RMSE pour XGBoost (Spot Delta) : {xgb_rmse_xt}")
print(f"R² pour Random Forest (Spot Delta) : {R2rf_xt}")
print(f"R² pour XGBoost (Spot Delta) : {R2xg_xt}")


In [None]:
#la base avec les valeurs manquantes
data_sp_test_with_na = X_test[X_test['predicted_spot_price'].isna()]

#definir les valeurs pour la prediction
Xsp_test_predi= data_sp_test_with_na.drop(columns=['DELIVERY_START','predicted_spot_price'])

In [None]:
#Standadiser
# Initialisation du scaler
scaler = StandardScaler()
# Appliquer le même scaler sur les données de test
Xsp_test_predi = scaler.fit_transform(Xsp_test_predi)

In [None]:
# Remplir les valeurs manquantes dans le DataFrame d'origine
X_test.loc[X_test['predicted_spot_price'].isna(), 'predicted_spot_price'] =xgb_model_xt.predict(Xsp_test_predi)

Charger le X_test

In [None]:
# Variables pour lesquelles créer des lags
columns_to_lag = ['predicted_spot_price', 'load_forecast', 'coal_power_available', 
                  'gas_power_available', 'nucelear_power_available', 
                  'wind_power_forecasts_average', 'solar_power_forecasts_average']

# Périodes de lags horaires (par exemple 1 heure, 2 heures, 3 heures)
lag_periods = [1,2,3,4,5,6,9, 12,24]  # Tu peux aussi augmenter ces valeurs

# Appliquer la fonction pour créer les lags
X_test_lags = create_lags(X_test, columns_to_lag, lag_periods)

In [None]:
X_test.info()

In [None]:
Xsp_test = scaler.fit_transform(X_test_lags.drop(columns=['DELIVERY_START']))

In [None]:
Xsp_test = scaler.fit_transform(X_test.drop(columns=['DELIVERY_START']))

In [None]:
y_test_pred=xgb_model_del.predict(Xsp_test)

In [None]:
d_test = pd.read_csv("X_test.csv",sep=",")

In [None]:
resultat_test = pd.DataFrame({
    'DELIVERY_START': X_test['DELIVERY_START'],  # Assuming this column exists
    'spot_id_delta': y_test_pred
})

In [None]:
resultat_tes = pd.DataFrame({
    'DELIVERY_START': d_test['DELIVERY_START'],  # Assuming this column exists
    'spot_id_delta': y_test_pred
})

In [None]:
resultat_test.tail(10)

In [None]:
#Save the results to a CSV file
resultat_test.to_csv('Awith.csv', index=False)

In [None]:
resultat_tes.describe()

In [None]:
resultat_tes.head()

In [None]:
resultat_tes.shape

In [None]:
#Save the results to a CSV file
resultat_tes.to_csv('N11_11.csv', index=False)