# PREPROCESSING `eCO2mix`

## Importation des modules

In [1]:
import sys
import os
import glob
import pandas as pd
# Ajoute le dossier parent au path pour importer data_preprocessing.py
sys.path.append(os.path.abspath(os.path.join('..')))

## Importation des fonction de pré-traitement

- `fetch_eCO2mix_data` : télécharge la source de donnée `eCO2mix`
- `convert_all_xls_eCO2mix_data` : converti les fichiers `.xls` en `.csv`
- `concat_eCO2mix_annual_data` : concatène les données de consommation en un seul Dataframe
- `concat_eCO2mix_tempo_data` : concatène les donnée du calendrier TEMPO en un seul Dataframe
- `preprocess_annual_data` : Premier traitement du nettoyage de donnée sur les données de consommation
- `preprocess_tempo_data` : Premier traitement sur le nettoyage de donnée sur les données TEMPO
- `merge_eCO2mix_data`: jointure gauche des données de consommation et TEMPO sur la date
- `preprocess_eCO2mix_data` : Deuxième traitement de nettoyage sur la donnée jointe de consommation et TEMPO
- `preprocess_eCO2mix_data_engineered` : Dernier traitement de nettoyage sur les données jointe de consommation et TEMPO après application du feature engineering

**Chaque fonctions de traitement teste la conformité de la source de donnée.**

In [2]:
from src.data_preprocessing import (
    fetch_eCO2mix_data,
    convert_all_xls_eCO2mix_data,
    concat_eCO2mix_annual_data,
    concat_eCO2mix_tempo_data,
    preprocess_annual_data,
    preprocess_tempo_data,
    merge_eCO2mix_data,
    preprocess_eCO2mix_data,
    preprocess_eCO2mix_data_engineered
    )

## Donnée de `eCO2mix`

### Téléchargement des données

In [3]:
fetch_eCO2mix_data()

🌐 Chargement de https://www.rte-france.com/eco2mix/telecharger-les-indicateurs
🔗 24 liens détectés (ZIP + Tempo).
⬇️  Téléchargement ZIP : eCO2mix_RTE_En-cours-TR.zip
✅ Contenu de eCO2mix_RTE_En-cours-TR.zip extrait dans ../data/external/
⬇️  Téléchargement ZIP : eCO2mix_RTE_En-cours-Consolide.zip
✅ Contenu de eCO2mix_RTE_En-cours-Consolide.zip extrait dans ../data/external/
⬇️  Téléchargement ZIP : eCO2mix_RTE_Annuel-Definitif_2012.zip
✅ Contenu de eCO2mix_RTE_Annuel-Definitif_2012.zip extrait dans ../data/external/
⬇️  Téléchargement ZIP : eCO2mix_RTE_Annuel-Definitif_2013.zip
✅ Contenu de eCO2mix_RTE_Annuel-Definitif_2013.zip extrait dans ../data/external/
⬇️  Téléchargement ZIP : eCO2mix_RTE_Annuel-Definitif_2014.zip
✅ Contenu de eCO2mix_RTE_Annuel-Definitif_2014.zip extrait dans ../data/external/
⬇️  Téléchargement ZIP : eCO2mix_RTE_Annuel-Definitif_2015.zip
✅ Contenu de eCO2mix_RTE_Annuel-Definitif_2015.zip extrait dans ../data/external/
⬇️  Téléchargement ZIP : eCO2mix_RTE_Annue

### Définition des répertoires de données 

In [4]:
xls_folder = os.path.join('..', 'data', 'external')

In [5]:
# Dossiers contenant les fichiers source
wheather_folder = os.path.join("..", "data", "raw")
eco2mix_folder = os.path.join("..","data", "raw")

### Conversion des XLS en CSV

In [6]:
convert_all_xls_eCO2mix_data(xls_folder, eco2mix_folder)

✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2012.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2013.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2014.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2015.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2016.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2017.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2018.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2019.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2020.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2021.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2022.csv
✅ Fichier converti et nettoyé : ..\data\raw\eCO2mix_RTE_En-cours-Consolide.csv
✅ Fichier converti 

### Chargement de toute la consommation horaire

- Concaténation des donnée de consommation venant de plusieurs sources de données

In [7]:
df_annual = concat_eCO2mix_annual_data(eco2mix_folder)
df_annual

Lecture des fichiers annuels :
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2012.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2013.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2014.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2015.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2016.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2017.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2018.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2019.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2020.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2021.csv
  - ..\data\raw\eCO2mix_RTE_Annuel-Definitif_2022.csv
  - ..\data\raw\eCO2mix_RTE_En-cours-Consolide.csv
  - ..\data\raw\eCO2mix_RTE_En-cours-TR.csv


Unnamed: 0,Périmètre,Nature,Date,Heures,Consommation,Prévision J-1,Prévision J,Fioul,Charbon,Gaz,...,Hydraulique - Fil de l?eau + éclusée,Hydraulique - Lacs,Hydraulique - STEP turbinage,Bioénergies - Déchets,Bioénergies - Biomasse,Bioénergies - Biogaz,Stockage batterie,Déstockage batterie,Eolien terrestre,Eolien offshore
0,France,Données définitives,2012-01-01,00:00,58315,58200,58200,492,25,3816,...,ND,ND,ND,ND,ND,ND,,,,
1,France,Données définitives,2012-01-01,00:15,,57700,57550,,,,...,,,,,,,,,,
2,France,Données définitives,2012-01-01,00:30,58315,57200,56900,492,25,3816,...,ND,ND,ND,ND,ND,ND,,,,
3,France,Données définitives,2012-01-01,00:45,,56200,56000,,,,...,,,,,,,,,,
4,France,Données définitives,2012-01-01,01:00,56231,55200,55100,492,25,3834,...,ND,ND,ND,ND,ND,ND,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
466939,France,Données temps réel,2025-04-25,22:45,,ND,,,,,...,,,,,,,,,,
466940,France,Données temps réel,2025-04-25,23:00,,ND,,,,,...,,,,,,,,,,
466941,France,Données temps réel,2025-04-25,23:15,,ND,,,,,...,,,,,,,,,,
466942,France,Données temps réel,2025-04-25,23:30,,ND,,,,,...,,,,,,,,,,


### Premier passage de traitement des consommations horaires

In [8]:
df_annual = preprocess_annual_data(df_annual)
df_annual

Unnamed: 0,Date,Heures,Consommation,Datetime
0,2012-01-01,00:00,58315,2012-01-01 00:00:00
2,2012-01-01,00:30,58315,2012-01-01 00:30:00
4,2012-01-01,01:00,56231,2012-01-01 01:00:00
6,2012-01-01,01:30,56075,2012-01-01 01:30:00
8,2012-01-01,02:00,55532,2012-01-01 02:00:00
...,...,...,...,...
466698,2025-04-23,10:30,52339,2025-04-23 10:30:00
466699,2025-04-23,10:45,52818,2025-04-23 10:45:00
466700,2025-04-23,11:00,53016,2025-04-23 11:00:00
466701,2025-04-23,11:15,52870,2025-04-23 11:15:00


### Chargement de toute la donnée TEMPO

- Concaténation des donnée du calendrier TEMPO venant de plusieurs sources de données

In [9]:
df_tempo = concat_eCO2mix_tempo_data(eco2mix_folder)
df_tempo

Lecture des fichiers tempo :
  - ..\data\raw\eCO2mix_RTE_tempo_2014-2015.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2015-2016.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2016-2017.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2017-2018.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2018-2019.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2019-2020.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2020-2021.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2021-2022.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2022-2023.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2023-2024.csv
  - ..\data\raw\eCO2mix_RTE_tempo_2024-2025.csv


Unnamed: 0,Date,Type de jour TEMPO
0,2014-09-01,BLEU
1,2014-09-02,BLEU
2,2014-09-03,BLEU
3,2014-09-04,BLEU
4,2014-09-05,BLEU
...,...,...
3884,2025-04-20,BLEU
3885,2025-04-21,BLEU
3886,2025-04-22,BLEU
3887,2025-04-23,BLEU


### Premier passage de traitement des données TEMPO

In [10]:
df_tempo = preprocess_tempo_data(df_tempo)
df_tempo

Unnamed: 0,Date,Type de jour TEMPO_BLANC,Type de jour TEMPO_BLEU,Type de jour TEMPO_ROUGE
0,2014-09-01,False,True,False
1,2014-09-02,False,True,False
2,2014-09-03,False,True,False
3,2014-09-04,False,True,False
4,2014-09-05,False,True,False
...,...,...,...,...
3884,2025-04-20,False,True,False
3885,2025-04-21,False,True,False
3886,2025-04-22,False,True,False
3887,2025-04-23,False,True,False


### Jointure gauche des données de consommation horaire et TEMPO

In [11]:
df_merged = merge_eCO2mix_data(df_annual, df_tempo)
df_merged

Unnamed: 0,Date,Heures,Consommation,Datetime,Type de jour TEMPO_BLANC,Type de jour TEMPO_BLEU,Type de jour TEMPO_ROUGE
0,2012-01-01,00:00,58315,2012-01-01 00:00:00,,,
1,2012-01-01,00:30,58315,2012-01-01 00:30:00,,,
2,2012-01-01,01:00,56231,2012-01-01 01:00:00,,,
3,2012-01-01,01:30,56075,2012-01-01 01:30:00,,,
4,2012-01-01,02:00,55532,2012-01-01 02:00:00,,,
...,...,...,...,...,...,...,...
272346,2025-04-23,10:30,52339,2025-04-23 10:30:00,False,True,False
272347,2025-04-23,10:45,52818,2025-04-23 10:45:00,False,True,False
272348,2025-04-23,11:00,53016,2025-04-23 11:00:00,False,True,False
272349,2025-04-23,11:15,52870,2025-04-23 11:15:00,False,True,False


### Feature Engineering

- `create_date_features` : décompose la colonne Date en plusieurs feature distincte caractérisant des information sur le temps (année, mois, jour, jour de la semaine...)
- `create_lag_features` : Ajout des variables de décalage sur la `Consommation` (*N-1*, *N-2*, *N-3*)
- `create_rolling_features` : Ajout de la moyenne mobile (*moyenne sur les 3 dernières consommation*)
- `create_hour_features` : Transformation de l'horaire en features encoder cycliquement par sinus et cosinus

In [12]:
from src.feature_engineering import(
    create_date_features,
    create_lag_features,
    create_rolling_features,
    create_hour_features
)

### Applications du features engineering

In [13]:
df_merged = create_date_features(df_merged)
df_merged = create_lag_features(df_merged, 'Consommation')
df_merged = create_rolling_features(df_merged, 'Consommation')
df_merged = create_hour_features(df_merged)
df_merged

Unnamed: 0,Date,Heures,Consommation,Datetime,Type de jour TEMPO_BLANC,Type de jour TEMPO_BLEU,Type de jour TEMPO_ROUGE,year,month,day,...,dayofyear,is_weekend,is_end_of_month,Consommation_lag_1,Consommation_lag_2,Consommation_lag_3,Consommation_rolling_mean_3,hour_transformed,hour_sin,hour_cos
0,2012-01-01,00:00,58315,2012-01-01 00:00:00,,,,2012,1,1,...,1,True,False,,,,,0,0.000000,1.000000
1,2012-01-01,00:30,58315,2012-01-01 00:30:00,,,,2012,1,1,...,1,True,False,58315,,,,0,0.000000,1.000000
2,2012-01-01,01:00,56231,2012-01-01 01:00:00,,,,2012,1,1,...,1,True,False,58315,58315,,57620.333333,1,0.258819,0.965926
3,2012-01-01,01:30,56075,2012-01-01 01:30:00,,,,2012,1,1,...,1,True,False,56231,58315,58315,56873.666667,1,0.258819,0.965926
4,2012-01-01,02:00,55532,2012-01-01 02:00:00,,,,2012,1,1,...,1,True,False,56075,56231,58315,55946.000000,2,0.500000,0.866025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
272346,2025-04-23,10:30,52339,2025-04-23 10:30:00,False,True,False,2025,4,23,...,113,False,False,52330,53027,52591,52565.333333,10,0.500000,-0.866025
272347,2025-04-23,10:45,52818,2025-04-23 10:45:00,False,True,False,2025,4,23,...,113,False,False,52339,52330,53027,52495.666667,10,0.500000,-0.866025
272348,2025-04-23,11:00,53016,2025-04-23 11:00:00,False,True,False,2025,4,23,...,113,False,False,52818,52339,52330,52724.333333,11,0.258819,-0.965926
272349,2025-04-23,11:15,52870,2025-04-23 11:15:00,False,True,False,2025,4,23,...,113,False,False,53016,52818,52339,52901.333333,11,0.258819,-0.965926


### Dernier traitement sur le nettoyage et conformité de la donnée

In [14]:
df_merged = preprocess_eCO2mix_data(df_merged)
df_merged = preprocess_eCO2mix_data_engineered(df_merged)
df_merged

Unnamed: 0_level_0,Date,Heures,Consommation,Type de jour TEMPO_BLANC,Type de jour TEMPO_BLEU,Type de jour TEMPO_ROUGE,year,month,day,weekday,...,dayofyear,is_weekend,is_end_of_month,Consommation_lag_1,Consommation_lag_2,Consommation_lag_3,Consommation_rolling_mean_3,hour_transformed,hour_sin,hour_cos
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2014-09-01 00:00:00,2014-09-01,00:00,43320,False,True,False,2014,9,1,0,...,244,False,False,43938,44567,42056,43941.666667,0,0.000000,1.000000
2014-09-01 00:30:00,2014-09-01,00:30,41174,False,True,False,2014,9,1,0,...,244,False,False,43320,43938,44567,42810.666667,0,0.000000,1.000000
2014-09-01 01:00:00,2014-09-01,01:00,38430,False,True,False,2014,9,1,0,...,244,False,False,41174,43320,43938,40974.666667,1,0.258819,0.965926
2014-09-01 01:30:00,2014-09-01,01:30,37800,False,True,False,2014,9,1,0,...,244,False,False,38430,41174,43320,39134.666667,1,0.258819,0.965926
2014-09-01 02:00:00,2014-09-01,02:00,37137,False,True,False,2014,9,1,0,...,244,False,False,37800,38430,41174,37789.000000,2,0.500000,0.866025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2025-04-23 10:30:00,2025-04-23,10:30,52339,False,True,False,2025,4,23,2,...,113,False,False,52330,53027,52591,52565.333333,10,0.500000,-0.866025
2025-04-23 10:45:00,2025-04-23,10:45,52818,False,True,False,2025,4,23,2,...,113,False,False,52339,52330,53027,52495.666667,10,0.500000,-0.866025
2025-04-23 11:00:00,2025-04-23,11:00,53016,False,True,False,2025,4,23,2,...,113,False,False,52818,52339,52330,52724.333333,11,0.258819,-0.965926
2025-04-23 11:15:00,2025-04-23,11:15,52870,False,True,False,2025,4,23,2,...,113,False,False,53016,52818,52339,52901.333333,11,0.258819,-0.965926


## Exportation de la donnée nettoyé, transformé

In [15]:
df_merged.to_csv(os.path.join('..', 'data', 'processed', 'eco2mix_data.csv'), index=False)

3. chargement de la donnée
    - normalisation selon le `scaler` (à sauvegarder pour plus tard)
    - split du data (80-20)
4. entrainement et évaluation
    - entrainement des modèles
    - évaluation
    - sauvegarder le meilleur modèle
5. inférence
    - charger la donnée necessaire pour la prédictions (date, heure, tempo, températures, vacances...)
    - appliquer les features engineering
    - charger le modèle
    - établir la prédictions
    - sauvegarder le résulat dans un dataset d'historique de prédiction
    - évaluer