In [35]:
import pandas as pd
import os

In [36]:
# Available files
list_file_rte_definitif = [
	f"eCO2mix_RTE_Annuel-Definitif_{i}.xls" for i in range(2014,2021)
]
print(list_file_rte_definitif)

['eCO2mix_RTE_Annuel-Definitif_2014.xls', 'eCO2mix_RTE_Annuel-Definitif_2015.xls', 'eCO2mix_RTE_Annuel-Definitif_2016.xls', 'eCO2mix_RTE_Annuel-Definitif_2017.xls', 'eCO2mix_RTE_Annuel-Definitif_2018.xls', 'eCO2mix_RTE_Annuel-Definitif_2019.xls', 'eCO2mix_RTE_Annuel-Definitif_2020.xls']


In [37]:
# Traitement fichier définitif (2014 --> 2020 inclus)
df_definitif = pd.DataFrame()
for file in list_file_rte_definitif:
    df_year = pd.read_csv(
        os.path.join("raw_datasets",file),
        skipfooter=1,
        index_col=False,
        engine='python',
        skiprows=lambda x: x % 2 != 1 if x != 0 else False,
        encoding='latin-1',
        sep="\t"
        )
    df_definitif=pd.concat([df_definitif,df_year])
display(df_definitif.tail())

Unnamed: 0,Périmètre,Nature,Date,Heures,Consommation,Prévision J-1,Prévision J,Fioul,Charbon,Gaz,...,Hydraulique - Fil de l?eau + éclusée,Hydraulique - Lacs,Hydraulique - STEP turbinage,Bioénergies - Déchets,Bioénergies - Biomasse,Bioénergies - Biogaz,Stockage batterie,Déstockage batterie,Eolien terrestre,Eolien offshore
17563,France,Données définitives,2020-12-31,21:30,64423,64400,63700,94,8,5712,...,5202,1839,715,492,291,337,ND,ND,ND,ND
17564,France,Données définitives,2020-12-31,22:00,63505,63800,63200,93,8,5583,...,5107,1543,496,494,287,335,ND,ND,ND,ND
17565,France,Données définitives,2020-12-31,22:30,64331,65800,65200,93,8,5573,...,4989,1292,855,492,293,337,ND,ND,ND,ND
17566,France,Données définitives,2020-12-31,23:00,66853,67500,67000,94,8,5731,...,5106,2251,791,496,291,337,ND,ND,ND,ND
17567,France,Données définitives,2020-12-31,23:30,66750,67600,67200,93,8,5690,...,5112,1477,616,499,288,332,ND,ND,ND,ND


In [38]:
# Traitement fichier consolide (2021 --> 31/05/2022)
empty_column = [
    ' Stockage batterie',
    'Déstockage batterie',
    'Eolien terrestre',
    'Eolien offshore'
]

df_consolide = pd.read_csv(
        "raw_datasets/eCO2mix_RTE_En-cours-Consolide.xls",
        skipfooter=0,
        index_col=False,
        engine='python',
        skiprows=lambda x: x % 2 != 0 if x != 0 else False,
        encoding='latin-1',
        sep="\t",
        usecols=lambda col: col not in empty_column
        )
df_consolide['Date'] = df_consolide['Date'].str.replace('/','-')
df_consolide["Date"] = pd.to_datetime(df_consolide['Date'], format='%d-%m-%Y').dt.date
display(df_consolide.tail())

Unnamed: 0,Périmètre,Nature,Date,Heures,Consommation,Prévision J-1,Prévision J,Fioul,Charbon,Gaz,...,Gaz - TAC,Gaz - Cogén.,Gaz - CCG,Gaz - Autres,Hydraulique - Fil de l?eau + éclusée,Hydraulique - Lacs,Hydraulique - STEP turbinage,Bioénergies - Déchets,Bioénergies - Biomasse,Bioénergies - Biogaz
24756,France,Données consolidées,2022-05-31,19:30,48107.0,48400,49000,84.0,523.0,4116.0,...,25.0,432.0,3609.0,50.0,4959.0,2318.0,1396.0,485.0,398.0,337.0
24757,France,Données consolidées,2022-05-31,20:00,47317.0,47300,47900,85.0,522.0,4100.0,...,25.0,423.0,3602.0,50.0,5019.0,2850.0,1416.0,491.0,394.0,336.0
24758,France,Données consolidées,2022-05-31,20:30,45898.0,45500,46200,82.0,588.0,4050.0,...,25.0,399.0,3575.0,50.0,4938.0,2855.0,1442.0,489.0,393.0,335.0
24759,France,Données consolidées,2022-05-31,21:00,44677.0,44200,44900,82.0,596.0,3930.0,...,25.0,386.0,3469.0,50.0,4917.0,2480.0,1318.0,490.0,396.0,337.0
24760,France,Données consolidées,2022-05-31,21:30,44043.0,43900,44700,83.0,454.0,4025.0,...,26.0,383.0,3566.0,50.0,4752.0,2637.0,1551.0,491.0,394.0,334.0


In [39]:
# Traitement fichier En cours temps réel (TR)
empty_column = [
    ' Stockage batterie',
    'Déstockage batterie',
    'Eolien terrestre',
    'Eolien offshore'
]
df_tr = pd.read_csv(
        "raw_datasets/eCO2mix_RTE_En-cours-TR.xls",
        index_col=False,
        engine='python',
        skiprows=lambda x: x % 2 != 0 if x != 0 else False,
        encoding='latin-1',
        sep="\t",
        usecols=lambda col: col not in empty_column
        )
# Suppression des lignes de prévisions (J+2)
# On supprime si plus de la moitié des colonnes sont vides, ce qui corresponds
# aux prédictions à J+2
nombre_colonnes = len(df_tr.columns)

# Définir le nombre minimum de valeurs non NaN requises pour conserver la ligne
thresh = nombre_colonnes // 2

# Supprimer les lignes où plus de la moitié des colonnes ont des valeurs NaN
df_tr = df_tr.dropna(thresh=len(df_tr.columns)//2)

In [40]:
# Rassemblement des fichiers
df_all = pd.concat([
	df_definitif,
	df_consolide,
	df_tr
])
# Ecriture dans fichier csv définitif
file_path = "clean_datasets/rte_production.csv"
try:
	df_all.to_csv(file_path, index=False, encoding='utf-8')
	print(f"Données écrites avec succès dans {file_path}")
except IOError as e:
	print(f"Erreur lors de l'écriture dans {file_path}: {e}")

Données écrites avec succès dans clean_datasets/rte_production.csv
