In [None]:
# Analyse des consommations √©lectriques r√©gionales en France de 2013 √† 2022 sur la base des donn√©es de RTE stock√©es dans
# le fichier eco2mix-regional-cons-def.csv
# Exploration des donn√©es brutes du fichier (recherche des valeurs manquantes, colonnes utiles/inutiles, types des donn√©es, br√®ves statitistiques...
# Thierry ALLEM - Projet DataScientest - Formation Data Analyst -2024


In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import datetime
import matplotlib.pyplot as plt
%matplotlib inline


In [None]:
import warnings

# Pour ignorer tous les warnings
warnings.filterwarnings('ignore')


In [None]:
# Ajustement  de la largeur des colonnes des dataframes
pd.set_option('display.max_columns', None)  # afficher toutes les colonnes
pd.set_option('display.width', None)        # √©viter le retour √† la ligne auto
pd.set_option('display.colheader_justify', 'left')  # alignement des en-t√™tes

In [None]:
df_brut = pd.read_csv('eco2mix-regional-cons-def.csv',sep=';',na_values='ND',low_memory=False)

In [None]:
df_brut['Code INSEE r√©gion'].unique()

In [None]:
df_brut.tail(20)

In [None]:
# Affichage du nombre de lignes et colonnes du dataframe et d√©compte des types des valeurs

print("Nombre de lignes du dataframe : ", len(df_brut.index))
print("Nombre de colonnes du dataframe : ", len(df_brut.columns))
display("Types de valeurs :",df_brut.dtypes.value_counts() )
print("Nombre de doublons : ",df_brut.duplicated().sum())

In [None]:
df_brut.info()

In [None]:
# Br√®ves statistiques de la colonne 'Consommation (MW)'
df_brut['Consommation (MW)'].describe()

In [None]:
# Cr√©ation d'un dataframe de description des colonnes de df_brut, sans regroupement par r√©gion
df_colonnes = pd.DataFrame()

# Stockage des noms des colonnes du dataframe df_brut
df_colonnes['Nom_colonne'] = list(df_brut.columns)

# Attribution du type de valeurs des colonnes
df_colonnes['Type_valeurs'] = df_brut.dtypes.values

# Ajout d'une colonne 'Valeurs_uniques' par d√©faut √† 'Valeurs continues'
df_colonnes['Valeurs_uniques'] = 'Valeurs continues'

# Sp√©cificit√© pour certaines colonnes : affichage des valeurs uniques
df_colonnes.loc[df_colonnes['Nom_colonne'] == 'Code INSEE r√©gion', 'Valeurs_uniques'] = str(df_brut['Code INSEE r√©gion'].unique())
df_colonnes.loc[df_colonnes['Nom_colonne'] == 'R√©gion', 'Valeurs_uniques'] = str(df_brut['R√©gion'].unique())
df_colonnes.loc[df_colonnes['Nom_colonne'] == 'Nature', 'Valeurs_uniques'] = str(df_brut['Nature'].unique())

# Option d'affichage pour √©viter la troncature des cha√Ænes
pd.set_option('display.max_colwidth', None)

# Calcul du nombre de valeurs non nulles
df_colonnes['Nb_valeurs'] = df_brut.count().values

# Calcul du nombre de NaN
df_colonnes['nb_NaN'] = df_brut.isna().sum().values

# Total des donn√©es attendues
df_colonnes['Nb_datas'] = df_colonnes['Nb_valeurs'] + df_colonnes['nb_NaN']

# Pourcentage de donn√©es pr√©sentes et manquantes
df_colonnes['%_Valeurs'] = round((df_colonnes['Nb_valeurs'] / df_colonnes['Nb_datas']) * 100, 2)
df_colonnes['%_NaN'] = round((df_colonnes['nb_NaN'] / df_colonnes['Nb_datas']) * 100, 2)

# Identification des colonnes num√©riques uniquement (√† partir de la 7√®me colonne en g√©n√©ral)
selected_columns = df_brut.columns[6:]
numeric_columns = [col for col in selected_columns if pd.api.types.is_numeric_dtype(df_brut[col])]

# Initialisation des colonnes pour le comptage
df_colonnes['Valeurs_POSITIVES'] = 0
df_colonnes['Valeurs_NULLES'] = 0
df_colonnes['Valeurs_NEGATIVES'] = 0

# Boucle pour calculer le nombre de valeurs positives, nulles et n√©gatives uniquement sur les colonnes num√©riques
for col in numeric_columns:
    df_colonnes.loc[df_colonnes['Nom_colonne'] == col, 'Valeurs_POSITIVES'] = (df_brut[col] > 0).sum()
    df_colonnes.loc[df_colonnes['Nom_colonne'] == col, 'Valeurs_NULLES'] = (df_brut[col] == 0).sum()
    df_colonnes.loc[df_colonnes['Nom_colonne'] == col, 'Valeurs_NEGATIVES'] = (df_brut[col] < 0).sum()

# Calcul des pourcentages correspondants
df_colonnes['%_valeurs_POSITIVES'] = round((df_colonnes['Valeurs_POSITIVES'] / df_colonnes['Nb_valeurs']) * 100, 2)
df_colonnes['%_valeurs_NULLES'] = round((df_colonnes['Valeurs_NULLES'] / df_colonnes['Nb_valeurs']) * 100, 2)
df_colonnes['%_valeurs_NEGATIVES'] = round((df_colonnes['Valeurs_NEGATIVES'] / df_colonnes['Nb_valeurs']) * 100, 2)

# V√©rification de la coh√©rence des taux (somme des pourcentages)
df_colonnes['Cumul_taux_valeurs'] = df_colonnes['%_valeurs_POSITIVES'] + df_colonnes['%_valeurs_NEGATIVES'] + df_colonnes['%_valeurs_NULLES']

# D√©signation de la colonne 'Nom_colonne' comme index
df_colonnes.set_index('Nom_colonne', inplace=True)

# Export du compte-rendu dans un fichier Excel
file_export2 = 'Rapp_explo_col_eco2mix.xlsx'
df_colonnes.to_excel(file_export2)

# Message de confirmation
display("Rapport pr√©liminaire d'exploration des colonnes du dataframe 'eco2mix-regional-cons-def' export√© avec succ√®s dans le fichier Excel 'Rapp_explo_col_eco2mix.xlsx'")



In [None]:
df_colonnes.info()

In [None]:
display(df_colonnes)

In [None]:
df_colonnes = df_colonnes.reset_index()  # R√©initialisation de l'index

In [None]:
df_colonnes.info()

In [None]:
# Recherche de la date la plus ancienne des "Donn√©es d√©finitives" et celle des "Donn√©es consolid√©es"  par r√©gion

df_donnees=df_brut.copy()

# Groupement par r√©gion et nature
grouped = df_donnees.groupby(['R√©gion','Nature'])['Date - Heure']

# Obtention de la derni√®re ligne pour 'Donn√©es d√©finitives' et la premi√®re ligne pour 'Donn√©es consolid√©es'
result = pd.concat([grouped.last(), grouped.first()])

# Enregistrement des r√©sultats dans un fichier Excel
result.to_excel('resultats.xlsx', index=True)

print("R√©sultats enregistr√©s dans 'resultats.xlsx'")


In [None]:
display(result)

In [None]:
# Histogrammes  Valeurs/Nan et distribution des valeurs de df_brut, sans regroupement par r√©gion

# Suppression de colonnes  et de lignes de df_colonnes pour affichage d'histogrammes ult√©rieurs
# Liste des colonnes √† supprimer
cols_to_drop = [1, 2, 3, 4, 5, 8, 9, 10, 11, 12, 13,14]

# Suppression des colonnes
df_hist_val_nan = df_colonnes.drop(df_colonnes.columns[cols_to_drop], axis=1)

# R√©initialisation de l'index
df_hist_val_nan = df_hist_val_nan.reset_index(drop=True)

# Liste des lignes √† supprimer
rows_to_drop = [0,1, 2, 3, 4, 5,31]

# Suppression des lignes
df_hist_val_nan = df_hist_val_nan.drop(rows_to_drop, axis=0)

# Mise en forme longue du DataFrame
df_melt1 = df_hist_val_nan.melt(id_vars='Nom_colonne', var_name='Categorie', value_name='Proportion')

# Cr√©ation d'une figure et d'un axe
fig, axs = plt.subplots(2,1, figsize=(50, 30))

# Cr√©ation du diagramme √† barres group√©es
width = 0.35
histo_colonnes = sns.barplot(x='Nom_colonne', y='Proportion', hue='Categorie', data=df_melt1, ax=axs[0])
#histo_colonnes = sns.barplot(x='Nom_colonne', y='Value', hue='Category', data=df_melt1, ax=ax)

# Affichage d'une grille
plt.grid(linestyle = '-', axis = 'y')

# R√©cup√©ration des positions x actuelles sur l'axe des abscisses

x_separation = histo_colonnes.get_xticks()

# Ajout d'une ligne verticale apr√®s chaque barre

for separation  in x_separation:
    histo_colonnes.axvline(separation + 0.5, color='red', linestyle='-')

# Affichage du titre
plt.title('R√©partion des valeurs pr√©sentes et manquantes')

# D√©finition des limites de l'axe des y
plt.ylim(0, 100)

# Sauvegarde du graphique dans un fichier
histo_colonnes.figure.savefig('Histogramme_valeurs_nan.png')

# Histogramme des valeurs pr√©sentes- R√©partitions

# Suppression de colonnes  et de lignes de df_colonnes pour affichage d'histogrammes ult√©rieurs
# Liste des colonnes √† supprimer
cols_to_drop = [1, 2, 3, 4, 5, 6, 7, 8, 10, 12,14]

# Suppression des colonnes
df_hist_val = df_colonnes.drop(df_colonnes.columns[cols_to_drop], axis=1)

# R√©initialisation de l'index
df_hist_val = df_hist_val.reset_index(drop=True)

# Liste des lignes √† supprimer
rows_to_drop = [0, 2, 3, 4, 5,31]

# Suppression des lignes
df_hist_val = df_hist_val.drop(rows_to_drop, axis=0)

# Mise en forme longue du DataFrame
df_melt2 = df_hist_val.melt(id_vars='Nom_colonne', var_name='Categorie', value_name='Proportion')

# Cr√©ation du diagramme √† barres group√©es
width = 0.35
palette_colors = palette_colors = {
    'Valeurs_NULLES': 'green',        # Pour les valeurs nulles
    '%_valeurs_POSITIVES': '#3274a1',  # Pour les valeurs positives
    '%_valeurs_NEGATIVES': 'brown'     # Pour les valeurs n√©gatives
}
histo_colonnes2 = sns.barplot(x='Nom_colonne', y='Proportion', hue='Categorie', palette =  palette_colors, data=df_melt2, ax=axs[1])
#histo_colonnes2 = sns.barplot(x='Nom_colonne', y='Pourcentage', hue='Distribution des valeurs', data=df_melt2, ax=axs[1])

# Affichage d'une grille
plt.grid(axis = 'y', linestyle = '--')

# Affichage du titre
plt.title('R√©partion des valeurs selon leur signe alg√©brique')

# D√©finition des limites de l'axe des y
plt.ylim(0, 100)

# R√©cup√©ration des positions x actuelles sur l'axe des abscisses

x_separation = histo_colonnes2.get_xticks()

# Ajout d'une ligne verticale apr√®s chaque barre

for separation  in x_separation:
    histo_colonnes2.axvline(separation + 0.5, color='red', linestyle='-')

# Affichage du graphique
plt.show()

# Sauvegarde du graphique dans un fichier
histo_colonnes2.figure.savefig('Repartition_valeurs_col.png')



In [None]:
# Affichage des colonnes
print(df_colonnes.iloc[:, 0].unique())

In [None]:
# Export du compte-rendu des colonnes dans un fichier Excel

file_export2 ='Rapp_explo_col_eco2mix.xlsx'

df_colonnes.to_excel(file_export2)

display("Rapport pr√©liminaire d'exploration des colonnes du dataframe 'eco2mix-regional-cons-def' export√© avec succ√®s dans le fichier Excel 'Rapp_explo_col_eco2mix.xlsx'")

In [None]:
display(df_colonnes)

In [None]:
df_colonnes.info()

In [None]:
# Cr√©ation d'une copie du dataframe d'origine avant modifications

df=df_brut.copy()
df.head()

In [None]:
df.info()

In [None]:
# Cr√©ation d'une nouvelle colonne de dates avec le format '%Y-%m-%d %H:%M'
df.insert(5, 'date_heure_cet', (df['Date'].astype(str) + ' ' + df['Heure'].astype(str)))


In [None]:
df.head()

In [None]:
# Conversion des colonnes 'date','Heure' et 'date_heure_cet' au format datetime
df['Date'] = pd.to_datetime(df['Date'], format = '%Y-%m-%d', yearfirst = True, exact = True)
df['Heure'] = pd.to_datetime(df['Heure'], format = '%H:%M')
df['date_heure_cet'] = pd.to_datetime(df['date_heure_cet'], format='%Y-%m-%d %H:%M',  errors='coerce')
df.dtypes

In [None]:
# Ajout d'une colonne 'Mois' et d'une colonne 'Ann√©e' extraites de la colonne 'Date'
df.insert(4, 'Mois', df['Date'].dt.month)

df.insert(5, 'Ann√©e', df['Date'].dt.year)

# Cr√©ation d'une colonne date au format YYYY-MM, type Object

df.insert(6, 'Date YM', df['Date'].dt.strftime('%Y-%m'))


In [None]:
df.head()

In [None]:
# Suppression de la colonne 'Column 30'

df.drop(columns=['Column 30'], inplace=True)

In [None]:
# Export du dataframe dans un fichier csv

eco2mix_temporaire = df.copy()
file_export_csv ='eco2mix_temporaire.csv'

eco2mix_temporaire.to_csv(file_export_csv,sep=';',encoding='latin-1')


In [None]:
# Calcul des statistiques descriptives pour la colonne 'Consommation (MW)'
stats = df['Consommation (MW)'].describe()

# Conversion des statistiques en DataFrame et transposition des r√©sultats
stats_df = stats.to_frame().T

display(stats_df)

In [None]:
# Filtrage des ann√©es entre 2013 et 2022
df_filtered = df[(df['Ann√©e'] >= 2013) & (df['Ann√©e'] <= 2021)]

# Groupement par r√©gion et application de describe()
result = df_filtered.groupby('R√©gion')['Consommation (MW)'].describe()

# Calcul des statistiques descriptives pour l'ensemble des r√©gions et ann√©es de 2013 √† 2021
#stats = df['Consommation (MW)'].describe()
# Conversion des statistiques en DataFrame et transposition des r√©sultats
# national_stats = stats.to_frame().T

# Cr√©eation d'une nouvelle ligne dans le tableau incluant les statitistiques nationales de 2013 √† 2021
# df_result = pd.concat([national_stats, result], axis =1)

display(result)

In [None]:
# 1.2 : Gestion des noms et types de S NOMS ET TYPES DE VARIABLES

# on fait un premier dictionnaire pour changer les en-t√™tes du df_2 dans la m√™me version que le df_1
dictionnaire_entetes1 = {'Code INSEE r√©gion' : 'code_insee_region',
                'R√©gion' : 'region',
                'Nature' : 'nature',
                'Date' : 'date',
                'Heure' : 'heure',
                'Date - Heure' : 'date_heure',
                'Mois' : 'mois',
                'Ann√©e' :'annee',
                'Date YM' : 'date_ym',
                'Consommation (MW)' : 'consommation',
                'Thermique (MW)' : 'thermique',
                'Nucl√©aire (MW)' : 'nucleaire',
                'Eolien (MW)' : 'eolien',
                'Solaire (MW)' : 'solaire',
                'Hydraulique (MW)' : 'hydraulique',
                'Pompage (MW)' : 'pompage',
                'Bio√©nergies (MW)' : 'bioenergies',
                'Ech. physiques (MW)' : 'ech_physiques',
                'Stockage batterie' : 'stockage_batterie',
                'D√©stockage batterie' : 'destockage_batterie',
                'TCO Thermique (%)' : 'tco_thermique',
                'TCH Thermique (%)' : 'tch_thermique',
                'TCO Nucl√©aire (%)' : 'tco_nucleaire',
                'TCH Nucl√©aire (%)' : 'tch_nucleaire',
                'TCO Eolien (%)' : 'tco_eolien',
                'TCH Eolien (%)' : 'tch_eolien',
                'TCO Solaire (%)' : 'tco_solaire',
                'TCH Solaire (%)' : 'tch_solaire',
                'TCO Hydraulique (%)' : 'tco_hydraulique',
                'TCH Hydraulique (%)' : 'tch_hydraulique',
                'TCO Bio√©nergies (%)' : 'tco_bioenergies',
                'TCH Bio√©nergies (%)' : 'tch_bioenergies'}
df=df.rename(dictionnaire_entetes1, axis = 1)

In [None]:
df.info()

In [None]:
df.head()

In [None]:
#Cr√©ation de boxplot de la colonne "Consommation" √† l'√©chelle m√©tropolitaine et par ann√©e de 2013 √† 2021 (ann√©es compl√®tes)
from matplotlib.ticker import FuncFormatter

# Fonction pour formater les √©tiquettes des ordonn√©es avec des s√©parateurs de milliers
def thousands_formatter(x, pos):
    return f'{int(x):,}'.replace(',', ' ')
    
# Filtrage des donn√©es pour les ann√©es 2013 √† 2021
df_metropole = df[(df['annee'] >= 2013) & (df['annee'] <= 2021)]

# Regroupement par 'date_heure' pour obtenir la consommation totale de toutes les r√©gions √† chaque instant
df_metropole_grouped = df_metropole.groupby(['date_heure', 'annee'], as_index=False)['consommation'].sum()

# Configuration du style de seaborn
sns.set_theme(palette="bright")

# Cr√©ation de la figure pour le boxplot
plt.figure(figsize=(12, 8))

# Cr√©ation du boxplot
sns.boxplot(x='annee', y='consommation', data=df_metropole_grouped, color='fuchsia')

# Ajout de la grille verticale
plt.grid(axis='x', linestyle='--', color='gray')

# Graduation de l'axe des ordonn√©es tous les 5000 MW
plt.yticks(range(0, int(df_metropole_grouped['consommation'].max()) + 5000, 5000))
# Formater les √©tiquettes des ordonn√©es avec des s√©parateurs de milliers
plt.gca().yaxis.set_major_formatter(FuncFormatter(thousands_formatter))

plt.ylabel('Ann√©e')
plt.ylabel('Consommation (MW)')

# D√©finition du titre du graphique
plt.title('Boxplots de la consommation de la M√©tropole (2013-2021)')

# Sauvegarde du graphique dans un fichier image
plt.savefig('metropole_boxplot.png',dpi =300)

# Affichage du graphique
plt.show()



In [None]:
#Cr√©ation de boxplot de la colonne "Consommation" √† l'√©chelle m√©tropolitaine et par ann√©e de 2013 √† 2021 (ann√©es compl√®tes)

# Liste des r√©gions

sns.set_theme(palette="bright")

df_metropole = df[(df['annee'] >= 2013) & (df['annee'] <= 2021)]
    
plt.figure(figsize=(10, 6))

# Cr√©ation du boxplot
sns.boxplot(x='annee', y='consommation', data=df_metropole, color = 'purple')

# Bornage de l'axe des abscisses
#plt.ylim(0, 16000)
      
 # D√©finition du titre du graphique
plt.title('Boxplots de la consommation de la M√©tropole')

    # Sauvegarde du graphique dans un fichier image
plt.savefig('metropole' + '_boxplot.png')

plt.show()

In [None]:
#Cr√©ation de boxplot de la colonne "Consommation" par r√©gion et par ann√©e de 2013 √† 2021 (ann√©es compl√®tes)

# Liste des r√©gions
regions = df['region'].unique()
sns.set_theme(palette="bright")

for region in regions:
    # Cr√©ation d'un sous-dataframe pour chaque r√©gion
    df_region = df[(df['region'] == region) & (df['annee'] >= 2013) & (df['annee'] <= 2021)]
    
    # Cr√©ation d'une figure pour chaque r√©gion
    plt.figure(figsize=(10, 6))

    # Cr√©ation du boxplot
    sns.boxplot(x='annee', y='consommation', data=df_region)

    # Uniformisation de l'axe des abscisses
    plt.ylim(0, 16000)
      
    # D√©finition du titre du graphique
    plt.title('Boxplots de la consommation pour la r√©gion ' + region)

    # Sauvegarde du graphique dans un fichier image
    plt.savefig(region + '_boxplot.png')

plt.show()


In [None]:
df.info()

In [None]:
# ****** ETUDE DES VALEURS PRESENTES ******

# Calcul du nombre de valeurs pr√©sentes pour chaque colonne, par r√©gion et par mois.

count_val = df.groupby([df['region'], df['date_ym']],as_index=False).count()

# Suppression des colonnes  de count_val

count_val.drop(columns = count_val.columns[2:9], inplace=True)

# AFFICHAGE DES HEATMAPS DES VALEURS PRESENTES, REGROUPEES PAR REGION ET PAR MOIS

# 1) Cr√©ation d'un dictionnaire associant les colonnes mapp√©es avec les noms des graphiques et des fichiers images √† cr√©er

dict_heatmaps_energie = {}
colonnes=['7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31']
c= 0
for i in range(2, 27):
    nom_colonne = count_val.columns[i]
    pivot = 'pivot_'+ nom_colonne[:9]
    nom_heatmap = nom_colonne[:9].replace(' ', '_') + 'val_map'
    nom_fichier = colonnes[c]+'_'+ nom_colonne[:9].replace(' ', '_') + '_val_heatmap.png'
    dict_heatmaps_energie[nom_colonne] = (pivot, nom_heatmap, nom_fichier)
    c+=1

display(dict_heatmaps_energie)

# 2) Affichage des chronogramme des valeurs pr√©sentes pour chaque colonne de donn√©es d'√©nergie

for i in range(2,27):
    
    nom_colonne = count_val.columns[i]
    pivot, nom_heatmap, nom_fichier = dict_heatmaps_energie[nom_colonne]
                                                       
    # Pivot du DataFrame pour obtenir les dates comme colonnes
 
    pivot_df = count_val.pivot(index='region', columns='date_ym', values=nom_colonne)

    # Remplissage des valeurs manquantes avec 0
    pivot_df.fillna(0, inplace=True)

    # Cr√©ation d'un heatmap
    plt.figure(figsize=(100, 10))
    nom_heatmap = sns.heatmap(pivot_df, cmap='viridis', annot=True, fmt='d', cbar_kws={'label': 'Nombre valeurs pr√©sentes'},
                                 linewidths = 1, vmin = 0, vmax = 1488)
    plt.title(f"Nombre de donn√©es pr√©sentes pour la colonne {nom_colonne}, par r√©gion et mois", fontsize = 16, pad = 20)
    plt.xlabel('date_ym', fontsize = 16)
    plt.ylabel('region', fontsize = 16)
    plt.show()

    nom_heatmap.figure.savefig(nom_fichier)


# Export Excel du compte-rendu du nb de valeurs pr√©sentes par colonne apr√®s regroupement region/jour-mois

file_export_count_val ='Rapp_count_val_eco2mix.xlsx'

count_val.to_excel(file_export_count_val)

print("Rapport pr√©liminaire de d√©compte des valeurs apr√®s regroupements export√© avec succ√®s dans le fichier Excel 'Rapp_count_val_eco2mix.xlsx'")



In [None]:
count_val.tail(30)

In [None]:
# Nettoyage des noms de colonnes
df.columns = df.columns.str.strip()

# V√©rification
print(df.columns)

In [None]:
# Calcul du nombre de valeurs manquantes par r√©gion et mois
count_nan = df.groupby(['region', 'date_ym']).agg(lambda x: x.isnull().sum()).reset_index()

# V√©rification des colonnes disponibles
print("Colonnes apr√®s groupby et reset_index :", count_nan.columns.tolist())

# Filtrage de certaines colonnes sp√©cifiques
# Conserver uniquement 'region', 'date_ym' + colonnes 10 √† 34
cols_a_garder = ['region', 'date_ym'] + count_nan.columns[10:35].tolist()
count_nan_filtre = count_nan[cols_a_garder]

#  Export Excel du compte-rendu complet
file_export_count_nan = 'Rapp_count_nan_eco2mix.xlsx'
count_nan.to_excel(file_export_count_nan, index=False)
print(f"‚úÖ Rapport complet export√© : {file_export_count_nan}")

# Export d'une version filtr√©e
# Les colonnes √©nergie sont : 'nucleaire', 'thermique', etc.
colonnes_energie = ['region', 'date_ym'] + [col for col in count_nan.columns if 'energie' in col.lower()]
count_nan_filtre = count_nan[colonnes_energie]
file_exp_count_nan_filtre = 'Rapp_count_nan_eco2mix_FILTRE.xlsx'
count_nan_filtre.to_excel(file_exp_count_nan_filtre, index=False)
print(f"‚úÖ Rapport filtr√© export√© : {file_exp_count_nan_filtre}")

# Pr√©paration du dictionnaire pour les heatmaps
dict_heatmaps_energie_nan = {}
for i in range(2, len(count_nan.columns)):
    nom_colonne = count_nan.columns[i]
    pivot = f'pivot_{nom_colonne[:7]}'
    nom_heatmap = nom_colonne[:7].replace(' ', '_') + '_nan_map'
    nom_fichier = nom_colonne[:7].replace(' ', '_') + '_nan_heatmap.png'
    dict_heatmaps_energie_nan[nom_colonne] = (pivot, nom_heatmap, nom_fichier)

print("üó∫Ô∏è Dictionnaire des heatmaps pr√™t :", dict_heatmaps_energie_nan)

# Affichage et export des heatmaps
for nom_colonne in list(dict_heatmaps_energie_nan.keys()):
    pivot, nom_heatmap, nom_fichier = dict_heatmaps_energie_nan[nom_colonne]

    # Cr√©ation du pivot (r√©gion en ligne, mois en colonne)
    pivot_df = count_nan.pivot(index='region', columns='date_ym', values=nom_colonne)

    # Remplacement des NaN par 0
    pivot_df.fillna(0, inplace=True)

    # Affichage
    plt.figure(figsize=(30, 8))
    heatmap = sns.heatmap(pivot_df, cmap='YlOrRd', annot=True, fmt='.0f',
                          cbar_kws={'label': 'Nombre valeurs absentes'},
                          linewidths=0.5, vmin=0)

    plt.title(f"Nombre de donn√©es absentes ‚Äî {nom_colonne}", fontsize=16, pad=20)
    plt.xlabel('Date (ann√©e-mois)', fontsize=14)
    plt.ylabel('R√©gion', fontsize=14)

    # Sauvegarde
    heatmap.figure.savefig(nom_fichier, bbox_inches='tight', dpi=300)
    plt.show()

    print(f"‚úÖ Heatmap sauvegard√©e : {nom_fichier}")


In [None]:
#  ******  ETUDE DES VALEURS EGALES A ZERO (0) ******

# Calcul du nombre de valeurs √©gales √† 0 pour chaque colonne, par r√©gion et par mois.

count_zeros = df.groupby([df['region'], df['date_ym']]).apply(lambda x: (x==0).sum())

# Suppression des colonnes superflues de count_zeros

count_zeros = count_zeros.drop(count_zeros.columns[0:9], axis=1)

# R√©initialisation de l'index

count_zeros = count_zeros.reset_index()

# Export Excel du compte-rendu du nb de valeurs √©gales √† 0 par colonne apr√®s regroupement R√©gion/Jour-Mois

file_export_count_zeros ='Rapp_count_zeros_eco2mix.xlsx'
count_zeros.to_excel(file_export_count_zeros)
print("Rapport pr√©liminaire de d√©compte des valeurs √©gales √† 0 apr√®s regroupements export√© avec succ√®s dans le fichier Excel 'Rapp_count_zeros_eco2mix.xlsx'")

# Export Excel du compte-rendu du nb de valeurs √©gales √† 0 filtr√©

file_exp_count_zeros_filtre ='Rapp_count_zeros_eco2mix_FILTRE.xlsx'

count_zeros.to_excel(file_exp_count_zeros_filtre)

print("Rapport pr√©liminaire de d√©compte des valeurs √©gales √† 0 filtr√© export√© avec succ√®s dans le fichier Excel 'Rapp_count_zeros_eco2mix_FILTRE.xlsx'")

# AFFICHAGE DES HEATMAPS DES VALEURS EGALES A 0, REGROUPEES PAR REGION ET PAR MOIS

# 1) Cr√©ation d'un dictionnaire associant les colonnes mapp√©es avec les noms des graphiques et des fichiers images √† cr√©er

dict_heatmaps_energie_zeros = {}
colonnes=['7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31']
c=0
for i in range(2, 27):
    nom_colonne = count_zeros.columns[i]
    pivot = 'pivot_'+ nom_colonne[:7]
    nom_heatmap = nom_colonne[:9].replace(' ', '_') + 'zeros_map'
    nom_fichier = colonnes[c] +'_'+ nom_colonne[:9].replace(' ', '_') + '_zeros_heatmap.png'
    dict_heatmaps_energie_zeros[nom_colonne] = (pivot, nom_heatmap, nom_fichier)
    c+=1

display(dict_heatmaps_energie_zeros)

# 2) Affichage des chronogramme des valeurs √©gales √† 0 pour chaque colonne de donn√©es d'√©nergie

for i in range(2,27):
    
    nom_colonne = count_zeros.columns[i]
    pivot, nom_heatmap, nom_fichier = dict_heatmaps_energie_zeros[nom_colonne]
                                                       
    # Pivot du DataFrame pour obtenir les dates comme colonnes
 
    pivot_df = count_zeros.pivot(index='region', columns='date_ym', values=nom_colonne)
    
    # Cr√©ation d'un heatmap
    
    plt.figure(figsize=(100, 10))
    nom_heatmap = sns.heatmap(pivot_df, cmap='YlGnBu', annot=True, fmt='d', cbar_kws={'label': 'Nombre de valeurs √©gales √† 0'},
                                 linewidths = 1, vmin = 0, vmax = 1488)
    plt.title(f"Nombre de donn√©es √©gales √† 0 pour la colonne {nom_colonne}, par r√©gion et mois", fontsize = 16, pad = 20)
    plt.xlabel('date_ym', fontsize = 16)
    plt.ylabel('region', fontsize = 16)
    plt.show()

    nom_heatmap.figure.savefig(nom_fichier)


In [None]:
# Filtrage des colonnes num√©riques
selected_columns = [
    'consommation', 'thermique', 'nucleaire', 'eolien', 'solaire',
    'hydraulique', 'pompage', 'bioenergies', 'ech_physiques',
    'stockage_batterie', 'destockage_batterie',
    'tco_thermique', 'tch_thermique', 'tco_nucleaire', 'tch_nucleaire',
    'tco_eolien', 'tch_eolien', 'tco_solaire', 'tch_solaire',
    'tco_hydraulique', 'tch_hydraulique', 'tco_bioenergies', 'tch_bioenergies'
]
selected_columns_numeric = df[selected_columns].select_dtypes(include=['number']).columns

fig, axs = plt.subplots(13, 2, figsize=(15, 65))

# Aplatissement de l'array d'axes pour faciliter son utilisation
axs = axs.flatten()

plt.suptitle("Distributions des variables '√©nergie' de Eco2Mix_Regional' brut")
# Cr√©ation d'un histogramme pour chaque colonne num√©rique
for ax, col in zip(axs, selected_columns_numeric):
    sns.kdeplot(df[col], ax=ax)
    ax.set_title(col)

# Suppression de la zone de graphique inutils√©e
fig.delaxes(axs[-1])

# Ajustement de l'espacement entre les sous-trac√©s
plt.tight_layout()
plt.subplots_adjust(top=0.95)

# Sauvegarde de la figure en haute r√©solution
plt.savefig('Histogrammes_donn√©es_brutes.png', dpi=300)

# Affichage de la figure
plt.show()

In [None]:
# Affichage d'un heatmap des corr√©lations du fichier Eco2Mix Regional brut
colonnes_to_drop = ['code_insee_region', 'region', 'nature','date', 'mois','annee', 'date_ym','heure','date_heure']
df_reduce = df.drop(columns=colonnes_to_drop, axis = 1)

# Remplacement des cha√Ænes '-' par NaN
df_reduce = df_reduce.replace('-', np.nan)

# Conversion en num√©rique forc√©e
df_reduce = df_reduce.apply(pd.to_numeric, errors='coerce')

cor = df_reduce.corr()
fig, axs = plt.subplots(figsize = (50,50))
savefighcor = sns.heatmap(cor, annot = True, ax = axs, cmap = "coolwarm")
plt.show()

# Exportation des graphiques dans des fichiers
savefighcor.figure.savefig('Heatmaps_corr√©lations_Eco2MixReg.png')