In [31]:
import pandas as pd

# Charger le fichier de données initial
file_path = 'indicateurs-macro-economiques_comptes_nationnaux_fr.xlsx'

In [32]:
# Lire les données en ignorant les trois premières lignes de métadonnées
data = pd.read_excel(file_path, skiprows=3)

In [33]:
# Renommer les colonnes pour plus de clarté
data.columns = ['Indicateur', 'NA', 'Moyenne_2010_17', '2018', '2019', '2020', '2021', '2022']

In [34]:
# Supprimer la colonne inutile 'NA'
data.drop(columns=['NA'], inplace=True)


In [35]:
# Supprimer les lignes qui sont entièrement vides
data.dropna(how='all', inplace=True)

In [41]:
# Remplir les valeurs manquantes dans les colonnes numériques avec la valeur 0
for year in ['Moyenne_2010_17', '2018', '2019', '2020', '2021', '2022']:
    data[year] = data[year].fillna(0)

<class 'pandas.core.frame.DataFrame'>
Index: 248 entries, 0 to 335
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Indicateur       240 non-null    object 
 1   Moyenne_2010_17  248 non-null    object 
 2   2018             248 non-null    float64
 3   2019             248 non-null    float64
 4   2020             248 non-null    float64
 5   2021             248 non-null    float64
 6   2022             248 non-null    float64
dtypes: float64(5), object(2)
memory usage: 15.5+ KB


In [None]:
# Convertir les colonnes de l'année en type float
for year in ['Moyenne_2010_17', '2018', '2019', '2020', '2021', '2022']:
    data[year] = data[year].astype(float)

In [None]:
# Supprimer les lignes où l'indicateur est une ligne de résumé ou de source non pertinente
data = data[~data['Indicateur'].str.contains('Source|Suite|Fin|Indicateurs macro-économiques|Haut Commissariat au Plan', na=False)]


In [None]:
# Réinitialiser l'index pour avoir un DataFrame propre
data.reset_index(drop=True, inplace=True)

In [None]:
# Enregistrer les données nettoyées dans un nouveau fichier Excel
cleaned_file_path = 'indicateurs_macro_economiques.xlsx'
data.to_excel(cleaned_file_path, index=False)

print("Data cleaned and saved to", cleaned_file_path)