# Nettoyage des données EXIOBASE3

Nettoyage des données d'EXIOBASE3 pour obtenir les DataFrames correspondant aux niveaux d'émissions de gaz à effet de serre (GES) émis par chaque région et destinés à la consommation finale.

In [2]:
#importer pymrio et pandas
import pymrio
import pandas as pd

In [3]:
#Fonction load qui prend 'year' comme argument
def load(year):
    #Chargement des donnée EXIOBASE3 pour chaque année 
    path = f"C:/Master 1/Stage/EXIOBASE3/IOT_{year}_ixi.zip"
    exio3 = pymrio.parse_exiobase3(path=path)

    #Diagonalisation de l'impact associé aux emissions de GES
    diag_GHG = exio3.impacts.diag_stressor('GHG emissions (GWP100) | Problem oriented approach: baseline (CML, 1999) | GWP100 (IPCC, 2007)')

    #Les valeurs de la diagonalisation sont attribués à 'exio3.GHG_source'
    exio3.GHG_source = diag_GHG

    #Commande pymrio qui permet de compléter les parties manquantes de EXIOBASE3
    exio3.calc_all()

    #Agrège les émissions de GES par région pour obtenir les émissions associées à la consommation finale
    GHG_source_reg = exio3.GHG_source.D_cba.groupby(
    level='region', axis=0).sum().groupby(
    level='region', axis=1).sum()
    
    #Supprimer les lignes où les valeurs sont NaN
    df = GHG_source_reg.dropna(how='all', axis=0)

    #Formation de liste pour former de nouvelles régions
    UE = ['AT', 'BE', 'BG', 'CZ', 'DE', 'DK', 'EE', 'ES', 'FI', 'FR', 'GR', 'HR', 'HU', 'IE', 'IT', 
                'LT', 'LU', 'LV', 'MT', 'NL', 'NO', 'PL', 'PT', 'RO', 'SE', 'SI', 'SK']
    MO = ['WM', 'CY']
    Europe = ['WE', 'CH', 'TR', 'GB']
    Asie_Pacifique = ['WA', 'TW', 'KR']
    Afrique = ['WF', 'ZA']

    #Création de nouvelles colonnes pour chaque nouvelle région
    df['UE'] = df[UE].sum(axis=1)
    df['Moyen-Orient'] = df[MO].sum(axis=1)
    df['Europe'] = df[Europe].sum(axis=1)
    df['Asie Pacifique'] = df[Asie_Pacifique].sum(axis=1)
    df['Afrique'] = df[Afrique].sum(axis=1)

    #Création de nouvelles lignes pour chaque nouvelle région
    df.loc['UE'] = df.loc[UE].sum()
    df.loc['Moyen-Orient'] = df.loc[MO].sum()
    df.loc['Europe'] = df.loc[Europe].sum()
    df.loc['Asie Pacifique'] = df.loc[Asie_Pacifique].sum()
    df.loc['Afrique'] = df.loc[Afrique].sum()

    #Supprime les lignes et colonnes des pays individuels inclus dans les nouvelles régions créées.
    df = df.drop(UE + MO + Europe + Asie_Pacifique + Afrique, axis=0)
    df = df.drop(UE + MO + Europe + Asie_Pacifique + Afrique, axis=1)

    #Réorganise l'ordre des pays de la DataFrame pour les lignes et les colonnes
    order = ["CN", "US", "Asie Pacifique", "IN", "UE",  "Afrique", 
               "Moyen-Orient", "RU", "Europe", "WL", "JP",  "ID",
               "BR", "MX", "AU",  "CA"]
    df = pd.DataFrame(df, index=order)
    df = df[order]

    #Renomme le noms des lignes et des colonnes pour rendre la DataFrame plus compréhensible
    region = ["Chine", "Etats-Unis", "Asie Pacifique", "Inde", "Union européenne", "Afrique", "Moyen-Orient", "Russie", "Europe",  "Amerique Latine et Caraïbes", "Japon",  "Indonésie", "Brésil","Mexique",  "Australie", "Canada" ]
    df.columns = region
    df.index = region
    
    #Résult de la fonction load
    return df

#### Étapes du nettoyage: <br>
1. Choisir le stresseur ou l'impact qui nous intéresse pour notre analyse. Ici nous utilisons l'impact lié aux émissions de GES. 
2. Diagonalisation de ce même stresseur/impact. Dans ce cas, cela permet d'exprimer les émissions de GES de chaque secteur et chaque région. 
3. Agrèger ce stresseur/impact par région pour obtenir le niveau du stresseur/impact associé à la consommation finale pour chaque région. Dans ce cas, cela permet d'agréger les émissions de GES issues de tous les secteurs confondus.
4. Réduire le nombre de régions pour réduire la taille de la DataFrame afin d'être plus visible lorsqu'on voudra la représenter visuellement. Pour cela, nous gardons certaines régions telles qu'elles sont définies dans EXIOBASE3, comme la Chine, des Etats-Unis, de l'Inde, de la Russie, de l'Indonésie, du Japon, du Mexique, du Brésil et du Canada. Cependant, nous regroupons:
- Tous les pays de l'Union européenne dans la région "Union européenne".
- Tous les pays européens qui ne font pas partie de l'Union européenne dans la région 'Europe'.
- Tous les pays du Moyen-Orient (hors la Turquie qui est déjà comprise dans la région "Europe) dans la région 'Moyen-Orient'.
- Tous les pays d'Asie-Pacifique (hors le Japon, la Chine, l'Inde et l'Indonésie) dans la région 'Asie-Pacifique'.
- Tous les pays d'Afrique (hors l'Egypte qui est déjà comptabilisée dans la région 'Moyen-Orient) dans la région 'Afrique'.
Cela permet de réduire le nombre de région dans notre DataFrame de 49 régions à 16 régions. <br>

La liste détaillée des pays regroupés dans les 49 régions des données EXIOBASE3 peut être trouvée à ce [lien](https://github.com/MarDrd/exiobase3-manipulation/blob/main/R%C3%A9gions.ipynb).

La liste détaillée des pays regroupés dans les 16 nouvelles régions peut être trouvée à ce [lien](https://github.com/MarDrd/exiobase3-manipulation/blob/main/Impact%20-%20Consommation%20Finale/R%C3%A9gion%20Description/Composition_Regions.ipynb).

In [4]:
#Chargement de la base de données nettoyée de 2022
df_2022 = load(2022)

  Y_agg = Y.groupby(level="region", axis=1, sort=False).sum()
  F_Y_agg = self.F_Y.groupby(level="region", axis=1, sort=False).sum()
  Y_agg = Y.groupby(level="region", axis=1, sort=False).sum()
  F_Y_agg = self.F_Y.groupby(level="region", axis=1, sort=False).sum()
  Y_agg = Y.groupby(level="region", axis=1, sort=False).sum()
  self.D_cba.groupby(level="region", axis=1, sort=False).sum()
  self.D_pba.groupby(level="region", axis=1, sort=False).sum()
  self.D_imp_reg = self.D_imp.groupby(
  self.D_exp_reg = self.D_exp.groupby(
  GHG_source_reg = exio3.GHG_source.D_cba.groupby(
  level='region', axis=0).sum().groupby(


In [5]:
#Enregistrement de la base de donnée en format csv
df_2022.to_csv('df_GHG_2022')

Les données de chaque année d'EXIOBASE3 étant lourdes, je déconseille de charger plusieurs années à la fois et de plutôt les charger une par une.

Le chargement étant long, vous pouvez retrouver toutes les bases de données néttoyés représentant les émissions de GES liées à la consommation finale de 1995 à 2022 en format CSV en suivant ce [lien](https://github.com/MarDrd/exiobase3-manipulation/tree/main/Impact%20-%20Consommation%20Finale/GES%20-%20Consommation%20Finale/GES%20-%20final%20conso). Cela permet un téléchargement beaucoup plus rapide de ces mêmes bases de données.

In [6]:
#Chargement de la base de donnée
df = pd.read_csv('C:\Master 1\exiobase3-manipulation\Impact - Consommation Finale\GES - Consommation Finale\GES - final conso\df_GHG_2022.csv')

In [7]:
#Afficher la base de donnée 2022
df

Unnamed: 0,Chine,Etats-Unis,Asie Pacifique,Inde,Union européenne,Afrique,Moyen-Orient,Russie,Europe,Amerique Latine et Caraïbes,Japon,Indonésie,Brésil,Mexique,Australie,Canada
Chine,11724970000000.0,422649100000.0,637863100000.0,102958700000.0,254219500000.0,98917150000.0,158487800000.0,38538970000.0,85317570000.0,96858330000.0,116842600000.0,34216450000.0,39073410000.0,24542170000.0,31309820000.0,41655090000.0
Etats-Unis,87502710000.0,4357353000000.0,92360640000.0,23792450000.0,97109830000.0,17405540000.0,33347560000.0,5194852000.0,33768740000.0,74092900000.0,40317930000.0,4674862000.0,20108110000.0,63972120000.0,6391105000.0,70382690000.0
Asie Pacifique,592880900000.0,290428000000.0,2530916000000.0,113578700000.0,326915200000.0,99005150000.0,112926500000.0,52748000000.0,113741200000.0,48991650000.0,146197500000.0,80312970000.0,18246090000.0,13811920000.0,74114510000.0,26179180000.0
Inde,52810010000.0,85175610000.0,132407300000.0,3613719000000.0,82450740000.0,44343840000.0,108340900000.0,6858290000.0,31042100000.0,14885770000.0,12360430000.0,11326900000.0,6990345000.0,5100568000.0,6596916000.0,7268872000.0
Union européenne,98852230000.0,136890500000.0,90809890000.0,24295180000.0,2916673000000.0,64848870000.0,75048630000.0,34548560000.0,207943000000.0,28896550000.0,25032810000.0,6152704000.0,17686320000.0,11183010000.0,11847840000.0,19521010000.0
Afrique,98924870000.0,71446180000.0,67010500000.0,61912490000.0,191957600000.0,2210419000000.0,79944820000.0,8026747000.0,42684750000.0,12168680000.0,12130660000.0,7103954000.0,12340850000.0,4860922000.0,6342286000.0,7227786000.0
Moyen-Orient,242275600000.0,165319500000.0,210530900000.0,126718900000.0,170896500000.0,87294350000.0,1595254000000.0,14331410000.0,67072690000.0,19744550000.0,89288540000.0,17084920000.0,12207310000.0,7790333000.0,15494090000.0,12304630000.0
Russie,162074800000.0,56265360000.0,145448000000.0,23092550000.0,296222700000.0,31839610000.0,41614870000.0,1355985000000.0,152761100000.0,16167560000.0,25749080000.0,5040296000.0,6954969000.0,4285300000.0,4448559000.0,6192348000.0
Europe,35480590000.0,52874260000.0,45730200000.0,11780050000.0,186911700000.0,37246650000.0,66816770000.0,46772450000.0,1062805000000.0,12309740000.0,8354257000.0,3637459000.0,5057685000.0,3137437000.0,5330506000.0,7045756000.0
Amerique Latine et Caraïbes,124038600000.0,122782100000.0,45259740000.0,22292480000.0,66244950000.0,16015740000.0,26539060000.0,18356390000.0,32700840000.0,876153900000.0,10832790000.0,2615813000.0,33911460000.0,12373660000.0,2323305000.0,8342483000.0
