#### Mise en place de l'environnement

##### Importation des données

In [1]:
# Importation des librairies
import pandas as pd
import numpy as np

In [2]:
# Importation des données
# Politique
political_stability = pd.read_csv("political_stability.csv", decimal = '.')

# Economique
food_availability = pd.read_csv("food_availability.csv", decimal = '.')
gross_domestic_product = pd.read_csv("gross_domestic_product.csv", decimal = '.')

# Social
population = pd.read_csv("population.csv", decimal = '.')
                                  
# Ecologique
emission_intensity = pd.read_csv("emission_intensity.csv", decimal = '.')

##### Traitement du fichier <b>Political Stability<b>

In [3]:
# Suppression des colonnes inutiles
political_stability = political_stability.drop([
    'Domain', 'Element', 'Item', 'Year', 'Unit'], axis=1)

In [4]:
# Traitement .csv political_stability : rename colonne
political_stability = political_stability.rename(columns = {"Value" : "Stabilite Politique"})

# Affichage des dimensions
print('Dimensions du DataFrame:',political_stability.shape)
# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',political_stability.duplicated().sum())
# Nombre de valeurs manquantes
print('Nombre de valeurs manquantes:',(political_stability.isnull().sum().sum()))

# Affichage du DataFrame
political_stability.head()

Dimensions du DataFrame: (197, 2)
Nombre de lignes dupliquées: 0
Nombre de valeurs manquantes: 0


Unnamed: 0,Area,Stabilite Politique
0,Afghanistan,-2.8
1,Albania,0.38
2,Algeria,-0.92
3,American Samoa,1.22
4,Andorra,1.42


##### Traitement du fichier <b>Food_availability<b>

In [5]:
# Suppression des colonnes inutiles
food_availability = food_availability.drop([
    'Domain', 'Item', 'Year', 'Unit'], axis=1)

##### Convertion des variables catégorielles

In [6]:
# Convertion 'Produit' en variable catégorielle
food_availability = pd.get_dummies(food_availability, columns=['Element'],
                                   drop_first=False)
# Ajout des valeurs de la colonne 'Valeur'  
for col in food_availability.columns[2:] :
    food_availability[col] = food_availability[col] * food_availability['Value']

# Suppression de la colonne 'Valeur' initiale
food_availability.drop(food_availability.columns[[1]], axis=1, inplace=True)

# Groupement des variables par 'Zone'
food_availability = food_availability.groupby(['Area']).sum()

# Suppression de l'indexation de la colonne 'Area'
food_availability = food_availability.reset_index()

In [7]:
# Traitement .csv dispo_alimentaire : rename colonne
food_availability = food_availability.rename(columns = {
    "Element_Domestic supply quantity" : "Disponibilite interieur (kt)",
    "Element_Export Quantity" : "Exportations (kt)",
    "Element_Fat supply quantity (g/capita/day)":"Disponibilite de matière grasse en quantite (g/personne/jour)",
    "Element_Food" : "Nourriture (kt)",
    "Element_Food supply (kcal/capita/day)" : "Disponibilite alimentaire (Kcal/personne/jour)",
    "Element_Food supply quantity (kg/capita/yr)" : "Disponibilite alimentaire en quantite (kg/personne/an)",
    "Element_Import Quantity" : "Importations (kt)",
    "Element_Losses" : "Pertes (kt)",
    "Element_Other uses (non-food)" : "Autres Utilisations (kt)",
    "Element_Processing" : "Traitement (t)",
    "Element_Production" :"Production (kt)",
    "Element_Protein supply quantity (g/capita/day)" : "Disponibilite de proteines en quantite (g/personne/jour)",
    "Element_Residuals" : "Residus (kt)",
    "Element_Stock Variation" : "Variation de stock (kt)",
    "Element_Tourist consumption" : "Consommation touristique (kt)"})

# Affichage dimensions
print('Dimensions :', food_availability.shape)
# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',food_availability.duplicated().sum())
# Nombre de valeurs manquantes
print('Nombre de valeurs manquantes:',(food_availability.isnull().sum().sum()))

# Affichage DataFrame
food_availability.head()

Dimensions : (180, 16)
Nombre de lignes dupliquées: 0
Nombre de valeurs manquantes: 0


Unnamed: 0,Area,Disponibilite interieur (kt),Exportations (kt),Disponibilite de matière grasse en quantite (g/personne/jour),Nourriture (kt),Disponibilite alimentaire (Kcal/personne/jour),Disponibilite alimentaire en quantite (kg/personne/an),Importations (kt),Pertes (kt),Autres Utilisations (kt),Traitement (t),Production (kt),Disponibilite de proteines en quantite (g/personne/jour),Residus (kt),Variation de stock (kt),Consommation touristique (kt)
0,Afghanistan,64.0,0.0,0.38,64.0,6.0,1.76,29.0,0.0,0.0,0.0,28.0,0.63,0.0,-7.0,0.0
1,Albania,33.0,0.0,4.46,33.0,59.0,11.45,20.0,0.0,0.0,0.0,13.0,4.44,0.0,0.0,0.0
2,Algeria,286.0,0.0,1.63,286.0,24.0,6.91,2.0,0.0,0.0,0.0,284.0,2.13,0.0,0.0,0.0
3,Angola,318.0,0.0,2.24,318.0,36.0,10.65,277.0,0.0,0.0,0.0,40.0,3.63,0.0,0.0,0.0
4,Antigua and Barbuda,6.0,0.0,18.63,5.0,247.0,57.31,7.0,0.0,0.0,0.0,0.0,18.75,0.0,1.0,0.0


##### Traitement du fichier <b>gross_domestic_product<b>

In [8]:
# Suppression des colonnes inutiles
gross_domestic_product = gross_domestic_product.drop([
    'Domain', 'Item', 'Year', 'Unit'], axis=1)

##### Convertion des variables catégorielles

In [9]:
# Convertion 'Produit' en variable catégorielle
gross_domestic_product = pd.get_dummies(gross_domestic_product, columns=['Element'],
                                        drop_first=False)

# Ajout des valeurs de la colonne 'Valeur'  
for col in gross_domestic_product.columns[2:] :
    gross_domestic_product[col] = gross_domestic_product[col] * gross_domestic_product['Value']

# Suppression de la colonne 'Valeur' initiale
gross_domestic_product.drop(gross_domestic_product.columns[[1]], axis=1, inplace=True)

# Groupement des variables par 'Zone'
gross_domestic_product = gross_domestic_product.groupby(['Area']).sum()

# Suppression de l'indexation de la colonne 'Area'
gross_domestic_product = gross_domestic_product.reset_index()

In [10]:
# Traitement .csv dispo_alimentaire : rename colonne
gross_domestic_product = gross_domestic_product.rename(columns = {
    "Element_Value US$" : "PIB (millions US $)",
    "Element_Value US$ per capita" : "PIB par habitant (US $)"})

# Affichage dimensions
print('Dimensions :', gross_domestic_product.shape)
# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',gross_domestic_product.duplicated().sum())
# Nombre de valeurs manquantes
print('Nombre de valeurs manquantes:',(gross_domestic_product.isnull().sum().sum()))

# Affichage DataFrame
gross_domestic_product.head()

Dimensions : (211, 3)
Nombre de lignes dupliquées: 0
Nombre de valeurs manquantes: 0


Unnamed: 0,Area,PIB (millions US $),PIB par habitant (US $)
0,Afghanistan,18623.026651,513.085978
1,Albania,13019.729856,4514.204908
2,Algeria,170097.205312,4109.701336
3,Andorra,3000.160225,38962.613799
4,Angola,122123.858628,4095.811686


##### Traitement du fichier <b>Population<b>

In [11]:
# Suppression des colonnes inutiles
population = population.drop([
    'Domain', 'Item', 'Element', 'Year', 'Unit'], axis=1)

In [12]:
# Traitement .csv population : rename colonne
population = population.rename(columns = {
    "Value" : "Population"})

# Affichage des dimensions
print('Dimensions du DataFrame:',population.shape)
# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',population.duplicated().sum())
# Nombre de valeurs manquantes
print('Nombre de valeurs manquantes:',(population.isnull().sum().sum()))

# Affichage du DataFrame
population.head()

Dimensions du DataFrame: (237, 2)
Nombre de lignes dupliquées: 0
Nombre de valeurs manquantes: 0


Unnamed: 0,Area,Population
0,Afghanistan,36296.113
1,Albania,2884.169
2,Algeria,41389.189
3,American Samoa,55.62
4,Andorra,77.001


##### Traitement du fichier <b>emission_intensity<b>

In [13]:
# Suppression des colonnes inutiles
emission_intensity = emission_intensity.drop([
    'Domain', 'Item', 'Year', 'Unit'], axis=1)

##### Convertion des variables catégorielles

In [14]:
# Convertion 'Produit' en variable catégorielle
emission_intensity = pd.get_dummies(emission_intensity, columns=['Element'], drop_first=False)

# Ajout des valeurs de la colonne 'Valeur'  
for col in emission_intensity.columns[2:] :
    emission_intensity[col] = emission_intensity[col] * emission_intensity['Value']

# Suppression de la colonne 'Valeur' initiale
emission_intensity.drop(emission_intensity.columns[[1]], axis=1, inplace=True)

# Groupement des variables par 'Zone'
emission_intensity = emission_intensity.groupby(['Area']).sum()

# Suppression de l'indexation de la colonne 'Area'
emission_intensity = emission_intensity.reset_index()

In [15]:
# Traitement .csv population : rename colonne
emission_intensity = emission_intensity.rename(columns = {
    "Element_Emissions intensity" : "Intensite emission (CO2eq/kg)"})

# Affichage des dimensions
print('Dimensions du DataFrame:',emission_intensity.shape)
# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',emission_intensity.duplicated().sum())
# Nombre de valeurs manquantes
print('Nombre de valeurs manquantes:',(emission_intensity.isnull().sum().sum()))

# Affichage du DataFrame
emission_intensity.head()

Dimensions du DataFrame: (209, 2)
Nombre de lignes dupliquées: 0
Nombre de valeurs manquantes: 0


Unnamed: 0,Area,Intensite emission (CO2eq/kg)
0,Afghanistan,0.4091
1,Albania,0.8959
2,Algeria,1.9363
3,American Samoa,4.7629
4,Angola,3.8153


##### Jointure des fichiers

In [16]:
# Jointure des fichiers
data = pd.merge(political_stability, food_availability, on='Area', how='outer')
data = pd.merge(data, gross_domestic_product, on='Area', how='outer')
data = pd.merge(data, population, on='Area', how='outer')
data = pd.merge(data, emission_intensity, on='Area', how='outer')

# Définition de l'index
data = data.set_index('Area')

# Affichage dimensions
print('Dimensions :', data.shape)
# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',data.duplicated().sum())
# Nombre de valeurs manquantes
print('Nombre de valeurs manquantes:',(data.isnull().sum().sum()))

# Téléchargement .csv
data.to_csv("data.csv")

# Affichage DataFrame
data.head()

Dimensions : (240, 20)
Nombre de lignes dupliquées: 0
Nombre de valeurs manquantes: 1035


Unnamed: 0_level_0,Stabilite Politique,Disponibilite interieur (kt),Exportations (kt),Disponibilite de matière grasse en quantite (g/personne/jour),Nourriture (kt),Disponibilite alimentaire (Kcal/personne/jour),Disponibilite alimentaire en quantite (kg/personne/an),Importations (kt),Pertes (kt),Autres Utilisations (kt),Traitement (t),Production (kt),Disponibilite de proteines en quantite (g/personne/jour),Residus (kt),Variation de stock (kt),Consommation touristique (kt),PIB (millions US $),PIB par habitant (US $),Population,Intensite emission (CO2eq/kg)
Area,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Afghanistan,-2.8,64.0,0.0,0.38,64.0,6.0,1.76,29.0,0.0,0.0,0.0,28.0,0.63,0.0,-7.0,0.0,18623.026651,513.085978,36296.113,0.4091
Albania,0.38,33.0,0.0,4.46,33.0,59.0,11.45,20.0,0.0,0.0,0.0,13.0,4.44,0.0,0.0,0.0,13019.729856,4514.204908,2884.169,0.8959
Algeria,-0.92,286.0,0.0,1.63,286.0,24.0,6.91,2.0,0.0,0.0,0.0,284.0,2.13,0.0,0.0,0.0,170097.205312,4109.701336,41389.189,1.9363
American Samoa,1.22,,,,,,,,,,,,,,,,,,55.62,4.7629
Andorra,1.42,,,,,,,,,,,,,,,,3000.160225,38962.613799,77.001,


##### Fin du document