In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
#Versions utilisées
print("Jupyter Notebook : " + str(pd.__version__))
print("Pandas : " + str(pd.__version__))
print("Numpy : " + str(np.__version__))
print("Seaborn : " + str(sns.__version__))

Jupyter Notebook : 1.2.4
Pandas : 1.2.4
Numpy : 1.20.1
Seaborn : 0.11.1


### 1. Importation et traitement de la population par pays

In [3]:
population = pd.read_csv(r"C:\Users\elodi\Documents\DATA\Data Analyst\Projets\Projet 5\CSV\population.csv")
population.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires (2010-),2,Afghanistan,511,Population totale,2501,Population,2010,2010,1000 personnes,29186,*,Chiffre non officiel
1,FBS,Bilans Alimentaires (2010-),2,Afghanistan,511,Population totale,2501,Population,2019,2019,1000 personnes,38042,*,Chiffre non officiel
2,FBS,Bilans Alimentaires (2010-),202,Afrique du Sud,511,Population totale,2501,Population,2010,2010,1000 personnes,51217,*,Chiffre non officiel
3,FBS,Bilans Alimentaires (2010-),202,Afrique du Sud,511,Population totale,2501,Population,2019,2019,1000 personnes,58558,*,Chiffre non officiel
4,FBS,Bilans Alimentaires (2010-),3,Albanie,511,Population totale,2501,Population,2010,2010,1000 personnes,2948,*,Chiffre non officiel


# 
Pivot sur la colonne année et renommer les colonnes 

In [4]:
population = (pd
              .pivot_table(population, values='Valeur', index=['Code zone', 'Zone'], columns='Année', aggfunc=sum)
              
              .reset_index()
              
              .rename(columns={
                'Zone': 'Pays',
                'Code zone': 'Code_pays',
                2010: 'population_2010',
                2019: 'population_2019',
              })
              
              .rename_axis(None, axis=1)
)

# 
Calcul du pourcentage de l'évolution de la population entre 2010 et 2019 et sélection des colonnes  

In [5]:
population['%Evolution_pop_2010/2019'] = round(((population['population_2019'] - population['population_2010']))\
                                         / population['population_2010'] * 100, 2)
population = population[['Pays', '%Evolution_pop_2010/2019']]
population.head()

Unnamed: 0,Pays,%Evolution_pop_2010/2019
0,Arménie,2.82
1,Afghanistan,30.34
2,Albanie,-2.27
3,Algérie,19.67
4,Angola,36.26


### 2. Importation et traitement de la disponibilité alimentaire

In [6]:
bilan_alimentaire = pd.read_csv(r"C:\Users\elodi\Documents\DATA\Data Analyst\Projets\Projet 5\CSV\bilan_alimentaire.csv")
bilan_alimentaire.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires (2010-),2,Afghanistan,664,Disponibilité alimentaire (Kcal/personne/jour),2511,Blé et produits,2019,2019,Kcal/personne/jour,1387.0,Fc,Donnée calculée
1,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2511,Blé et produits,2019,2019,g/personne/jour,37.41,Fc,Donnée calculée
2,FBS,Bilans Alimentaires (2010-),2,Afghanistan,664,Disponibilité alimentaire (Kcal/personne/jour),2807,Riz et produits,2019,2019,Kcal/personne/jour,126.0,Fc,Donnée calculée
3,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2807,Riz et produits,2019,2019,g/personne/jour,2.39,Fc,Donnée calculée
4,FBS,Bilans Alimentaires (2010-),2,Afghanistan,664,Disponibilité alimentaire (Kcal/personne/jour),2513,Orge et produits,2019,2019,Kcal/personne/jour,3.0,Fc,Donnée calculée


# 
Pivot sur la colonne élément et sélection des colonnes 

In [7]:
bilan_alimentaire = (pd
                .pivot_table(bilan_alimentaire, values='Valeur', index=['Code zone', 'Zone'], columns='Élément', aggfunc=sum)
                   
                .reset_index()
                   
                .rename(columns={
                      'Zone': 'Pays',
                      'Code zone': 'Code_pays',
                      'Disponibilité de protéines en quantité (g/personne/jour)' : 'Disponibilité protéines(g/personne/jour)'
                    })
                    
                     .rename_axis(None, axis=1)  
)
bilan_alimentaire = bilan_alimentaire[['Pays', 'Disponibilité alimentaire (Kcal/personne/jour)', 'Disponibilité protéines(g/personne/jour)']]
bilan_alimentaire

Unnamed: 0,Pays,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité protéines(g/personne/jour)
0,Arménie,3019.0,94.28
1,Afghanistan,2271.0,57.29
2,Albanie,3334.0,115.98
3,Algérie,3490.0,90.82
4,Angola,2441.0,52.07
...,...,...,...
171,Luxembourg,3500.0,108.57
172,Serbie,2860.0,86.52
173,Monténégro,3515.0,111.78
174,Soudan,2579.0,75.89


### 3. Importation et traitement de la disponibilité alimentaire animale

In [8]:
bilan_alim_animaux = pd.read_csv(r"C:\Users\elodi\Documents\DATA\Data Analyst\Projets\Projet 5\CSV\bilan_alim_animaux.csv")
bilan_alim_animaux.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2731,Viande de Bovins,2019,2019,g/personne/jour,1.1,Fc,Donnée calculée
1,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2732,Viande d'Ovins/Caprins,2019,2019,g/personne/jour,1.4,Fc,Donnée calculée
2,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2733,Viande de porcins,2019,2019,g/personne/jour,0.01,Fc,Donnée calculée
3,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2734,Viande de Volailles,2019,2019,g/personne/jour,0.63,Fc,Donnée calculée
4,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2735,"Viande, Autre",2019,2019,g/personne/jour,0.14,Fc,Donnée calculée


# 
Pivot sur la colonne élément et sélection des colonnes 

In [9]:
bilan_alim_animaux = (pd
                .pivot_table(bilan_alim_animaux, values='Valeur', index=['Code zone', 'Zone'], columns='Élément', aggfunc=sum)
                .reset_index()
                .rename(columns={
                    'Zone': 'Pays',
                    'Code zone': 'Code_pays',
                    'Disponibilité de protéines en quantité (g/personne/jour)': 'Dispo_prot_animaux'
                })
                .rename_axis(None, axis=1)                                        
)
bilan_alim_animaux = bilan_alim_animaux[['Pays', 'Dispo_prot_animaux']]

### 4. Création du dataframe principal
Jointure des 3 dataframes 

In [10]:
main_df = (population
               .merge(bilan_alimentaire, how='left', on='Pays')
               .merge(bilan_alim_animaux, how='left', on='Pays')
)
main_df.head()

Unnamed: 0,Pays,%Evolution_pop_2010/2019,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité protéines(g/personne/jour),Dispo_prot_animaux
0,Arménie,2.82,3019.0,94.28,52.84
1,Afghanistan,30.34,2271.0,57.29,10.34
2,Albanie,-2.27,3334.0,115.98,62.46
3,Algérie,19.67,3490.0,90.82,24.09
4,Angola,36.26,2441.0,52.07,15.52


# 
Calcul du pourcentage de protéines animales par rapport au protéines totales et sélection des colonnes 

In [11]:
main_df['%Protéines_animales'] = round(main_df['Dispo_prot_animaux'] / 
                                            main_df['Disponibilité protéines(g/personne/jour)']*100)

main_df = main_df[['Pays', '%Evolution_pop_2010/2019', 'Disponibilité alimentaire (Kcal/personne/jour)', 
               'Disponibilité protéines(g/personne/jour)','%Protéines_animales']]
main_df.head()

Unnamed: 0,Pays,%Evolution_pop_2010/2019,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité protéines(g/personne/jour),%Protéines_animales
0,Arménie,2.82,3019.0,94.28,56.0
1,Afghanistan,30.34,2271.0,57.29,18.0
2,Albanie,-2.27,3334.0,115.98,54.0
3,Algérie,19.67,3490.0,90.82,27.0
4,Angola,36.26,2441.0,52.07,30.0


### 5. Enrichissement de l'échantillon, intégration de deux autres variables
    a.PIB/habitants 2019

In [12]:
df_pib = pd.read_csv(r"C:\Users\elodi\Documents\DATA\Data Analyst\Projets\Projet 5\CSV\PIB.csv")
df_pib.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (FAO),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,2,Afghanistan,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2019,2019,I$,2065.0,X,Sources internationales sûres,
1,FS,Données de la sécurité alimentaire,202,Afrique du Sud,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2019,2019,I$,12481.8,X,Sources internationales sûres,
2,FS,Données de la sécurité alimentaire,3,Albanie,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2019,2019,I$,13671.5,X,Sources internationales sûres,
3,FS,Données de la sécurité alimentaire,4,Algérie,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2019,2019,I$,11510.6,X,Sources internationales sûres,
4,FS,Données de la sécurité alimentaire,79,Allemagne,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2019,2019,I$,53639.3,X,Sources internationales sûres,


In [13]:
df_pib = df_pib.rename(columns={'Zone': 'Pays', 'Valeur': 'PIB/habitants_US$'})
df_pib = df_pib[['Pays','PIB/habitants_US$']]

# 
Jointure df_pib avec main_df

In [14]:
main_df = (main_df.merge(df_pib, how='left', on='Pays'))
main_df.head()               

Unnamed: 0,Pays,%Evolution_pop_2010/2019,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité protéines(g/personne/jour),%Protéines_animales,PIB/habitants_US$
0,Arménie,2.82,3019.0,94.28,56.0,13653.8
1,Afghanistan,30.34,2271.0,57.29,18.0,2065.0
2,Albanie,-2.27,3334.0,115.98,54.0,13671.5
3,Algérie,19.67,3490.0,90.82,27.0,11510.6
4,Angola,36.26,2441.0,52.07,30.0,6670.3


# 
    b.Importations des volailles 2019

In [15]:
importations = pd.read_csv(r"C:\Users\elodi\Documents\DATA\Data Analyst\Projets\Projet 5\CSV\importations_volailles.csv")
importations.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires (2010-),2,Afghanistan,5611,Importations - Quantité,2734,Viande de Volailles,2019,2019,Milliers de tonnes,44,Im,Données de la FAO basées sur une méthodologie ...
1,FBS,Bilans Alimentaires (2010-),202,Afrique du Sud,5611,Importations - Quantité,2734,Viande de Volailles,2019,2019,Milliers de tonnes,488,Im,Données de la FAO basées sur une méthodologie ...
2,FBS,Bilans Alimentaires (2010-),3,Albanie,5611,Importations - Quantité,2734,Viande de Volailles,2019,2019,Milliers de tonnes,22,Im,Données de la FAO basées sur une méthodologie ...
3,FBS,Bilans Alimentaires (2010-),4,Algérie,5611,Importations - Quantité,2734,Viande de Volailles,2019,2019,Milliers de tonnes,0,Im,Données de la FAO basées sur une méthodologie ...
4,FBS,Bilans Alimentaires (2010-),79,Allemagne,5611,Importations - Quantité,2734,Viande de Volailles,2019,2019,Milliers de tonnes,831,Im,Données de la FAO basées sur une méthodologie ...


In [16]:
importations = (pd
                .pivot_table(importations, values='Valeur', index=['Code zone', 'Zone'], columns='Élément', aggfunc=sum)
                .reset_index()
                .rename(columns={
                    'Zone': 'Pays',
                    'Code zone': 'Code_pays',
                    'Importations - Quantité': 'Importations_1000_tonnes'
                })
                .rename_axis(None, axis=1)                                        
)
importations = importations[['Pays', 'Importations_1000_tonnes']]
importations

Unnamed: 0,Pays,Importations_1000_tonnes
0,Arménie,43
1,Afghanistan,44
2,Albanie,22
3,Algérie,0
4,Angola,278
...,...,...
170,Luxembourg,12
171,Serbie,17
172,Monténégro,7
173,Soudan,0


In [17]:
main_df = (main_df.merge(importations, how='left', on='Pays'))
main_df.head()  

Unnamed: 0,Pays,%Evolution_pop_2010/2019,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité protéines(g/personne/jour),%Protéines_animales,PIB/habitants_US$,Importations_1000_tonnes
0,Arménie,2.82,3019.0,94.28,56.0,13653.8,43.0
1,Afghanistan,30.34,2271.0,57.29,18.0,2065.0,44.0
2,Albanie,-2.27,3334.0,115.98,54.0,13671.5,22.0
3,Algérie,19.67,3490.0,90.82,27.0,11510.6,0.0
4,Angola,36.26,2441.0,52.07,30.0,6670.3,278.0


In [18]:
print(main_df.isnull().sum())

Pays                                              0
%Evolution_pop_2010/2019                          2
Disponibilité alimentaire (Kcal/personne/jour)    0
Disponibilité protéines(g/personne/jour)          0
%Protéines_animales                               0
PIB/habitants_US$                                 7
Importations_1000_tonnes                          1
dtype: int64


In [19]:
main_df.to_csv("main_df.csv", index = False)