In [2]:
import pandas as pd
import numpy as np
from matplotlib import rcParams
import plotly.express as px
from P5_06_functions import *

In [3]:
#Fixer les graphiques à 16,10
rcParams['figure.figsize'] = 16, 10

# I CONSTRUIRE L'ECHANTILLON POUR L'ANALYSE

## Chargement des données

In [4]:
df_p5 = pd.DataFrame(pd.read_csv('dispo_alim.csv', sep=';'))
population = pd.DataFrame(pd.read_csv('population.csv', sep=';'))

In [5]:
df_p5.columns

Index(['Code Domaine', 'Domaine', 'Code zone (FAO)', 'Zone', 'Code Élément',
       'Élément', 'Code Produit', 'Produit', 'Code année', 'Année', 'Unité',
       'Valeur', 'Symbole', 'Description du Symbole', 'Numéro', 'Code-ISO'],
      dtype='object')

## Supprimer les colonnes inutiles

In [6]:
df_p5 = df_p5.drop(['Code Domaine', 'Domaine', 'Code Élément', 'Code année', 'Symbole', 'Description du Symbole'], axis = 1)

population = population.drop(['Code Domaine', 'Domaine', 'Code Élément', 'Élément', 'Code Produit', 'Produit', 'Code année', 'Note', 'Symbole', 'Description du Symbole','Unité'], axis = 1)

## Renommer les colonnes

In [7]:
population['Valeur'] = population['Valeur']*1000
population['Valeur'] = population['Valeur'].astype(int)

In [8]:
population

Unnamed: 0,Code zone (FAO),Zone,Année,Valeur
0,2,Afghanistan,2017,36296113
1,2,Afghanistan,2018,37171921
2,202,Afrique du Sud,2017,57009755
3,202,Afrique du Sud,2018,57792518
4,3,Albanie,2017,2884169
...,...,...,...,...
469,249,Yémen,2018,28498682
470,251,Zambie,2017,16853599
471,251,Zambie,2018,17351708
472,181,Zimbabwe,2017,14236595


In [9]:
population.columns

Index(['Code zone (FAO)', 'Zone', 'Année', 'Valeur'], dtype='object')

In [10]:
df_p5.columns

Index(['Code zone (FAO)', 'Zone', 'Élément', 'Code Produit', 'Produit',
       'Année', 'Unité', 'Valeur', 'Numéro', 'Code-ISO'],
      dtype='object')

In [11]:
population = population.rename(columns={'Code zone (FAO)':'code_pays', 'Zone':'pays', 'Valeur':'habitant', 'Année':'annee'})
df_p5 = df_p5.rename(columns={'Code zone (FAO)':'code_pays', 'Zone':'pays', 'Valeur':'quantite', 'Produit':'produit', 'Unité':'unite', 
                                    'Année':'annee','Code Produit':'code_produit', 'Élément':'element','Code-ISO':'code','Numéro':'num'})

## Jointures

In [12]:
# Jointure entre dispo_alim et Population
df_p5 = pd.merge(df_p5, population, on = ['code_pays','pays','annee'])

In [13]:
_2017 = population.loc[population['annee'] == 2017]
_2018 = population.loc[population['annee'] == 2018]

In [14]:
_2017 = _2017.rename(columns={'habitant':'habitant_2017'})
_2018 = _2018.rename(columns={'habitant':'habitant_2018'})

In [15]:
df2 = pd.merge(_2017,_2018, on = ['code_pays','pays'], how='outer')

In [16]:
df2.drop(['annee_x','annee_y'], axis=1, inplace=True)

In [17]:
df2.columns

Index(['code_pays', 'pays', 'habitant_2017', 'habitant_2018'], dtype='object')

In [18]:
df_p5.columns

Index(['code_pays', 'pays', 'element', 'code_produit', 'produit', 'annee',
       'unite', 'quantite', 'num', 'code', 'habitant'],
      dtype='object')

In [19]:
ddf = pd.merge(df_p5, df2, on = ['code_pays','pays'])

In [20]:
ddf.head()

Unnamed: 0,code_pays,pays,element,code_produit,produit,annee,unite,quantite,num,code,habitant,habitant_2017,habitant_2018
0,2,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),2903,Produits Vegetaux,2018,Kcal/personne/jour,1849.0,4.0,AFG,37171921,36296113,37171921
1,2,Afghanistan,Disponibilité de protéines en quantité (g/pers...,2903,Produits Vegetaux,2018,g/personne/jour,44.73,4.0,AFG,37171921,36296113,37171921
2,2,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),2941,Produits Animaux,2018,Kcal/personne/jour,191.0,4.0,AFG,37171921,36296113,37171921
3,2,Afghanistan,Disponibilité de protéines en quantité (g/pers...,2941,Produits Animaux,2018,g/personne/jour,10.79,4.0,AFG,37171921,36296113,37171921
4,202,Afrique du Sud,Disponibilité alimentaire (Kcal/personne/jour),2903,Produits Vegetaux,2018,Kcal/personne/jour,2420.0,710.0,ZAF,57792518,57009755,57792518


In [21]:
ddf['diff'] = ddf['habitant_2018']-ddf['habitant_2017']
ddf['taux_daccroiss_pop'] = np.round((ddf['diff']*100)/ddf['habitant_2017'],2)

In [22]:
ddf.shape

(624, 15)

## Les filtres

In [23]:
dispo_kcal = ddf[ddf['element'] == 'Disponibilité alimentaire (Kcal/personne/jour)'].copy()
dispo_prot = ddf[ddf['element'] == 'Disponibilité de protéines en quantité (g/personne/jour)'].copy()

In [24]:
dispo_kcal.shape

(312, 15)

In [25]:
# Dropper les colonnes element et unite
dispo_kcal.drop(['element','unite'], axis=1, inplace=True)
dispo_prot.drop(['element','unite'], axis=1, inplace=True)

#Multiplier les quantités par 365
dispo_kcal['quantite'] = dispo_kcal['quantite']*365
dispo_prot['quantite'] = dispo_prot['quantite']*365

# Renommer la colonne quantite en fonction de la variable
dispo_kcal.rename(columns={'quantite':'dispo_alim_kcal_p_an'}, inplace=True)
dispo_prot.rename(columns={'quantite':'dispo_prot_g_p_an'}, inplace=True)

In [26]:
dispo_kcal.columns

Index(['code_pays', 'pays', 'code_produit', 'produit', 'annee',
       'dispo_alim_kcal_p_an', 'num', 'code', 'habitant', 'habitant_2017',
       'habitant_2018', 'diff', 'taux_daccroiss_pop'],
      dtype='object')

## Jointures

In [27]:
df_kcal_prot = pd.merge(dispo_kcal, dispo_prot, on = ['code_pays','pays','annee','code_produit','produit','habitant_2017','habitant_2018','num','code','diff','taux_daccroiss_pop'], how ='outer')

In [28]:
#Réorganiser les colonnes
df_kcal_prot = df_kcal_prot.reindex(columns=['code_pays','pays','code_produit','produit','dispo_alim_kcal_p_an','dispo_prot_g_p_an','code','num','annee','habitant_2017','habitant_2018','diff','taux_daccroiss_pop'])

In [29]:
df_kcal_prot.head()

Unnamed: 0,code_pays,pays,code_produit,produit,dispo_alim_kcal_p_an,dispo_prot_g_p_an,code,num,annee,habitant_2017,habitant_2018,diff,taux_daccroiss_pop
0,2,Afghanistan,2903,Produits Vegetaux,674885.0,16326.45,AFG,4.0,2018,36296113,37171921,875808,2.41
1,2,Afghanistan,2941,Produits Animaux,69715.0,3938.35,AFG,4.0,2018,36296113,37171921,875808,2.41
2,202,Afrique du Sud,2903,Produits Vegetaux,883300.0,17640.45,ZAF,710.0,2018,57009755,57792518,782763,1.37
3,202,Afrique du Sud,2941,Produits Animaux,174835.0,13150.95,ZAF,710.0,2018,57009755,57792518,782763,1.37
4,3,Albanie,2903,Produits Vegetaux,860305.0,19710.0,ALB,8.0,2018,2884169,2882740,-1429,-0.05


In [30]:
#Créer la colonne proport de protéine animale
df_kcal_prot['proport_prot_ani'] = ((df_kcal_prot.loc[df_kcal_prot['produit'] == 'Produits Animaux','dispo_prot_g_p_an']*100)/df_kcal_prot['dispo_prot_g_p_an'].sum())

In [31]:
#Créer la colonne proport de protéine vegetaux
df_kcal_prot['proport_prot_veg'] = ((df_kcal_prot.loc[df_kcal_prot['produit'] == 'Produits Vegetaux','dispo_prot_g_p_an']*100)/df_kcal_prot['dispo_prot_g_p_an'].sum())

In [32]:
#Vérification
df_kcal_prot.proport_prot_veg.sum()+df_kcal_prot.proport_prot_ani.sum()

100.0

In [33]:
df_kcal_prot.head(3)

Unnamed: 0,code_pays,pays,code_produit,produit,dispo_alim_kcal_p_an,dispo_prot_g_p_an,code,num,annee,habitant_2017,habitant_2018,diff,taux_daccroiss_pop,proport_prot_ani,proport_prot_veg
0,2,Afghanistan,2903,Produits Vegetaux,674885.0,16326.45,AFG,4.0,2018,36296113,37171921,875808,2.41,,0.3484
1,2,Afghanistan,2941,Produits Animaux,69715.0,3938.35,AFG,4.0,2018,36296113,37171921,875808,2.41,0.084043,
2,202,Afrique du Sud,2903,Produits Vegetaux,883300.0,17640.45,ZAF,710.0,2018,57009755,57792518,782763,1.37,,0.37644


### Filtrage

In [34]:
veg = df_kcal_prot[df_kcal_prot['produit'] == 'Produits Vegetaux'].copy()
ani = df_kcal_prot[df_kcal_prot['produit'] == 'Produits Animaux'].copy()

In [35]:
#Choisir seulement les colonnes utiles pour le dataframe ani
ani = ani[['code_pays','pays','dispo_alim_kcal_p_an','dispo_prot_g_p_an','proport_prot_ani']]

#renommer les colonnes
ani.rename(columns={'dispo_alim_kcal_p_an':'dispo_alim_kcal_p_an_ani','dispo_prot_g_p_an':'dispo_prot_g_p_an_ani'}, inplace=True)
veg.rename(columns={'dispo_alim_kcal_p_an':'dispo_alim_kcal_p_an_veg','dispo_prot_g_p_an':'dispo_prot_g_p_an_veg'}, inplace=True)

In [36]:
ani.head()

Unnamed: 0,code_pays,pays,dispo_alim_kcal_p_an_ani,dispo_prot_g_p_an_ani,proport_prot_ani
1,2,Afghanistan,69715.0,3938.35,0.084043
3,202,Afrique du Sud,174835.0,13150.95,0.280636
5,3,Albanie,366095.0,22538.75,0.480968
7,4,Algérie,142350.0,9026.45,0.192621
9,79,Allemagne,396390.0,23370.95,0.498727


In [37]:
veg.head()

Unnamed: 0,code_pays,pays,code_produit,produit,dispo_alim_kcal_p_an_veg,dispo_prot_g_p_an_veg,code,num,annee,habitant_2017,habitant_2018,diff,taux_daccroiss_pop,proport_prot_ani,proport_prot_veg
0,2,Afghanistan,2903,Produits Vegetaux,674885.0,16326.45,AFG,4.0,2018,36296113,37171921,875808,2.41,,0.3484
2,202,Afrique du Sud,2903,Produits Vegetaux,883300.0,17640.45,ZAF,710.0,2018,57009755,57792518,782763,1.37,,0.37644
4,3,Albanie,2903,Produits Vegetaux,860305.0,19710.0,ALB,8.0,2018,2884169,2882740,-1429,-0.05,,0.420604
6,4,Algérie,2903,Produits Vegetaux,1070180.0,24491.5,DZA,12.0,2018,41389189,42228407,839218,2.03,,0.522639
8,79,Allemagne,2903,Produits Vegetaux,900820.0,15100.05,DEU,276.0,2018,82658409,83124418,466009,0.56,,0.322229


In [38]:
#Suppression des colonnes inutiles dans du df veg
veg.drop(['code_produit','produit','proport_prot_ani'], axis=1, inplace=True)

In [39]:
ani.shape

(156, 5)

### Jointure en ani et veg de telle sorter à séparer les diso_alim veg et ani

In [40]:
veg_ani = pd.merge(veg, ani, on = ['code_pays', 'pays'])

#Arrondir les colonnes
veg_ani['proport_prot_ani'] = np.round(veg_ani['proport_prot_ani'],2)
veg_ani['proport_prot_veg'] = np.round(veg_ani['proport_prot_ani'],2)
veg_ani['dispo_prot_g_p_an_veg'] = np.round(veg_ani['dispo_prot_g_p_an_veg'],2)
veg_ani['dispo_prot_g_p_an_ani'] = np.round(veg_ani['dispo_prot_g_p_an_ani'],2)

In [41]:
veg_ani.shape

(156, 15)

In [42]:
#Supprimer les colonnes inutiles pour l'analyse
veg_ani.drop(['diff','annee','dispo_prot_g_p_an_veg','habitant_2017','proport_prot_veg','dispo_alim_kcal_p_an_veg'], axis =1, inplace=True)

In [43]:
df = veg_ani.copy()

In [44]:
df.rename(columns={'habitant_2018':'nbre_habitant'}, inplace=True)
df['num'] = df['num'].astype(int)
df.head()

Unnamed: 0,code_pays,pays,code,num,nbre_habitant,taux_daccroiss_pop,dispo_alim_kcal_p_an_ani,dispo_prot_g_p_an_ani,proport_prot_ani
0,2,Afghanistan,AFG,4,37171921,2.41,69715.0,3938.35,0.08
1,202,Afrique du Sud,ZAF,710,57792518,1.37,174835.0,13150.95,0.28
2,3,Albanie,ALB,8,2882740,-0.05,366095.0,22538.75,0.48
3,4,Algérie,DZA,12,42228407,2.03,142350.0,9026.45,0.19
4,79,Allemagne,DEU,276,83124418,0.56,396390.0,23370.95,0.5


In [45]:
pib = pd.DataFrame(pd.read_csv('FAOSTAT_data_7-16-2021.csv', sep=';'))

In [46]:
pib = pib.drop(['Code Domaine', 'Domaine', 'Code Élément', 'Élément', 'Code Produit', 'Produit', 'Code année', 'Note', 'Symbole', 'Description du Symbole','Unité','Année'], axis = 1)

In [47]:
pib = pib.rename(columns={'Code zone (FAO)':'code_pays', 'Zone':'pays1', 'Valeur':'pib_habitant'})

In [48]:
df = pd.merge(df, pib, on = 'code_pays', how='left')

In [49]:
del df['pays1']

In [50]:
df.pib_habitant = np.round(df.pib_habitant, 2)

In [51]:
df.head()

Unnamed: 0,code_pays,pays,code,num,nbre_habitant,taux_daccroiss_pop,dispo_alim_kcal_p_an_ani,dispo_prot_g_p_an_ani,proport_prot_ani,pib_habitant
0,2,Afghanistan,AFG,4,37171921,2.41,69715.0,3938.35,0.08,483.89
1,202,Afrique du Sud,ZAF,710,57792518,1.37,174835.0,13150.95,0.28,6369.23
2,3,Albanie,ALB,8,2882740,-0.05,366095.0,22538.75,0.48,5254.38
3,4,Algérie,DZA,12,42228407,2.03,142350.0,9026.45,0.19,4153.96
4,79,Allemagne,DEU,276,83124418,0.56,396390.0,23370.95,0.5,47684.76


In [52]:
df.to_csv('dispo_alim_propre.csv', index=False)

In [53]:
df.shape

(156, 10)