<div align="center">
<img src = "Logo-OC.png", width = 300>
</div>

<font color=blue>
<h2>PROJET 3 - RÉALISER UNE ÉTUDE DE SANTÉ PUBLIQUE<a class="tocSkip"></h2>
    
https://openclassrooms.com/fr/projects/realisez-une-etude-de-sante-publique

 <h3>David Raux - 2018 <a class="tocSkip"></h3>
    
</font>

### Sommaire :<a id="sommaire"></a>

> [Partie 1 - Préparation des données](#partie1)
> - [1. Modifier les noms des colonnes](#1.1)
> - [2. Nettoyer le fichier 'population'](#1.2)
> - [3. Nettoyer les fichiers 'animaux' et'vegetaux'](#1.3)
> - [4. Nettoyer le fichiers 'sous_alimentation'](#1.4)
> - [5. Nettoyer le fichier 'cereal'](#1.5)
> - [6. Transformation des données](#1.6)
> - [7. Identifiez les possibles Clés Primaires](#1.7)
> 
> [Partie 2 - Identifier les grandes tendances](#partie2)
> - [Q1. Calculez le nombre total d’humains sur la planète](#2.1)
> - [Q2. Identifiez les redondances](#2.2)
> - [Q3. Calculez la disponibilité alimentaire (par pays et par produit)](#2.3)
> - [Q4. Calculez pour chaque produit le ratio "énergie/poids" en kcal/kg](#2.4)
> - [Q5. Citez 5 aliments parmi les plus caloriques et les plus riches en protéines](#2.5)
> - [Q6. Calculez, pour les produits végétaux uniquement, la disponibilité intérieure mondiale exprimée en kcal](#2.6)
> - [Q7. Combien d'humains pourraient être nourris si toute la disponibilité intérieure mondiale de produits végétaux était utilisée pour de la nourriture](#2.7)
> - [Q8. Combien d'humains pourraient être nourris si toute la disponibilité alimentaire en produits végétaux (Food), la nourriture végétale destinée aux animaux (Feed) et les pertes de produits végétaux (Losses) étaient utilisés pour de la nourriture ?](#2.8)
> - [Q9. Combien d'humains pourraient être nourris avec la disponibilité alimentaire mondiale ?](#2.9)
> - [Q10. Quelle proportion de la population mondiale est considérée comme étant en sous-nutrition ?](#2.10)
> - [Q11. En ne prenant en compte que les céréales destinées à l'alimentation (humaine et animale), quelle proportion (en termes de poids) est destinée à l'alimentation animale ?](#2.11)
> - [Q12. Donnez les 3 produits qui ont la plus grande valeur pour chacun des 2 ratios](#2.12)
> - [Q13. Combien de tonnes de céréales pourraient être libérées si les USA diminuaient leur consommation de viande de 10% ?](#2.13)
> - [Q14. En Thaïlande, quelle proportion de manioc est exportée ? Quelle est la proportion de personnes en sous-nutrition ?](#2.14)
>

# Mise en situation

Vous êtes intégré à une nouvelle équipe de chercheurs de la Food and Agriculture Organization of the United Nations (FAO) (https://fr.wikipedia.org/wiki/Organisation_des_Nations_unies_pour_l%27alimentation_et_l%27agriculture ), l'un des organes
qui compose l'ONU et dont l'objectif est d' « aider à construire un monde libéré de la faim ».

Votre équipe est chargée de réaliser une étude de grande ampleur sur le thème de la sous-nutrition dans le monde.

Le problème de la faim est complexe et peut avoir de multiples causes, différentes selon les pays. L’étape préliminaire de cette étude sera
donc d’établir un “état de l’art” des recherches déjà publiées, mais également de mener une étude statistique destinée à orienter les
recherches vers des pays particuliers, et de mettre en lumière différentes causes de la faim. Ainsi, une poignée de data analysts (dont vous !) a
été sélectionnée pour mener cette étape préliminaire. Lors de la première réunion, vous avez été désigné pour mettre une place la base de
données que votre équipe pourra requéter (en SQL) à souhait pour réaliser cette étude statistique.

# Les données

Les données sont disponibles sur le site de la FAO, à cet endroit : http://www.fao.org/faostat/fr/#data .

En fonction des besoins exprimés plus bas dans cet énoncé, il vous appartiendra de choisir quelles données télécharger. Cependant, les
rubriques qui vous seront utiles sont les suivantes :
- *Bilans alimentaires*
- *Sécurité alimentaire*, puis dans cette rubrique, *Données de la sécurité alimentaire*. Cette rubrique contient de nombreux indicateurs, mais nous ne nous intéresserons ici qu’à l’indicateur *Nombre de personnes sous-alimentées*

In [76]:
# Importation des librairies
import os
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot  as plt
%matplotlib inline

In [77]:
os.getcwd()

'/Users/davidraux/Google Drive/Parcours OC Data analyst/P3 - Réaliser une étude de santé publique'

[Retour au sommaire](#sommaire)

***
# <font color=orange> Partie 1 - Préparation des données </font><a id='partie1'> </a>
---

In [78]:
# Importation des données
pop = pd.read_csv('Donnees/population.csv')
veg = pd.read_csv('Donnees/vegetaux.csv')
ani = pd.read_csv('Donnees/animaux.csv')
sous_alim = pd.read_csv('Donnees/sous_alim.csv')
cereal = pd.read_csv('Donnees/Bilan alimentaire_Liste céréales.csv')

***
## <font color=blue>1. Modifier les noms des colonnes</font><a id='1.1'> </a>
***

In [79]:
print(pop.shape)
print(veg.shape)
print(ani.shape)
print(sous_alim.shape)
print(cereal.shape)

(175, 14)
(104011, 14)
(36908, 14)
(2448, 14)
(16057, 14)


In [80]:
sous_alim.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FS,Données de la sécurité alimentaire,2,Afghanistan,6132,Valeur,21001,Nombre de personnes sous-alimentées (millions)...,20042006,2004-2006,millions,8.1,F,Estimation FAO
1,FS,Données de la sécurité alimentaire,2,Afghanistan,6132,Valeur,21001,Nombre de personnes sous-alimentées (millions)...,20052007,2005-2007,millions,7.6,F,Estimation FAO


In [81]:
# Suppression des colonnes inutiles :
orig_cols = ["xx","xx2","codePays","pays",'xx3','element','codeProduit',
            'produit','xx4',"annee","unite","valeur",'symbole','description']
to_delete = ["xx","xx2","xx3","xx4"]
for df in [veg,ani,sous_alim,pop]:
    df.columns = orig_cols
    for col in to_delete:
        del df[col]

[Retour au sommaire](#sommaire)

***
## <font color=blue>2. Nettoyer le fichier 'population'</font><a id='1.2'> </a>
***

In [82]:
pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 10 columns):
codePays       175 non-null int64
pays           175 non-null object
element        175 non-null object
codeProduit    175 non-null int64
produit        175 non-null object
annee          175 non-null int64
unite          175 non-null object
valeur         175 non-null int64
symbole        1 non-null object
description    175 non-null object
dtypes: int64(4), object(6)
memory usage: 13.8+ KB


In [83]:
pop.symbole.unique()

array([nan, 'A'], dtype=object)

In [84]:
pop.loc[pop.symbole=='A']     ## Afficher les lignes dont le symbole est 'A'

Unnamed: 0,codePays,pays,element,codeProduit,produit,annee,unite,valeur,symbole,description
174,351,Chine,Population totale,2501,Population,2013,1000 personnes,1416667,A,"Agrégat, peut inclure des données officielles,..."


***
La ligne 174 est une agrégation des pays composant la Chine.
Il y a donc des doublons, il faut nettoyer le dataset pour obtenir le nombre total d'humains.
***

In [85]:
## Afficher toutes les lignes où les pays dont le code pays contient "Chine"
pop.loc[pop.pays.str.contains('Chine')]

Unnamed: 0,codePays,pays,element,codeProduit,produit,annee,unite,valeur,symbole,description
33,96,Chine - RAS de Hong-Kong,Population totale,2501,Population,2013,1000 personnes,7204,,Donnée officielle
34,128,Chine - RAS de Macao,Population totale,2501,Population,2013,1000 personnes,566,,Donnée officielle
35,41,"Chine, continentale",Population totale,2501,Population,2013,1000 personnes,1385567,,Donnée officielle
36,214,"Chine, Taiwan Province de",Population totale,2501,Population,2013,1000 personnes,23330,,Donnée officielle
174,351,Chine,Population totale,2501,Population,2013,1000 personnes,1416667,A,"Agrégat, peut inclure des données officielles,..."


>Le Pays 'Chine' correspond bien à l'agrégation des 4 pays ayant pour Code Pays : 96, 128, 41 et 214.
Nous allons donc nettoyer notre dataframe pour ne garder que la population hors agrégation de la Chine

In [86]:
# Supprimer le pays 'Chine' et les valeur nulles de populations.
pop = pop.loc[pop.codePays!=351]
pop.loc[:,"valeur"] = pop["valeur"] * 1e3
pop = pop[['codePays','pays','annee','valeur']]
pop.columns = ['codePays','pays','annee', "population"]
pop.head(2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


Unnamed: 0,codePays,pays,annee,population
0,2,Afghanistan,2013,30552000.0
1,202,Afrique du Sud,2013,52776000.0


In [87]:
# Recherche de valeurs nulles ou négative
pop.loc[pop.population <= 0].shape 

(0, 4)

In [88]:
# Visualition de la distributions
pop.population.describe()

count    1.740000e+02
mean     4.021452e+07
std      1.456198e+08
min      5.400000e+04
25%      2.423250e+06
50%      9.385000e+06
75%      2.857100e+07
max      1.385567e+09
Name: population, dtype: float64

> Le fichier est propre. Pas de valeurs nulles ou négatives et apparemment pas de valeurs aberrantes

[Retour au sommaire](#sommaire)

***
## <font color=blue>3. Nettoyer les fichiers 'animaux' et'vegetaux'</font><a id='1.3'> </a>
***

In [89]:
# Ajout de la variable 'groupe' 
ani["groupe"] = "animal"
veg["groupe"] = "vegetal"

# Concatener les deux dataframes (animaux et végétaux)
ani_veg = pd.concat((ani,veg))
ani_veg.head(2)

Unnamed: 0,codePays,pays,element,codeProduit,produit,annee,unite,valeur,symbole,description,groupe
0,2,Afghanistan,Production,2731,Viande de Bovins,2013,Milliers de tonnes,134.0,S,Données standardisées,animal
1,2,Afghanistan,Importations - Quantité,2731,Viande de Bovins,2013,Milliers de tonnes,6.0,S,Données standardisées,animal


In [90]:
# Nettoyage de la redondance de la Chine
ani_veg = ani_veg[ani_veg.codePays != 351]

# Affichage des pays composants la Chine
ani_veg[ani_veg.pays.str.contains('Chine')]['pays'].unique()

array(['Chine - RAS de Hong-Kong', 'Chine - RAS de Macao',
       'Chine, continentale', 'Chine, Taiwan Province de'], dtype=object)

In [91]:
# Vérifier s'il y a des valeurs Nan
ani_veg.loc[np.isnan(ani_veg.valeur)].shape

(0, 11)

In [92]:
# Visualiser les valeurs nulles
ani_veg.loc[ani_veg.valeur ==0].shape

(45504, 11)

> Il y a 45504 lignes où la valeur de l'élément est nulle.<br/>
> Nous pouvons supprimer ces lignes

In [93]:
# Supprimer les valeurs nulles
ani_veg = ani_veg.loc[ani_veg.valeur !=0]
ani_veg.loc[ani_veg.valeur ==0].shape

(0, 11)

In [94]:
ani_veg.head(2)

Unnamed: 0,codePays,pays,element,codeProduit,produit,annee,unite,valeur,symbole,description,groupe
0,2,Afghanistan,Production,2731,Viande de Bovins,2013,Milliers de tonnes,134.0,S,Données standardisées,animal
1,2,Afghanistan,Importations - Quantité,2731,Viande de Bovins,2013,Milliers de tonnes,6.0,S,Données standardisées,animal


[Retour au sommaire](#sommaire)

***
## <font color=blue>4. Nettoyer le fichiers 'sous_alimentation'</font><a id ='1.4'></a>
***

In [95]:
# Nettoyage de la redondance de la Chine
sous_alim = sous_alim[sous_alim.codePays != 351]

# Affichage des pays composants la Chine
sous_alim[sous_alim.pays.str.contains('Chine')]['pays'].unique()

array(['Chine - RAS de Hong-Kong', 'Chine - RAS de Macao',
       'Chine, continentale', 'Chine, Taiwan Province de'], dtype=object)

In [96]:
# Modification de la colonne "annee" du dataframe "sous_alim"
transf = {
    '2004-2006': 2005,
    '2005-2007': 2006,
    '2006-2008': 2007,
    '2007-2009': 2008,
    '2008-2010': 2009,
    '2009-2011': 2010,
    '2010-2012': 2011,
    '2011-2013': 2012,
    '2012-2014': 2013,
    '2013-2015': 2014,
    '2014-2016': 2015,
    '2015-2017': 2016}
sous_alim["annee"] = [transf[v] for v in sous_alim["annee"].values]
sous_alim.head(2)

Unnamed: 0,codePays,pays,element,codeProduit,produit,annee,unite,valeur,symbole,description
0,2,Afghanistan,Valeur,21001,Nombre de personnes sous-alimentées (millions)...,2005,millions,8.1,F,Estimation FAO
1,2,Afghanistan,Valeur,21001,Nombre de personnes sous-alimentées (millions)...,2006,millions,7.6,F,Estimation FAO


In [97]:
# Visualiser les valeurs nulles ou négatives
sous_alim.loc[sous_alim.valeur <= 0].shape

(0, 10)

In [98]:
# Analyser les valeurs Nan
print('{} lignes ont comme valeur = Nan'.format(sous_alim.loc[sous_alim.valeur.isna()].shape[0]))
print('-'*40)
print(sous_alim.loc[sous_alim.valeur.isna()].description.value_counts())
print('-'*40)
print(sous_alim.loc[sous_alim.valeur.isna()].symbole.value_counts())

1329 lignes ont comme valeur = Nan
----------------------------------------
Non applicable                                     542
Statistiquement insignificant                      489
Moins de 100 000 personnes sont sous-alimentées    298
Name: description, dtype: int64
----------------------------------------
NS      489
<0.1    298
Name: symbole, dtype: int64


In [99]:
# Réstriction sur les lignes venant de l'estimation de la FAO
sous_alim = sous_alim.fillna(0)

# Analyser les valeurs Nan
print('{} lignes ont comme valeur = Nan'.format(sous_alim.loc[sous_alim.valeur.isna()].shape[0]))

0 lignes ont comme valeur = Nan


In [100]:
# Transformer la colonne valeur en nb_pers_sousalim en millions.
sous_alim = sous_alim[['codePays','pays','annee','valeur']]
sous_alim.loc[:,'valeur'] = (sous_alim.valeur)* 1e6
sous_alim.columns = ['codePays','pays','annee','nb_pers_sousalim']
sous_alim.head(2)

Unnamed: 0,codePays,pays,annee,nb_pers_sousalim
0,2,Afghanistan,2005,8100000.0
1,2,Afghanistan,2006,7600000.0


In [101]:
sous_alim.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2436 entries, 0 to 2447
Data columns (total 4 columns):
codePays            2436 non-null int64
pays                2436 non-null object
annee               2436 non-null int64
nb_pers_sousalim    2436 non-null float64
dtypes: float64(1), int64(2), object(1)
memory usage: 95.2+ KB


[Retour au sommaire](#sommaire)

***
## <font color=blue>5. Nettoyer le fichier 'cereal'</font><a id ='1.5'></a>
***

In [102]:
cereal.head()

Unnamed: 0,Code Domaine,Domaine,Code Pays,Pays,Code Élément,Élément,Code Produit,Produit,Code Année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires,2,Afghanistan,5511,Production,2511,Blé,2013,2013,Milliers de tonnes,5169.0,S,Données standardisées
1,FBS,Bilans Alimentaires,2,Afghanistan,5611,Importations - Quantité,2511,Blé,2013,2013,Milliers de tonnes,1173.0,S,Données standardisées
2,FBS,Bilans Alimentaires,2,Afghanistan,5072,Variation de stock,2511,Blé,2013,2013,Milliers de tonnes,-350.0,S,Données standardisées
3,FBS,Bilans Alimentaires,2,Afghanistan,5301,Disponibilité intérieure,2511,Blé,2013,2013,Milliers de tonnes,5992.0,S,Données standardisées
4,FBS,Bilans Alimentaires,2,Afghanistan,5527,Semences,2511,Blé,2013,2013,Milliers de tonnes,322.0,S,Données standardisées


In [103]:
# Nettoyage de la redondance de la Chine
cereal = cereal[cereal.Pays != 'Chine']

# Affichage des pays composants la Chine
cereal[cereal.Pays.str.contains('Chine')]['Pays'].unique()

array(['Chine - RAS de Hong-Kong', 'Chine - RAS de Macao',
       'Chine, continentale', 'Chine, Taiwan Province de'], dtype=object)

In [104]:
cereal.head(2)

Unnamed: 0,Code Domaine,Domaine,Code Pays,Pays,Code Élément,Élément,Code Produit,Produit,Code Année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires,2,Afghanistan,5511,Production,2511,Blé,2013,2013,Milliers de tonnes,5169.0,S,Données standardisées
1,FBS,Bilans Alimentaires,2,Afghanistan,5611,Importations - Quantité,2511,Blé,2013,2013,Milliers de tonnes,1173.0,S,Données standardisées


[Retour au sommaire](#sommaire)

***
## <font color=blue>6. Transformation des données</font><a id='1.6'></a>
***

In [105]:
# Transformation de data en table pivot
df_bilan = ani_veg.pivot_table(index=["codePays","pays","codeProduit","produit","annee","groupe"], 
                           values=["valeur"], aggfunc=sum, columns = "element")
df_bilan.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur,valeur
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,element,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
codePays,pays,codeProduit,produit,annee,groupe,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2
1,Arménie,2511,Blé,2013,vegetal,93.0,,1024.0,130.6,3.6,30.52,554.0,1.0,361.0,389.0,32.0,312.0,30.0,10.0,-118.0
1,Arménie,2513,Orge,2013,vegetal,137.0,26.0,,,,,198.0,,9.0,,15.0,189.0,14.0,7.0,


In [106]:
# Remettre les colonnes sur un niveau
df_bilan.columns = ['Aliments pour animaux','Autres Utilisations',
                    'Disponibilité alimentaire (Kcal/personne/jour)',
                    'Disponibilité alimentaire en quantité (kg/personne/an)',
                    'Disponibilité de matière grasse en quantité (g/personne/jour)',
                    'Disponibilité de protéines en quantité (g/personne/jour)',
                    'Disponibilité intérieure', 
                    'Exportations - Quantité',
                    'Importations - Quantité',
                    'Nourriture', 'Pertes', 'Production','Semences','Traitement','Variation de stock']

# Réindexation du dataframe                  
df_bilan = df_bilan.reset_index()
df_bilan.head(2)

Unnamed: 0,codePays,pays,codeProduit,produit,annee,groupe,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),...,Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,1,Arménie,2511,Blé,2013,vegetal,93.0,,1024.0,130.6,...,30.52,554.0,1.0,361.0,389.0,32.0,312.0,30.0,10.0,-118.0
1,1,Arménie,2513,Orge,2013,vegetal,137.0,26.0,,,...,,198.0,,9.0,,15.0,189.0,14.0,7.0,


> Jointure des dataframes population et df_bilan.

In [107]:
pop.head(2)

Unnamed: 0,codePays,pays,annee,population
0,2,Afghanistan,2013,30552000.0
1,202,Afrique du Sud,2013,52776000.0


In [108]:
# Jointure naturelle des tables 'population' et df_bilan
bilan_alim = pd.merge(df_bilan, pop)
bilan_alim.head(2)

Unnamed: 0,codePays,pays,codeProduit,produit,annee,groupe,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),...,Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock,population
0,1,Arménie,2511,Blé,2013,vegetal,93.0,,1024.0,130.6,...,554.0,1.0,361.0,389.0,32.0,312.0,30.0,10.0,-118.0,2977000.0
1,1,Arménie,2513,Orge,2013,vegetal,137.0,26.0,,,...,198.0,,9.0,,15.0,189.0,14.0,7.0,,2977000.0


In [109]:
bilan_alim = bilan_alim[['codePays','pays','produit','annee', 'groupe',
       'Disponibilité intérieure', 'Exportations - Quantité', 'Aliments pour animaux', 'Nourriture',
       'Disponibilité alimentaire (Kcal/personne/jour)', 'Disponibilité alimentaire en quantité (kg/personne/an)',
       'Importations - Quantité', 'Autres Utilisations', 'Traitement', 'Production',
       'Disponibilité de protéines en quantité (g/personne/jour)', 'Semences', 'Variation de stock',
       'Pertes', 'population']]

bilan_alim.head(2)

Unnamed: 0,codePays,pays,produit,annee,groupe,Disponibilité intérieure,Exportations - Quantité,Aliments pour animaux,Nourriture,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Importations - Quantité,Autres Utilisations,Traitement,Production,Disponibilité de protéines en quantité (g/personne/jour),Semences,Variation de stock,Pertes,population
0,1,Arménie,Blé,2013,vegetal,554.0,1.0,93.0,389.0,1024.0,130.6,361.0,,10.0,312.0,30.52,30.0,-118.0,32.0,2977000.0
1,1,Arménie,Orge,2013,vegetal,198.0,,137.0,,,,9.0,26.0,7.0,189.0,,14.0,,15.0,2977000.0


> Jointure des dataframes population et sous_nutrition.

In [110]:
# Jointure externe des dataframes population et sous_nutrition.
# countries_data = pd.merge(pop, sous_alim, on=["codePays","annee"], how="left")
sous_nutrition = pd.merge(pop, sous_alim)
sous_nutrition = sous_nutrition[['codePays', 'pays', 'annee', 'population', 'nb_pers_sousalim' ]]
sous_nutrition.head(2)

Unnamed: 0,codePays,pays,annee,population,nb_pers_sousalim
0,2,Afghanistan,2013,30552000.0,7200000.0
1,202,Afrique du Sud,2013,52776000.0,2000000.0


[Retour au sommaire](#sommaire)

***
## <font color=blue>7. Identifiez les possibles Clés Primaires</font><a id='1.7'></a>
***

In [111]:
# Tester des clés primaires permet de mieux comprendre la structure du dataset, et est utile en cas de jointures
def verif_clef_primaire(df, columns_pk):
    if len(df) != len(df[columns_pk].drop_duplicates()):
        raise Exception("{} ne peux pas être clef primaire!".format(columns_pk))  
    print("Les colonnes {} peuvent être clef primaire pour le dataframe.".format(columns_pk))

verif_clef_primaire(veg,["codePays","annee","element","produit"])
verif_clef_primaire(ani,["codePays","annee","element","produit"])
verif_clef_primaire(sous_alim,["codePays","annee"])
verif_clef_primaire(pop,["codePays","annee"])

Les colonnes ['codePays', 'annee', 'element', 'produit'] peuvent être clef primaire pour le dataframe.
Les colonnes ['codePays', 'annee', 'element', 'produit'] peuvent être clef primaire pour le dataframe.
Les colonnes ['codePays', 'annee'] peuvent être clef primaire pour le dataframe.
Les colonnes ['codePays', 'annee'] peuvent être clef primaire pour le dataframe.


[Retour au sommaire](#sommaire)

***
# <font color=orange> Partie 2 - Identifier les grandes tendances </font><a id='partie2'></a>
---

## <font color=blue>1.	Calculez le nombre total d’humains sur la planète</font><a id='2.1'></a>

Pour calculer le nombre total d'humains sur la planète, il suffit d'effectuer la somme de la colonne 'population' du dataframe 'pop'

In [112]:
annee = 2013

nb_humains_total = pop[pop.annee == annee].population.sum()
print("Population mondiale en {} : {:,} humains".format(annee, nb_humains_total))

Population mondiale en 2013 : 6,997,326,000.0 humains


[Retour au sommaire](#sommaire)

***
## <font color=blue>2. Identifiez les redondances</font><a id='2.2'></a>
***

---
**Après une recherche sur le site de la FAO :**

Définitions et Standards - Bilans Alimentaires
Code élément : 5301	
Elément : Disponibilité intérieure	
Unité : Milliers de tonnes	
Description : Production + importations - exportations + évolution des stocks (augmentation ou diminution) = disponibilités servant à une utilisation intérieure.
Source: Division de la statistique (FAO)
***

In [113]:
df_france_ble = bilan_alim.loc[(bilan_alim.pays == 'France') & (bilan_alim.produit == 'Blé')]
df_france_ble

Unnamed: 0,codePays,pays,produit,annee,groupe,Disponibilité intérieure,Exportations - Quantité,Aliments pour animaux,Nourriture,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Importations - Quantité,Autres Utilisations,Traitement,Production,Disponibilité de protéines en quantité (g/personne/jour),Semences,Variation de stock,Pertes,population
3571,68,France,Blé,2013,vegetal,20298.0,21502.0,7822.0,6971.0,811.0,108.43,2055.0,2824.0,1575.0,38614.0,25.99,748.0,1131.0,358.0,64291000.0


>**Vérification pour la France :**
>
>Disponibilité intérieure comme Ressources = Production + importations + évolution des stocks - exportations
>
>Disponibilité intérieure comme Emplois = Aliments pour animaux + Semences + Pertes + Traitement + Autres utilisations + Nourriture

In [114]:
print("La disponibilité intérieure calculée par la FAO est de {:,} milliers de tonnes".format(20298))
print("En ressources, notre calcul estime que la disponibilité intérieure pour la France est de {:,} milliers de tonnes".format(38614 + 2055 + 1131 - 21502))
print("En emplois, notre calcul estime que la disponibilité intérieure pour la France est de {:,} milliers de tonnes".format(7822 + 748 + 358 + 1575 + 2824 + 6971))

La disponibilité intérieure calculée par la FAO est de 20,298 milliers de tonnes
En ressources, notre calcul estime que la disponibilité intérieure pour la France est de 20,298 milliers de tonnes
En emplois, notre calcul estime que la disponibilité intérieure pour la France est de 20,298 milliers de tonnes


In [115]:
# on restreint a la france et au blé
vege_fr_ble_df = bilan_alim.loc[(bilan_alim.pays == 'France') & (bilan_alim.produit == 'Blé')]

# on cherche les valeurs que l'on veut

valeur = lambda element: vege_fr_ble_df['Valeur'][vege_fr_ble_df['Élément'] == element].values[0]

production =               valeur('Production')
importations =             valeur('Importations - Quantité')
exportations =             valeur('Exportations - Quantité')
variation_de_stock =       valeur('Variation de stock')
disponibilite_interieure = valeur('Disponibilité intérieure')
semences =                 valeur('Semences')
pertes =                   valeur('Pertes')
nourriture =               valeur('Nourriture')
aliments_pour_animaux =    valeur('Aliments pour animaux')
traitement =               valeur('Traitement')
autres_utilisations =      valeur('Autres Utilisations')

print( 'disponibilité intérieur (Millier de tonnes) : {}'.format(disponibilite_interieure))
print('égalité de l\'équation correcte ? -> {}'.format(
disponibilite_interieure \
== nourriture + pertes + semences + autres_utilisations + aliments_pour_animaux + traitement \
== production + importations - exportations + variation_de_stock 
))

KeyError: 'Valeur'

> Vérification pour l'ensemble du dataset bilan_alim

In [75]:
bilan_alim = bilan_alim.fillna(0)
bilan_alim["tmp1"] = bilan_alim['Production'] + bilan_alim['Importations - Quantité'] - bilan_alim['Exportations - Quantité'] + bilan_alim['Variation de stock']
bilan_alim["tmp2"] = bilan_alim['Disponibilité intérieure']
bilan_alim["tmp3"] = bilan_alim['Aliments pour animaux'] + bilan_alim['Nourriture'] + bilan_alim['Autres Utilisations'] + bilan_alim['Traitement'] + bilan_alim['Semences'] + bilan_alim['Pertes']
print(np.mean(bilan_alim['tmp2'] - bilan_alim['tmp1']))
print(np.mean(bilan_alim['tmp2'] - bilan_alim['tmp3']))
del bilan_alim["tmp1"]
del bilan_alim["tmp2"]
del bilan_alim["tmp3"]

-0.013274992583803026
-0.7118065855829131


> En moyenne la disponibilité intérieure est bien très proche des ressources et des emplois

[Retour au sommaire](#sommaire)

***
## <font color=blue>3. Calculez la disponibilité alimentaire (par pays et par produit)</font><a id='2.3'></a>
***

Calculez (pour chaque pays et chaque produit) la disponibilité alimentaire en kcal puis en kg de protéines. Vous ferez cela à partir de ces informations :
- Population de chaque pays ;
- Disponibilité alimentaire ("Food Supply" en anglais) donnée pour chaque produit et pour chaque pays en kcal/personne/jour.
- Disponibilité alimentaire en protéines ("Protein supply quantity" en anglais) donnée pour chaque produit et pour chaque pays en g/personne/jour.

In [None]:
# Ajouter la colonne dispo_alim_kcal
bilan_alim["dispo_alim_kcal"] = bilan_alim["Disponibilité alimentaire (Kcal/personne/jour)"] * bilan_alim["population"] * 365

# Colonne contenant le poids de la disponibilité alimentaire pour chaque pays et produit (en kg)
bilan_alim["dispo_alim_kg"] = bilan_alim["Nourriture"] * 1e6

# Ajouter la colonne dispo_prot_kg
bilan_alim["dispo_prot_kg"] = bilan_alim["Disponibilité de protéines en quantité (g/personne/jour)"] * 0.001 * bilan_alim["population"] *365

dispo_alim = bilan_alim[["pays","annee","groupe","produit","dispo_alim_kcal","dispo_alim_kg","dispo_prot_kg"]]
dispo_alim.head(2)

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q4. Calculez pour chaque produit le ratio "énergie/poids" en kcal/kg</font><a id='2.4'></a>
***

In [None]:
# Calcul des ratios
mask = dispo_alim["dispo_alim_kg"] != 0
dispo_alim.loc[mask, 'ratio_kcal/kg'] = dispo_alim.loc[mask, "dispo_alim_kcal"] / dispo_alim.loc[mask, "dispo_alim_kg"]
dispo_alim.loc[mask, 'protein_%'] = 100 * dispo_alim.loc[mask, "dispo_prot_kg"] / dispo_alim.loc[mask, "dispo_alim_kg"]

# Produits les plus caloriques
annee = 2013
ratio_kcal_kg = dispo_alim.groupby("produit")["ratio_kcal/kg"].mean()   # Regroupement par la moyenne par produit
protein_p = dispo_alim.groupby("produit")["protein_%"].mean()
produits_info = pd.DataFrame({"ratio_kcal/kg": ratio_kcal_kg, "protein_%": protein_p})

In [None]:
# Trier les produits par l'apport en protéine.
produits_info.sort_values("protein_%", ascending=False)[:100]

> Les légumineuses sont les produits apportant le plus de protéine.

In [None]:
# Trier les produits par l'apport en énergie.
produits_info.sort_values("ratio_kcal/kg", ascending=False)[:10]

> Les huiles sont les produits les plus caloriques

### Vérifions nos valeurs avec l'oeuf et l'avoine
Le site de la confédération des producteurs d'oeufs du Quebec précise que la valeur calorique d'un oeuf de 53g est de 70 cal et 6,5 g de protéine. (https://oeuf.ca/loeuf/nutrition/valeurs-nutritives/)<br/>
=> **Valeur nutritive d'un oeuf : 1320 kcal/kg et 12,3% de protéine**.

Le site wikipédia précise que la valeur calorique pour 100g d'avoine est de 326 kcal et 10,7g de protéine.(https://fr.wikipedia.org/wiki/Avoine_cultiv%C3%A9e).
=> **Valeur nutritive de l'avoine : 3260 kcal/kg et 10,7% de protéine**.

In [None]:
# Vérifier la cohérence du résultat avec l'oeuf
produits_info.loc['Oeufs']

In [None]:
# Vérifier la cohérence du résultat avec l'avoine
produits_info.loc['Avoine']

> Nos valeurs sont donc cohérentes

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q5. Citez 5 aliments parmi les plus caloriques et les plus riches en protéines.</font><a id='2.5'></a>
***

(en utilisant le ratio énergie/poids)    
Étonnamment, il arrive que ce ratio soit différent en fonction du pays. Il faudra donc réaliser pour chaque aliment une moyenne sur les différents pays. Vous créerez donc une nouvelle table grâce à une agrégation. __Attention à bien retirer les valeurs égales à 0 afin de ne pas fausser le calcul de la moyenne__.</span>

In [None]:
round(produits_info["protein_%"],1).nlargest(5)

In [None]:
round(produits_info["ratio_kcal/kg"],1).nlargest(5)

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q6. Calculez, pour les produits végétaux uniquement, la disponibilité intérieure mondiale exprimée en kcal.</font><a id='2.6'></a>
***

In [None]:
dispo_int_veg = pd.merge(df_bilan, produits_info, on ='produit')
dispo_int_veg.head(2)

In [None]:
dispo_int_veg = dispo_int_veg[['codePays', 'pays', 'produit', 'annee', 'groupe',
       'Disponibilité intérieure','ratio_kcal/kg', 'protein_%']]
dispo_int_veg.fillna(0, inplace=True)
dispo_int_veg.head(2)

In [None]:
# Ajout de la disponibilité intérieure en kcal
dispo_int_veg["dispo_int_kcal"] = dispo_int_veg["Disponibilité intérieure"] * 1e6 * dispo_int_veg["ratio_kcal/kg"]
dispo_int_veg["dispo_int_kg_prot"] = dispo_int_veg["Disponibilité intérieure"] * 1e6 * dispo_int_veg["protein_%"] * .01
dispo_int_veg.head(2)

In [None]:
dispo_int_veg_kcal = dispo_int_veg.dispo_int_kcal.sum()
dispo_int_veg_kcal

In [None]:
dispo_int_veg_prot = dispo_int_veg.dispo_int_kg_prot.sum()
dispo_int_veg_prot

In [None]:
# Calculer la disponibilité intérieure en Kcal et kg de protéine annuel des végétaux au niveau mondiale
gb = dispo_int_veg.groupby('annee')
pd.DataFrame({"dispo_int_kcal": gb["dispo_int_kcal"].sum(), "dispo_int_kgProt": gb["dispo_int_kg_prot"].sum()})

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q7. Combien d'humains pourraient être nourris si toute la disponibilité intérieure mondiale de produits végétaux était utilisée pour de la nourriture.</font><a id='2.7'></a>
***

> Donnez les résultats en termes de calories, puis de protéines, et exprimez ensuite ces 2 résultats en pourcentage de la population mondiale.

***
En terme de Kcal :
Après des recherches sur le site de la FAO, nous estimons qu'en moyenne, le minimum d'énergie requis est de 1850Kcal/jour.

Source: Minimum Dietary Energy Requirement (kcal/person/day)
http://www.fao.org/fileadmin/templates/ess/documents/food_security_statistics/MinimumDietaryEnergyRequirement_en.xls
***

In [None]:
# Nombre de calories par jour et par personne
kcal_jour_reco = 1850

In [None]:
print("Le nombre d'humains qui pourraient être nourris si toute la production végétale\
 était utilisée pour la nourriture est de {} milliards de personnes"
      .format(round((dispo_int_veg_kcal / 365 / kcal_jour_reco / 10**9),2)))

print("Ce qui représente {}% de la population mondiale"
      .format(round((dispo_int_veg_kcal / 365 / kcal_jour_reco)/(nb_humains_total)*100),2))

***
En terme de protéine :
Après des recherches, le poids moyen d'un humain est de 62kg et le besoin en protéines moyens pour un humain est de 0.9 g/kg/jour<br/>
=> 0.0558 g de protéine / jour<br/>
Source : https://en.wikipedia.org/wiki/Human_body_weight
***

In [None]:
# Besoin en protéines moyens pour un humain : 0.9 g/kg/jour
prot_jour_reco = 62 * .9 * .001

In [None]:
print("Le nombre d'humains qui pourraient être nourris si toute la production végétale\
 était utilisée pour la nourriture est de {} milliards de personnes"
      .format(round((dispo_int_veg_prot / 365 / prot_jour_reco / 10**9),2)))

print("Ce qui représente {}% de la population mondiale"
      .format(round((dispo_int_veg_prot / 365 / prot_jour_reco)/(nb_humains_total)*100),2))

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q8. Combien d'humains pourraient être nourris si toute la disponibilité alimentaire en produits végétaux (Food), la nourriture végétale destinée aux animaux (Feed) et les pertes de produits végétaux (Losses) étaient utilisés pour de la nourriture ?</font><a id='2.8'></a>
***

In [None]:
# Jointure de la table complète 'bilan_alim' et la table des ratios 'produits_info'
bilan_alim_prod = pd.merge(bilan_alim, produits_info, on ='produit')

In [None]:
bilan_alim_prod["food_feed_losses_kcal"] = bilan_alim_prod[["Nourriture","Aliments pour animaux","Pertes"]].sum(axis=1) \
                                        * 1e6 * bilan_alim_prod["ratio_kcal/kg"]
bilan_alim_prod["food_feed_losses_kgprot"] = bilan_alim_prod[["Nourriture","Aliments pour animaux","Pertes"]].sum(axis=1) \
                                        * 1e6 * bilan_alim_prod["protein_%"] * .01
# Selection des produits vegetaux
vegetal = bilan_alim_prod[bilan_alim_prod["groupe"] == "vegetal"]

# Calcul de la dispo. alim., nouriture animale et pertes par année
q_kcal = vegetal.groupby("annee")["food_feed_losses_kcal"].sum()
q_kgprot = vegetal.groupby("annee")["food_feed_losses_kgprot"].sum()
quantity = pd.DataFrame({"kcal": q_kcal, "kgprot": q_kgprot})
quantity

In [None]:
# Calculer la populattion pouvant être nourrie

population = (quantity.loc[2013, "kcal"]) / 365 / kcal_jour_reco
print("En termes calorifiques, la population potentiellement nourrie par la disponibilité alimentaire, \
la nouriture animale et les pertes de produits végétaux est de: \
\n{} Miliards, soit {}% de la population mondiale."
      .format(round(population/1e9,2), round(100*population/nb_humains_total)))

print("- " * 58)

population = quantity.loc[2013, "kgprot"] / 365 / prot_jour_reco
print("En termes de protéines, la population potentiellement nourrie par la disponibilité alimentaire, \
la nouriture animale et les pertes de produits végétaux est de:\
\n{} Miliards, soit {}% de la population mondiale."
      .format(round(population/1e9,2), round(100*population/nb_humains_total)))


[Retour au sommaire](#sommaire)

***
## <font color=blue>Q9. Combien d'humains pourraient être nourris avec la disponibilité alimentaire mondiale ?</font><a id='2.9'></a>
***

> Les colonnes de la dispo alimentaire en kcal et en g de protéine sont déjà dans le dataframe 'vegetal'

In [None]:
# Calcul de la dispo. alim., nouriture animale et pertes par année
q_kcal = vegetal.groupby("annee")["dispo_alim_kcal"].sum()
q_kgprot = vegetal.groupby("annee")["dispo_prot_kg"].sum()
quantity = pd.DataFrame({"kcal": q_kcal, "kgprot": q_kgprot})
quantity

In [None]:
# Calculer la population pouvant être nourrie

population = (quantity.loc[2013, "kcal"]) / 365 / kcal_jour_reco
print("En termes calorifiques, la population potentiellement nourrie par la disponibilité alimentaire est de :\
      \n{} Miliards, soit {}% de la population mondiale."
      .format(round(population/1e9,2), round(100*population/nb_humains_total)))

print("- " * 58)

population = quantity.loc[2013, "kgprot"] / 365 / prot_jour_reco
print("En termes de protéines, la population potentiellement nourrie par la disponibilité alimentaire est de :\
\n{} Miliards, soit {}% de la population mondiale."
      .format(round(population/1e9,2), round(100*population/nb_humains_total)))

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q10. Quelle proportion de la population mondiale est considérée comme étant en sous-nutrition ?</font><a id='2.10'></a>
***

In [None]:
# Jointure du fichier population et du fichier sous nutrition (sur pays/annee)
sous_alim_pop = pd.merge(sous_alim,pop)
sous_alim_pop = sous_alim_pop.set_index("pays")

# Calcul du pourcentage de personnes en sous-nutrition
sous_alim_pop["sous_nutrition_%"] = round((sous_alim_pop["nb_pers_sousalim"] / sous_alim_pop["population"] *100),1)
sous_alim_pop['sous_nutrition_%'].sort_values(ascending = False).head(10)

In [None]:
nb_pers_sousalim_total = sous_alim_pop['nb_pers_sousalim'].sum()

print('Le nombre total de personnes sous-alimentées au niveau mondial est de {:,} personnes.'.format(
int(nb_pers_sousalim_total)))
print('Soit environ {} millions de personnes, ce qui correspond à {}% de la population mondiale'\
      .format(round((nb_pers_sousalim_total/1e6),2),(round(nb_pers_sousalim_total/nb_humains_total*100,1))))

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q11. En ne prenant en compte que les céréales destinées à l'alimentation (humaine et animale), quelle proportion (en termes de poids) est destinée à l'alimentation animale ?</font><a id='2.11'></a>
***

- Établissez la liste des produits (ainsi que leur code) considéré comme des céréales selon la FAO.


In [None]:
# Liste des céréales
cereal_list = cereal[["Produit","Code Produit"]].drop_duplicates()
cereal_list

- Repérez dans vos données les informations concernant les céréales (par exemple en créant une colonne de type booléen nommée "is_cereal")</span>

In [None]:
bilan_alim["is_cereal"] = bilan_alim.produit.isin(cereal_list['Produit'].values)
bilan_alim_cereal = bilan_alim.loc[bilan_alim['is_cereal'] == True]
bilan_alim_cereal.head(2)

In [None]:
cereal_nourriture = bilan_alim_cereal["Nourriture"].sum()
cereal_animaux = bilan_alim_cereal["Aliments pour animaux"].sum()
print("{}% des céréales destinées à l'alimentation (humaine et animale) est destinée à l'alimentation animale "
      .format(round(100*cereal_animaux/(cereal_animaux+cereal_nourriture))))

<a id="sommaire"></a>

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q12. Donnez les 3 produits qui ont la plus grande valeur pour chacun des 2 ratios.</font><a id='2.12'></a>
***

Sélectionnez parmi les données des bilans alimentaires les informations relatives aux pays dans lesquels la FAO recense des personnes en sous-nutrition, pour une année choisie

In [None]:
## Jointure entre le fichier 'sous alimentation' et 'bilan alimentaire'
und_data = pd.merge(sous_alim_pop, bilan_alim)
und_data.head(2)

Donnez les 15 produits les plus exportés par ce groupe de pays sur l'année choisie

In [None]:
# calcul des % d'export
und_data = und_data.groupby(["produit","annee"])['Exportations - Quantité','Importations - Quantité'].sum()
und_data = und_data.sort_values("Exportations - Quantité", ascending = False)
und_data = und_data.reset_index()
#und_data = und_data.set_index('produit')
und_data.head(n=15)

In [None]:
# Produits les plus exportés par les pays en sous nutrition
produit_export = und_data.iloc[:15,]["produit"].values
produit_export

Parmi les données des bilans alimentaires au niveau mondial, sélectionnez les 200 plus grandes importations de ces produits (1 importation = une quantité d'un produit donné importée par un pays donné sur l'année choisie)

In [None]:
importations = bilan_alim[(bilan_alim.produit.isin(produit_export)) & (bilan_alim.annee == annee)]
importations.sort_values("Importations - Quantité").iloc[200:,]

Groupez ces importations par produit, afin d'avoir une table contenant 1 ligne pour chacun des 15 produits. Ensuite, calculez pour chaque produit les 2 quantités suivantes : 
- le ratio entre la quantité destinés aux "Autres utilisations" et la disponibilité intérieure.
- le ratio entre la quantité destinée à la nouriture animale et la quantité destinée à la nouriture (animale + humaine)

In [None]:
# Grouper les importations par produit
imp = importations.groupby(['produit']).sum()

imp["autre_utilisation_%"]  = round((imp['Autres Utilisations']/imp['Disponibilité intérieure']),1)
imp["alim_animaux_vs_alimentation"]  = round((imp['Aliments pour animaux']/(imp['Aliments pour animaux']+imp['Nourriture']) *100),1)

imp.sort_values("autre_utilisation_%", ascending = False).iloc[:3]

In [None]:
imp.sort_values("alim_animaux_vs_alimentation", ascending = False).iloc[:3]

***
## <font color=blue>Q13. Combien de tonnes de céréales pourraient être libérées si les USA diminuaient leur consommation de viande de 10% ?</font><a id='2.13'></a>
***

In [None]:
bilan_alim_USA = bilan_alim[(bilan_alim.pays == 'États-Unis d\'Amérique') & (bilan_alim.annee == annee)]

In [None]:
tonnes_cereales_liberees = bilan_alim_USA.loc[:,'Aliments pour animaux'].sum() * 0.1
tonnes_cereales_liberees

[Retour au sommaire](#sommaire)

***
## <font color=blue>Q14. En Thaïlande, quelle proportion de manioc est exportée ? Quelle est la proportion de personnes en sous-nutrition ?</font><a id='2.14'></a>
***

In [None]:
sous_alim_pop[sous_alim_pop.index == "Thaïlande"]

In [None]:
bilan_alim[(bilan_alim.produit == 'Manioc')&(bilan_alim.pays == 'Thaïlande')]

[Retour au sommaire](#sommaire)