# Réalisez une étude de santé publique

Vous êtes intégré à une nouvelle équipe de chercheurs de la Food and Agriculture Organization of the United Nations (FAO), l'un des organes qui compose l'ONU et dont l'objectif est d' « aider à construire un monde libéré de la faim ».

Votre équipe est chargée de réaliser une étude de grande ampleur sur le thème de la sous-nutrition dans le monde.

Le problème de la faim est complexe et peut avoir de multiples causes, différentes selon les pays. L’étape préliminaire de cette étude sera donc d’établir un “état de l’art” des recherches déjà publiées, mais également de mener une étude statistique destinée à orienter les recherches vers des pays particuliers, et de mettre en lumière différentes causes de la faim. Ainsi, une poignée de data analysts (dont vous !) a été sélectionnée pour mener cette étape préliminaire. Lors de la première réunion, vous avez été désigné pour mettre une place la base de données que votre équipe pourra requéter (en SQL) à souhait pour réaliser cette étude statistique.

## Les données


Les données sont disponibles sur le site de la FAO, à cet endroit : http://www.fao.org/faostat/fr/#data .

En fonction des besoins exprimés plus bas dans cet énoncé, il vous appartiendra de choisir quelles données télécharger. Cependant, les rubriques qui vous seront utiles sont les suivantes :

Bilans alimentaires
Sécurité alimentaire, puis dans cette rubrique, Données de la sécurité alimentaire .
Cette rubrique contient de nombreux indicateurs, mais nous ne nous intéresserons ici qu’à l’indicateur Nombre de personnes sous-alimentées


### Pour ce projet, il est vivement conseillé de formater votre dataframe principal de manière à obtenir une colonne pour chaque élément (Production, Importation, Disponibilité intérieure, Semences, etc.) de cette manière :

In [1]:
# Import des librairies
import numpy as np
import pandas as pd
import seaborn as sns

# Import des données des bilans alimentaires
veg =  pd.read_csv('FAOSTAT_data_vege.csv')
ani = pd.read_csv('FAOSTAT_data_ani.csv')

# Ajout de la variable origin
ani["origin"] = "animal"
veg["origin"] = "vegetal"

# On regroupe veg et ani en un unique dataframe, via une union
temp = ani.append(veg)

# Suppression de ani et veg
del ani, veg



# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6'
    ,'origin']

# Transformation de temp en table pivot
data = temp.pivot_table(
    index=["country_code","country","item_code","item","year","origin"],
    columns = ["element"], values =["value"], aggfunc=sum)
# On renomme les colonnes (attention l'ordre peut changer selon vos données !)
data.columns = ['Aliments pour animaux',  'Autres Utilisations', 'Disponibilité alimentaire (Kcal/personne/jour)','Disponibilité alimentaire en quantité (kg/personne/an)', 'Disponibilité de matière grasse en quantité (g/personne/jour)', 'Disponibilité de protéines en quantité (g/personne/jour)', 'Disponibilité intérieure',  'Exportations','Importations',  'Nourriture', 'Pertes','Production',  'Semences','Transformés',  'Variation de stock' 
]
    
data = data.reset_index()
data.head()


Unnamed: 0,country_code,country,item_code,item,year,origin,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),...,Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations,Importations,Nourriture,Pertes,Production,Semences,Transformés,Variation de stock
0,1,Arménie,2511,Blé,2013,vegetal,93.0,0.0,1024.0,130.6,...,30.52,554.0,1.0,361.0,389.0,32.0,312.0,30.0,10.0,-118.0
1,1,Arménie,2513,Orge,2013,vegetal,137.0,26.0,0.0,0.0,...,0.0,198.0,0.0,9.0,0.0,15.0,189.0,14.0,7.0,0.0
2,1,Arménie,2514,Maïs,2013,vegetal,96.0,,0.0,0.03,...,0.01,102.0,,82.0,0.0,7.0,21.0,0.0,,
3,1,Arménie,2515,Seigle,2013,vegetal,1.0,,1.0,0.12,...,0.02,1.0,,0.0,0.0,0.0,1.0,0.0,,0.0
4,1,Arménie,2516,Avoine,2013,vegetal,4.0,,2.0,0.37,...,0.09,6.0,,1.0,1.0,0.0,5.0,0.0,,


In [2]:
# On check que les colonnes sont bien en ordre
armenia= data.loc[ data['country'] == 'Arménie']
armenia = armenia.loc[armenia['item']== 'Abats Comestible']
armenia

Unnamed: 0,country_code,country,item_code,item,year,origin,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),...,Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations,Importations,Nourriture,Pertes,Production,Semences,Transformés,Variation de stock
71,1,Arménie,2736,Abats Comestible,2013,animal,,3.0,14.0,4.59,...,2.25,17.0,0.0,2.0,14.0,0.0,15.0,,,


### Créez un dataframe contenant les informations de population de chaque pays. Calculez le nombre total d’humains sur la planète. Critiquez votre résultat. En cas d’anomalie, analysez et effectuer les corrections nécessaires.

### Question 1 : donnez le résultat de votre calcul pour l'année 2013, ainsi que pour la dernière année  disponible au jour où vous effectuez ce projet.

In [3]:
# Import des données des population
df_data_3 = pd.read_csv('FAOSTAT_data_population_2013.csv')
df_data_3.head()

Unnamed: 0,Code Domaine,Domaine,Code Pays,Pays,Code Élément,Élément,Code Produit,Produit,Code Année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires,2,Afghanistan,511,Population totale,2501,Population,2013,2013,1000 personnes,30552,,Donnée officielle
1,FBS,Bilans Alimentaires,202,Afrique du Sud,511,Population totale,2501,Population,2013,2013,1000 personnes,52776,,Donnée officielle
2,FBS,Bilans Alimentaires,3,Albanie,511,Population totale,2501,Population,2013,2013,1000 personnes,3173,,Donnée officielle
3,FBS,Bilans Alimentaires,4,Algérie,511,Population totale,2501,Population,2013,2013,1000 personnes,39208,,Donnée officielle
4,FBS,Bilans Alimentaires,79,Allemagne,511,Population totale,2501,Population,2013,2013,1000 personnes,82727,,Donnée officielle


In [4]:
# On transforme les valeurs en milliers
df_data_3['Population totale (en milliers)']= df_data_3['Valeur']*1000
df_data_3 = df_data_3[['Pays','Population totale (en milliers)']]

df_data_3.head()

Unnamed: 0,Pays,Population totale (en milliers)
0,Afghanistan,30552000
1,Afrique du Sud,52776000
2,Albanie,3173000
3,Algérie,39208000
4,Allemagne,82727000


In [5]:
df_data_3 = df_data_3.rename(columns={"Pays": "country"})
df_data_3.head()

Unnamed: 0,country,Population totale (en milliers)
0,Afghanistan,30552000
1,Afrique du Sud,52776000
2,Albanie,3173000
3,Algérie,39208000
4,Allemagne,82727000


In [6]:
# on calcule la population totale en 2013
total_population_2013 = df_data_3['Population totale (en milliers)'].sum()
total_population_2013

6997326000

In [7]:
# Import des données des population
df_data_4 = pd.read_csv('FAOSTAT_data_population_2017.csv')

In [8]:
# on calcule la population totale en 2017
total_population_2017 = df_data_4['Valeur'].sum()*1000
total_population_2017

7550036043.999999

Parmi les documents sur les Bilans alimentaires que vous avez téléchargés, il y a des informations redondantes. En effet, pour un pays donné, certaines de ces informations peuvent se calculer à partir d'autres :

* Production (Production)
* Importations (Import Quantity)
* Exportations (Export Quantity)
* Variation de stock (Stock Variation)
* Disponibilité intérieure (Domestic supply)
* Semences (Seed)
* Pertes (Waste)
* Nourriture (Food) , aussi appelée Disponibilité alimentaire (Food Supply)
* Aliments pour animaux (Feed)
* Traitement (Processing)
* Autres utilisations (Other uses)


### Question 2 : Identifiez ces redondances, en donnant votre réponse sous forme de formule mathématique (pas besoin de coder ici :soleil: ). C'est une équation à 3 termes de type \(a_1 + a2 + [...] = b_1 + b_2 + [...] = c_1 + c_2 + [...]\) ) faisant intervenir chacune des 11 quantités données ci dessus. Illustrez cette équation avec l'exemple du blé en France. Pour avoir un indice, cliquez sur "Définitions et Standards" sur la page de téléchargement des données.

###### Réponse :
######  a =  Disponibilité intérieure 
######   b =Aliments pour animaux + Semences +Pertes +Traitement +Autres Utilisations + Nourriture 
######   c = (Production + Importations +Variation de stock)-Exportations 
####  a=b=c
  
  
  ou
  
 
###### Disponibilité intérieure = Production + Importations - Exportations + Evolution des stocks

###### Nourriture = Disponibilité intérieure - Semences - Pertes - Aliments pour animaux - Autre Utilisation - Traitement


###### Disponibilité alimentaire = Nourriture / Population

In [9]:
# On check l'equation avec les chiffres du blé en France
df_france =data.loc[ data['country'] == 'France']


In [10]:
df_france_ble = df_france.loc[df_france['item']== 'Blé']
df_france_ble


Unnamed: 0,country_code,country,item_code,item,year,origin,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),...,Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations,Importations,Nourriture,Pertes,Production,Semences,Transformés,Variation de stock
4191,68,France,2511,Blé,2013,vegetal,7822.0,2824.0,811.0,108.43,...,25.99,20298.0,21502.0,2055.0,6971.0,358.0,38614.0,748.0,1575.0,1131.0


### Question 3 : Calculez (pour chaque pays et chaque produit) la disponibilité alimentaire en kcal puis en kg de protéines.

In [11]:
# On merge les donnes de bilan alimentaire avec la population
df_3 = data[['country', 'origin','item','Nourriture','Disponibilité intérieure','Disponibilité alimentaire (Kcal/personne/jour)' ,'Disponibilité de protéines en quantité (g/personne/jour)']]

df_3 = df_3.merge(df_data_3)
df_3.head()


Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers)
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000
1,Arménie,vegetal,Orge,0.0,198.0,0.0,0.0,2977000
2,Arménie,vegetal,Maïs,0.0,102.0,0.0,0.01,2977000
3,Arménie,vegetal,Seigle,0.0,1.0,1.0,0.02,2977000
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000


In [12]:
# On calcule la disponiblité alimentaire kcal par an
df_3['Disponibilité alimentaire (Kcal/an)'] = (data['Disponibilité alimentaire (Kcal/personne/jour)'] *365) * df_3['Population totale (en milliers)']
df_3.head()

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an)
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000,1112684000000.0
1,Arménie,vegetal,Orge,0.0,198.0,0.0,0.0,2977000,0.0
2,Arménie,vegetal,Maïs,0.0,102.0,0.0,0.01,2977000,0.0
3,Arménie,vegetal,Seigle,0.0,1.0,1.0,0.02,2977000,1086605000.0
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000,2173210000.0


In [13]:
# On calcule la disponiblité alimentaire kg par an
df_3['Disponibilité alimentaire en quantité (kg/an)'] = data['Disponibilité alimentaire en quantité (kg/personne/an)'] * df_3['Population totale (en milliers)']
df_4 =df_3[['country','origin','item','Disponibilité alimentaire (Kcal/an)','Disponibilité alimentaire en quantité (kg/an)']]
df_4.head()


Unnamed: 0,country,origin,item,Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an)
0,Arménie,vegetal,Blé,1112684000000.0,388796200.0
1,Arménie,vegetal,Orge,0.0,0.0
2,Arménie,vegetal,Maïs,0.0,89310.0
3,Arménie,vegetal,Seigle,1086605000.0,357240.0
4,Arménie,vegetal,Avoine,2173210000.0,1101490.0


###  Question 4 : A partir de ces dernières informations, et à partir du poids de la disponibilité alimentaire (pour chaque pays et chaque produit), calculez pour chaque produit le ratio "énergie/poids", que vous donnerez en kcal/kg. Vous pouvez vérifier la cohérence de votre calcul en comparant ce ratio aux données disponibles sur internet, par exemple en cherchant la valeur calorique d'un oeuf.

In [14]:
# On calcule le ratio energie/ poids par an
df_3['ratio_energie_poids en Kcal/an'] = df_3['Disponibilité alimentaire (Kcal/an)'] / (df_3['Nourriture']*1000*1000)
df_3.head()

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an),ratio_energie_poids en Kcal/an
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000,1112684000000.0,388796200.0,2860.368946
1,Arménie,vegetal,Orge,0.0,198.0,0.0,0.0,2977000,0.0,0.0,
2,Arménie,vegetal,Maïs,0.0,102.0,0.0,0.01,2977000,0.0,89310.0,
3,Arménie,vegetal,Seigle,0.0,1.0,1.0,0.02,2977000,1086605000.0,357240.0,inf
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000,2173210000.0,1101490.0,2173.21


In [15]:
# df avec ration energie /poids d'un oeufs
oeufs =df_3.loc[ df_3['item'] == 'Oeufs']
oeufs

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an),ratio_energie_poids en Kcal/an
75,Arménie,animal,Oeufs,35.0,35.0,45.0,3.43,2977000,4.889722e+10,3.480113e+07,1397.063571
146,Afghanistan,animal,Oeufs,40.0,47.0,5.0,0.38,30552000,5.575740e+10,3.971760e+07,1393.935000
230,Albanie,animal,Oeufs,40.0,47.0,46.0,3.65,3173000,5.327467e+10,3.950385e+07,1331.866750
324,Algérie,animal,Oeufs,316.0,348.0,27.0,2.30,39208000,3.863948e+11,3.160165e+08,1222.768481
406,Angola,animal,Oeufs,24.0,29.0,4.0,0.33,21472000,3.134912e+10,2.383392e+07,1306.213333
498,Antigua-et-Barbuda,animal,Oeufs,0.0,0.0,15.0,1.19,90000,4.927500e+08,3.897000e+05,inf
591,Argentine,animal,Oeufs,472.0,552.0,41.0,3.10,41446000,6.202394e+11,4.720699e+08,1314.066504
687,Australie,animal,Oeufs,199.0,244.0,32.0,2.50,23343000,2.726462e+11,1.986489e+08,1370.081608
783,Autriche,animal,Oeufs,125.0,130.0,57.0,4.56,8495000,1.767385e+11,1.247066e+08,1413.907800
874,Bahamas,animal,Oeufs,2.0,3.0,23.0,1.70,377000,3.164915e+09,2.337400e+06,1582.457500


### 100g oeufs kcal selon fao = 140,4kcal

 * En suivant la même méthodologie, calculez également le pourcentage de protéines de chaque produit (pour chaque pays). Ce pourcentage est obtenu en calculant le ratio "poids de protéines/poids total" (attention aux unités utilisées). Vous pouvez vérifier la cohérence de votre calcul en comparant ce ratio aux données disponibles sur internet, par exemple en cherchant la teneur en protéines de l'avoine.

In [16]:
# On calcule la disponibilité de proteines en kg par an
df_3['Disponibilite proteines en kg/an'] = (df_3['Disponibilité de protéines en quantité (g/personne/jour)'] /1000)*365 *df_3['Population totale (en milliers)']
df_3.head()

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an),ratio_energie_poids en Kcal/an,Disponibilite proteines en kg/an
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000,1112684000000.0,388796200.0,2860.368946,33163184.6
1,Arménie,vegetal,Orge,0.0,198.0,0.0,0.0,2977000,0.0,0.0,,0.0
2,Arménie,vegetal,Maïs,0.0,102.0,0.0,0.01,2977000,0.0,89310.0,,10866.05
3,Arménie,vegetal,Seigle,0.0,1.0,1.0,0.02,2977000,1086605000.0,357240.0,inf,21732.1
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000,2173210000.0,1101490.0,2173.21,97794.45


In [17]:
# On calcule le ratio proteines / poids
df_3['Ratio_proteines_poids kg/an']=df_3['Disponibilite proteines en kg/an']/(df_3['Nourriture']*1000*1000)
df_3.head()

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an),ratio_energie_poids en Kcal/an,Disponibilite proteines en kg/an,Ratio_proteines_poids kg/an
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000,1112684000000.0,388796200.0,2860.368946,33163184.6,0.085252
1,Arménie,vegetal,Orge,0.0,198.0,0.0,0.0,2977000,0.0,0.0,,0.0,
2,Arménie,vegetal,Maïs,0.0,102.0,0.0,0.01,2977000,0.0,89310.0,,10866.05,inf
3,Arménie,vegetal,Seigle,0.0,1.0,1.0,0.02,2977000,1086605000.0,357240.0,inf,21732.1,inf
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000,2173210000.0,1101490.0,2173.21,97794.45,0.097794


In [18]:
# df avec les valeurs pou l'avoine
avoine =df_3.loc[ df_3['item'] == 'Avoine']
avoine = avoine[['country', 'item','Ratio_proteines_poids kg/an']]
avoine

Unnamed: 0,country,item,Ratio_proteines_poids kg/an
4,Arménie,Avoine,0.097794
157,Albanie,Avoine,inf
250,Algérie,Avoine,
343,Angola,Avoine,
425,Antigua-et-Barbuda,Avoine,inf
517,Argentine,Avoine,0.084043
611,Australie,Avoine,0.085202
707,Autriche,Avoine,0.112603
803,Bahamas,Avoine,0.056418
894,Barbade,Avoine,inf


### Question 5 : Citez 5 aliments parmi les 20 aliments les plus caloriques, en utilisant le ratio énergie/poids. 
Étonnamment, il arrive que ce ratio soit différent en fonction du pays. Il faudra donc réaliser pour chaque aliment une moyenne sur les différents pays. Vous créerez donc une nouvelle table grâce à une agrégation. Attention à bien retirer les valeurs égales à 0 afin de ne pas fausser le calcul de la moyenne.
Citez 5 aliments parmi les 20 aliments les plus riches en protéines.

In [19]:
#  On replace le 0 par NAN (ils sont pas pris encompte pour la moyenne)
df_3 =df_3.replace(0, np.NaN)
df_3.head()

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an),ratio_energie_poids en Kcal/an,Disponibilite proteines en kg/an,Ratio_proteines_poids kg/an
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000,1112684000000.0,388796200.0,2860.368946,33163184.6,0.085252
1,Arménie,vegetal,Orge,,198.0,,,2977000,,,,,
2,Arménie,vegetal,Maïs,,102.0,,0.01,2977000,,89310.0,,10866.05,inf
3,Arménie,vegetal,Seigle,,1.0,1.0,0.02,2977000,1086605000.0,357240.0,inf,21732.1,inf
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000,2173210000.0,1101490.0,2173.21,97794.45,0.097794


In [20]:
df_5 = df_3[['item','country', 'Disponibilité alimentaire en quantité (kg/an)','Disponibilité alimentaire (Kcal/an)','ratio_energie_poids en Kcal/an', 'Ratio_proteines_poids kg/an']]
df_5.head()


Unnamed: 0,item,country,Disponibilité alimentaire en quantité (kg/an),Disponibilité alimentaire (Kcal/an),ratio_energie_poids en Kcal/an,Ratio_proteines_poids kg/an
0,Blé,Arménie,388796200.0,1112684000000.0,2860.368946,0.085252
1,Orge,Arménie,,,,
2,Maïs,Arménie,89310.0,,,inf
3,Seigle,Arménie,357240.0,1086605000.0,inf,inf
4,Avoine,Arménie,1101490.0,2173210000.0,2173.21,0.097794


In [21]:
df_5 = df_5.groupby(['item']).mean()
df_5.head()

Unnamed: 0_level_0,Disponibilité alimentaire en quantité (kg/an),Disponibilité alimentaire (Kcal/an),ratio_energie_poids en Kcal/an,Ratio_proteines_poids kg/an
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abats Comestible,90015860.0,99651020000.0,inf,inf
"Agrumes, Autres",82907700.0,61844260000.0,inf,0.004426
"Alcool, non Comestible",,,,
Aliments pour enfants,5580274.0,25409230000.0,inf,inf
Ananas,125945100.0,56170290000.0,inf,0.003079


In [22]:
#Vérification Nourriture = Dispo Alim Kg an
b = df_3[['item','Nourriture','Disponibilité alimentaire en quantité (kg/an)','Disponibilité alimentaire (Kcal/an)']]
b = b.groupby(['item']).sum()
b.head()

Unnamed: 0_level_0,Nourriture,Disponibilité alimentaire en quantité (kg/an),Disponibilité alimentaire (Kcal/an)
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Abats Comestible,15669.0,15662760000.0,17239630000000.0
"Agrumes, Autres",11359.0,11358350000.0,2473770000000.0
"Alcool, non Comestible",0.0,0.0,0.0
Aliments pour enfants,1522.0,1540156000.0,5590030000000.0
Ananas,20757.0,20780940000.0,7077457000000.0


In [23]:
# on sort le 20 produti plus caloriques
df_5 =df_5.replace([np.inf, -np.inf], np.nan)
df_5= df_5.sort_values(by=['ratio_energie_poids en Kcal/an'], ascending=False)
df_5.head(20)

Unnamed: 0_level_0,Disponibilité alimentaire en quantité (kg/an),Disponibilité alimentaire (Kcal/an),ratio_energie_poids en Kcal/an,Ratio_proteines_poids kg/an
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Huile de Son de Riz,65338290.0,592089900000.0,9361.549883,0.006927
Sucre Eq Brut,825543500.0,2936604000000.0,3592.524409,
Sucre non centrifugé,294518300.0,1129869000000.0,3510.942728,0.007332
Blé,2631170000.0,7731489000000.0,2848.688281,0.081866
Viande de Volailles,602777500.0,861733100000.0,1301.31033,0.126209
Lait - Excl Beurre,3619222000.0,2020701000000.0,588.067911,0.033583
"Sucre, betterave",18883010.0,14367500000.0,504.182795,0.015125
"Fruits, Autres",1066052000.0,453080700000.0,436.519921,0.005359
"Légumes, Autres",4380060000.0,1078975000000.0,270.156603,0.01303
Abats Comestible,90015860.0,99651020000.0,,


In [24]:
# on sort le 20 produti plus proteines
df_5 = df_5.sort_values(by=['Ratio_proteines_poids kg/an'], ascending=False)
df_5.head(20)

Unnamed: 0_level_0,Disponibilité alimentaire en quantité (kg/an),Disponibilité alimentaire (Kcal/an),ratio_energie_poids en Kcal/an,Ratio_proteines_poids kg/an
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Viande de Volailles,602777500.0,861733100000.0,1301.31033,0.126209
Blé,2631170000.0,7731489000000.0,2848.688281,0.081866
Lait - Excl Beurre,3619222000.0,2020701000000.0,588.067911,0.033583
"Sucre, betterave",18883010.0,14367500000.0,504.182795,0.015125
"Légumes, Autres",4380060000.0,1078975000000.0,270.156603,0.01303
Huile d'Arachide,34748040.0,350805100000.0,,0.010132
Huile de Germe de Maïs,17813350.0,183276500000.0,,0.007495
Huile de Coco,18894350.0,178113800000.0,,0.007418
Sucre non centrifugé,294518300.0,1129869000000.0,3510.942728,0.007332
Huile de Son de Riz,65338290.0,592089900000.0,9361.549883,0.006927


### Question 6 : Calculez, pour les produits végétaux uniquement, la disponibilité intérieure mondiale exprimée en kcal.

In [25]:
#df des produits d'origine vegetal
df_6 = df_3.loc[ df_3['origin'] == 'vegetal']
df_6 = df_6.replace([np.inf, -np.inf], np.nan)
df_6.head()

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an),ratio_energie_poids en Kcal/an,Disponibilite proteines en kg/an,Ratio_proteines_poids kg/an
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000,1112684000000.0,388796200.0,2860.368946,33163184.6,0.085252
1,Arménie,vegetal,Orge,,198.0,,,2977000,,,,,
2,Arménie,vegetal,Maïs,,102.0,,0.01,2977000,,89310.0,,10866.05,
3,Arménie,vegetal,Seigle,,1.0,1.0,0.02,2977000,1086605000.0,357240.0,,21732.1,
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000,2173210000.0,1101490.0,2173.21,97794.45,0.097794


In [26]:
df_6['Disponibilité intérieure(kg)'] = df_6['Disponibilité intérieure']*1000000



In [27]:
df_6['Disponibilité intérieure(kcal)'] = df_6['Disponibilité intérieure(kg)']*df_6['ratio_energie_poids en Kcal/an']
df_6.head()

Unnamed: 0,country,origin,item,Nourriture,Disponibilité intérieure,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Population totale (en milliers),Disponibilité alimentaire (Kcal/an),Disponibilité alimentaire en quantité (kg/an),ratio_energie_poids en Kcal/an,Disponibilite proteines en kg/an,Ratio_proteines_poids kg/an,Disponibilité intérieure(kg),Disponibilité intérieure(kcal)
0,Arménie,vegetal,Blé,389.0,554.0,1024.0,30.52,2977000,1112684000000.0,388796200.0,2860.368946,33163184.6,0.085252,554000000.0,1584644000000.0
1,Arménie,vegetal,Orge,,198.0,,,2977000,,,,,,198000000.0,
2,Arménie,vegetal,Maïs,,102.0,,0.01,2977000,,89310.0,,10866.05,,102000000.0,
3,Arménie,vegetal,Seigle,,1.0,1.0,0.02,2977000,1086605000.0,357240.0,,21732.1,,1000000.0,
4,Arménie,vegetal,Avoine,1.0,6.0,2.0,0.09,2977000,2173210000.0,1101490.0,2173.21,97794.45,0.097794,6000000.0,13039260000.0


In [28]:
vegetal =df_6['Disponibilité intérieure(kcal)'].sum()
vegetal

1.2312091265143276e+16

###  Question 7 : Combien d'humains pourraient être nourris si toute la disponibilité intérieure mondiale de produits végétaux était utilisée pour de la nourriture ? Donnez les résultats en termes de calories, puis de protéines, et exprimez ensuite ces 2 résultats en pourcentage de la population mondiale.

#### Calcul des besoins énergétiques alimentaires

* La quantité de nourriture dont les gens ont besoin chaque jour - c'est-à-dire leurs besoins énergétiques alimentaires quotidiens - dépend de leur poids, de leur taille, de leur âge, de leur sexe et de leur niveau d'activité.
* Le tableau ci-contre donne des exemples de différents niveaux d'activité (légère, moyenne ou intense) et la quantité des calories que nécessite cette activité pour les hommes et les femmes en fonction de leur masse corporelle. Les personnes âgées ont besoin d'un peu moins d'énergie alimentaire et les enfants de beaucoup moins.
* On calcule la prévalence et la gravité de la faim en utilisant les besoins énergétiques alimentaires minimaux des différents groupes de sexe et d'âge de la population. Pour chaque groupe, le besoin minimal est fondé sur le poids minimal acceptable compte tenu de la stature moyenne du groupe dans le pays considéré et sur une activité légère.

#### Niveau d'activité physique des adultes

* Activité légère: niveau d'activité correspondant à une occupation sédentaire (bureau ou travail derrière un comptoir avec des machines).
* Activité modérée: activité physique légère permanente telle que le travail dans l'industrie légère ou le travail agricole hors saison.
* Activité intense: travail intense et occasionnellement épuisant (production agricole, industries extractives et sidérurgie par exemple).


#### Besoins énergétiques quotidiens approximatifs des adultes

* Les besoins alimentaires seraient plus élevés pour des personnes plus grandes et moins élevés pour des personnes plus petites.
* Normes fondées sur les rapports du Comité spécial mixte FAO/OMS/UNU d'experts sur les besoins en énergie et en protéines, 1985.

In [29]:
# on calcule la moyenne de besoin des calories d'après la FAO
moyenne_kcal_jour = np.array ([2335,2682,3164,2786,3199,3775, 1846, 1941 ,2154, 2223, 2337,2594])
moyenne_kcal_jour =moyenne_kcal_jour.mean()
moyenne_kcal_jour

2586.3333333333335

In [30]:
# on calcule la quantité des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux
moyenne_kcal_an = moyenne_kcal_jour *365
humain_nourris = vegetal / moyenne_kcal_an
print("La quantité des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux : " + str(humain_nourris))

La quantité des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux : 13042308373.812408


In [31]:
# on calcule le pourcentage des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux
pourcentage_humain_nourris_kcal =humain_nourris/total_population_2013*100
print("le pourcentage des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux : " + str(pourcentage_humain_nourris_kcal ))

le pourcentage des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux : 186.3898919932044


 * Les protéines doivent représenter environ 15 % des calories ingérées chaque jour.
 Environ 40g par jour (0,07 kg)

In [32]:
# on calcule le besoin de proteines par an
besoin_proteines_an =40 * 365
besoin_proteines_an

14600

In [33]:
df_6['Disponibilite proteines en g/an)'] = (df_6['Disponibilité intérieure']*1000000) * df_6['Ratio_proteines_poids kg/an'] *1000

In [34]:
# on calcule la disponinilité alimentaire des produits vegetaux
proteines = df_6['Disponibilite proteines en g/an)'].sum()
proteines

290177334142135.25

In [35]:
# on calcule la quantité des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux
humain_nourris_proteine = proteines/besoin_proteines_an
humain_nourris_proteine

19875159872.74899

In [36]:
# on calcule le pourcentage des humains qu'on pourrais nourrir avec la disponibilité alimentaire des produits vegetaux
pourcentage_humain_protein =humain_nourris_proteine /total_population_2013
pourcentage_humain_protein

2.8403935835987904

#### Le pourcentage de la population mondiale que pourraient être nourris si toute la disponibilité intérieure mondiale de produits végétaux (en KCal) était utilisée pour de la nourriture est de 186 %

###### Le pourcentage de la population mondiale que pourraient être nourris si toute la disponibilité intérieure mondiale de produits végétaux (en proteines) était utilisée pour de la nourriture est de 284%

### Question 8 : Combien d'humains pourraient être nourris si toute la disponibilité alimentaire en produits végétaux (Food) la nourriture végétale destinée aux animaux (Feed) et les pertes de produits végétaux (Waste) étaient utilisés pour de la nourriture ? Donnez les résultats en termes de calories, puis de protéines, et exprimez ensuite ces 2 résultats en pourcentage de la population mondiale.

In [37]:
df_8=df_6


In [38]:
data_veg = data.loc[ data['origin'] == 'vegetal']
data_veg = data_veg.fillna(0)

In [39]:
df_8['Aliments pour animaux en Kcal/an']= data_veg['Aliments pour animaux'] * df_8['ratio_energie_poids en Kcal/an']
alim_veg = df_8['Aliments pour animaux en Kcal/an'].sum()
df_8['Pertes en Kcal/an']= data_veg['Pertes'] * df_8['ratio_energie_poids en Kcal/an']
alim_veg_2 = df_8['Pertes en Kcal/an'].sum()


In [40]:
# On calcule la totalité des produits vegetaux avec les pertes et la nourriture destinée aux animuax
total_alim_veg = vegetal  + alim_veg + alim_veg_2
total_alim_veg

1.2312094390188426e+16

In [41]:
# On calcule la totalité des humains nourris avec des produits vegetaux 
humain_nourris_prod_en_milliers =  total_alim_veg/ moyenne_kcal_an
humain_nourris_prod_en_milliers

13042311684.200682

In [42]:
# On calcule le pourcentage des humains nourris avec des produits vegetaux  
p_humain_kcal =humain_nourris_prod_en_milliers/total_population_2013
p_humain_kcal 

1.863899393025376

####  Le pourcentage de la population mondiale que pourraient être nourris si tous les de produits végétaux (en KCal) était utilisée pour de la nourriture est de 186 %

In [43]:
df_8['Aliments pour animaux en proteines kg/an']= (data_veg['Aliments pour animaux']*1000000 )* df_8['Ratio_proteines_poids kg/an']
alim_veg_4= df_8['Aliments pour animaux en proteines kg/an'].sum()
df_8['Pertes en kg/an']= (data_veg['Pertes']*1000000) * df_8['Ratio_proteines_poids kg/an']
alim_veg_5 = df_8['Pertes en kg/an'].sum()


In [44]:
# On calcule la totalité des produits vegetaux avec les pertes et la nourriture destinée aux animuax (proteines)
total_alim_veg_p = alim_veg_4 + alim_veg_5 + proteines
total_alim_veg_p

290255823523744.3

In [45]:
# On calcule la totalité des humains nourris avec des produits vegetaux 
humain_nourris_prod_en_milliers_proteines =  total_alim_veg_p/ besoin_proteines_an
humain_nourris_prod_en_milliers_proteines

19880535857.790707

In [46]:
# On calcule le pourcentage des humains nourris avec des produits vegetaux  
p_humain_proteines =humain_nourris_prod_en_milliers_proteines/total_population_2013
p_humain_proteines

2.8411618749491887

#### Le pourcentage de la population mondiale que pourraient être nourris si tous les  produits végétaux (en proteines) était utilisée pour de la nourriture est de 70%

### Question 9 : Combien d'humains pourraient être nourris avec la disponibilité alimentaire mondiale ? Donnez les résultats en termes de calories, puis de protéines, et exprimez ensuite ces 2 résultats en pourcentage de la population mondiale.

In [47]:
# on calcule la disponibilité alimentaire mondiale en kcal par an
diponibilite_alim = df_3['Disponibilité alimentaire (Kcal/an)'].sum()
diponibilite_alim

7364341889385000.0

In [48]:
# on calcule la  quantite de humains nourris avec
humain_nourri_total = diponibilite_alim/moyenne_kcal_an
humain_nourri_total

7801113216.522747

In [49]:
# on calcule le pourcentage de humains nourris avec
pourcentage_humain_nourris =humain_nourri_total /total_population_2013
pourcentage_humain_nourris

1.1148706257965897

In [50]:
# on calcule la disponibilité alimentaire mondiale en kg par an
diponibilite_alim_proteines = df_3['Disponibilite proteines en kg/an'].sum()
diponibilite_alim_proteines

207081072660.75

In [51]:
# on calcule la  quantite de humains nourris avec
humain_nourri_total_proteines = diponibilite_alim_proteines/(0.04*365)
humain_nourri_total_proteines

14183635113.75

In [52]:
# on calcule le pourcentage de humains nourris avec
pourcentage_humain_nourris_proteines =humain_nourri_total_proteines /total_population_2013*100
pourcentage_humain_nourris_proteines

202.70079046981658

#### Le pourcentage de la population mondiale que pourraient être nourris si toute la disponibilité mondiale  (en KCal) était utilisée pour de la nourriture est de 111%

###### Le pourcentage de la population mondiale que pourraient être nourris si toute la disponibilité mondiale (en proteines) était utilisée pour de la nourriture est de 202 %

###  Question 10 : A partir des données téléchargées qui concernent la sous-nutrition, répondez à cette question : Quelle proportion de la population mondiale est considérée comme étant en sous-nutrition ?

In [53]:
df_data_10 = pd.read_csv('FAOSTAT_data_7-3-2019.csv')
df_data_10.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FS,Données de la sécurité alimentaire,5000,Monde,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,794.8,F,Estimation FAO
1,FS,Données de la sécurité alimentaire,5000,Monde,6132,Valeur,210010,Nombre de personnes sous-alimentées (millions)...,2013,2013,millions,794.9,F,Estimation FAO


In [54]:
# on calcule la quantite  de humains en sous-noutrition
sous_nutrition = 794900000/total_population_2013*100
sous_nutrition

11.360053826275923

###### proportion de la population mondiale est considérée comme étant en sous-nutrition est de 11.36%

### Question 11 : En ne prenant en compte que les céréales destinées à l'alimentation (humaine et animale), quelle proportion (en termes de poids) est destinée à l'alimentation animale ?

* Établissez la liste des produits (ainsi que leur code) considéré comme des céréales selon la FAO.

Repérez dans vos données les informations concernant les céréales (par exemple en créant une colonne de type booléen nommée "is_cereal").

In [55]:
# Import des données des bilans alimentaires
df_data_cereales = pd.read_csv('FAOSTAT_data_cereales.csv')
df_data_cereales

Unnamed: 0,Code Domaine,Domaine,Code Pays,Pays,Code Élément,Élément,Code Produit,Produit,Code Année,Année,Unité,Valeur
0,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2511,Blé,2013,2013,Milliers de tonnes,679495
1,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2805,Riz (Eq Blanchi),2013,2013,Milliers de tonnes,475659
2,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2513,Orge,2013,2013,Milliers de tonnes,140436
3,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2514,Maïs,2013,2013,Milliers de tonnes,955798
4,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2515,Seigle,2013,2013,Milliers de tonnes,16570
5,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2516,Avoine,2013,2013,Milliers de tonnes,23410
6,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2517,Millet,2013,2013,Milliers de tonnes,29913
7,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2518,Sorgho,2013,2013,Milliers de tonnes,58238
8,FBS,Bilans Alimentaires,5000,Monde,5301,Disponibilité intérieure,2520,"Céréales, Autres",2013,2013,Milliers de tonnes,27489


In [56]:
data.head()

Unnamed: 0,country_code,country,item_code,item,year,origin,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),...,Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations,Importations,Nourriture,Pertes,Production,Semences,Transformés,Variation de stock
0,1,Arménie,2511,Blé,2013,vegetal,93.0,0.0,1024.0,130.6,...,30.52,554.0,1.0,361.0,389.0,32.0,312.0,30.0,10.0,-118.0
1,1,Arménie,2513,Orge,2013,vegetal,137.0,26.0,0.0,0.0,...,0.0,198.0,0.0,9.0,0.0,15.0,189.0,14.0,7.0,0.0
2,1,Arménie,2514,Maïs,2013,vegetal,96.0,,0.0,0.03,...,0.01,102.0,,82.0,0.0,7.0,21.0,0.0,,
3,1,Arménie,2515,Seigle,2013,vegetal,1.0,,1.0,0.12,...,0.02,1.0,,0.0,0.0,0.0,1.0,0.0,,0.0
4,1,Arménie,2516,Avoine,2013,vegetal,4.0,,2.0,0.37,...,0.09,6.0,,1.0,1.0,0.0,5.0,0.0,,


In [57]:
# On cree la colonne is_cereal
data['is_cereal'] = ((df_4['item'] == 'Blé') | (df_4['item'] == 'Orge') | (df_4['item'] == 'Maïs') | (df_4['item'] == 'Seigle') | (df_4['item'] == 'Avoine') | (df_4['item'] == 'Millet')| (df_4['item'] == 'Sorgho')| (df_4['item'] == 'Céréales, Autres') | (df_4['item'] == 'Riz (Eq Blanchi)'))

In [58]:
cereal = data[['item','item_code', 'is_cereal']]
cereal =cereal.loc[ data['is_cereal'] == True]
cereal

Unnamed: 0,item,item_code,is_cereal
0,Blé,2511,True
1,Orge,2513,True
2,Maïs,2514,True
3,Seigle,2515,True
4,Avoine,2516,True
5,Millet,2517,True
6,Sorgho,2518,True
7,"Céréales, Autres",2520,True
87,Riz (Eq Blanchi),2805,True
91,Blé,2511,True


In [59]:
# on calcule la totalité des cereals
cereal =data.loc[ data['is_cereal'] == True]
total_cereal = cereal['Nourriture'].sum()+cereal['Aliments pour animaux'].sum()
total_cereal

1902545.0

In [60]:
# on calcule le pourcentage des cereals
porcetange_alim_ani = cereal['Aliments pour animaux'].sum()/ total_cereal
porcetange_alim_ani

0.45914025686646043

#### proportion (en termes de poids)  destinée à l'alimentation animale = 45%

### Question 12 : Donnez les 3 produits qui ont la plus grande valeur pour chacun des 2 ratios (vous aurez donc 6 produits à citer)

Sélectionnez parmi les données des bilans alimentaires les informations relatives aux pays dans lesquels la FAO recense des personnes en sous-nutrition, pour une année choisie.

Repérez les 15 produits les plus exportés par ce groupe de pays sur l'année choisie.

Parmi les données des bilans alimentaires au niveau mondial, sélectionnez les 200 plus grandes importations de ces produits (1 importation = une quantité d'un produit donné importée par un pays donné sur l'année choisie)

Groupez ces importations par produit, afin d'avoir une table contenant 1 ligne pour chacun des 15 produits. Ensuite, calculez pour chaque produit les 2 quantités suivantes :

* le ratio entre la quantité destinés aux "Autres utilisations" (Other uses) et la disponibilité intérieure.
* le ratio entre la quantité destinée à la nourriture animale et la quantité destinée à la nourriture (animale + humaine)


In [61]:
# Import des données des bilans alimentaires
df_data_desnutricion = pd.read_csv('FAOSTAT_data_desnutricion.csv')
df_data_desnutricion ['Valeur'] = pd.to_numeric(df_data_desnutricion['Valeur'], errors='coerce')
df_data_desnutricion.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FS,Données de la sécurité alimentaire,2,Afghanistan,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,8.1,F,Estimation FAO
1,FS,Données de la sécurité alimentaire,202,Afrique du Sud,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,2.6,F,Estimation FAO
2,FS,Données de la sécurité alimentaire,3,Albanie,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,0.2,F,Estimation FAO
3,FS,Données de la sécurité alimentaire,4,Algérie,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,1.8,F,Estimation FAO
4,FS,Données de la sécurité alimentaire,79,Allemagne,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,,F,Estimation FAO


In [62]:
# On cree le df sous_nutrition
df_data_desnutricion = df_data_desnutricion.dropna(how='any')
df_sous_nutri = df_data_desnutricion[['Zone','Code zone','Valeur']]
df_sous_nutri = df_sous_nutri.sort_values(by=['Valeur'], ascending=False)
df_sous_nutri.reset_index(drop = True, inplace = True)
df_sous_nutri.head(10)

Unnamed: 0,Zone,Code zone,Valeur
0,Inde,100,213.1
1,Chine,351,137.3
2,"Chine, continentale",41,136.2
3,Pakistan,165,38.4
4,Bangladesh,16,26.4
5,Éthiopie,238,25.5
6,Indonésie,101,19.1
7,République-Unie de Tanzanie,215,16.5
8,Philippines,171,14.0
9,Ouganda,226,12.6


In [63]:
df_sous_nutri = df_sous_nutri.rename(columns={'Zone': "country", 'Code zone':'country_code', 'Valeur': 'Nombre_de_personnes_sous-alimentées'})
df_sous_nutri.head()

Unnamed: 0,country,country_code,Nombre_de_personnes_sous-alimentées
0,Inde,100,213.1
1,Chine,351,137.3
2,"Chine, continentale",41,136.2
3,Pakistan,165,38.4
4,Bangladesh,16,26.4


In [64]:
df_12 = data[['country', 'item', 'Aliments pour animaux','Autres Utilisations',  'Disponibilité intérieure', 'Importations',  'Nourriture', 'Exportations']]


In [65]:
df_12 = df_sous_nutri.merge(df_12)
df_12.head()

Unnamed: 0,country,country_code,Nombre_de_personnes_sous-alimentées,item,Aliments pour animaux,Autres Utilisations,Disponibilité intérieure,Importations,Nourriture,Exportations
0,Inde,100,213.1,Blé,1870.0,,86372.0,27.0,75833.0,7168.0
1,Inde,100,213.1,Orge,158.0,,1226.0,12.0,835.0,557.0
2,Inde,100,213.1,Maïs,6990.0,45.0,18188.0,17.0,7876.0,5119.0
3,Inde,100,213.1,Seigle,,,0.0,0.0,,0.0
4,Inde,100,213.1,Avoine,6.0,,51.0,52.0,45.0,1.0


In [66]:
# On repére les 15 produits les plus exportés par ce groupe de pays sur l'année choisie.
df_produits = df_12.groupby(['item']).sum()
df_produits = df_produits.sort_values(by=['Exportations'], ascending=False)
df_produits.head(15)

Unnamed: 0_level_0,country_code,Nombre_de_personnes_sous-alimentées,Aliments pour animaux,Autres Utilisations,Disponibilité intérieure,Importations,Nourriture,Exportations
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Huile de Palme,11909,738.2,0.0,24743.0,37852.0,31784.0,12931.0,46285.0
Maïs,12151,739.7,262845.0,46095.0,460152.0,61247.0,105473.0,37888.0
Manioc,11238,694.0,75733.0,34090.0,231131.0,34484.0,92913.0,35843.0
Riz (Eq Blanchi),12151,739.7,32927.0,17838.0,443118.0,28132.0,349901.0,32787.0
Sucre Eq Brut,12151,739.7,23.0,6094.0,107009.0,38806.0,89254.0,25237.0
Blé,12151,739.7,48158.0,10113.0,401225.0,103304.0,309597.0,24841.0
"Légumes, Autres",12151,739.7,37584.0,59.0,732289.0,6114.0,639191.0,19948.0
Bananes,11438,708.6,828.0,116.0,83185.0,3329.0,67210.0,17805.0
"Fruits, Autres",12151,739.7,43.0,62.0,160387.0,8416.0,144814.0,14590.0
Lait - Excl Beurre,12151,739.7,40082.0,1556.0,368664.0,42552.0,312898.0,14486.0


In [67]:
df_imp = df_12
df_imp =df_imp.sort_values(by=['Importations'], ascending=False)
df_imp = df_imp.head(200)

In [68]:
df_imp = df_imp.groupby(['item']).sum()


In [69]:
df_ratio = df_imp.head(15)
df_ratio

Unnamed: 0_level_0,country_code,Nombre_de_personnes_sous-alimentées,Aliments pour animaux,Autres Utilisations,Disponibilité intérieure,Importations,Nourriture,Exportations
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Abats Comestible,41,136.2,0.0,26.0,4797.0,836.0,4771.0,10.0
Bananes,143,140.4,0.0,0.0,13277.0,1110.0,10737.0,25.0
Blé,5899,382.3,44373.0,8645.0,268788.0,94164.0,196398.0,6378.0
Edulcorants Autres,138,5.4,0.0,407.0,1682.0,1610.0,1274.0,148.0
"Fruits, Autres",235,137.8,0.0,0.0,55056.0,2343.0,49953.0,2310.0
Graines Colza/Moutarde,569,180.4,3715.0,210.0,21077.0,6136.0,13.0,14.0
Graisses Animales Crue,138,5.4,0.0,497.0,800.0,527.0,303.0,19.0
Haricots,100,213.1,226.0,0.0,4512.0,886.0,3806.0,4.0
Huile de Colza&Moutarde,41,136.2,0.0,5117.0,7211.0,1614.0,2094.0,6.0
Huile de Palme,1290,467.7,0.0,17268.0,25427.0,25312.0,7877.0,19932.0


In [70]:
# on cree le df avec le ratio autres ulitilisation/ disponibilité interieur
df_ratio['ration_autres_uti_disp_int'] = df_ratio['Autres Utilisations']/df_ratio['Disponibilité intérieure']
df_ratio = df_ratio.sort_values(by =['ration_autres_uti_disp_int'],ascending = False)
df_ratio.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0_level_0,country_code,Nombre_de_personnes_sous-alimentées,Aliments pour animaux,Autres Utilisations,Disponibilité intérieure,Importations,Nourriture,Exportations,ration_autres_uti_disp_int
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Huile de Palmistes,41,136.2,0.0,544.0,641.0,614.0,96.0,0.0,0.848674
Huile de Colza&Moutarde,41,136.2,0.0,5117.0,7211.0,1614.0,2094.0,6.0,0.70961
Huile de Palme,1290,467.7,0.0,17268.0,25427.0,25312.0,7877.0,19932.0,0.679121
Huile de Soja,247,355.3,0.0,9803.0,15352.0,3709.0,5549.0,276.0,0.638549
Graisses Animales Crue,138,5.4,0.0,497.0,800.0,527.0,303.0,19.0,0.62125


In [71]:
# on cree le df avec le ratio alimentation animal/ nourriture
df_ratio['ration_alim_ani_alim_total'] = df_ratio['Aliments pour animaux']/(df_ratio['Nourriture']+ df_ratio['Aliments pour animaux'])
df_ratio = df_ratio.sort_values(by =['ration_alim_ani_alim_total'],ascending = False)
df_ratio.head()

Unnamed: 0_level_0,country_code,Nombre_de_personnes_sous-alimentées,Aliments pour animaux,Autres Utilisations,Disponibilité intérieure,Importations,Nourriture,Exportations,ration_autres_uti_disp_int,ration_alim_ani_alim_total
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Graines Colza/Moutarde,569,180.4,3715.0,210.0,21077.0,6136.0,13.0,14.0,0.009963,0.996513
Blé,5899,382.3,44373.0,8645.0,268788.0,94164.0,196398.0,6378.0,0.032163,0.184295
Haricots,100,213.1,226.0,0.0,4512.0,886.0,3806.0,4.0,0.0,0.056052
Lait - Excl Beurre,2849,251.9,3585.0,1106.0,102347.0,34890.0,94988.0,5969.0,0.010806,0.036369
Huile de Palmistes,41,136.2,0.0,544.0,641.0,614.0,96.0,0.0,0.848674,0.0


#### 3 produits qui ont la plus grande valeur pour chacun des 2 ratios 
##### ratio autres ulitilisation/ disponibilité interieur
* Huile de Palmistes
* Huile de Colza&Moutarde
* Huile de Palme
#####  ratio alimentation animal/ nourriture
* Graines Colza/Moutarde
* Blé
* Haricots

### Question 13 : Combien de tonnes de céréales pourraient être libérées si les USA diminuaient leur production de produits animaux de 10% ?

In [72]:
# on répere les produits = viande
usa = data.loc[ data['country'] == "États-Unis d'Amérique"]
usa['is_viande'] = ((data['item'] == 'Viande de Bovins') | (data['item'] == "Viande d'Ovins/Caprins") |(data['item'] == 'Viande de Suides') | (data['item'] == "Viande de Volailles") | (data['item'] == "Viande, Autre"))
usa_viande= usa.loc[ usa['is_viande'] == True]
total_viande_usa = usa_viande['Production'].sum()
total_viande_usa

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


42689.0

In [73]:
pourcentage_viande_usa =total_viande_usa/1000
pourcentage_viande_usa

42.689

In [74]:
usa_cereal= usa.loc[ usa['is_cereal'] == True]
usa_alim_ani =usa_cereal['Aliments pour animaux'].sum()
usa_alim_ani

140096.0

In [75]:
# On calcule combien de tonnes de céréales pourraient être libérées si les USA diminuaient leur production de produits animaux de 10%
cereal_libre =pourcentage_viande_usa * usa_alim_ani /total_viande_usa
print('Tonnes de céréales pourraient être libérées si les USA diminuaient leur production de produits animaux de 10% : '+ str(cereal_libre)) 

Tonnes de céréales pourraient être libérées si les USA diminuaient leur production de produits animaux de 10% : 140.096


### Question 14 : En Thaïlande, quelle proportion de manioc est exportée ? Quelle est la proportion de personnes en sous-nutrition?

In [76]:
# on cree le df avec les donées de la Thailande
Thaïlande = data.loc[ data['country'] == 'Thaïlande']
Thaïlande_manioc =  Thaïlande.loc[ Thaïlande['item']== 'Manioc']
Thaïlande_manioc

Unnamed: 0,country_code,country,item_code,item,year,origin,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),...,Disponibilité intérieure,Exportations,Importations,Nourriture,Pertes,Production,Semences,Transformés,Variation de stock,is_cereal
13495,216,Thaïlande,2532,Manioc,2013,vegetal,1800.0,2081.0,40.0,13.0,...,6264.0,25214.0,1250.0,871.0,1511.0,30228.0,,0.0,0.0,False


In [77]:
# proportion de manioc est exportée
Thaïlande_manioc_exp =  Thaïlande_manioc['Exportations']/Thaïlande_manioc['Production'] *100
Thaïlande_manioc_exp

13495    83.41273
dtype: float64

In [78]:
Thaïlande_sous_noutrition = df_data_desnutricion.loc [df_data_desnutricion['Zone'] == 'Thaïlande']
Thaïlande_sous_noutrition

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
186,FS,Données de la sécurité alimentaire,216,Thaïlande,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,6.1,F,Estimation FAO


In [79]:
Thaïlande_population= df_data_3.loc[df_data_3 ['country'] == 'Thaïlande']


In [80]:
# proportion de personnes en sous-nutrition
Thaïlande_sous_noutrition_pourcentage = 6100000*100/67011000
Thaïlande_sous_noutrition_pourcentage

9.102983092328126

###### Thaïlande proportion de manioc est exportée = 83.41%

#### La proportion de personnes en sous-nutritionest de 9,1%

# Requêtes SQL

In [81]:
# Import des librairies
import sqlite3

#### Votre base devra contenir ces différentes tables :

###### Une table appelée population, contenant la population de chaque pays pour chaque année comprise entre 2012 et la dernière année disponible à la date où vous aurez consulté le site de la FAO. Elle devra contenir 4 colonnes : pays, code_pays, annee, population.

In [82]:
# Import des données de population
df_population = pd.read_csv('population.csv')
df_population.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2013,2013,1000 personnes,31731.688,X,Sources internationales sûres,"UNDESA, Population Division – World Population..."
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2014,2014,1000 personnes,32758.02,X,Sources internationales sûres,"UNDESA, Population Division – World Population..."
2,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2015,2015,1000 personnes,33736.494,X,Sources internationales sûres,"UNDESA, Population Division – World Population..."
3,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2016,2016,1000 personnes,34656.032,X,Sources internationales sûres,"UNDESA, Population Division – World Population..."
4,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,35530.081,X,Sources internationales sûres,"UNDESA, Population Division – World Population..."


In [83]:
# on cree le df population 
df_population = df_population[['Zone','Code zone','Année','Valeur']]

In [84]:
df_population = df_population.rename(columns={'Zone': "pays", 'Code zone':'code_pays', 'Valeur': 'population'})

In [85]:
df_population.head()

Unnamed: 0,pays,code_pays,Année,population
0,Afghanistan,2,2013,31731.688
1,Afghanistan,2,2014,32758.02
2,Afghanistan,2,2015,33736.494
3,Afghanistan,2,2016,34656.032
4,Afghanistan,2,2017,35530.081


#### Question 15 : Proposez une clé primaire pertinente pour cette table.

In [86]:
# Creation de la DB
conn = sqlite3.connect('ma_base.db')

In [87]:
# Import des librairies
from sqlalchemy import create_engine

In [88]:
# Connection à la DB
engine = create_engine('sqlite:///:memory:')

In [89]:
# Enregistrement  dans la DB
df_population.to_sql('population', engine,  index=False, if_exists='replace')

In [90]:
# Lecture de la DB pour verifier l'enregistrement 
pd.read_sql_table('population', engine)

Unnamed: 0,pays,code_pays,Année,population
0,Afghanistan,2,2013,31731.688
1,Afghanistan,2,2014,32758.020
2,Afghanistan,2,2015,33736.494
3,Afghanistan,2,2016,34656.032
4,Afghanistan,2,2017,35530.081
5,Afrique du Sud,202,2013,53767.396
6,Afrique du Sud,202,2014,54539.571
7,Afrique du Sud,202,2015,55291.225
8,Afrique du Sud,202,2016,56015.473
9,Afrique du Sud,202,2017,56717.156


 #### clé primaire  pour cette table = code_pays

* Une table appelée dispo_alim contenant pour chaque pays, pour chaque produit, et pour chaque année comprise entre 2012 et la dernière année disponible, les informations suivantes:
la nature du produit (deux valeurs possibles : “animal” ou “végétal”)
* disponibilité alimentaire en tonnes
* disponibilité alimentaire en Kcal/personne/jour
* disponibilité alimentaire de protéines en g/personne/jour
* disponibilité alimentaire de matières grasses en g/personne/jour
*Elle devra contenir ces colonnes : pays, code_pays, année, produit, code_produit, origin, dispo_alim_tonnes, dispo_alim_kcal_p_j, dispo_prot, dispo_mat_gr .

In [91]:
# On cree le df avec la disponibilité alimentaire
df_dispo_alim = data [['country_code', 'country', 'year','item','item_code','origin','Disponibilité intérieure','Disponibilité alimentaire (Kcal/personne/jour)','Disponibilité de matière grasse en quantité (g/personne/jour)','Disponibilité de protéines en quantité (g/personne/jour)']]

In [92]:
df_dispo_alim = df_dispo_alim.rename(columns={'country': "pays", 'country_code':'code_pays', 'year': 'année', 'item': 'produit', 'item_code': 'code_produit', 'Disponibilité intérieure': 'dispo_alim_tonnes', 'Disponibilité alimentaire (Kcal/personne/jour)': 'dispo_alim_kcal_p_j', 'Disponibilité de matière grasse en quantité (g/personne/jour)': 'dispo_mat_gr', 'Disponibilité de protéines en quantité (g/personne/jour)': 'dispo_prot'})

In [93]:
df_dispo_alim.head(10)

Unnamed: 0,code_pays,pays,année,produit,code_produit,origin,dispo_alim_tonnes,dispo_alim_kcal_p_j,dispo_mat_gr,dispo_prot
0,1,Arménie,2013,Blé,2511,vegetal,554.0,1024.0,3.6,30.52
1,1,Arménie,2013,Orge,2513,vegetal,198.0,0.0,0.0,0.0
2,1,Arménie,2013,Maïs,2514,vegetal,102.0,0.0,,0.01
3,1,Arménie,2013,Seigle,2515,vegetal,1.0,1.0,0.0,0.02
4,1,Arménie,2013,Avoine,2516,vegetal,6.0,2.0,0.03,0.09
5,1,Arménie,2013,Millet,2517,vegetal,0.0,,,
6,1,Arménie,2013,Sorgho,2518,vegetal,0.0,,,
7,1,Arménie,2013,"Céréales, Autres",2520,vegetal,21.0,14.0,0.04,0.39
8,1,Arménie,2013,Pommes de Terre,2531,vegetal,672.0,82.0,0.12,1.94
9,1,Arménie,2013,Manioc,2532,vegetal,0.0,,,


In [94]:
# Enregistrement  dans la DB
df_dispo_alim.to_sql('dispo_alim', engine,  index=False, if_exists='replace')

In [95]:
# Lecture de la DB pour verifier l'enregistrement
pd.read_sql_table('dispo_alim', engine)

Unnamed: 0,code_pays,pays,année,produit,code_produit,origin,dispo_alim_tonnes,dispo_alim_kcal_p_j,dispo_mat_gr,dispo_prot
0,1,Arménie,2013,Blé,2511,vegetal,554.0,1024.0,3.60,30.52
1,1,Arménie,2013,Orge,2513,vegetal,198.0,0.0,0.00,0.00
2,1,Arménie,2013,Maïs,2514,vegetal,102.0,0.0,,0.01
3,1,Arménie,2013,Seigle,2515,vegetal,1.0,1.0,0.00,0.02
4,1,Arménie,2013,Avoine,2516,vegetal,6.0,2.0,0.03,0.09
5,1,Arménie,2013,Millet,2517,vegetal,0.0,,,
6,1,Arménie,2013,Sorgho,2518,vegetal,0.0,,,
7,1,Arménie,2013,"Céréales, Autres",2520,vegetal,21.0,14.0,0.04,0.39
8,1,Arménie,2013,Pommes de Terre,2531,vegetal,672.0,82.0,0.12,1.94
9,1,Arménie,2013,Manioc,2532,vegetal,0.0,,,


#### clé primaire pour cette table = code_produit

* Une table appelée equilibre_prod contenant pour chaque pays, pour chaque produit, et pour chaque année comprise entre 2012 et la dernière année disponible, les quantités suivantes :
* disponibilité intérieure
* aliments pour animaux
* semences
* pertes
* transformés
* nourriture
* autres utilisations
Elle devra contenir ces colonnes : pays, code_pays, année, produit, code_produit, dispo_int, alim_ani, semences, pertes, transfo, nourriture, autres_utilisations.

In [96]:
df_equilibre_prod = data [['country_code', 'country', 'year','item','item_code','origin','Disponibilité intérieure','Aliments pour animaux','Semences','Pertes','Nourriture','Transformés', 'Autres Utilisations']]

In [97]:
df_equilibre_prod = df_equilibre_prod.rename(columns={'country': "pays", 'country_code':'code_pays', 'year': 'année', 'item': 'produit', 'item_code': 'code_produit', 'Disponibilité intérieure': 'dispo_int', 'Aliments pour animaux':'alim_ani','Transformés': 'transfo', 'Autres Utilisations':'autres_utilisations'})

In [98]:
df_equilibre_prod.head()

Unnamed: 0,code_pays,pays,année,produit,code_produit,origin,dispo_int,alim_ani,Semences,Pertes,Nourriture,transfo,autres_utilisations
0,1,Arménie,2013,Blé,2511,vegetal,554.0,93.0,30.0,32.0,389.0,10.0,0.0
1,1,Arménie,2013,Orge,2513,vegetal,198.0,137.0,14.0,15.0,0.0,7.0,26.0
2,1,Arménie,2013,Maïs,2514,vegetal,102.0,96.0,0.0,7.0,0.0,,
3,1,Arménie,2013,Seigle,2515,vegetal,1.0,1.0,0.0,0.0,0.0,,
4,1,Arménie,2013,Avoine,2516,vegetal,6.0,4.0,0.0,0.0,1.0,,


In [99]:
# Enregistrement dans la DB
df_equilibre_prod.to_sql('equilibre_prod', engine,  index=False, if_exists='replace')

In [100]:
# Lecture de la DB pour verifier l'enregistrement
pd.read_sql_table('equilibre_prod', engine)

Unnamed: 0,code_pays,pays,année,produit,code_produit,origin,dispo_int,alim_ani,Semences,Pertes,Nourriture,transfo,autres_utilisations
0,1,Arménie,2013,Blé,2511,vegetal,554.0,93.0,30.0,32.0,389.0,10.0,0.0
1,1,Arménie,2013,Orge,2513,vegetal,198.0,137.0,14.0,15.0,0.0,7.0,26.0
2,1,Arménie,2013,Maïs,2514,vegetal,102.0,96.0,0.0,7.0,0.0,,
3,1,Arménie,2013,Seigle,2515,vegetal,1.0,1.0,0.0,0.0,0.0,,
4,1,Arménie,2013,Avoine,2516,vegetal,6.0,4.0,0.0,0.0,1.0,,
5,1,Arménie,2013,Millet,2517,vegetal,0.0,0.0,,,,,
6,1,Arménie,2013,Sorgho,2518,vegetal,0.0,0.0,,,,,
7,1,Arménie,2013,"Céréales, Autres",2520,vegetal,21.0,1.0,1.0,1.0,6.0,,12.0
8,1,Arménie,2013,Pommes de Terre,2531,vegetal,672.0,225.0,123.0,96.0,134.0,78.0,16.0
9,1,Arménie,2013,Manioc,2532,vegetal,0.0,0.0,,,,,


#### clé primaire pour cette table = code_produit

* Une table appelée sous_nutrition, contenant le nombre de personnes en sous-alimentation pour chaque pays et pour chaque année comprise entre 2012 et la dernière année disponible. Elle devra contenir 4 colonnes : pays, code_pays, année, nb_personnes.

In [101]:
# Import des données de sous-noutrition
df_sous_nutrition = pd.read_csv('sous_nutrition.csv')

In [102]:
df_sous_nutrition.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FS,Données de la sécurité alimentaire,2,Afghanistan,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,8.1,F,Estimation FAO
1,FS,Données de la sécurité alimentaire,2,Afghanistan,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20132015,2013-2015,millions,9.0,F,Estimation FAO
2,FS,Données de la sécurité alimentaire,2,Afghanistan,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20142016,2014-2016,millions,9.9,F,Estimation FAO
3,FS,Données de la sécurité alimentaire,2,Afghanistan,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20152017,2015-2017,millions,10.5,F,Estimation FAO
4,FS,Données de la sécurité alimentaire,202,Afrique du Sud,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20122014,2012-2014,millions,2.6,F,Estimation FAO


In [103]:
df_sous_nutrition = df_sous_nutrition[['Code zone','Zone','Code année','Année','Valeur']]

In [104]:
df_sous_nutrition = df_sous_nutrition.rename(columns={'Zone': "pays", 'Code zone':'code_pays', 'Valeur': 'nb_personnes'})

In [105]:
df_sous_nutrition.loc[df_sous_nutrition['Année'] =='2012-2014', 'Code année'] = '2013'
df_sous_nutrition.loc[df_sous_nutrition['Année'] =='2013-2015', 'Code année'] = '2014'
df_sous_nutrition.loc[df_sous_nutrition['Année'] =='2014-2016', 'Code année'] = '2015'
df_sous_nutrition.loc[df_sous_nutrition['Année'] =='2015-2017', 'Code année'] = '2016'

In [106]:
df_sous_nutrition =df_sous_nutrition.drop(columns = ['Année'])
df_sous_nutrition.head()

Unnamed: 0,code_pays,pays,Code année,nb_personnes
0,2,Afghanistan,2013,8.1
1,2,Afghanistan,2014,9.0
2,2,Afghanistan,2015,9.9
3,2,Afghanistan,2016,10.5
4,202,Afrique du Sud,2013,2.6


In [107]:
df_sous_nutrition = df_sous_nutrition.rename(columns={'Code année': "Année"})

In [108]:
df_population =df_population[df_population.Année != 2017]
df_population['Année'] =df_population['Année'].astype(str)

In [109]:
df_sous_nutrition = df_sous_nutrition.merge(df_population)
df_sous_nutrition.head()


Unnamed: 0,code_pays,pays,Année,nb_personnes,population
0,2,Afghanistan,2013,8.1,31731.688
1,2,Afghanistan,2014,9.0,32758.02
2,2,Afghanistan,2015,9.9,33736.494
3,2,Afghanistan,2016,10.5,34656.032
4,202,Afrique du Sud,2013,2.6,53767.396


In [110]:
# Eresgistrement dans la DB
df_sous_nutrition.to_sql('sous_nutrition', engine,  index=False, if_exists='replace')

In [111]:
# Lecture de la DB pur verifier l'enregistrement
pd.read_sql_table('sous_nutrition', engine)

Unnamed: 0,code_pays,pays,Année,nb_personnes,population
0,2,Afghanistan,2013,8.1,31731.688
1,2,Afghanistan,2014,9,32758.020
2,2,Afghanistan,2015,9.9,33736.494
3,2,Afghanistan,2016,10.5,34656.032
4,202,Afrique du Sud,2013,2.6,53767.396
5,202,Afrique du Sud,2014,2.9,54539.571
6,202,Afrique du Sud,2015,3.2,55291.225
7,202,Afrique du Sud,2016,3.4,56015.473
8,3,Albanie,2013,0.2,2918.978
9,3,Albanie,2014,0.2,2920.775


#### clé primaire pour cette table = code_pays

#### Question 19 : Écrivez les requêtes SQL permettant de connaître…

* Les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant, puis en termes de kcal par habitant.
* Pour chaque année disponible, les 10 pays ayant le plus faible ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant. Le nombre de lignes de la table renvoyée sera donc égal à 10 fois le nombre d'années disponibles.
* La quantité totale (en kg) de produits perdus par pays et par année. La table renvoyée contiendra donc une ligne par couple (pays, année).
* Les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte.
* Les 10 produits pour lesquels le ratio Autres utilisations/Disponibilité intérieure est le plus élevé.

In [112]:
# Requêtes pour trouver les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant, puis en termes de kcal par habitant.
pd.read_sql_query("SELECT pays,  SUM(dispo_prot) FROM dispo_alim GROUP BY pays ORDER BY SUM(dispo_prot) DESC LIMIT 10", engine)


Unnamed: 0,pays,SUM(dispo_prot)
0,Islande,133.91
1,Chine - RAS de Hong-Kong,129.8
2,Israël,128.01
3,Lituanie,124.48
4,Maldives,122.94
5,Finlande,118.64
6,Luxembourg,114.5
7,Norvège,113.78
8,Monténégro,112.5
9,Albanie,111.54


In [113]:
pd.read_sql_query("SELECT  pays, SUM(dispo_alim_kcal_p_j) FROM dispo_alim GROUP BY  pays ORDER BY SUM(dispo_alim_kcal_p_j) DESC LIMIT 10", engine)

Unnamed: 0,pays,SUM(dispo_alim_kcal_p_j)
0,Autriche,3773.0
1,Belgique,3737.0
2,Turquie,3710.0
3,États-Unis d'Amérique,3682.0
4,Israël,3610.0
5,Irlande,3602.0
6,Italie,3586.0
7,Norvège,3585.0
8,Luxembourg,3564.0
9,Koweït,3535.0


In [114]:
# Requête pour trouver les 10 pays ayant le plus faible ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant
pd.read_sql_query("SELECT pays,  SUM(dispo_prot) FROM dispo_alim GROUP BY pays ORDER BY SUM(dispo_prot) ASC  LIMIT 10", engine)

Unnamed: 0,pays,SUM(dispo_prot)
0,Libéria,37.8
1,Guinée-Bissau,44.18
2,Mozambique,45.69
3,République centrafricaine,46.05
4,Madagascar,46.7
5,Haïti,47.74
6,Zimbabwe,48.39
7,Congo,51.65
8,Ouganda,52.65
9,Sao Tomé-et-Principe,53.46


In [115]:
# Requête pour trouver la quantité totale (en kg) de produits perdus par pays et par année
pd.read_sql_query("SELECT pays, année, SUM(pertes) FROM equilibre_prod GROUP BY pays ORDER BY SUM(pertes) DESC ", engine)

Unnamed: 0,pays,année,SUM(pertes)
0,"Chine, continentale",2013,89575.0
1,Brésil,2013,75914.0
2,Inde,2013,55930.0
3,Nigéria,2013,19854.0
4,Indonésie,2013,13081.0
5,Turquie,2013,12036.0
6,Mexique,2013,8289.0
7,Égypte,2013,7608.0
8,Ghana,2013,7442.0
9,États-Unis d'Amérique,2013,7162.0


In [116]:
#Requête pour toruver les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte.
pd.read_sql_query("SELECT pays, année, ((nb_personnes*1000000)/(population*1000))*100 as prop_per_sous_nutrition FROM sous_nutrition  WHERE année = '2016' GROUP BY pays ORDER BY prop_per_sous_nutrition DESC LIMIT 10", engine)

Unnamed: 0,pays,Année,prop_per_sous_nutrition
0,République centrafricaine,2016,60.940826
1,Zimbabwe,2016,46.438588
2,Haïti,2016,46.094275
3,Zambie,2016,44.601447
4,République populaire démocratique de Corée,2016,43.360656
5,Madagascar,2016,42.981293
6,Ouganda,2016,41.457806
7,Tchad,2016,39.439426
8,Libéria,2016,39.0132
9,Congo,2016,37.067233


In [117]:
#Requête pour toruver les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte.
pd.read_sql_query("SELECT DISTINCT pays, année, ((nb_personnes*1000000)/(population*1000))*100 AS prop_per_sous_nutrition FROM sous_nutrition WHERE année = '2013' GROUP BY pays ORDER BY prop_per_sous_nutrition DESC LIMIT 10", engine)

Unnamed: 0,pays,Année,prop_per_sous_nutrition
0,Haïti,2013,49.847696
1,République centrafricaine,2013,46.670265
2,Zambie,2013,46.194833
3,Zimbabwe,2013,44.504948
4,République populaire démocratique de Corée,2013,41.623349
5,Congo,2013,37.883627
6,Libéria,2013,37.32831
7,Tchad,2013,37.308918
8,Madagascar,2013,35.712503
9,Ouganda,2013,33.55193


In [118]:
# Requête pour trouver les 10 produits pour lesquels le ratio Autres utilisations/Disponibilité intérieure est le plus élevé.
pd.read_sql_query("SELECT produit, SUM(autres_utilisations)/ SUM(dispo_int) AS ratio FROM equilibre_prod GROUP BY produit ORDER BY  ratio DESC LIMIT 10", engine)

Unnamed: 0,produit,ratio
0,"Alcool, non Comestible",1.001288
1,Huil Plantes Oleif Autr,0.754744
2,Huile de Palmistes,0.703957
3,Huile de Palme,0.698109
4,Girofles,0.646154
5,Huile de Colza&Moutarde,0.55129
6,Graisses Animales Crue,0.470219
7,Huiles de Poissons,0.448068
8,Huile de Soja,0.416172
9,Huile de Coco,0.376812


#### Question 20 : pour quelques uns des produits identifiés dans cette dernière requête SQL, supposez quelles sont ces "autres utilisations" possibles (recherchez sur internet !)

###### Alcool, non comestible 
* L'alcool dénaturé est généralement de l'alcool éthylique auquel est ajouté un dénaturant pour rendre le mélange impropre à la consommation alimentaire. Le processus de transformation est appelé dénaturation, mais il ne s'agit pas d'une dénaturation au sens biochimique du terme.

* Il peut aussi y avoir un peu de colorant jaune pour différencier l'alcool modifié de l'alcool pur, qui pourrait être utilisé pour la préparation artisanale de boissons.

* Divers alcools spécialement dénaturés (SD) sont utilisés comme ingrédients cosmétiques dans une grande variété de produits


###### Huile de palmiste 
* L'huile de palmiste est extraite des graines - les noyaux - du fruit du palmier à huile (Elaeis guineensis).

* Elle ne doit pas être confondue avec l'huile de palme, extraite du mésocarpe du fruit de la même plante.

* Les graines sont séchées puis pressées. L'huile résiduelle est fréquemment extraite à l'aide d'hexane.

* Il existe des controverses au sujet de l'impact de sa production sur l'environnement. Les ONG dénoncent le développement des plantations de palmiers à huile, synonyme de déforestation en Malaisie, Indonésie et Papouasie-Nouvelle-Guinée.
* Les propriétés de l'huile de palmiste sont très similaires à celles de l'huile de palme. Sa stabilité est proche de celle de l'huile de coprah.


###### Huile Plantes Oleif 
* Les graines peuvent également être utilisé pour la purification de l'eau, comme détergent, ou comme plante médicinale
* L'huile de graines de moringa a également un potentiel pour une utilisation en tant qu’agrocarburant
* L'huile extraite des graines de moringa est une matière première intéressante pour l'industrie cosmétique (savon, parfum).

###### Huile de Palme 
* production d'agrocarburant.