# P3: Etude de santé publique

 Réaliser une étude sur le thème de la sous-nutrition dans le monde.

Le problème de la faim est complexe et peut avoir de multiples causes, différentes selon les pays. L’étape préliminaire de cette étude sera donc d’établir un “état de l’art” des recherches déjà publiées, mais également de mener une étude statistique destinée à orienter les recherches vers des pays particuliers, et de mettre en lumière différentes causes de la faim.


L'étude s'appuie sur des données issues de la FAO
et sont constituées de 5 fichiers sur:

    des indicateurs de production des produits animaux en 2013;
    la population mondiale par pays en 2013;
    de multiples indicateurs de production des produits végétaux en 2013;
    la quantité de céréales produites au niveau mondial en 2013;    
    le nombre de personnes sous alimentées dans le monde de 2013 à 2017.

### Import des bibliothèques nécessaires

In [1]:
import numpy as np
import pandas as pd
import sqlite3 as sql
pd.set_option('use_inf_as_na', True)

Créez un dataframe contenant les informations de population de chaque pays. Calculez le nombre total d’humains sur la planète. Critiquez votre résultat. En cas d’anomalie, analysez et effectuer les corrections nécessaires.

In [2]:
# Import des données des bilans alimentaires
animaux = pd.read_csv('fr_animaux.csv')
vegetaux = pd.read_csv('fr_vegetaux.csv')


# Ajout de la variable origine
animaux['origin'] = 'animal'
vegetaux['origin'] = 'vegetal'

# On regroupe animaux et vegetaux en un unique dataframe, via une union
data = pd.concat([animaux, vegetaux])

# Transformation de data via un pivot table
data = data.pivot_table(index=['Zone','Code zone','Produit', 'origin'], values='Valeur', columns='Élément')
data = data.rename_axis(None, axis=1)
data.reset_index(inplace=True)

# pour beaucoup de variables, l'unité est en millier de tonnes : on le transforme en kg pour homogénéiser :
colonnes = ['Aliments pour animaux','Autres utilisations (non alimentaire)','Disponibilité intérieure',
            'Exportations - Quantité','Importations - Quantité','Nourriture','Pertes','Production',
            'Semences','Traitement','Variation de stock']
for col in colonnes:
    data[col] *= 1000000

data.head()

Unnamed: 0,Zone,Code zone,Produit,origin,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,2,Abats Comestible,animal,,,5.0,1.72,0.2,0.77,53000000.0,,,53000000.0,,53000000.0,,,
1,Afghanistan,2,"Agrumes, Autres",vegetal,,,1.0,1.29,0.01,0.02,41000000.0,2000000.0,40000000.0,39000000.0,2000000.0,3000000.0,,,
2,Afghanistan,2,Aliments pour enfants,vegetal,,,1.0,0.06,0.01,0.03,2000000.0,,2000000.0,2000000.0,,,,,
3,Afghanistan,2,Ananas,vegetal,,,0.0,0.0,,,0.0,,0.0,0.0,,,,,
4,Afghanistan,2,Bananes,vegetal,,,4.0,2.7,0.02,0.05,82000000.0,,82000000.0,82000000.0,,,,,


In [3]:

animaux.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,origin
0,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5511,Production,2731,Viande de Bovins,2013,2013,Milliers de tonnes,134.0,S,Données standardisées,animal
1,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5611,Importations - Quantité,2731,Viande de Bovins,2013,2013,Milliers de tonnes,6.0,S,Données standardisées,animal
2,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5301,Disponibilité intérieure,2731,Viande de Bovins,2013,2013,Milliers de tonnes,140.0,S,Données standardisées,animal
3,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5142,Nourriture,2731,Viande de Bovins,2013,2013,Milliers de tonnes,140.0,S,Données standardisées,animal
4,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,645,Disponibilité alimentaire en quantité (kg/pers...,2731,Viande de Bovins,2013,2013,kg,4.59,Fc,Donnée calculée,animal


In [4]:
# Importation et traitement de la table sous alimentation
sousalim = pd.read_csv("fr_sousalimentation.csv")

# sélection des colonnes pertinentes
sousalim = sousalim[['Zone','Code zone','Année','Valeur']]

# Multiplication de la colonne Valeur par 1 000 000, car l'unité est en million d'habitants
# La colonne étant en string, à cause de valeurs particulières (< 0.1, <0.5 notamment, etc...) il faut d'abord la
# transformer en numeric. Plusieurs choix sont possibles pour traiter les valeurs particulières : 
# je choisis ici de transformer celles ci en NA
sousalim['Valeur'] = pd.to_numeric(sousalim['Valeur'], errors='coerce')
sousalim['Valeur'] *= 1000000

# renommage de la colonne Valeur et Année
sousalim.rename(columns={'Valeur':'nb_sousalim', 'Année':'Annee'}, inplace=True)

# transformation de la colonne année :
sousalim['Annee'] = pd.to_numeric(sousalim['Annee'].str[0:4])+1

sousalim.head()

Unnamed: 0,Zone,Code zone,Annee,nb_sousalim
0,Afghanistan,2,2013,7900000.0
1,Afghanistan,2,2014,8800000.0
2,Afghanistan,2,2015,9600000.0
3,Afghanistan,2,2016,10200000.0
4,Afghanistan,2,2017,10600000.0


In [5]:
# Importation et traitement de la table population
pop = pd.read_csv("fr_population.csv")

# sélection des colonnes pertinentes pour pop 
pop = pop[['Zone','Code zone','Année','Valeur']]

# Renommage de la colonne Valeur et mise à l'unité d'habitant, au lieu de milliers d'habitants
pop.rename(columns={'Valeur':'Population', 'Année':'Annee'}, inplace=True)
pop['Population'] *= 1000

pop.head()

Unnamed: 0,Zone,Code zone,Annee,Population
0,Afghanistan,2,2013,30552000
1,Afrique du Sud,202,2013,52776000
2,Albanie,3,2013,3173000
3,Algérie,4,2013,39208000
4,Allemagne,79,2013,82727000


#### 1. Calcul du nombre total d’humains sur la planète en 2013

In [6]:
#Calcul de la populaion mondiale:

pop['Population'].sum()
# 8413993000 bien trop élevé !


#Vérification si données répétitives au niveau du Code zone.
#La Chine est présente sur plusieurs lignes :
print(pop.loc[pop['Code zone'].isin([96, 128, 41, 214, 351]), :], '\n')

# - Suppression des pays 96, 128, 41 et 214 à parir de code zone et de la méthode isin
data = data.loc[~data['Code zone'].isin([96, 128, 41, 214]), :]

# filtres des df et inverse de filtres booléens,tous les pays sauf ceux sélectionnés
pop = pop.loc[~pop['Code zone'].isin([96, 128, 41, 214]), :]
sousalim = sousalim.loc[~sousalim['Code zone'].isin([96, 128, 41, 214]), :]

somme_pop2013 = pop['Population'].sum()
#Formatage de la réponse à afficher
print("Population mondiale en 2013 : {} humains".format(somme_pop2013))

                         Zone  Code zone  Annee  Population
33                      Chine        351   2013  1416667000
34   Chine - RAS de Hong-Kong         96   2013     7204000
35       Chine - RAS de Macao        128   2013      566000
36        Chine, continentale         41   2013  1385567000
37  Chine, Taiwan Province de        214   2013    23330000 

Population mondiale en 2013 : 6997326000 humains


#### Calculez (pour chaque pays et chaque produit) la disponibilité alimentaire en kcal puis en kg de protéines.

In [7]:
#Conversion des g de protéine en kg et renommage des colonnes 
data['Disponibilité de protéines en quantité (g/personne/jour)'] /=1000
data.rename(columns={'Disponibilité de protéines en quantité(g/personne/jour)':'Disponibilité de protéines en quantité(Kg/personne/jour)'},inplace=True)
#filtre de colonnes pertinantes dans data
data[ [ 'Zone', 'Code zone', 'Produit','Disponibilité alimentaire (Kcal/personne/jour)',
       'Disponibilité de protéines en quantité (g/personne/jour)', 'Nourriture'  ]]


Unnamed: 0,Zone,Code zone,Produit,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Nourriture
0,Afghanistan,2,Abats Comestible,5.0,0.00077,53000000.0
1,Afghanistan,2,"Agrumes, Autres",1.0,0.00002,39000000.0
2,Afghanistan,2,Aliments pour enfants,1.0,0.00003,2000000.0
3,Afghanistan,2,Ananas,0.0,,0.0
4,Afghanistan,2,Bananes,4.0,0.00005,82000000.0
...,...,...,...,...,...,...
15697,Îles Salomon,25,Viande de Suides,45.0,0.00141,3000000.0
15698,Îles Salomon,25,Viande de Volailles,11.0,0.00114,2000000.0
15699,Îles Salomon,25,"Viande, Autre",0.0,0.00004,0.0
15700,Îles Salomon,25,Vin,0.0,,0.0


In [8]:
#Création de la table pop1 qui sera mobilisée plus tard.
pop1=pop[['Zone','Population']]
pop1

Unnamed: 0,Zone,Population
0,Afghanistan,30552000
1,Afrique du Sud,52776000
2,Albanie,3173000
3,Algérie,39208000
4,Allemagne,82727000
...,...,...
170,Venezuela (République bolivarienne du),30405000
171,Viet Nam,91680000
172,Yémen,24407000
173,Zambie,14539000


In [9]:
#Pour faciliter les opérations suivantes, réunion des tables data et pop1 via la méthode .merge()

data3 = data.merge(pop1 , on ='Zone', how='inner')

In [10]:
#Rajout des colonnes, R1 et R2 qui renvoient respectivement au calcul 
#de la disponibilité alimentaire en kcal puis en kg de protéines
data3["R1"]=data3[('Disponibilité alimentaire (Kcal/personne/jour)')]*data3[('Population')]*365 
data3["R2"]=data3[('Disponibilité de protéines en quantité (g/personne/jour)')]*data3['Population']*365
#inspection du nombre de lignes, de colonnes et d'éventuelles valeurs manquantes  
data3.shape,sum(data3['Population'].notnull())

((15325, 22), 15325)

In [11]:
data3["R1"]/data3["Nourriture"]
data3["R2"]/data3["Nourriture"]
data3.head(10)

Unnamed: 0,Zone,Code zone,Produit,origin,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),...,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock,Population,R1,R2
0,Afghanistan,2,Abats Comestible,animal,,,5.0,1.72,0.2,0.00077,...,,53000000.0,,53000000.0,,,,30552000,55757400000.0,8586639.6
1,Afghanistan,2,"Agrumes, Autres",vegetal,,,1.0,1.29,0.01,2e-05,...,40000000.0,39000000.0,2000000.0,3000000.0,,,,30552000,11151480000.0,223029.6
2,Afghanistan,2,Aliments pour enfants,vegetal,,,1.0,0.06,0.01,3e-05,...,2000000.0,2000000.0,,,,,,30552000,11151480000.0,334544.4
3,Afghanistan,2,Ananas,vegetal,,,0.0,0.0,,,...,0.0,0.0,,,,,,30552000,0.0,
4,Afghanistan,2,Bananes,vegetal,,,4.0,2.7,0.02,5e-05,...,82000000.0,82000000.0,,,,,,30552000,44605920000.0,557574.0
5,Afghanistan,2,"Beurre, Ghee",animal,,,23.0,1.17,2.61,3e-05,...,0.0,36000000.0,,36000000.0,,,,30552000,256484000000.0,334544.4
6,Afghanistan,2,Bière,vegetal,,,0.0,0.09,,0.0,...,3000000.0,3000000.0,,,,,,30552000,0.0,0.0
7,Afghanistan,2,Blé,vegetal,,,1369.0,160.23,4.69,0.03691,...,1173000000.0,4895000000.0,775000000.0,5169000000.0,322000000.0,,-350000000.0,30552000,15266380000000.0,411601126.8
8,Afghanistan,2,Boissons Alcooliques,vegetal,,,0.0,0.0,,,...,0.0,0.0,,,,,,30552000,0.0,
9,Afghanistan,2,Café,vegetal,,,0.0,0.0,,0.0,...,0.0,0.0,,,,,,30552000,0.0,0.0


#### 4. pour chaque produit, calcul du ratio "énergie/poids" en kcal/kg.

In [12]:
#Dans data3, je crée une colonne dite "ratio1", qui renvoie au calcul demandé, 
#soit R1/par les valeurs de la colonne "Nourriture"

data_ratio=data3[ [ 'Produit','R1','R2', 'Nourriture' ]]

# remplacement des 0 par des NaN pour éviter la division par 0 et d'avoir des 0 dans la future moyenne
data_ratio.replace(0, np.nan, inplace=True)

data_ratio['ratio1']=data_ratio['R1'] / data_ratio['Nourriture']
data_ratio['ratio2']=data_ratio['R2'] / data_ratio['Nourriture']
data_ratio.head(3)



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().replace(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_ratio['ratio1']=data_ratio['R1'] / data_ratio['Nourriture']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_ratio['ratio2']=data_ratio['R2'] / data_ratio['Nourriture']


Unnamed: 0,Produit,R1,R2,Nourriture,ratio1,ratio2
0,Abats Comestible,55757400000.0,8586639.6,53000000.0,1052.026415,0.162012
1,"Agrumes, Autres",11151480000.0,223029.6,39000000.0,285.935385,0.005719
2,Aliments pour enfants,11151480000.0,334544.4,2000000.0,5575.74,0.167272


In [13]:
# Ratio par catégorie
data4 = data_ratio[['Produit','R1','R2', 'ratio1', 'ratio2']].groupby('Produit').mean()
data4.reset_index(inplace=True)

#Affichage du résultat
data4.loc[data4['Produit'] == 'Oeufs', :]

Unnamed: 0,Produit,R1,R2,ratio1,ratio2
58,Oeufs,536230600000.0,41734740.0,1343.440349,0.105473


In [14]:
# Je vérifie que le résultat est cohérent pour l'avoine
data4.loc[data4['Produit'] == 'Avoine', :]

Unnamed: 0,Produit,R1,R2,ratio1,ratio2
7,Avoine,71934700000.0,2818072.0,2135.35579,0.084294


#### 5. Pésentation de 5 aliments parmi les 20 les plus caloriques, en utilisant le ratio énergie/poids.

In [15]:
data4.sort_values("ratio1", ascending=False).head(20)

Unnamed: 0,Produit,R1,R2,ratio1,ratio2
45,Huiles de Foie de Poisso,25021120000.0,,9982.9325,
42,Huile de Son de Riz,593981800000.0,464075.6,9379.568137,0.006927
43,Huile de Sésame,112571200000.0,,9314.546692,
46,Huiles de Poissons,151924700000.0,,9003.715504,
34,Huile d'Arachide,358886900000.0,40529.6,8925.582634,0.010132
38,Huile de Germe de Maïs,193050800000.0,159738.6,8914.635341,0.007495
35,Huile d'Olive,196308200000.0,,8891.111102,
32,Huil Plantes Oleif Autr,105630700000.0,80580.79,8867.128294,0.011281
40,Huile de Palmistes,310291300000.0,173007.8,8797.863661,0.006703
33,Huile Graines de Coton,471665800000.0,457943.1,8743.068709,0.005643


In [16]:
data4.sort_values("ratio2", ascending=False).head(20)

Unnamed: 0,Produit,R1,R2,ratio1,ratio2
27,Graines Colza/Moutarde,58558130000.0,4348853.0,4178.462736,0.285365
81,Soja,522370800000.0,29689330.0,3311.134447,0.285156
6,Arachides Decortiquees,412907300000.0,17336640.0,5706.92852,0.251573
70,Pois,155332700000.0,9406437.0,3475.63748,0.223219
50,Légumineuses Autres,659421100000.0,37102060.0,3426.75123,0.220334
31,Haricots,419651500000.0,25915830.0,3424.794082,0.216532
87,Sésame,93259380000.0,2563700.0,5819.781625,0.176118
0,Abats Comestible,103347000000.0,16350240.0,1130.422533,0.175587
95,"Viande, Autre",63287360000.0,7767502.0,1294.463333,0.174632
69,"Plantes Oleiferes, Autre",81316780000.0,3229079.0,4350.089305,0.172627


#Les 5 aliments parmi les 20 aliments les plus riches en protéines sont
les graines de colza/ la moutarde ;
le soja ;
les arachides décortiquées ;
les pois ;
les légumineuses Autres


#### 6. Calcul de la disponibilité intérieure mondiale exprimée en kcal, pour les produits végétaux uniquement

In [17]:
#Filtre sur les produits d'origine végétale et somme des  valeurs 
#de leurs disponibilités intérieure, grâce à une agrégation. 

d6=data3.loc[data3['origin']=="vegetal", :]


data4 = data4[['Produit','ratio1', 'ratio2']]

d6 = pd.merge(d6, data4, on='Produit', how='left')
d6['dispo_int_kcal'] = d6['Disponibilité intérieure'] * d6['ratio1']

print('Disponibilité totale en kcal :', d6['dispo_int_kcal'].sum(), 'kcal')

Disponibilité totale en kcal : 1.3780136677764188e+16 kcal


# “P3_07_coderéponses” 

#### 7: Nombre d'humains pouvant être nourris si toute la disponibilité intérieure mondiale de produits végétaux était utilisée pour de la nourriture (résultats en termes de calories, puis de protéines et en pourcentage de la population mondiale).

In [18]:
# on prendra comme valeur d'apport energétique quotidien nécessaire 2200kcal/j
kcal_use = 2200

# Poids moyen d'un humain : 65kg
# Besoin en protéines moyens pour un humain : 0.9 g/kg/jour
kgprot_use = 65*0.9*0.001

temp_kcal = d6['dispo_int_kcal'].sum()/(kcal_use*365)
print('On pourrait nourrir', round(temp_kcal), 'êtres humains, soit', round(temp_kcal*100/somme_pop2013, 2), '% de la population')

d6['dispo_int_kgprot'] = d6['Disponibilité intérieure'] * d6['ratio2']
temp_kgprot = d6['dispo_int_kgprot'].sum()/(kgprot_use*365)
print('On pourrait nourrir', round(temp_kgprot), 'êtres humains, soit', round(temp_kgprot*100/somme_pop2013, 2), '% de la population')

On pourrait nourrir 17160817781 êtres humains, soit 245.25 % de la population
On pourrait nourrir 16353018510 êtres humains, soit 233.7 % de la population


#### 8: Nombre d'humains pouvant être nourris si toute la disponibilité alimentaire en produits végétaux, la nourriture végétale destinée aux animaux et les pertes de produits végétaux étaient utilisées pour de la nourriture ( résultats en termes de calories, puis de protéines et en pourcentage de la population mondiale).

In [19]:
#Calcul des calories

In [20]:
d6['somme_tot'] = d6[['Nourriture','Aliments pour animaux','Pertes']].sum(axis=1)

In [21]:
temp_kcal = (d6['somme_tot']*d6['ratio1']).sum()/(kcal_use*365)
print('On pourrait nourrir', round(temp_kcal), 'êtres humains, soit', round(temp_kcal*100/somme_pop2013, 2), '% de la population')

On pourrait nourrir 11836173180 êtres humains, soit 169.15 % de la population


In [22]:
# Protéine

In [23]:
temp_kgprot = (d6['somme_tot']*d6['ratio2']).sum()/(kgprot_use*365)
print('On pourrait nourrir', round(temp_kgprot), 'êtres humains, soit', round(temp_kgprot*100/somme_pop2013, 2), '% de la population')


On pourrait nourrir 10047984898 êtres humains, soit 143.6 % de la population


#### 9: Nombre d'humains pouvant être nourris avec la disponibilité alimentaire mondiale (résultats en termes de calories, puis de protéines et en pourcentage de la population mondiale).

In [24]:
#Calcul de la disponiilié mondiale en Kcal
d9=data3['R1'].sum()
d9

7364437353675000.0

In [25]:
d9_F_H=d9/(kcal_use*365)
d9_F_H
print (" Avec la disponibilité alimentaire mondiale: {} d'humains pourraient être nourris en kcal en 2020".format( round(d9_F_H)))

 Avec la disponibilité alimentaire mondiale: 9171154861 d'humains pourraient être nourris en kcal en 2020


In [26]:
d9_F_H1=d9_F_H*100/somme_pop2013
d9_F_H1
print (" Avec la disponibilité alimentaire mondiale: {}% d'humains pourraient être nourris en kcal en 2020".format(round(d9_F_H1,2)))

 Avec la disponibilité alimentaire mondiale: 131.07% d'humains pourraient être nourris en kcal en 2020


In [27]:
#Mêmes procédés pour la Disponibilité de protéines en quantité (g/personne/jour

In [28]:
d9_2= data3['R2'].sum()

In [29]:
d9_F_H2=d9_2/(kgprot_use*365)
print ("Avec la disponibilité de protéines en quantité (g/personne/jour): {} d'humains pourraient être nourris  en 2020".format(round(d9_F_H2)))

Avec la disponibilité de protéines en quantité (g/personne/jour): 9706083340 d'humains pourraient être nourris  en 2020


In [30]:
d9_F_H3=d9_F_H2*100/somme_pop2013
d9_F_H3
print("Avec la disponibilité de protéines en quantité (g/personne/jour):{}% d'humains pourraient être nourris  en 2020".format(round(d9_F_H3,2)))

Avec la disponibilité de protéines en quantité (g/personne/jour):138.71% d'humains pourraient être nourris  en 2020


10_coderéponses

#### 10: A partir des données téléchargées qui concernent la sous-nutrition,calcul de la  proportion de la population mondiale  considérée comme étant en sous-nutrition ?

In [31]:
#A partir de la table sousalim je fais une jointure avec la table pop sur la base des clés primaires Code zone, Zone et Annee.
d10= sousalim.merge(pop , on =['Code zone','Zone','Annee'])
d10

Unnamed: 0,Zone,Code zone,Annee,nb_sousalim,Population
0,Afghanistan,2,2013,7900000.0,30552000
1,Afrique du Sud,202,2013,2600000.0,52776000
2,Albanie,3,2013,200000.0,3173000
3,Algérie,4,2013,1700000.0,39208000
4,Allemagne,79,2013,,82727000
...,...,...,...,...,...
166,Venezuela (République bolivarienne du),236,2013,1900000.0,30405000
167,Viet Nam,237,2013,10400000.0,91680000
168,Yémen,249,2013,7200000.0,24407000
169,Zambie,251,2013,7000000.0,14539000


In [32]:
#Propotion de la population sousalimentée en 2013

d10['nb_sousalim'].sum()/d10['Population'].sum()*100


10.629774859710697

In [33]:
#Établissez la liste des produits (ainsi que leur code) considéré comme des céréales selon la FAO.
#Repérez dans vos données les informations concernant 
#les céréales (par exemple en créant une colonne de type booléen nommée "is_cereal").
Cereales = pd.read_csv('fr_cereales.csv')

In [34]:
#liste des poduits definis comme des céréales par la FAO
cereale_list1 =Cereales["Produit"].unique()
cereale_list1

array(['Blé', 'Riz (Eq Blanchi)', 'Orge', 'Maïs', 'Millet', 'Seigle',
       'Avoine', 'Sorgho', 'Céréales, Autres'], dtype=object)

In [35]:
Code_produit= Cereales["Code Produit"].unique()
Code_produit

array([2511, 2805, 2513, 2514, 2517, 2515, 2516, 2518, 2520], dtype=int64)

In [36]:
Cereale_list2 = Cereales[Cereales['Produit'].isin(cereale_list1)]
Cereale_list2

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5511,Production,2511,Blé,2013,2013,Milliers de tonnes,5169,S,Données standardisées
1,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5511,Production,2805,Riz (Eq Blanchi),2013,2013,Milliers de tonnes,342,S,Données standardisées
2,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5511,Production,2513,Orge,2013,2013,Milliers de tonnes,514,S,Données standardisées
3,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5511,Production,2514,Maïs,2013,2013,Milliers de tonnes,312,S,Données standardisées
4,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,5511,Production,2517,Millet,2013,2013,Milliers de tonnes,13,S,Données standardisées
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,181,Zimbabwe,5511,Production,2514,Maïs,2013,2013,Milliers de tonnes,799,S,Données standardisées
887,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,181,Zimbabwe,5511,Production,2516,Avoine,2013,2013,Milliers de tonnes,1,S,Données standardisées
888,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,181,Zimbabwe,5511,Production,2517,Millet,2013,2013,Milliers de tonnes,55,S,Données standardisées
889,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,181,Zimbabwe,5511,Production,2518,Sorgho,2013,2013,Milliers de tonnes,69,S,Données standardisées


#### 11: En ne prenant en compte que les céréales destinées à l'alimentation (humaine et animale), calcul de la proportion (en termes de poids) destinée à l'alimentation animale ?

In [37]:
# Importation de la table céréale
cereal_list = pd.read_csv('fr_cereales.csv')
cereal_list = cereal_list[["Produit","Code Produit"]].drop_duplicates()

cereal_list

Unnamed: 0,Produit,Code Produit
0,Blé,2511
1,Riz (Eq Blanchi),2805
2,Orge,2513
3,Maïs,2514
4,Millet,2517
9,Seigle,2515
10,Avoine,2516
12,Sorgho,2518
13,"Céréales, Autres",2520


In [38]:
# ajout de la colonne is_cereal
data3['is_cereal'] = data3['Produit'].isin(cereal_list['Produit'])

# création de la table cereales
cereales = data3.loc[data3['is_cereal'], :].copy()

nour_cer = cereales['Nourriture'].sum()
anim_cer = cereales['Aliments pour animaux'].sum()
print(round(100*anim_cer/(nour_cer+anim_cer), 1), "% des céréales sont destinés à l'alimentation animale")


45.9 % des céréales sont destinés à l'alimentation animale


In [39]:
liste_pays = sousalim.loc[sousalim['nb_sousalim'] > 0, "Zone"].unique()

temp = data3.loc[data3['Zone'].isin(liste_pays), :]
temp = temp.groupby('Produit').sum().reset_index()
temp = temp.sort_values('Exportations - Quantité', ascending=False)[:20]

liste_produit = temp['Produit']
liste_pays

array(['Afghanistan', 'Afrique du Sud', 'Albanie', 'Algérie', 'Angola',
       'Arabie saoudite', 'Argentine', 'Arménie', 'Bangladesh', 'Bénin',
       'Bolivie (État plurinational de)', 'Botswana', 'Bulgarie',
       'Burkina Faso', 'Cambodge', 'Cameroun', 'Chili', 'Chine',
       'Colombie', 'Congo', 'Costa Rica', "Côte d'Ivoire", 'Djibouti',
       'Égypte', 'El Salvador', 'Émirats arabes unis', 'Équateur',
       'Eswatini', 'Éthiopie', 'Gabon', 'Gambie', 'Géorgie', 'Ghana',
       'Guatemala', 'Guinée', 'Guinée-Bissau', 'Haïti', 'Honduras',
       'Inde', 'Indonésie', "Iran (République islamique d')", 'Iraq',
       'Jamaïque', 'Jordanie', 'Kenya', 'Kirghizistan', 'Koweït',
       'Lesotho', 'Liban', 'Libéria', 'Madagascar', 'Malaisie', 'Malawi',
       'Mali', 'Maroc', 'Mauritanie', 'Mexique', 'Mongolie', 'Mozambique',
       'Myanmar', 'Namibie', 'Népal', 'Nicaragua', 'Niger', 'Nigéria',
       'Oman', 'Ouganda', 'Ouzbékistan', 'Pakistan', 'Panama', 'Paraguay',
       'Pérou', '

In [40]:
temp = data3.loc[data3['Produit'].isin(liste_produit), :]
temp = temp.sort_values('Importations - Quantité', ascending=False)[:200]
temp = temp[['Produit','Nourriture','Aliments pour animaux','Autres utilisations (non alimentaire)','Disponibilité intérieure']]

prod_group = temp.groupby('Produit').sum()

prod_group['ratio1'] = prod_group['Autres utilisations (non alimentaire)']/prod_group['Disponibilité intérieure']
prod_group['ratio2'] = prod_group['Aliments pour animaux']/(prod_group['Aliments pour animaux']+prod_group['Nourriture'])

prod_group

Unnamed: 0_level_0,Nourriture,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité intérieure,ratio1,ratio2
Produit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ananas,2032000000.0,0.0,0.0,2089000000.0,0.0,0.0
Bananes,7123000000.0,0.0,0.0,7466000000.0,0.0,0.0
Blé,295490000000.0,95503000000.0,14381000000.0,446765000000.0,0.032189,0.244258
Café,1926000000.0,0.0,0.0,1926000000.0,0.0,0.0
"Fruits, Autres",68484000000.0,0.0,12000000.0,74524000000.0,0.000161,0.0
Huile de Palme,6922000000.0,0.0,18726000000.0,25865000000.0,0.72399,0.0
Huile de Soja,2874000000.0,0.0,9216000000.0,12089000000.0,0.762346,0.0
Lait - Excl Beurre,300600000000.0,27235000000.0,12379000000.0,342964000000.0,0.036094,0.083075
"Légumes, Autres",491384000000.0,39010000000.0,19000000.0,573517000000.0,3.3e-05,0.073549
Manioc,3533000000.0,24673000000.0,11461000000.0,43122000000.0,0.265781,0.874743


#### 12 :  les 3 produits ayant  la plus grande valeur pour chacun des 2 ratios ( 6 produits à citer)

In [41]:
prod_group.sort_values('ratio1', ascending=False)[:3]

Unnamed: 0_level_0,Nourriture,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité intérieure,ratio1,ratio2
Produit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Huile de Soja,2874000000.0,0.0,9216000000.0,12089000000.0,0.762346,0.0
Huile de Palme,6922000000.0,0.0,18726000000.0,25865000000.0,0.72399,0.0
Manioc,3533000000.0,24673000000.0,11461000000.0,43122000000.0,0.265781,0.874743


In [42]:
prod_group.sort_values('ratio2', ascending=False)[:3]

Unnamed: 0_level_0,Nourriture,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité intérieure,ratio1,ratio2
Produit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Orge,365000000.0,20160000000.0,12000000.0,29600000000.0,0.000405,0.982217
Maïs,55283000000.0,392164000000.0,181869000000.0,687821000000.0,0.264413,0.876448
Manioc,3533000000.0,24673000000.0,11461000000.0,43122000000.0,0.265781,0.874743


# “P3_13_coderéponses”

#### 13: Quantité de céréales pouvant être libérées si les USA diminuaient leur production de produits animaux de 10% ?

In [43]:
Cereales.columns

Index(['Code Domaine', 'Domaine', 'Code zone', 'Zone', 'Code Élément',
       'Élément', 'Code Produit', 'Produit', 'Code année', 'Année', 'Unité',
       'Valeur', 'Symbole', 'Description du Symbole'],
      dtype='object')

In [44]:
data3.columns

Index(['Zone', 'Code zone', 'Produit', 'origin', 'Aliments pour animaux',
       'Autres utilisations (non alimentaire)',
       'Disponibilité alimentaire (Kcal/personne/jour)',
       'Disponibilité alimentaire en quantité (kg/personne/an)',
       'Disponibilité de matière grasse en quantité (g/personne/jour)',
       'Disponibilité de protéines en quantité (g/personne/jour)',
       'Disponibilité intérieure', 'Exportations - Quantité',
       'Importations - Quantité', 'Nourriture', 'Pertes', 'Production',
       'Semences', 'Traitement', 'Variation de stock', 'Population', 'R1',
       'R2', 'is_cereal'],
      dtype='object')

In [45]:
USA = data3.loc[(data3['Zone'] == "États-Unis d'Amérique") & (data3['is_cereal']),:]
print('Le résultat est de :', USA['Aliments pour animaux'].sum()*0.1, 'kg de céréales')

Le résultat est de : 14009600000.0 kg de céréales


#### 14: Proportion de manioc exportée en Thaïlande?

In [46]:
data.head(1)

Unnamed: 0,Zone,Code zone,Produit,origin,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,2,Abats Comestible,animal,,,5.0,1.72,0.2,0.00077,53000000.0,,,53000000.0,,53000000.0,,,


In [47]:
#Filtre combinée
d14=data[(data['Zone']=='Thaïlande')& (data['Produit']=='Manioc')]

In [48]:
#Calcul de la proportion de manioc expoté à partir de la colonne adéquate et de d14
(d14['Exportations - Quantité']/d14.Production*100).iloc[0]

83.41272991928014

In [49]:
#Quelle est la proportion de personnes en sous-nutrition?

In [50]:
sousalim.head(40)

Unnamed: 0,Zone,Code zone,Annee,nb_sousalim
0,Afghanistan,2,2013,7900000.0
1,Afghanistan,2,2014,8800000.0
2,Afghanistan,2,2015,9600000.0
3,Afghanistan,2,2016,10200000.0
4,Afghanistan,2,2017,10600000.0
5,Afrique du Sud,202,2013,2600000.0
6,Afrique du Sud,202,2014,2800000.0
7,Afrique du Sud,202,2015,3200000.0
8,Afrique du Sud,202,2016,3400000.0
9,Afrique du Sud,202,2017,3500000.0


In [51]:
# filtre sur la Thaïlande depuis la table sousalim
thaï_sa = sousalim[sousalim['Zone']=='Thaïlande']
thaï_sa

Unnamed: 0,Zone,Code zone,Annee,nb_sousalim
930,Thaïlande,216,2013,5600000.0
931,Thaïlande,216,2014,5500000.0
932,Thaïlande,216,2015,5400000.0
933,Thaïlande,216,2016,5400000.0
934,Thaïlande,216,2017,5400000.0


In [52]:
#Rappel de l'effectif de la population thaïlandaise en 2013 via un filtre de la table pop et de la colonne zone.
pop_thaï = pop[pop.Zone=='Thaïlande']
pop_thaï

Unnamed: 0,Zone,Code zone,Annee,Population
160,Thaïlande,216,2013,67011000


In [53]:
#Filtre sur Annee 2013 depuis la table thaï_sa,
#sélection de la colonne nb_sousalim et division de ses valeurs par l'effectif 
#de la population thaïlandaise et multiplication par 100.
thaï_sa[thaï_sa.Annee==2013]['nb_sousalim'].iloc[0]/pop_thaï.Population.iloc[0]*100

8.356836937219263

#### 15: Dépôt des données dans une base de données relationnelle qui contient une table appelée population, contenant la population de chaque pays pour 2013. Cette table devra contenir 4 colonnes : pays, code_pays, annee, population.

In [54]:
Population = pop.rename(columns={'Zone':'pays','Code zone':'code_pays','Année':'annee','Population':'population'})
Population

Unnamed: 0,pays,code_pays,Annee,population
0,Afghanistan,2,2013,30552000
1,Afrique du Sud,202,2013,52776000
2,Albanie,3,2013,3173000
3,Algérie,4,2013,39208000
4,Allemagne,79,2013,82727000
...,...,...,...,...
170,Venezuela (République bolivarienne du),236,2013,30405000
171,Viet Nam,237,2013,91680000
172,Yémen,249,2013,24407000
173,Zambie,251,2013,14539000


In [55]:
#clefs primaires = pays, code pays, population

#### 15.1: Création d'une table appelée dispo_alim contenant pour chaque pays et pour chaque produit, en 2013, les informations suivantes:



        -la nature du produit (deux valeurs possibles : “animal” ou “végétal”)
        -la disponibilité alimentaire en tonnes
        -la disponibilité alimentaire en Kcal/personne/jour
        -la disponibilité alimentaire de protéines en g/personne/jour
        -la disponibilité alimentaire de matières grasses en g/personne/jour
#### Elle devra contenir ces colonnes : 
    
    -pays,
    -code_pays, 
    -année, 
    -produit, 
    -code_produit, 
    -origin, 
    -dispo_alim_tonnes, 
    -dispo_alim_kcal_p_j, 
    -dispo_prot, dispo_mat_gr .
    -Proposez une clé primaire pertinente pour cette table.


In [56]:
data3.columns

Index(['Zone', 'Code zone', 'Produit', 'origin', 'Aliments pour animaux',
       'Autres utilisations (non alimentaire)',
       'Disponibilité alimentaire (Kcal/personne/jour)',
       'Disponibilité alimentaire en quantité (kg/personne/an)',
       'Disponibilité de matière grasse en quantité (g/personne/jour)',
       'Disponibilité de protéines en quantité (g/personne/jour)',
       'Disponibilité intérieure', 'Exportations - Quantité',
       'Importations - Quantité', 'Nourriture', 'Pertes', 'Production',
       'Semences', 'Traitement', 'Variation de stock', 'Population', 'R1',
       'R2', 'is_cereal'],
      dtype='object')

In [57]:

#Sélection de colonnes dans data3
dispo_alim=data3[['Zone','Code zone','Produit','origin',
       'Disponibilité alimentaire (Kcal/personne/jour)',
       'Disponibilité alimentaire en quantité (kg/personne/an)',
       'Disponibilité de matière grasse en quantité (g/personne/jour)',
       'Disponibilité de protéines en quantité (g/personne/jour)','R1','R2']]
dispo_alim.head

<bound method NDFrame.head of                Zone  Code zone                Produit   origin  \
0       Afghanistan          2       Abats Comestible   animal   
1       Afghanistan          2        Agrumes, Autres  vegetal   
2       Afghanistan          2  Aliments pour enfants  vegetal   
3       Afghanistan          2                 Ananas  vegetal   
4       Afghanistan          2                Bananes  vegetal   
...             ...        ...                    ...      ...   
15320  Îles Salomon         25       Viande de Suides   animal   
15321  Îles Salomon         25    Viande de Volailles   animal   
15322  Îles Salomon         25          Viande, Autre   animal   
15323  Îles Salomon         25                    Vin  vegetal   
15324  Îles Salomon         25         Épices, Autres  vegetal   

       Disponibilité alimentaire (Kcal/personne/jour)  \
0                                                 5.0   
1                                                 1.0   
2     

In [58]:
#Insertion des colonnes "code_produit"et "annee" 

dispo_alim.insert(2, "code_produit", 4, allow_duplicates=False)
dispo_alim.insert(1, "annee", 2013, allow_duplicates=False)

In [59]:
dispo_alim

Unnamed: 0,Zone,annee,Code zone,code_produit,Produit,origin,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),R1,R2
0,Afghanistan,2013,2,4,Abats Comestible,animal,5.0,1.72,0.20,0.00077,5.575740e+10,8586639.60
1,Afghanistan,2013,2,4,"Agrumes, Autres",vegetal,1.0,1.29,0.01,0.00002,1.115148e+10,223029.60
2,Afghanistan,2013,2,4,Aliments pour enfants,vegetal,1.0,0.06,0.01,0.00003,1.115148e+10,334544.40
3,Afghanistan,2013,2,4,Ananas,vegetal,0.0,0.00,,,0.000000e+00,
4,Afghanistan,2013,2,4,Bananes,vegetal,4.0,2.70,0.02,0.00005,4.460592e+10,557574.00
...,...,...,...,...,...,...,...,...,...,...,...,...
15320,Îles Salomon,2013,25,4,Viande de Suides,animal,45.0,4.70,4.28,0.00141,9.214425e+09,288718.65
15321,Îles Salomon,2013,25,4,Viande de Volailles,animal,11.0,3.34,0.69,0.00114,2.252415e+09,233432.10
15322,Îles Salomon,2013,25,4,"Viande, Autre",animal,0.0,0.06,,0.00004,0.000000e+00,8190.60
15323,Îles Salomon,2013,25,4,Vin,vegetal,0.0,0.07,,,0.000000e+00,


#### 16: Présentation des clés primaires des tables créées et création de nouvelles tables

In [60]:
#Les clefs primaires sont: pays et  produit  

In [61]:
#Une table appelée equilibre_prod contenant pour chaque pays et pour chaque produit en 2013, 
#les quantités suivantes :
        #disponibilité intérieure
        #aliments pour animaux
        #semences
        #pertes
        #transformés
        #nourriture
        #autres utilisations
    
    #Elle devra contenir ces colonnes : 
        #pays, 
        #code_pays, 
        #année, 
        #produit, 
        #code_produit, 
        #dispo_int, 
        #alim_ani, 
        #semences, 
        #pertes, 
        #transfo, 
        #nourriture, 
        #autres_utilisations.
        
data.columns


Index(['Zone', 'Code zone', 'Produit', 'origin', 'Aliments pour animaux',
       'Autres utilisations (non alimentaire)',
       'Disponibilité alimentaire (Kcal/personne/jour)',
       'Disponibilité alimentaire en quantité (kg/personne/an)',
       'Disponibilité de matière grasse en quantité (g/personne/jour)',
       'Disponibilité de protéines en quantité (g/personne/jour)',
       'Disponibilité intérieure', 'Exportations - Quantité',
       'Importations - Quantité', 'Nourriture', 'Pertes', 'Production',
       'Semences', 'Traitement', 'Variation de stock'],
      dtype='object')

In [62]:
equilibre_prod=data[['Zone','Code zone','Produit','Disponibilité intérieure','Aliments pour animaux',
                            'Semences','Pertes','Traitement','Nourriture','Autres utilisations (non alimentaire)']]
#Ajout de nouvelles com
equilibre_prod.insert(2, "code_produit", 4, allow_duplicates=False)
equilibre_prod.insert(1, "annee", 2013, allow_duplicates=False)

In [63]:
equilibre_prod

Unnamed: 0,Zone,annee,Code zone,code_produit,Produit,Disponibilité intérieure,Aliments pour animaux,Semences,Pertes,Traitement,Nourriture,Autres utilisations (non alimentaire)
0,Afghanistan,2013,2,4,Abats Comestible,53000000.0,,,,,53000000.0,
1,Afghanistan,2013,2,4,"Agrumes, Autres",41000000.0,,,2000000.0,,39000000.0,
2,Afghanistan,2013,2,4,Aliments pour enfants,2000000.0,,,,,2000000.0,
3,Afghanistan,2013,2,4,Ananas,0.0,,,,,0.0,
4,Afghanistan,2013,2,4,Bananes,82000000.0,,,,,82000000.0,
...,...,...,...,...,...,...,...,...,...,...,...,...
15697,Îles Salomon,2013,25,4,Viande de Suides,3000000.0,,,,,3000000.0,
15698,Îles Salomon,2013,25,4,Viande de Volailles,2000000.0,,,,,2000000.0,
15699,Îles Salomon,2013,25,4,"Viande, Autre",0.0,,,,,0.0,
15700,Îles Salomon,2013,25,4,Vin,0.0,,,,,0.0,


 #### 17: Création des clés primaires des dernières tables 

  Les clés primaires pertinentes pour cette table sont: pays et année.

#### 18: Rappel de l'énoncé: Création d'une table appelée sous_nutrition, contenant le nombre de personnes en sous-alimentation pour chaque pays en 2013. Elle devra contenir 4 colonnes :pays, code_pays, année, nb_personnes, puis proposition d'une clé primaire pertinente pour cette table !

In [64]:
sousalim.columns

Index(['Zone', 'Code zone', 'Annee', 'nb_sousalim'], dtype='object')

In [65]:
sous_nut=d10[['Zone','Code zone','Annee','nb_sousalim']]
sous_nut

Unnamed: 0,Zone,Code zone,Annee,nb_sousalim
0,Afghanistan,2,2013,7900000.0
1,Afrique du Sud,202,2013,2600000.0
2,Albanie,3,2013,200000.0
3,Algérie,4,2013,1700000.0
4,Allemagne,79,2013,
...,...,...,...,...
166,Venezuela (République bolivarienne du),236,2013,1900000.0
167,Viet Nam,237,2013,10400000.0
168,Yémen,249,2013,7200000.0
169,Zambie,251,2013,7000000.0


In [66]:
#Renommage des colonne selon l'énoncé
sous_nutrition=sous_nut.rename(columns={'Code zone':'code_pays', 'Zone':'pays','Annee':'annee','nb_sousalim':'nb_personnes'})
sous_nutrition

Unnamed: 0,pays,code_pays,annee,nb_personnes
0,Afghanistan,2,2013,7900000.0
1,Afrique du Sud,202,2013,2600000.0
2,Albanie,3,2013,200000.0
3,Algérie,4,2013,1700000.0
4,Allemagne,79,2013,
...,...,...,...,...
166,Venezuela (République bolivarienne du),236,2013,1900000.0
167,Viet Nam,237,2013,10400000.0
168,Yémen,249,2013,7200000.0
169,Zambie,251,2013,7000000.0


In [67]:
#Clé primaire= pays et année

In [68]:
sousalim=d10
population=pop

In [69]:
sousalim.to_csv("export.csv", index = False)

In [70]:
equilibre_prod.to_csv("export.csv", index = False)

In [71]:
dispo_alim.to_csv("export.csv", index = False)

In [72]:
Population.to_csv("export.csv", index = False)

In [73]:
sous_nutrition.to_csv("export.csv", index = False)

In [74]:
#Création de la base de donnée bd
bd = sql.Connection('base.bd')

In [75]:
sousalim.to_sql( 'sousalim', bd, if_exists='replace')

  sql.to_sql(


In [76]:
equilibre_prod.to_sql( 'equilibre_prod', bd, if_exists='replace')

In [77]:
dispo_alim.to_sql( 'dispo_alim', bd, if_exists='replace')

In [78]:
population.to_sql( 'Population', bd, if_exists='replace')

In [79]:
sous_nutrition.to_sql( 'sous_nutrition', bd, if_exists='replace')

In [80]:
equilibre_prod.columns

Index(['Zone', 'annee', 'Code zone', 'code_produit', 'Produit',
       'Disponibilité intérieure', 'Aliments pour animaux', 'Semences',
       'Pertes', 'Traitement', 'Nourriture',
       'Autres utilisations (non alimentaire)'],
      dtype='object')

In [81]:
help(sous_nutrition.to_sql)

Help on method to_sql in module pandas.core.generic:

to_sql(name: 'str', con, schema=None, if_exists: 'str' = 'fail', index: 'bool_t' = True, index_label=None, chunksize=None, dtype=None, method=None) -> 'None' method of pandas.core.frame.DataFrame instance
    Write records stored in a DataFrame to a SQL database.
    
    Databases supported by SQLAlchemy [1]_ are supported. Tables can be
    newly created, appended to, or overwritten.
    
    Parameters
    ----------
    name : str
        Name of SQL table.
    con : sqlalchemy.engine.(Engine or Connection) or sqlite3.Connection
        Using SQLAlchemy makes it possible to use any DB supported by that
        library. Legacy support is provided for sqlite3.Connection objects. The user
        is responsible for engine disposal and connection closure for the SQLAlchemy
        connectable See `here                 <https://docs.sqlalchemy.org/en/13/core/connections.html>`_.
    
    schema : str, optional
        Specify the sch

#### 19: Ecriture des requêtes SQL permettant de connaître les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de protéines (en kg).

In [82]:
query_str = 'SELECT DISTINCT zone,sum("Disponibilité de protéines en quantité (g/personne/jour)")as dispo_p_Kg_h FROM dispo_alim GROUP BY zone ORDER BY SUM("Disponibilité de protéines en quantité (g/personne/jour)") DESC LIMIT 10'
print(query_str)
pd.read_sql_query(query_str, bd)

SELECT DISTINCT zone,sum("Disponibilité de protéines en quantité (g/personne/jour)")as dispo_p_Kg_h FROM dispo_alim GROUP BY zone ORDER BY SUM("Disponibilité de protéines en quantité (g/personne/jour)") DESC LIMIT 10


Unnamed: 0,Zone,dispo_p_Kg_h
0,Islande,0.13306
1,Israël,0.128
2,Lituanie,0.12436
3,Maldives,0.12232
4,Finlande,0.11756
5,Luxembourg,0.11364
6,Monténégro,0.1119
7,Pays-Bas,0.11146
8,Albanie,0.11137
9,Portugal,0.11087


In [83]:
#Question 1.1.Les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de kcal.
query_str = 'SELECT Zone , sum("Disponibilité alimentaire (Kcal/personne/jour)") as dispo_kcal_j_p FROM dispo_alim group BY zone ORDER BY SUM("Disponibilité alimentaire (Kcal/personne/jour)") DESC LIMIT 10'
print(query_str)
pd.read_sql_query(query_str, bd)

SELECT Zone , sum("Disponibilité alimentaire (Kcal/personne/jour)") as dispo_kcal_j_p FROM dispo_alim group BY zone ORDER BY SUM("Disponibilité alimentaire (Kcal/personne/jour)") DESC LIMIT 10


Unnamed: 0,Zone,dispo_kcal_j_p
0,Autriche,3770.0
1,Belgique,3737.0
2,Turquie,3708.0
3,États-Unis d'Amérique,3682.0
4,Israël,3610.0
5,Irlande,3602.0
6,Italie,3578.0
7,Luxembourg,3540.0
8,Égypte,3518.0
9,Allemagne,3503.0


In [84]:
# Question 2 
#Pour l'année 2013, les 10 pays ayant le plus faible ratio 
#disponibilité alimentaire/habitant en termes de protéines (en kg) par habitantp
query_str = 'SELECT Zone, sum("Disponibilité de protéines en quantité (g/personne/jour)") as Dispo_prot_Kg_j_P FROM dispo_alim GROUP by zone ORDER BY SUM("Disponibilité de protéines en quantité (g/personne/jour)") ASC LIMIT 10'
print(query_str)
pd.read_sql_query(query_str, bd)

SELECT Zone, sum("Disponibilité de protéines en quantité (g/personne/jour)") as Dispo_prot_Kg_j_P FROM dispo_alim GROUP by zone ORDER BY SUM("Disponibilité de protéines en quantité (g/personne/jour)") ASC LIMIT 10


Unnamed: 0,Zone,Dispo_prot_Kg_j_P
0,Libéria,0.03766
1,Guinée-Bissau,0.04405
2,Mozambique,0.04568
3,République centrafricaine,0.04604
4,Madagascar,0.04669
5,Haïti,0.0477
6,Zimbabwe,0.04832
7,Congo,0.05141
8,Ouganda,0.05264
9,Sao Tomé-et-Principe,0.0531


In [85]:
#Question 3: La quantité totale (en kg) de produits perdus par pays en 2013

In [86]:
query_str = 'SELECT Zone,Annee, sum(Pertes)as Pertes FROM equilibre_prod WHERE Pertes > 0 GROUP BY Zone '
pd.read_sql_query(query_str, bd)

Unnamed: 0,Zone,annee,Pertes
0,Afghanistan,2013,1.135000e+09
1,Afrique du Sud,2013,2.193000e+09
2,Albanie,2013,2.760000e+08
3,Algérie,2013,3.753000e+09
4,Allemagne,2013,3.781000e+09
...,...,...,...
160,Émirats arabes unis,2013,7.050000e+08
161,Équateur,2013,7.070000e+08
162,États-Unis d'Amérique,2013,7.162000e+09
163,Éthiopie,2013,2.256000e+09


In [87]:
#Rappel du sous-énoncé 4: Les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte.

In [88]:
query_str = 'SELECT Zone , sum( nb_sousalim )/ sum( Population ) as proportion FROM sousalim  WHERE Annee=2013 GROUP BY Zone ORDER BY proportion DESC  LIMIT 10'
print(query_str)
pd.read_sql_query(query_str, bd)

SELECT Zone , sum( nb_sousalim )/ sum( Population ) as proportion FROM sousalim  WHERE Annee=2013 GROUP BY Zone ORDER BY proportion DESC  LIMIT 10


Unnamed: 0,Zone,proportion
0,Haïti,0.504022
1,Zambie,0.481464
2,Zimbabwe,0.466431
3,République centrafricaine,0.433276
4,République populaire démocratique de Corée,0.425788
5,Congo,0.404676
6,Tchad,0.382066
7,Angola,0.377235
8,Libéria,0.372613
9,Madagascar,0.357688


In [89]:
#Rappel du sous-énoncé 5: Les 10 produits pour lesquels 
#le ratio Autres utilisations/Disponibilité intérieure est le plus élevé. 

In [90]:
query_str ='SELECT Produit , sum( "Autres utilisations (non alimentaire)" )/ sum( "Disponibilité intérieure" ) as proportion FROM equilibre_prod GROUP BY Produit ORDER BY proportion DESC  LIMIT 10'
pd.read_sql_query(query_str, bd)

Unnamed: 0,Produit,proportion
0,"Alcool, non Comestible",1.001288
1,Huil Plantes Oleif Autr,0.755024
2,Huile de Palmistes,0.70411
3,Huile de Palme,0.698109
4,Girofles,0.646154
5,Huile de Colza&Moutarde,0.55129
6,Graisses Animales Crue,0.470176
7,Huiles de Poissons,0.448609
8,Huile de Soja,0.416172
9,Plantes Aquatiques,0.379299


In [91]:
import mysql.connector

cnx = mysql.connector.connect(user='root', password='A123456789z',database='ieprojet3')

from sqlalchemy import create_engine

bd = create_engine('mysql+mysqlconnector://root:A123456789z@localhost:3306/ieprojet3', echo=False)

#cnx.close()

In [92]:
sousalim.to_sql( 'sousalim', bd, if_exists='replace')

In [None]:
equilibre_prod.to_sql( 'equilibre_prod', bd, if_exists='replace')

In [None]:
dispo_alim.to_sql( 'dispo_alim', bd, if_exists='replace')

In [None]:
Population.to_sql( 'population', bd, if_exists='replace')

In [None]:
sous_nutrition.to_sql( 'sous_nutrition', bd, if_exists='replace')