In [1]:
import numpy as np
import pandas as pd 

## Chargement des données

In [2]:
vegetaux = pd.DataFrame(pd.read_csv('fr_vegetaux.csv'))
vegetaux = vegetaux.loc[vegetaux['Zone'] != 'Chine']
animaux = pd.DataFrame(pd.read_csv('fr_animaux.csv'))
animaux = animaux.loc[animaux['Zone'] != 'Chine']
population = pd.DataFrame(pd.read_csv('fr_population.csv'))
population = population.loc[population['Zone'] != 'Chine']

## Supprimer les colonnes inutiles

In [3]:
vegetaux = vegetaux.drop(['CodeDomaine', 'Domaine', 'CodeElement', 'CodeAnnee', 'Symbole', 'DescriptionDuSymbole'], axis = 1)
animaux = animaux.drop(['CodeDomaine', 'Domaine', 'CodeElement', 'CodeAnnee', 'Symbole', 'DescriptionDuSymbole'], axis = 1)
population = population.drop(['CodeDomaine', 'Domaine', 'CodeElement', 'Element', 'CodeProduit', 'Produit', 'CodeAnnee', 'Symbole', 'DescriptionDuSymbole','Unite'], axis = 1)

## Renommer les colonnes

In [4]:
population = population.rename(columns={'CodeZone':'code_pays', 'Zone':'pays', 'Valeur':'habitant', 'Unite':'unite', 'Annee':'annee'})
vegetaux = vegetaux.rename(columns={'CodeZone':'code_pays', 'Zone':'pays', 'Valeur':'quantite', 'Produit':'produit', 'Unite':'unite', 
                                    'Annee':'annee','CodeProduit':'code_produit', 'Element':'element'})
animaux = animaux.rename(columns={'CodeZone':'code_pays', 'Zone':'pays', 'Valeur':'quantite', 'Produit':'produit', 'Unite':'unite', 
                                  'Annee':'annee', 'CodeProduit':'code_produit', 'Element':'element'})

In [5]:
# Multiplier la colonne habitant par 1000 afin d'avoir la population réelle
population['habitant'] = population['habitant']*1000

## Jointures

In [6]:
# Jointure entre Végétaux et Population
df_veg_pop = pd.merge(vegetaux, population, on = ['code_pays','pays','annee'], how='left')

# Jointure entre Animaux et poppopulation
df_ani_pop = pd.merge(animaux, population, on = ['code_pays','pays','annee'], how='left')

# Jointure entre Végétaux et Animaux
df_veg_ani = pd.merge(df_veg_pop, df_ani_pop, on = ['code_pays','pays','element','code_produit','produit','annee','unite','quantite','habitant'], how='outer')
df_veg_ani = df_veg_ani[df_veg_ani['quantite'] > 0]

In [7]:
for i in range(len(df_veg_pop)):
        df_veg_pop['origine'] = 'vegetal'

for i in range(len(df_ani_pop)):
        df_ani_pop['origine'] = 'animal'

In [8]:
# Jointure entre Végétaux et Animaux
df_veg_ani = pd.merge(df_veg_pop, df_ani_pop, on = ['code_pays','pays','element','code_produit','produit','annee','unite','quantite','origine','habitant'], how='outer')

# Retirer les quantités négatives du dataset
df_veg_ani = df_veg_ani[df_veg_ani['quantite'] >= 0]

## Les filtres

In [9]:
dispo_kcal = df_veg_ani[df_veg_ani['element'] == 'Disponibilité alimentaire (Kcal/personne/jour)'].copy()
dispo_prot = df_veg_ani[df_veg_ani['element'] == 'Disponibilité de protéines en quantité (g/personne/jour)'].copy()
dispo_nourri = df_veg_ani[df_veg_ani['element'] == 'Nourriture'].copy()
dispo_alim_kg = df_veg_ani[df_veg_ani['element'] == 'Disponibilité alimentaire en quantité (kg/personne/an)'].copy()
dispo_int = df_veg_ani[df_veg_ani['element'] == 'Disponibilité intérieure'].copy()
dispo_nourri_ani = df_veg_ani[df_veg_ani['element'] == 'Aliments pour animaux'].copy()
pertes = df_veg_ani[df_veg_ani['element'] == 'Pertes'].copy()
export = df_veg_ani[df_veg_ani['element'] == 'Exportations - Quantité'].copy()            
autres_utilisation = df_veg_ani[df_veg_ani['element'] == 'Autres utilisations (non alimentaire)'].copy()          
dispo_import = df_veg_ani[df_veg_ani['element'] == 'Importations - Quantité'].copy()
traitement = df_veg_ani[df_veg_ani['element'] == 'Traitement'].copy()
semences = df_veg_ani[df_veg_ani['element'] == 'Semences'].copy()

In [10]:
# Multiplier la colonne quantité par 1000, l'unité est en tonnes
dispo_nourri['quantite'] = dispo_nourri['quantite']*1000
dispo_int['quantite'] = dispo_int['quantite']*1000
dispo_nourri_ani['quantite'] = dispo_nourri_ani['quantite']*1000
pertes['quantite'] = pertes['quantite']*1000
export['quantite'] = export['quantite']*1000
autres_utilisation['quantite'] = autres_utilisation['quantite']*1000
dispo_import['quantite'] = dispo_import['quantite']*1000
traitement['quantite'] = traitement['quantite']*1000
semences['quantite'] = semences['quantite']*1000

In [11]:
# Dropper les colonnes element et unite
dispo_kcal.drop(['element','unite'], axis=1, inplace=True)
dispo_prot.drop(['element','unite'], axis=1, inplace=True)
dispo_nourri.drop(['element','unite'], axis=1, inplace=True)
dispo_int.drop(['element','unite'], axis=1, inplace=True)
export.drop(['element','unite'], axis=1, inplace=True)
dispo_import.drop(['element','unite'], axis=1, inplace=True)
dispo_nourri_ani.drop(['element','unite'], axis=1, inplace=True)
autres_utilisation.drop(['element','unite'], axis=1, inplace=True)
semences.drop(['element','unite','habitant','origine'], axis=1, inplace=True)
pertes.drop(['element','unite','habitant','origine'], axis=1, inplace=True)
traitement.drop(['element','unite','habitant','origine'], axis=1, inplace=True)

# Renommer la colonne quantite en fonction de la variable
dispo_kcal.rename(columns={'quantite':'dispo_alim_kcal_p_j'}, inplace=True)
dispo_prot.rename(columns={'quantite':'dispo_prot'}, inplace=True)
dispo_nourri.rename(columns={'quantite':'nourriture'}, inplace=True)
dispo_int.rename(columns={'quantite':'dispo_int'}, inplace=True)
export.rename(columns={'quantite':'export'}, inplace=True)
dispo_import.rename(columns={'quantite':'import'}, inplace=True)
dispo_nourri_ani.rename(columns={'quantite':'alim_ani'}, inplace=True)
pertes.rename(columns={'quantite':'pertes'}, inplace=True)
autres_utilisation.rename(columns={'quantite':'autres_utilisations'}, inplace=True)
traitement.rename(columns={'quantite':'transfo'}, inplace=True)
semences.rename(columns={'quantite':'semences'}, inplace=True)

## Jointures

In [12]:
df_kcal_prot = pd.merge(dispo_kcal, dispo_prot, on = ['code_pays','pays','annee','code_produit','produit','habitant','origine'], how ='outer')
df_nour_int = pd.merge(dispo_nourri, dispo_int, on = ['code_pays','pays','annee','code_produit','produit','habitant','origine'], how ='outer')
df_import_export = pd.merge(dispo_import, export, on = ['code_pays','pays','annee','code_produit','produit','habitant','origine'], how ='outer')
df = pd.merge(df_import_export, df_kcal_prot, on = ['code_pays','pays','annee','code_produit','produit','habitant','origine'], how ='outer')
df = pd.merge(df, df_nour_int, on = ['code_pays','pays','annee','code_produit','produit','habitant','origine'], how ='outer')

## Enlever les Nan

In [13]:
df['export'] = df.groupby('produit')['export'].apply(lambda x: x.fillna(0)).reset_index(drop=True)
df['dispo_alim_kcal_p_j'] = df.groupby('produit')['dispo_alim_kcal_p_j'].apply(lambda x: x.fillna(0)).reset_index(drop=True)
df['nourriture'] = df.groupby('produit')['nourriture'].apply(lambda x: x.fillna(0)).reset_index(drop=True)
df['dispo_int'] = df.groupby('produit')['dispo_int'].apply(lambda x: x.fillna(0)).reset_index(drop=True)
df['import'] = df.groupby('produit')['import'].apply(lambda x: x.fillna(0)).reset_index(drop=True)
df['dispo_prot'] = df.groupby('produit')['dispo_prot'].apply(lambda x: x.fillna(0)).reset_index(drop=True)

## Question 1: La population mondiale en 2013

In [14]:
pop = (population.habitant).sum()
pop

6997326000

## Question 2: Rédondances

In [15]:
df_veg_ani[(df_veg_ani['produit'] == 'Blé') & (df_veg_ani['pays'] == 'France')][:11]

Unnamed: 0,code_pays,pays,element,code_produit,produit,annee,unite,quantite,habitant,origine
36627,68,France,Production,2511,Blé,2013,Milliers de tonnes,38614.0,64291000,vegetal
36628,68,France,Importations - Quantité,2511,Blé,2013,Milliers de tonnes,2055.0,64291000,vegetal
36629,68,France,Variation de stock,2511,Blé,2013,Milliers de tonnes,1131.0,64291000,vegetal
36630,68,France,Exportations - Quantité,2511,Blé,2013,Milliers de tonnes,21502.0,64291000,vegetal
36631,68,France,Disponibilité intérieure,2511,Blé,2013,Milliers de tonnes,20298.0,64291000,vegetal
36632,68,France,Aliments pour animaux,2511,Blé,2013,Milliers de tonnes,7822.0,64291000,vegetal
36633,68,France,Semences,2511,Blé,2013,Milliers de tonnes,748.0,64291000,vegetal
36634,68,France,Pertes,2511,Blé,2013,Milliers de tonnes,358.0,64291000,vegetal
36635,68,France,Traitement,2511,Blé,2013,Milliers de tonnes,1575.0,64291000,vegetal
36636,68,France,Autres utilisations (non alimentaire),2511,Blé,2013,Milliers de tonnes,2824.0,64291000,vegetal


##### Production + Importation + Variation de stock - Exportation = Disponibilité Intérieure = Nourriture + Pertes + Semences + Autres Utilisations + Aliments pour animaux + Traitement

In [16]:
a1 = 38614
a2 = 2055
a3 = 1131
a4 = 21502
b = 20298
c1 = 7822
c2 = 748
c3 = 358
c4 = 1575
c5 = 2824
c6 = 6971

print(a1+a2+a3-a4)
print(b)
print(c1+c2+c3+c4+c5+c6)

20298
20298
20298


## Question 3: Calculez pour chaque pays et chaque produit la disponibilité alimentaire en kcal puis en kg de protéines.

In [17]:
# Disponibilité alimentaire en Kcal
df['dispo_alim_kcal'] = (df['dispo_alim_kcal_p_j'].replace(0, np.nan)*df['habitant']*365)
df['dispo_alim_kcal'] = df.groupby('produit')['dispo_alim_kcal'].apply(lambda x: x.fillna(0)).reset_index(drop=True)
df[['pays','produit','dispo_alim_kcal']].head()

Unnamed: 0,pays,produit,dispo_alim_kcal
0,Afghanistan,Blé,15266380000000.0
1,Afghanistan,Riz (Eq Blanchi),1572359000000.0
2,Afghanistan,Orge,289938500000.0
3,Afghanistan,Maïs,234181100000.0
4,Afghanistan,"Céréales, Autres",0.0


In [18]:
# Disponibilité en kg de protéine
df['dispo_alim_kg_prot'] = (df['dispo_prot']*365*df['habitant'])*0.001
df[['pays','produit','dispo_alim_kg_prot']].head()

Unnamed: 0,pays,produit,dispo_alim_kg_prot
0,Afghanistan,Blé,411601126.8
1,Afghanistan,Riz (Eq Blanchi),30108996.0
2,Afghanistan,Orge,8809669.2
3,Afghanistan,Maïs,6244828.8
4,Afghanistan,"Céréales, Autres",0.0


## Question 4: Calculez pour chaque produit le ratio "énergie/poids".

In [19]:
df['ratio'] = (df['dispo_alim_kcal'].replace(0, np.nan)/(df['nourriture'].replace(0, np.nan)*1000))
df['ratio'] = df['ratio'].round(2)
df.pivot_table('ratio', ['pays','produit'])

Unnamed: 0_level_0,Unnamed: 1_level_0,ratio
pays,produit,Unnamed: 2_level_1
Afghanistan,Abats Comestible,1052.03
Afghanistan,"Agrumes, Autres",285.94
Afghanistan,Aliments pour enfants,5575.74
Afghanistan,Bananes,543.97
Afghanistan,"Beurre, Ghee",7124.56
...,...,...
Îles Salomon,Riz (Eq Blanchi),3543.57
Îles Salomon,Sucre Eq Brut,4197.68
Îles Salomon,Viande de Bovins,1842.88
Îles Salomon,Viande de Suides,3071.48


In [20]:
df['prot_percent'] = (df['dispo_alim_kg_prot'].replace(0, np.nan)*100/((df['nourriture']).replace(0, np.nan)*1000))
df['prot_percent'] = df['prot_percent'].round(2)
df.pivot_table('prot_percent', ['pays','produit']).sort_values(by=['prot_percent'], ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,prot_percent
pays,produit,Unnamed: 2_level_1
Botswana,Soja,44.26
Guyana,Soja,42.34
Pologne,Soja,41.85
Mali,Soja,39.10
Autriche,Soja,38.48
...,...,...
Tchéquie (la),Edulcorants Autres,0.05
Espagne,Huile de Tournesol,0.03
Belgique,Graisses Animales Crue,0.03
Canada,Edulcorants Autres,0.02


## Question 5 - 1: Citez 5 aliments parmi les 20 les plus caloriques en utilsant le ratio

In [21]:
df.pivot_table('ratio',['produit'], aggfunc="mean").sort_values(by='ratio', ascending=False).head(5)

Unnamed: 0_level_0,ratio
produit,Unnamed: 1_level_1
Huiles de Foie de Poisso,9982.93
Huile de Sésame,9433.745143
Huile de Son de Riz,9361.549167
Huiles de Poissons,9003.716667
Huile d'Arachide,8935.766184


## Question 5 - 2: Citez 5 aliments parmi les 20 les plus riches en protéine

In [22]:
df.pivot_table('prot_percent',['produit'], aggfunc="mean").sort_values(by='prot_percent', ascending=False).head(5)

Unnamed: 0_level_0,prot_percent
produit,Unnamed: 1_level_1
Graines Colza/Moutarde,28.54
Soja,28.532892
Arachides Decortiquees,25.146812
Pois,22.324865
Légumineuses Autres,21.971818


### Question 6: Calculez, pour les produits végétaux uniquement, la disponibilité intérieure mondiale exprimée en kcal.

In [23]:
veg = df[df['origine'] == 'vegetal']
dispo_int_kcal = (veg['dispo_int']*1000)*veg['ratio']
print('La disponibilité intérieure en kcal est {}'.format(dispo_int_kcal.sum()))

La disponibilité intérieure en kcal est 1.231369558796e+16


### Question 7: Combien d'humains pourraient être nourris si toute la disponibilité intérieure mondiale de produits végétaux était utilisée pour de la nourriture.

In [24]:
dispo_int_kcal = dispo_int_kcal.sum()
NbPersone = dispo_int_kcal/(2500*365)
print('La disponibilité intérieure en kcal est {}'.format(dispo_int_kcal.sum()))
print('Le nombre de personnes qui pourraient être nourries est de {}'.format(int(NbPersone)))
print('Le pourcentage de personne qui pourrait être nourrie est {}%'.format(int(int(NbPersone)*100/pop)))
print('--------------------------------------------------------------------------------------')
dispo_int_prot = (veg['dispo_int']*1000)*veg['prot_percent']*0.01
nPersonne = dispo_int_prot.sum()/(0.06*365)
print('La disponibilité intérieure en kg de protéine est {}'.format(dispo_int_prot.sum()))
print('Le nombre de personne qui pourrait être nourrie en fonction de la disponibilité alimentaire en protéine est {}'.format(int(nPersonne)))
print('Le pourcentage de personne qui pourrait être nourrie est {}%'.format(int(int(nPersonne)*100/pop)))

La disponibilité intérieure en kcal est 1.231369558796e+16
Le nombre de personnes qui pourraient être nourries est de 13494460918
Le pourcentage de personne qui pourrait être nourrie est 192%
--------------------------------------------------------------------------------------
La disponibilité intérieure en kg de protéine est 290754896900.0
Le nombre de personne qui pourrait être nourrie en fonction de la disponibilité alimentaire en protéine est 13276479310
Le pourcentage de personne qui pourrait être nourrie est 189%


## Question 8: Combien d'humains pourraient être nourris si toute la disponibilité alimentaire en produits végétaux la nourriture végétale destinée aux animaux et les pertes de produits végétaux étaient utilisés pour de la nourriture ?

In [25]:
df = pd.merge(df, dispo_nourri_ani, on = ['code_pays','pays','code_produit','produit','annee','origine','habitant'], how='left')
df['alim_ani'] = df.groupby('produit')['alim_ani'].apply(lambda x: x.fillna(0)).reset_index(drop=True)

df = pd.merge(df, pertes, on = ['code_pays','pays','code_produit','produit','annee'], how='left')
df['pertes'] = df.groupby('produit')['pertes'].apply(lambda x: x.fillna(0)).reset_index(drop=True)

#### Création de la colonne nourri_ani_perte

In [26]:
veg = df[df['origine'] == 'vegetal'].copy()
veg['nourr_ani_perte'] = (veg['nourriture']+veg['alim_ani']+veg['pertes'])

In [27]:
kcal_par_an = ((veg['nourr_ani_perte'].replace(0, np.nan)*1000)*veg['ratio'])
prot_par_an = (veg['nourr_ani_perte'].replace(0, np.nan)*1000)*(veg['prot_percent'])*0.01

kcal_par_an = kcal_par_an.sum()
prot_par_an = prot_par_an.sum()

personne_kcal = int((kcal_par_an/912500).round())
percent_person_kcal = int((personne_kcal*100/pop).round())

personne_prot = int((prot_par_an/21.9).round())
percent_person_prot = int((personne_prot*100/pop).round())

In [28]:
print('Il y a {} de personnes qui pourraient être nourries en Kcal'.format(personne_kcal),'dont {}%.'.
      format(percent_person_kcal))

print('Il y a {} de personnes qui pourraient être nourries en Kg de protéine'.format(personne_prot),'dont {}%.'.
      format(percent_person_prot))

Il y a 10053742494 de personnes qui pourraient être nourries en Kcal dont 144%.
Il y a 9296389662 de personnes qui pourraient être nourries en Kg de protéine dont 133%.


#### Question 9: Combien d'humains pourraient être nourris avec la disponibilité alimentaire mondiale ?

In [29]:
print('Il y a {} personnes qui pourraient être nourries en Kcal'.format(int((df['dispo_alim_kcal'].sum()/912500))),'dont {}%.'.
      format(int(((df['dispo_alim_kcal'].sum()/912500)*100/pop))))
print('Il y a {} personnes qui pourraient être nourries en Kg de protéine'.format(int((df['dispo_alim_kg_prot'].sum()/21.9))),'dont {}%.'.
      format(int(((df['dispo_alim_kg_prot'].sum()/21.9)*100/pop))))

Il y a 8071077237 personnes qui pourraient être nourries en Kcal dont 115%.
Il y a 9464673555 personnes qui pourraient être nourries en Kg de protéine dont 135%.


#### Question 10: Quelle proportion de la population mondiale est considérée comme étant en sous-nutrition ?

In [30]:
# Chargement des données et filtrage
sousal = pd.DataFrame(pd.read_csv('fr_sousalimentation.csv'))
sousal = sousal.loc[sousal['Zone'] != 'Chine']
cereales = pd.DataFrame(pd.read_csv('fr_cereales.csv'))
cereales = cereales.loc[cereales['Zone'] != 'Chine']

# Suppression des colonnes inutiles
sousal = sousal.drop(['CodeDomaine', 'Domaine', 'CodeElement', 'Element', 'CodeProduit', 'Unite', 'Produit','Note', 'CodeAnnee', 'Symbole', 'DescriptionDuSymbole'], axis = 1)
cereales = cereales.drop(['CodeDomaine', 'Domaine', 'CodeElement', 'Element', 'CodeProduit', 'CodeAnnee', 'Symbole', 'DescriptionDuSymbole','Unite'], axis = 1)
# Renonmmage des colonnes
sousal = sousal.rename(columns={'CodeZone':'code_pays', 'Zone':'pays', 'Valeur':'population', 'Annee':'annee'})
cereales = cereales.rename(columns={'CodeZone':'code_pays', 'Zone':'pays', 'Valeur':'quantite', 'Produit':'produit', 'Annee':'annee'})
# Enlever les chaînes de caractères dans la colonne haitant
sousal['population'] = sousal['population'].str.replace('<', '').astype(float)

In [31]:
pop_sous_alimentee = sousal['population'].sum()*100000000/pop
pop_sous_alimentee = int(pop_sous_alimentee)

In [32]:
print('La proportion de la population mondiale considérée comme étant sous alimentée est de {}%'.format(pop_sous_alimentee))

La proportion de la population mondiale considérée comme étant sous alimentée est de 53%


#### Question 11: Quelle proportion (en termes de poids) est destinée à l'alimentation animale ?

In [33]:
alim_animale = df['alim_ani'].sum()+df['nourriture'].sum()
proport_alim_animal = df['alim_ani'].sum()*100/alim_animale
proport_alim_animal = proport_alim_animal.round()
print('La proportion de l\'alimentation animale est de {}%'.format(int(proport_alim_animal)))

La proportion de l'alimentation animale est de 21%


In [34]:
filtre_sous_alim = df['pays'].isin(['Afghanistan', 'Afrique du Sud', 'Albanie', 'Algérie', 'Angola',
       'Arabie saoudite', 'Argentine', 'Arménie', 'Bangladesh', 'Barbade',
       'Belize', 'Bénin', 'Bolivie (État plurinational de)', 'Botswana',
       'Brunéi Darussalam', 'Bulgarie', 'Burkina Faso', 'Cabo Verde',
       'Cambodge', 'Cameroun', 'Chili', 'Chine - RAS de Macao',
       'Chine, continentale', 'Chine, Taiwan Province de', 'Chypre',
       'Colombie', 'Congo', 'Costa Rica', "Côte d'Ivoire", 'Djibouti',
       'Dominique', 'Égypte', 'El Salvador', 'Émirats arabes unis',
       'Équateur', 'Estonie', 'Eswatini', 'Éthiopie', 'Fidji', 'Gabon',
       'Gambie', 'Géorgie', 'Ghana', 'Guatemala', 'Guinée',
       'Guinée-Bissau', 'Guyana', 'Haïti', 'Honduras', 'Îles Salomon',
       'Inde', 'Indonésie', "Iran (République islamique d')", 'Iraq',
       'Jamaïque', 'Jordanie', 'Kenya', 'Kirghizistan', 'Kiribati',
       'Koweït', 'Lesotho', 'Liban', 'Libéria', 'Macédoine du Nord',
       'Madagascar', 'Malaisie', 'Malawi', 'Maldives', 'Mali', 'Maroc',
       'Maurice', 'Mauritanie', 'Mexique', 'Mongolie', 'Mozambique',
       'Myanmar', 'Namibie', 'Népal', 'Nicaragua', 'Niger', 'Nigéria',
       'Nouvelle-Calédonie', 'Oman', 'Ouganda', 'Ouzbékistan', 'Pakistan',
       'Panama', 'Paraguay', 'Pérou', 'Philippines',
       'Polynésie française', 'République centrafricaine',
       'République démocratique populaire lao', 'République dominicaine',
       'République populaire démocratique de Corée',
       'République-Unie de Tanzanie', 'Rwanda',
       'Saint-Vincent-et-les Grenadines', 'Samoa', 'Sao Tomé-et-Principe',
       'Sénégal', 'Serbie', 'Sierra Leone', 'Slovaquie', 'Soudan',
       'Sri Lanka', 'Suriname', 'Tchad', 'Thaïlande', 'Timor-Leste',
       'Togo', 'Trinité-et-Tobago', 'Tunisie', 'Turkménistan', 'Ukraine',
       'Vanuatu', 'Venezuela (République bolivarienne du)', 'Viet Nam',
       'Yémen', 'Zambie', 'Zimbabwe'])

In [35]:
print('Les 15 produits les plus exportés')
df[filtre_sous_alim].pivot_table('export', ['produit'], aggfunc='sum').reset_index().sort_values(by=['export'], ascending=False)[:15]

Les 15 produits les plus exportés


Unnamed: 0,produit,export
52,Maïs,54722000.0
39,Huile de Palme,46349000.0
51,Manioc,35851000.0
12,Blé,33756000.0
79,Riz (Eq Blanchi),33122000.0
83,Sucre Eq Brut,26326000.0
49,"Légumes, Autres",20281000.0
8,Bananes,17996000.0
48,Lait - Excl Beurre,15906000.0
81,Soja,15884000.0


In [36]:
alim_plus_importees = df['produit'].isin(['Manioc, Maïs','Huile de Palme','Riz (Eq Blanchi)','Blé','Soja',
                                                'Bananes','Sucre Eq Brut','Légumes, Autres','Lait - Excl Beurre',
                                               'Fruits, Autres','Poissons Pelagiques','Pommes','Tomates','Orge'])

In [37]:
print('Les 200 plus grandes importations')
df[alim_plus_importees].pivot_table('import', ['pays','produit'], aggfunc='sum').reset_index().sort_values(by=['import'], ascending=False)[:200]

Les 200 plus grandes importations


Unnamed: 0,pays,produit,import
476,"Chine, continentale",Soja,63381000.0
95,Arabie saoudite,Orge,10547000.0
2164,Égypte,Blé,10331000.0
883,Inde,Huile de Palme,8568000.0
54,Allemagne,Lait - Excl Beurre,8332000.0
...,...,...,...
2216,Éthiopie,Blé,868000.0
2208,États-Unis d'Amérique,Orge,864000.0
61,Allemagne,Sucre Eq Brut,860000.0
432,Chine - RAS de Hong-Kong,"Légumes, Autres",857000.0


In [38]:
df = pd.merge(df, autres_utilisation, on = ['code_pays','pays','code_produit','produit','annee','origine','habitant'], how='outer')
df['autres_utilisations'] = df.groupby('produit')['autres_utilisations'].apply(lambda x: x.fillna(0)).reset_index(drop=True)

In [40]:
alim_plus_importees = df['produit'].isin(['Manioc, Maïs','Huile de Palme','Riz (Eq Blanchi)','Blé','Soja',
                                                'Bananes','Sucre Eq Brut','Légumes, Autres','Lait - Excl Beurre',
                                               'Fruits, Autres','Poissons Pelagiques','Pommes','Tomates','Orge'])

In [41]:
ratio_prod_plus_export = df[alim_plus_importees].pivot_table(['dispo_int','autres_utilisations','alim_ani', 'nourriture'], ['produit']).reset_index()
ratio_prod_plus_export['ratio_autre_util_par_dispo_int'] = ratio_prod_plus_export['autres_utilisations']*100/ratio_prod_plus_export['dispo_int']
ratio_prod_plus_export['ratio_autre_util_par_dispo_int'] = ratio_prod_plus_export['ratio_autre_util_par_dispo_int'].round().astype(int)

In [42]:
ratio_prod_plus_export['alim_ani'] = ratio_prod_plus_export.groupby('produit')['alim_ani'].apply(lambda x: x.fillna(0))
ratio_prod_plus_export['ratio_nourri_animale_par_nourriture'] = ratio_prod_plus_export['alim_ani']*100/(ratio_prod_plus_export['alim_ani']+ratio_prod_plus_export['nourriture'])
ratio_prod_plus_export['ratio_nourri_animale_par_nourriture'] = ratio_prod_plus_export['ratio_nourri_animale_par_nourriture'].round().astype(int)

In [43]:
print('Le ratio entre Autres Utilisations et Disponibilité Intérieure, et entre Nourriture Animale et Nourriture totale')
ratio_prod_plus_export.sort_values(by=['ratio_nourri_animale_par_nourriture', 'ratio_autre_util_par_dispo_int'], ascending=False).head()

Le ratio entre Autres Utilisations et Disponibilité Intérieure, et entre Nourriture Animale et Nourriture totale


Unnamed: 0,produit,alim_ani,autres_utilisations,dispo_int,nourriture,ratio_autre_util_par_dispo_int,ratio_nourri_animale_par_nourriture
6,Orge,535595.375723,3780.346821,811786.1,39271.68,0,93
10,Soja,105277.108434,3843.373494,1611114.0,64144.58,0,62
7,Poissons Pelagiques,108768.786127,2173.410405,237132.9,125358.4,1,46
1,Blé,745218.390805,128873.563218,3905161.0,2631172.0,3,22
4,Lait - Excl Beurre,471109.195402,107862.068966,4303816.0,3619184.0,3,12


####  Question 12: Donnez les 3 produits qui ont la plus grande valeur pour chacun des 2 ratios

In [44]:
ratio_prod_plus_export[['produit','alim_ani','autres_utilisations','dispo_int','nourriture','ratio_autre_util_par_dispo_int']].sort_values(by=['ratio_autre_util_par_dispo_int'], ascending=False)[:3]

Unnamed: 0,produit,alim_ani,autres_utilisations,dispo_int,nourriture,ratio_autre_util_par_dispo_int
3,Huile de Palme,0.0,207005.882353,296523.5,89494.12,70
11,Sucre Eq Brut,517.241379,75459.770115,970482.8,825563.2,8
9,Riz (Eq Blanchi),193068.965517,106114.942529,2733655.0,2168310.0,4


In [45]:
ratio_prod_plus_export[['produit','alim_ani','autres_utilisations','dispo_int','nourriture','ratio_nourri_animale_par_nourriture']].sort_values(by=['ratio_nourri_animale_par_nourriture'], ascending=False)[:3]

Unnamed: 0,produit,alim_ani,autres_utilisations,dispo_int,nourriture,ratio_nourri_animale_par_nourriture
6,Orge,535595.375723,3780.346821,811786.1,39271.676301,93
10,Soja,105277.108434,3843.373494,1611114.0,64144.578313,62
7,Poissons Pelagiques,108768.786127,2173.410405,237132.9,125358.381503,46


#### Question 13: Combien de tonnes de céréales pourraient être libérées si les USA diminuaient leur production de produits animaux de 10% ?

In [46]:
cereales = pd.DataFrame(pd.read_csv('fr_cereales.csv'))
cereales['Produit'].unique()

array(['Blé', 'Riz (Eq Blanchi)', 'Orge', 'Maïs', 'Millet', 'Seigle',
       'Avoine', 'Sorgho', 'Céréales, Autres'], dtype=object)

In [47]:
cereales = df[df['produit'].isin(['Blé', 'Riz (Eq Blanchi)', 'Orge', 'Maïs', 'Millet', 'Seigle',
       'Avoine', 'Sorgho', 'Céréales, Autres'])].copy()

In [48]:
nourr_ani_usa = cereales[(cereales['pays'] =='États-Unis d\'Amérique')]
prod_ani_usa_reduit_10_percent = int((nourr_ani_usa['alim_ani'].sum())*0.1)
print('il y aurait {} tonnes de céréales qui seraient libérés si les USA avaient diminué leur production de produits animaux de 10%'.format(prod_ani_usa_reduit_10_percent))

il y aurait 14009600 tonnes de céréales qui seraient libérés si les USA avaient diminué leur production de produits animaux de 10%


#### Question 14: En Thaïlande, quelle proportion de manioc est exportée ? Quelle est la proportion de personnes en sous-nutrition ?

In [49]:
thailande = df[(df['pays'] =='Thaïlande')]
proport_manioc_thailande = int((thailande.loc[thailande['produit'] == 'Manioc','export']*100/thailande['export'].sum()).round())
print('Le pourcentage de manioc exporté par la Thaîlande est de {}%'.format(proport_manioc_thailande))

Le pourcentage de manioc exporté par la Thaîlande est de 50%


#### Question 15: Proposez une clé primaire pertinente à la table Population.

In [50]:
import psycopg2
import sqlalchemy as sql

DB_NAME = 'sousalimentation'
USER = 'postgres'
PWD = '1234'
HOST = '127.0.0.1'
PORT = '5432'

engine = sql.create_engine('postgresql://postgres:1234@localhost:5432/sousalimentation')

try:
    conex = psycopg2.connect(database = DB_NAME, user = USER, password = PWD, host = HOST, port = PORT)
    print('Connexion réussie !')
except:
    print('Revoir la connexion !')

Connexion réussie !


In [51]:
cur = conex.cursor()
cur.execute('drop table population')
cur.execute("""
CREATE TABLE population
(
    code_pays int not null,
    pays varchar(100) not null,
    annee int not null,
    habitant bigint,
    CONSTRAINT pk_prim PRIMARY KEY (code_pays)
)

""")
conex.commit()
population.to_sql(name='population', con=engine, index=False, if_exists='append')
print('La clé primaire la plus appropriée est le code_pays')

La clé primaire la plus appropriée est le code_pays


#### Question 16: Proposez une clé primaire pertinente à la table dispo_alim.

In [52]:
dispo_alim = df.copy()

In [53]:
dispo_alim = dispo_alim.reindex(columns=['code_pays','pays','annee','code_produit','produit','origine','nourriture','dispo_alim_kcal_p_j','dispo_prot'])

In [54]:
dispo_alim.head()

Unnamed: 0,code_pays,pays,annee,code_produit,produit,origine,nourriture,dispo_alim_kcal_p_j,dispo_prot
0,2,Afghanistan,2013,2511,Blé,vegetal,4895000.0,1369.0,36.91
1,2,Afghanistan,2013,2805,Riz (Eq Blanchi),vegetal,422000.0,141.0,2.7
2,2,Afghanistan,2013,2513,Orge,vegetal,89000.0,26.0,0.79
3,2,Afghanistan,2013,2514,Maïs,vegetal,76000.0,21.0,0.56
4,2,Afghanistan,2013,2520,"Céréales, Autres",vegetal,0.0,0.0,0.0


In [55]:
dispo_mat_gr = df_veg_ani[df_veg_ani['element'] == 'Disponibilité de matière grasse en quantité (g/personne/jour)'].copy()
dispo_mat_gr.drop(['element','unite'], axis=1, inplace=True)

# Renommer la colonne quantite en dispo_mat_gr
dispo_mat_gr.rename(columns={'quantite':'dispo_mat_gr'}, inplace=True)
dispo_alim = pd.merge(dispo_alim, dispo_mat_gr, on = ['code_pays','pays','code_produit','produit','annee','origine'], how='outer')
dispo_alim['dispo_mat_gr'] = dispo_alim.groupby('produit')['dispo_mat_gr'].apply(lambda x:x.fillna(0)).reset_index(drop=True)

In [56]:
dispo_alim = dispo_alim.reindex(columns=['code_pays','pays','annee','code_produit','produit','origine','nourriture','dispo_alim_kcal_p_j','dispo_prot','dispo_mat_gr'])
dispo_alim.rename(columns={'nourriture':'dispo_alim_tonnes'}, inplace=True)

In [57]:
cur = conex.cursor()
cur.execute('drop table dispo_alim')
cur.execute("""
CREATE TABLE dispo_alim
(
    code_pays int not null,
    pays varchar(100) not null,
    annee int not null,
    code_produit int not null,
    produit varchar(150),
    origine varchar(100),
    dispo_alim_tonnes float,
    dispo_alim_kcal_p_j float,
    dispo_prot float,
    dispo_mat_gr float,
    CONSTRAINT pk_primary PRIMARY KEY (code_pays, code_produit)
)

""")
conex.commit()
dispo_alim.to_sql(name='dispo_alim', con=engine, index=False, if_exists='append')
print('La clé primaire la plus appropriée est l\'association (code_pays, code_produit)')

La clé primaire la plus appropriée est l'association (code_pays, code_produit)


#### Question 17: Proposez une clé primaire pertinente à la table equilibre_prod

In [58]:
equilibre_prod = df.copy()

In [59]:
equilibre_prod = pd.merge(equilibre_prod, semences, on = ['code_pays','pays','code_produit','produit','annee'], how='outer')
equilibre_prod['semences'] = equilibre_prod.groupby('produit')['semences'].apply(lambda x:x.fillna(0)).reset_index(drop=True)

equilibre_prod = pd.merge(equilibre_prod, traitement, on = ['code_pays','pays','code_produit','produit','annee'], how='outer')
equilibre_prod['transfo'] = equilibre_prod.groupby('produit')['transfo'].apply(lambda x:x.fillna(0)).reset_index(drop=True)

In [60]:
equilibre_prod = equilibre_prod.reindex(columns=['code_pays','pays','annee','code_produit','produit','dispo_int','alim_ani','semences','pertes','transfo','nourriture','autres_utilisations'])

In [61]:
equilibre_prod.head(3)

Unnamed: 0,code_pays,pays,annee,code_produit,produit,dispo_int,alim_ani,semences,pertes,transfo,nourriture,autres_utilisations
0,2,Afghanistan,2013,2511,Blé,5992000.0,0.0,322000.0,775000.0,0.0,4895000.0,0.0
1,2,Afghanistan,2013,2805,Riz (Eq Blanchi),461000.0,0.0,14000.0,24000.0,0.0,422000.0,0.0
2,2,Afghanistan,2013,2513,Orge,524000.0,360000.0,22000.0,52000.0,0.0,89000.0,0.0


In [62]:
cur = conex.cursor()
cur.execute('drop table equilibre_prod')
cur.execute("""
CREATE TABLE equilibre_prod
(
    code_pays int not null,
    pays varchar(100) not null,
    annee int not null,
    code_produit int not null,
    produit varchar(150),
    dispo_int float,
    alim_ani float,
    semences float,
    pertes float,
    transfo float,
    nourriture float,
    autres_utilisations float,
    CONSTRAINT pk_equilibre_prod PRIMARY KEY (code_pays, code_produit)
)

""")
conex.commit()
equilibre_prod.to_sql(name='equilibre_prod', con=engine, index=False, if_exists='append')
print('La clé primaire la plus appropriée est l\'association (code_pays, code_produit)')

La clé primaire la plus appropriée est l'association (code_pays, code_produit)


#### Question 18: Proposez une clé primaire pertinente à la table sous_nutrition

In [63]:
sous_nutrition = sousal[(sousal['annee'] == '2012-2014') & (sousal['population'] > 0)].copy()

In [64]:
sous_nutrition['population'] = sous_nutrition['population']*1000000

In [65]:
cur = conex.cursor()
cur.execute('drop table sous_nutrition')
cur.execute("""
CREATE TABLE sous_nutrition
(
    code_pays int not null,
    pays varchar(100) not null,
    annee varchar(100) not null,
    population bigint,
    CONSTRAINT pk_sous_nutrition PRIMARY KEY (code_pays)
)

""")
conex.commit()
sous_nutrition.to_sql(name='sous_nutrition', con=engine, index=False, if_exists='append')
print('La clé primaire la plus appropriée est le code_pays')

La clé primaire la plus appropriée est le code_pays
