# Projet d'analyse des données : sous nutrition

## 1- Objectif

L'objectif est de dresser un panorama de l’état de la malnutrition dans le monde à partir de données contenues dans les fichiers :
- aide_alimentaire
- dispo_alimentaire
- population
- sous-nutrition

L’ensemble de ces fichiers provient initialement des données de la FAO téléchargeables librement ici : http://www.fao.org/faostat/fr/#data


## 2- Lexique des données

Il y a 4 fichiers CSV à disposition :
1.	Un fichier de disponibilité alimentaire pour l’année 2013 qui contient 17 variables :
-	Le pays.
-	Le produit.
-	4 variables de disponibilité alimentaire. Ces 4 variables sont exprimées dans des unités bien spécifiques, qui sont précisées directement dans le nom de la variable. À noter cependant que la notation kcal est un abus de langage, elle correspond à une calorie réelle.
-	10 variables qui précisent les utilisations/moyens d’acquisition de la disponibilité alimentaire. Elles sont toutes exprimées en milliers de tonnes.
-	Enfin, une variable type qui précise si le produit est d’origine animale ou végétale.
2.	Un fichier d’insécurité alimentaire, qui inclut :
-	Le pays.
-	Intervalle d’années.
-	Le nombre de personnes en sous-alimentation en millions d’habitants (ex. : pour l’intervalle 2012-2014, le nombre de personnes correspond à la moyenne sur ces 3 années, on peut le résumer en 2013).

3.	Un fichier de population qui inclut :
-	Le pays.
-	L’année.
-	La population du pays, exprimée en milliers d’habitants.
4.	Un fichier d’aide alimentaire qui contient :
-	Le pays bénéficiaire.
-	L’année.
-	Le produit.
-	La quantité qui a été donnée comme aide alimentaire, en tonnes.




## 3- Quelques pistes 

Je vous recommande de vous concentrer sur l'année 2017. 

Voici quelques pistes à explorer/ calculer: 
- la proportion de personnes en état de sous-nutrition ;
- le nombre théorique de personnes qui pourraient être nourries. Vous devriez pouvoir calculer ça à partir de la disponibilité alimentaire mondiale ;
- idem pour la disponibilité alimentaire des produits végétaux ;
- l’utilisation de la disponibilité intérieure, en particulier la part qui est attribuée à l’alimentation animale, celle qui est perdue et celle qui est concrètement utilisée pour l'alimentation humaine.

Vous pouvez faire une étude un peu plus fine pour chacun des pays. Par exemple, vous pouvez donner :
- les pays pour lesquels la proportion de personnes sous-alimentées est la plus forte en 2017, 
- ceux qui ont le plus bénéficié d’aide depuis 2013, _
- ceux ayant le plus/le moins de disponibilité/habitant, etc.,
- et toutes autres infos que vous trouverez utiles pour mettre en relief les pays qui semblent être le plus en difficulté, au niveau alimentaire.

Notes de mes recherches
- La disponibilité alimentaire correspond à la disponibilité d'aliments en quantité suffisante et d'une qualité appropriée pour l’alimentation humaine.
- La disponibilité intérieure correspond à la disponibilité totale d’un aliment au sein du pays.
- Il y a un lien logique entre l’ensemble des 10 variables exprimées en milliers de tonnes sur les utilisations de la disponibilité intérieure, qui peut s’exprimer avec une équation du type : A1 + A2 + … = disponibilité intérieure = B1 + B2 + …
- Mais je ne me souviens plus exactement !

Lors de mes recherches, j’ai découvert des chiffres intéressants sur l’utilisation des céréales, notamment la répartition entre l’alimentation humaine (colonne Nourriture) et l’alimentation pour animaux. La liste des céréales peut être trouvée en allant fouiller un peu dans l’onglet Bilans alimentaires, sur le lien juste ci-dessus.

Enfin, je me souviens d’un exemple étonnant d’utilisation du manioc par la Thaïlande aux égards de la proportion de personnes en sous-nutrition. Il serait intéressant d’aller à nouveau y jeter un coup d’œil, de mémoire ça concernait l’exportation par rapport à la production.



## 4 - Préparation de l'environnement

In [1]:
import pandas as pd
import numpy as np

# 5 - Chargement des donnés

## Population

In [3]:
population = pd.read_csv('dataset/population.csv')
population.head()

Unnamed: 0,Zone,Année,Valeur
0,Afghanistan,2013,32269.589
1,Afghanistan,2014,33370.794
2,Afghanistan,2015,34413.603
3,Afghanistan,2016,35383.032
4,Afghanistan,2017,36296.113


Plusieurs traitements peuvent être appliquées ici, pour simplifier les calculs pour la suite :

La population étant en milliers d'habitant, faire une multiplication par 1000 prend sens, pour éviter tous problèmes pour la suite
changer le nom de la colonne Valeur

In [4]:
population['Valeur'] *= 1000
population.rename(columns={"Valeur": "Population"}, inplace=True)

In [5]:
population.head()

Unnamed: 0,Zone,Année,Population
0,Afghanistan,2013,32269589.0
1,Afghanistan,2014,33370794.0
2,Afghanistan,2015,34413603.0
3,Afghanistan,2016,35383032.0
4,Afghanistan,2017,36296113.0


# Disponibilité alimentaire¶

In [44]:
dispo_alimentaire = pd.read_csv('dataset/dispo_alimentaire.csv')
dispo_alimentaire.head()

Unnamed: 0,Zone,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,,,5.0,1.72,0.2,0.77,53.0,,,53.0,,53.0,,,
1,Afghanistan,"Agrumes, Autres",vegetale,,,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,,,
2,Afghanistan,Aliments pour enfants,vegetale,,,1.0,0.06,0.01,0.03,2.0,,2.0,2.0,,,,,
3,Afghanistan,Ananas,vegetale,,,0.0,0.0,,,0.0,,0.0,0.0,,,,,
4,Afghanistan,Bananes,vegetale,,,4.0,2.7,0.02,0.05,82.0,,82.0,82.0,,,,,


Plusieurs traitements peuvent être appliquées ici, pour simplifier les calculs pour la suite :

remplacer les NaN par 0
multiplier par 1 000 000 toutes les colonnes dont l'unité est milliers de tonnes, pour homogénéiser en kg

In [45]:
dispo_alimentaire.fillna(0, inplace=True)

colonnes_tonnes_tokg = ['Aliments pour animaux', 'Disponibilité intérieure', 'Exportations - Quantité',
                        'Importations - Quantité', 'Nourriture', 'Pertes', 'Production',
                        'Semences', 'Traitement', 'Variation de stock', 'Autres Utilisations']

for elt in colonnes_tonnes_tokg:
    dispo_alimentaire[elt] *= 1000000

# Aide alimentaire¶

In [9]:
aide_alimentaire = pd.read_csv("dataset/aide_alimentaire.csv")
aide_alimentaire.head()

Unnamed: 0,Pays bénéficiaire,Année,Produit,Valeur
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504


Plusieurs traitements peuvent être appliqués ici, pour simplifier les calculs :

renommer la colonne Pays bénéficiaire en Zone pour homogénéiser avec les autres tables
multiplier par 1000 pour avoir en kg

In [10]:
aide_alimentaire.rename(columns={"Pays bénéficiaire": "Zone", "Valeur":"Aide_kg"}, inplace=True)
aide_alimentaire['Aide_kg'] *= 1000

# Sous nutrition

In [13]:
sous_nutrition = pd.read_csv('dataset/sous_nutrition.csv')
sous_nutrition.head()

Unnamed: 0,Zone,Année,Valeur
0,Afghanistan,2012-2014,8.6
1,Afghanistan,2013-2015,8.8
2,Afghanistan,2014-2016,8.9
3,Afghanistan,2015-2017,9.7
4,Afghanistan,2016-2018,10.5


In [16]:
sous_nutrition.describe(include='all')

Unnamed: 0,Zone,Année,Valeur
count,1218,1218,624
unique,203,6,139
top,Afghanistan,2012-2014,<0.1
freq,6,203,120


In [15]:
sous_nutrition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Zone    1218 non-null   object
 1   Année   1218 non-null   object
 2   Valeur  624 non-null    object
dtypes: object(3)
memory usage: 28.7+ KB


certaines valeurs ne sont pas fixes, mais correspondent à une approximation (<0.1 par exemple) : la colonne Valeur est donc considérée comme du texte par Pandas. Il faut donc la refaire passer en numérique.

Il y a plusieurs façons de gérer ces valeurs là (les remplacer par une valeur, par 0, etc...), laissée libre à l'étudiant selon sa sensibilité (et la justification qu'il pourra donner à son choix). Je les remplace ici par 0.



In [17]:
sous_nutrition['Valeur'] = pd.to_numeric(sous_nutrition['Valeur'], errors='coerce')
sous_nutrition.fillna(0, inplace=True)

On peut également (de façon optionnelle, pour simplifier les calculs) :

remplacer Valeur par un nom plus explicite
multiplier par 1 000 000 pour avoir en habitants

In [18]:
sous_nutrition.rename(columns={"Valeur": "sous_nutrition"}, inplace=True)
sous_nutrition['sous_nutrition'] *= 1000000

In [19]:
sous_nutrition.head()

Unnamed: 0,Zone,Année,sous_nutrition
0,Afghanistan,2012-2014,8600000.0
1,Afghanistan,2013-2015,8800000.0
2,Afghanistan,2014-2016,8900000.0
3,Afghanistan,2015-2017,9700000.0
4,Afghanistan,2016-2018,10500000.0


# Analyse

L'équation de Julien est en fait :

Disponibilité intérieure  = Production + Importations - Exportations + Variation de stock 

Disponibilité intérieure = Semences + Pertes + Nourriture + Aliments pour animaux + Traitement + Autres utilisations

## Demandes de Marc

### Proportion de personnes en sous nutrition :

In [22]:
# Il faut tout d'abord faire une jointure entre population et sous nutrition en utilisant la fonction merge de pandas, en ciblant l'année 2017 :

sous_nutrition2017 = sous_nutrition.loc[sous_nutrition['Année'] == '2016-2018',["Zone", "sous_nutrition"]]


pop2017 = population.loc[population["Année"]== 2017,["Zone","Population"]] # a compléter en s'inspirant de la ligne du dessus



prop_sous_nutrition = pd.merge(pop2017,sous_nutrition2017,
                    
                               on="Zone")
prop_sous_nutrition.head()

Unnamed: 0,Zone,Population,sous_nutrition
0,Afghanistan,36296113.0,10500000.0
1,Afrique du Sud,57009756.0,3100000.0
2,Albanie,2884169.0,100000.0
3,Algérie,41389189.0,1300000.0
4,Allemagne,82658409.0,0.0


In [30]:
print("la totalité des personnes en sousnutrition : ",prop_sous_nutrition['sous_nutrition'].sum()) #donne la totalité des personnes en sousnutrition

print("La population totale : ", prop_sous_nutrition['Population'].sum())# calculer ici la population total 

# et en déduire la Proportion de personnes en état de sous nutrition
print("La Proportion de personnes en état de sous nutrition : ", prop_sous_nutrition['sous_nutrition'].sum()*100/(prop_sous_nutrition['Population'].sum()),"%")

la totalité des personnes en sousnutrition :  535700000.0
La population totale :  7543798779.0
La Proportion de personnes en état de sous nutrition :  7.1011968332354165 %


In [29]:
print("Proportion de personnes en état de sous nutrition :", "{:.2f}".format(prop_sous_nutrition['sous_nutrition'].sum()*100/prop_sous_nutrition['Population'].sum()), "%")

Proportion de personnes en état de sous nutrition : 7.10 %


### Le nombre de personnes théoriques qui pourrait être nourri à partir de la disponibilité alimentaire

Pour cela, on peut se fixer soit sur les kcal, soit les protéines. Je choisis ici les kcal, mais la méthodologie est la même avec les protéines, aux égards dues aux éventuelles unités.

Il faut tout d'abord convertir la colonne de disponibilité alimentaire en kcal. Celle ci est actuellement en kcal/pers/j, il faut donc multiplier par la population et par 365. Une jointure est nécessaire pour avoir la population.

In [47]:
dispo_alimentaire = dispo_alimentaire.merge(population.loc[population["Année"]== 2013,['Zone', 'Population']],
                                            on="Zone")

In [48]:
dispo_alimentaire['dispo_kcal'] = dispo_alimentaire["Disponibilité alimentaire (Kcal/personne/jour)"] * dispo_alimentaire["Population"] * 365

print("dispo alimentaire totale en kcal :", dispo_alimentaire['dispo_kcal'].sum(), "kcal")

dispo alimentaire totale en kcal : 7316192541684595.0 kcal


Après une rapide recherche, on trouve qu'un être humain a besoin d'entre 1800 et 2700 kcal/j. On prend donc une moyenne de 2500 pour le présent exemple :

In [54]:
total_h_kcal = round(dispo_alimentaire['dispo_kcal'].sum()/(365*2500))

In [56]:
print("Total d'être humain pouvant être nourris :", total_h_kcal)

print("Proportion :", "{:.2f}".format((total_h_kcal*100)/population.loc[population['Année'] == 2017,"Population"].sum()), "%")

Total d'être humain pouvant être nourris : 8017745251
Proportion : 106.22 %


Même question pour les produits végétaux :

In [58]:
vegetaux = dispo_alimentaire.loc[dispo_alimentaire['Origine'] == "vegetale",:]

In [59]:
print("dispo alimentaire totale en kcal des produits végétaux :", vegetaux['dispo_kcal'].sum(), "kcal")
total_h_kcal = round(vegetaux['dispo_kcal'].sum()/(365*2500))


print("Total d'être humain pouvant être nourris :", total_h_kcal)
print("Proportion :", "{:.2f}".format(total_h_kcal*100/population.loc[population['Année'] == 2017,"Population"].sum()), "%")

dispo alimentaire totale en kcal des produits végétaux : 6024935974719830.0 kcal
Total d'être humain pouvant être nourris : 6602669561
Proportion : 87.47 %


L’utilisation de la disponibilité intérieure, en particulier la part qui est attribuée à l’alimentation animale de celle qui est perdue, de celle qui est concrètement utilisée pour l'alimentation humaine.

In [60]:
dispo_int = dispo_alimentaire['Disponibilité intérieure'].sum()

for elt in ['Aliments pour animaux', 'Pertes', 'Nourriture']:
    print("Proportion de", elt, ":", "{:.2f}".format(dispo_alimentaire[elt].sum()*100/dispo_int), "%")

Proportion de Aliments pour animaux : 13.23 %
Proportion de Pertes : 4.65 %
Proportion de Nourriture : 49.37 %


### Informations laissées par Julien

On fait un zoom sur les céréales : 
    
Blé et produits,
Riz et produits,
Orge et produits,
Maïs et produits,
Seigle et produits,
Avoine,
Millet et produits,
Sorgho et produits,
Céréales, Autres

In [63]:
liste_cereales = ["Blé et produits", "Riz et produits", "Orge et produits", "Maïs et produits", "Seigle et produits",
                  "Avoine", "Millet et produits", "Sorgho et produits", "Céréales, Autres"]

#Création d'une table ne contenant que les informations des céréales
cereales = dispo_alimentaire.loc[dispo_alimentaire["Produit"].isin(liste_cereales),:] 

In [64]:
print("Proportion d'alimentation animale :", "{:.2f}".format(cereales['Aliments pour animaux'].sum()*100/cereales['Disponibilité intérieure'].sum()), "%")
print("Proportion d'alimentation humaine :", "{:.2f}".format(cereales['Nourriture'].sum()*100/cereales['Disponibilité intérieure'].sum()), "%")

Proportion d'alimentation animale : 69.67 %
Proportion d'alimentation humaine : 17.63 %


#### Quelle remarque cela vous évoque? 

Exemple de la Thaïlande et du Manioc :

In [73]:
thai = prop_sous_nutrition.loc[prop_sous_nutrition['Zone'] == "Thaïlande",:]


print('Proportion en sous nutrition en Thaïlande :', "{:.2f}".format(thai['sous_nutrition'].iloc[0]*100/thai['Population'].iloc[0]), "%")

Proportion en sous nutrition en Thaïlande : 8.96 %


In [74]:
# La proportion exportée doit être calculée à partir de la production

thai_manioc = dispo_alimentaire.loc[(dispo_alimentaire['Produit'] == "Manioc") & (dispo_alimentaire['Zone'] == "Thaïlande"),:]


print('Proportion de manioc exportée :', "{:.2f}".format(thai_manioc['Exportations - Quantité'].iloc[0]*100 / 
                                                                     thai_manioc['Production'].iloc[0]), "%")

Proportion de manioc exportée : 83.41 %


## Demandes de Mélanie

Pays pour lesquels la proportion de personnes sous-alimentées est la plus forte en 2017

In [76]:
prop_sous_nutrition['proportion'] = prop_sous_nutrition["sous_nutrition"]/prop_sous_nutrition["Population"]

prop_sous_nutrition[['Zone', "proportion"]].sort_values(by="proportion", ascending=False).head(10)

Unnamed: 0,Zone,proportion
78,Haïti,0.482592
157,République populaire démocratique de Corée,0.471887
108,Madagascar,0.410629
103,Libéria,0.382797
100,Lesotho,0.382494
183,Tchad,0.379576
161,Rwanda,0.350556
121,Mozambique,0.328109
186,Timor-Leste,0.321735
0,Afghanistan,0.289287


Ceux qui ont le plus bénéficié d’aide depuis 2013

In [77]:
aide = aide_alimentaire[['Zone','Aide_kg']].groupby("Zone").sum()

aide.sort_values(by="Aide_kg", ascending=False).head(10)

Unnamed: 0_level_0,Aide_kg
Zone,Unnamed: 1_level_1
République arabe syrienne,1858943000
Éthiopie,1381294000
Yémen,1206484000
Soudan du Sud,695248000
Soudan,669784000
Kenya,552836000
Bangladesh,348188000
Somalie,292678000
République démocratique du Congo,288502000
Niger,276344000


Les pays ayant le plus/le moins de disponibilité/habitant

In [78]:
dispo_pays_total = dispo_alimentaire[['Zone','Produit','Disponibilité alimentaire (Kcal/personne/jour)']].groupby('Zone').sum()

dispo_pays_total.sort_values(by="Disponibilité alimentaire (Kcal/personne/jour)").head(10)

Unnamed: 0_level_0,Disponibilité alimentaire (Kcal/personne/jour)
Zone,Unnamed: 1_level_1
République centrafricaine,1879.0
Zambie,1924.0
Madagascar,2056.0
Afghanistan,2087.0
Haïti,2089.0
République populaire démocratique de Corée,2093.0
Tchad,2109.0
Zimbabwe,2113.0
Ouganda,2126.0
Timor-Leste,2129.0
