# Contexte

Ce notebook est la première partie d'un projet ou nous devons fournir des analyses concernant la répartition de l'alimentation, la sous-nutrition mais également en comprendre les causes.

# Sommaire

* [Analyse du dataset](#chapter3)
    * [Import](#section_3_1)
        * [Import libraries](#section_3_1_1)
        * [Import dataset](#section_3_1_2)
    * [Fonctions](#section_3_2)
    * [Analyse aide alimentaire](#section_3_3)
    * [Analyse dispo alimentaire](#section_3_4)
    * [Analyse population](#section_3_5)
    * [Analyse nutrition](#section_3_6)


* [Jointure](#chapter4)


* [Etude année 2017](#chapter5)
    * [Partie 1](#section_5_1)
        * [proportion de personnes en état de sous-nutrition](#section_3_1_1)
        * [nombre théorique de personnes qui pourraient être nourries](#section_3_1_2)
        * [idem pour la disponibilité alimentaire des produits végétaux](#section_3_1_3)
        * [proportion de personnes sous-alimentées](#section_3_1_4)

# Analyse du dataset
<a class="anchor" id="chapter3"></a>

## IMPORT
<a class="anchor" id="section_3_1"></a>

### Import libraries
<a class="anchor" id="section_3_1_1"></a>

In [1]:
import pandas as pd
import numpy as np
import matplotlib as mp
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as mno
import plotly.express as px


import warnings
warnings.filterwarnings('ignore')
from datetime import date


pd.set_option('display.max_columns', None)

### Import dataset
<a class="anchor" id="section_3_1_2"></a>

In [2]:
aide = pd.read_csv("data/aide_alimentaire.csv", delimiter=",")
dispo = pd.read_csv("data/dispo_alimentaire.csv", delimiter=",")
pop = pd.read_csv("data/population.csv", delimiter=",")
inséc = pd.read_csv("data/sous_nutrition.csv", delimiter=",")

## Fonctions
<a class="anchor" id="section_3_2"></a>

In [3]:
#Fonction pour regarder mes valeurs manquantes
def missing_zero_values_table(df):
        zero_val = (df == 0.00).astype(int).sum(axis=0)
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mz_table = pd.concat([zero_val, mis_val, mis_val_percent], axis=1)
        mz_table = mz_table.rename(
        columns = {0 : 'Zero Values', 1 : 'Missing Values', 2 : '% of Total Values'})
        mz_table['Total Zero Missing Values'] = mz_table['Zero Values'] + mz_table['Missing Values']
        mz_table['% Total Zero Missing Values'] = 100 * mz_table['Total Zero Missing Values'] / len(df)
        mz_table['Data Type'] = df.dtypes
        mz_table = mz_table[
            mz_table.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns and " + str(df.shape[0]) + " Rows.\n"      
            "There are " + str(mz_table.shape[0]) +
              " columns that have missing values.")
        return mz_table

## Analyse Aide Alimentaire 
<a class="anchor" id="section_3_3"></a>

In [4]:
#aide.head()

In [5]:
#aide.info()

In [6]:
# check for zeros in all columns 
aide[aide == 0].count()

Pays bénéficiaire    0
Année                0
Produit              0
Valeur               6
dtype: int64

In [7]:
missing_zero_values_table(aide)

Your selected dataframe has 4 columns and 1475 Rows.
There are 0 columns that have missing values.


Unnamed: 0,Zero Values,Missing Values,% of Total Values,Total Zero Missing Values,% Total Zero Missing Values,Data Type


<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
   Il y a 6 valeur à 0 dans la feature Valeur
</div>

## Analyse Dispo Alimentaire 
<a class="anchor" id="section_3_4"></a>

In [8]:
#  dispo.head()

In [9]:
# dispo.info()

In [10]:
missing_zero_values_table(dispo)

Your selected dataframe has 18 columns and 15605 Rows.
There are 15 columns that have missing values.


Unnamed: 0,Zero Values,Missing Values,% of Total Values,Total Zero Missing Values,% Total Zero Missing Values,Data Type
Semences,704,13514,86.6,14218,91.1,float64
Traitement,814,13313,85.3,14127,90.5,float64
Aliments pour animaux,930,12885,82.6,13815,88.5,float64
Pertes,1099,11327,72.6,12426,79.6,float64
Autres Utilisations,3298,10109,64.8,13407,85.9,float64
Variation de stock,5289,8829,56.6,14118,90.5,float64
Production,1434,6425,41.2,7859,50.4,float64
Disponibilité de protéines en quantité (g/personne/jour),2645,4044,25.9,6689,42.9,float64
Disponibilité de matière grasse en quantité (g/personne/jour),2734,3811,24.4,6545,41.9,float64
Exportations - Quantité,6496,3379,21.7,9875,63.3,float64


<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
   Beaucoup de valeurs manquantes et à zeros dans ce dataset , nous verrons plus tard ce que nous devons en faire
</div>

## Analyse Population
<a class="anchor" id="section_3_5"></a>

In [63]:
# pop

In [12]:
# pop.info()

In [13]:
# pop[pop== 0].count()

In [14]:
# missing_zero_values_table(pop)

In [15]:
# pop.sort_values(by='Valeur', ascending=False).head(10)

<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
 Rien a signaler sur ce dataset , aucune valeur manquante ou a zero
</div>

## Analyse Nutrition
<a class="anchor" id="section_3_6"></a>

In [16]:
# inséc.head()

In [17]:
# inséc.info()

In [18]:
missing_zero_values_table(inséc)

Your selected dataframe has 3 columns and 1218 Rows.
There are 1 columns that have missing values.


Unnamed: 0,Zero Values,Missing Values,% of Total Values,Total Zero Missing Values,% Total Zero Missing Values,Data Type
Valeur,0,594,48.8,594,48.8,object


In [19]:
#On remplace par la date intervalle 
insecurite = inséc.replace(['2012-2014', '2013-2015', '2014-2016', '2015-2017','2016-2018','2017-2019'],
                        ['2013', '2014', '2015', '2016','2017','2018'])
insecurite['Année'] = insecurite['Année'].astype('int64')

In [20]:
#supression des NaN
insecurite = insecurite.dropna()

In [21]:
sous_nutrition_pourcentage = insecurite["Valeur"].value_counts(normalize=True).mul(100).round(2).astype(str) + '%'
sous_nutrition_pourcentage.head(10)

<0.1    19.23%
0.3      7.69%
0.4      5.13%
0.2      4.49%
1.5      3.21%
0.6      2.88%
0.8      2.72%
1.6      2.72%
0.9      2.24%
1.3      2.08%
Name: Valeur, dtype: object

In [22]:
#Les valeurs de population sont des strings, je fais un changement vers des floats
#Les valeurs <0.1 seront considérées comme nulles dans nos calculs
insecurite['Valeur'] = insecurite['Valeur'].replace('<0.1', 0)
insecurite['Valeur'] = insecurite['Valeur'].astype('float64')

<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
- 48,8 % de données manquantes dans la feature Valeur du dataset nutrition<br>
- Suppression des NaN<br>
- Nous remplacons les dates avec l'années d'intervalles : ex l’intervalle 2012-2014 sera 2013 <br>
- Les valeurs <0.1 sont remplacer par 0 et seront considérées comme nulles dans nos calculs
    
</div>

# Jointure
<a class="anchor" id="chapter4"></a>

In [23]:
aide1 = aide.rename(columns={"Pays bénéficiaire": "Zone","Valeur": "prod_données_tonne","Produit":"prod_données"})
pop1 = pop.rename(columns={"Valeur": "population"})
inséc1 = insecurite.rename(columns={"Valeur": "mean_und-alim_million"})
inséc1 = inséc1.replace(['2012-2014', '2013-2015', '2014-2016', '2015-2017','2016-2018','2017-2019'],
                        ['2013', '2014', '2015', '2016','2017','2018'])
inséc1['Année'] = inséc1['Année'].astype('int64')

df = pd.merge(pd.merge(pd.merge(aide1,pop1,on=['Zone',"Année"],how='outer'),inséc1,on=['Zone',"Année"],how='outer'),dispo,on='Zone')

In [91]:
df.to_csv('df.csv')  

# Etude année 2017
<a class="anchor" id="chapter5"></a>

In [57]:
df_2017 = df[df['Année'] == 2017]

Unnamed: 0,Zone,Année,prod_données,prod_données_tonne,population,mean_und-alim_million,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
1080,Afghanistan,2017,,,36296.113,10.5,Abats Comestible,animale,,,5.0,1.72,0.20,0.77,53.0,,,53.0,,53.0,,,
1081,Afghanistan,2017,,,36296.113,10.5,"Agrumes, Autres",vegetale,,,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,,,
1082,Afghanistan,2017,,,36296.113,10.5,Aliments pour enfants,vegetale,,,1.0,0.06,0.01,0.03,2.0,,2.0,2.0,,,,,
1083,Afghanistan,2017,,,36296.113,10.5,Ananas,vegetale,,,0.0,0.00,,,0.0,,0.0,0.0,,,,,
1084,Afghanistan,2017,,,36296.113,10.5,Bananes,vegetale,,,4.0,2.70,0.02,0.05,82.0,,82.0,82.0,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
187801,Viet Nam,2017,,,94600.648,6.5,Viande de Suides,animale,,,344.0,35.00,33.02,10.61,3209.0,10.0,1.0,3209.0,,3218.0,,,
187802,Viet Nam,2017,,,94600.648,6.5,Viande de Volailles,animale,,,46.0,12.36,3.24,4.04,1133.0,0.0,500.0,1133.0,,633.0,,,
187803,Viet Nam,2017,,,94600.648,6.5,"Viande, Autre",animale,,,1.0,0.29,0.05,0.13,27.0,0.0,,27.0,,27.0,,,
187804,Viet Nam,2017,,,94600.648,6.5,Vin,vegetale,,,0.0,0.13,,,12.0,,12.0,12.0,,,,,


In [26]:
var_pop = df_2017[['Zone','population']]
var_pop = var_pop.drop_duplicates()

In [27]:
# df_2017.head()

## Partie 1
<a class="anchor" id="section_5_1"></a>

### Question1  Quel est la proportion de personnes en état de sous-nutrition ?
<a class="anchor" id="section_5_1_1"></a>

In [90]:
insecurite_2017 =  insecurite.loc[insecurite['Année'] == 2017] 
insecurite_2017.sum()

Zone      AfghanistanAfrique du SudAlbanieAlgérieAngolaA...
Année                                                209768
Valeur                                                535.7
dtype: object

In [83]:
pop_2017 = pop.loc[pop['Année'] == 2017] 
pop_mondial_2017 =  pop_2017['Valeur'].sum()/ 1e3
pop_mondial_2017


7548.134111

In [30]:
proportion_sous_nutrition = round((insecurite_2017["Valeur"].sum() / pop_mondial_2017) * 100, 2)
proportion_sous_nutrition

7.1

<div class="alert alert-info">
La proportion de personnes en état de sous-nutrition en 2017 est de 7.1 %
</div>

### Quel est le  nombre théorique de personnes qui pourraient être nourries ?
<a class="anchor" id="section_5_1_2"></a>

In [31]:
pop_mondial_2017

7548.134111

In [32]:
df_kcal = df_2017 [['Zone','Disponibilité alimentaire (Kcal/personne/jour)']]
df_q2 = df_kcal.groupby(['Zone']).sum()

In [33]:
df_pop_2017= df_2017[['Zone','population']]
df_pop_2017 = df_pop_2017.drop_duplicates()

In [34]:
Q2= df_pop_2017.merge(df_q2, how='inner', on='Zone')

In [35]:
Q2['dispo_total_kcal']= Q2['Disponibilité alimentaire (Kcal/personne/jour)']*(Q2['population']* 1e3) 

In [36]:
nbre_calorie_by_person = Q2['dispo_total_kcal'].sum() / (pop_mondial_2017* 1e3)
nbre_calorie_by_person

2771411.3607024383

In [37]:
Q2['dispo_total_kcal'].sum()

20918984627331.0

In [38]:
nbre_total_pers_theorique = Q2['dispo_total_kcal'].sum() / 2500
nbre_total_pers_theorique

8367593850.9324

In [39]:
pourcentage = nbre_total_pers_theorique/ (pop_mondial_2017* 1e6) * 100
pourcentage

110.85645442809752

<div class="alert alert-info">
Le nombre théorique de personnes qui pourraient être nourries est de 8 367 593 850 personnes soit 110% de la population en 2017
</div>

### idem pour la disponibilité alimentaire des produits végétaux
<a class="anchor" id="section_5_1_3"></a>

In [40]:
df_veg = df_2017[['Zone','Disponibilité alimentaire (Kcal/personne/jour)', 'Origine']]

In [41]:
df_veg = df_veg.loc[df_veg['Origine'] == 'vegetale'] 

In [42]:
df_vegetable = df_veg.groupby(['Zone']).sum()

In [43]:
Q3= df_pop_2017.merge(df_vegetable, how='inner', on='Zone')

In [44]:
Q3['dispo_total_kcal']= Q3['Disponibilité alimentaire (Kcal/personne/jour)']*(Q3['population']* 1e3) 

In [45]:
nbre_calorie_by_person_veg = Q3['dispo_total_kcal'].sum() / (pop_mondial_2017* 1e3)
nbre_calorie_by_person_veg

2286759.0794851733

In [46]:
nbre_total_pers_theorique_veg = Q3['dispo_total_kcal'].sum() / 2500
nbre_total_pers_theorique_veg

6904305684.6004

In [47]:
pourcentage_veg = nbre_total_pers_theorique_veg / (pop_mondial_2017* 1e6) * 100
pourcentage_veg 

91.47036317940695

<div class="alert alert-info">
Le nombre théorique de personnes qui pourraient être nourries est de 6 904 305 684 personnes soit 91% de population en 2017
</div>

### proportion de personnes sous-alimentées
<a class="anchor" id="section_5_1_4"></a>

In [48]:
sous_alim = df_2017[['Zone','population','mean_und-alim_million']]

In [49]:
sous_alim = sous_alim.drop_duplicates()

In [50]:
sous_alim = sous_alim.dropna()

In [51]:
sous_alim = sous_alim[sous_alim['mean_und-alim_million'] != 0]

In [52]:
#conversion de la population en million
sous_alim['population'] = sous_alim['population']*1e-3

In [53]:
sous_alim['proportion_under'] = sous_alim['mean_und-alim_million']/sous_alim['population']*100

In [54]:
sous_alim = sous_alim.sort_values(by=['proportion_under'], ascending=False)

In [55]:
sous_alim

Unnamed: 0,Zone,population,mean_und-alim_million,proportion_under
51891,Haïti,10.982366,5.3,48.259182
103362,République populaire démocratique de Corée,25.429825,12.0,47.188685
70946,Madagascar,25.570512,10.5,41.062924
68500,Libéria,4.702226,1.8,38.279742
65770,Lesotho,2.091534,0.8,38.249438
...,...,...,...,...
164446,Malaisie,31.104646,1.0,3.214954
147928,Émirats arabes unis,9.487203,0.3,3.162154
4827,Algérie,41.389189,1.3,3.140917
172108,Ouzbékistan,31.959785,0.9,2.816039


<div class="alert alert-info">
Les pays ayant presque la moitié de la population en sous-alimentation sont: Haïti, la Corée du nord et Madagascar
</div>