# Contexte

Ce notebook est la première partie d'un projet ou nous devons fournir des analyses concernant la répartition de l'alimentation, la sous-nutrition mais également en comprendre les causes.

# Sommaire

* [Analyse du dataset](#chapter3)
    * [Détection des anomalies - néttoyage](#section_3_1)
    
    
* [Visualisation](#chapter4)
    * [Fonctions - visualisation](#section_4_1)
    * [Visualisation](#section_4_2)

# Analyse du dataset
<a class="anchor" id="chapter3"></a>

## IMPORT
<a class="anchor" id="chapter3_1"></a>

### Import libraries

In [330]:
import pandas as pd
import numpy as np
import matplotlib as mp
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as mno
import plotly.express as px


import warnings
warnings.filterwarnings('ignore')
from datetime import date


pd.set_option('display.max_columns', None)

### Import dataset

In [331]:
aide = pd.read_csv("data/aide_alimentaire.csv", delimiter=",")
dispo = pd.read_csv("data/dispo_alimentaire.csv", delimiter=",")
pop = pd.read_csv("data/population.csv", delimiter=",")
inséc = pd.read_csv("data/sous_nutrition.csv", delimiter=",")

## Fonctions

In [332]:
#Fonction pour regarder mes valeurs manquantes
def missing_zero_values_table(df):
        zero_val = (df == 0.00).astype(int).sum(axis=0)
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mz_table = pd.concat([zero_val, mis_val, mis_val_percent], axis=1)
        mz_table = mz_table.rename(
        columns = {0 : 'Zero Values', 1 : 'Missing Values', 2 : '% of Total Values'})
        mz_table['Total Zero Missing Values'] = mz_table['Zero Values'] + mz_table['Missing Values']
        mz_table['% Total Zero Missing Values'] = 100 * mz_table['Total Zero Missing Values'] / len(df)
        mz_table['Data Type'] = df.dtypes
        mz_table = mz_table[
            mz_table.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns and " + str(df.shape[0]) + " Rows.\n"      
            "There are " + str(mz_table.shape[0]) +
              " columns that have missing values.")
        return mz_table

## Analyse Aide Alimentaire 

In [333]:
#aide.head()

In [334]:
#aide.info()

In [335]:
# check for zeros in all columns 
aide[aide == 0].count()

Pays bénéficiaire    0
Année                0
Produit              0
Valeur               6
dtype: int64

In [336]:
missing_zero_values_table(aide)

Your selected dataframe has 4 columns and 1475 Rows.
There are 0 columns that have missing values.


Unnamed: 0,Zero Values,Missing Values,% of Total Values,Total Zero Missing Values,% Total Zero Missing Values,Data Type


<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
   Il y a 6 valeur à 0 dans la feature Valeur
</div>

## Analyse Dispo Alimentaire 

In [337]:
#  dispo.head()

In [338]:
# dispo.info()

In [339]:
missing_zero_values_table(dispo)

Your selected dataframe has 18 columns and 15605 Rows.
There are 15 columns that have missing values.


Unnamed: 0,Zero Values,Missing Values,% of Total Values,Total Zero Missing Values,% Total Zero Missing Values,Data Type
Semences,704,13514,86.6,14218,91.1,float64
Traitement,814,13313,85.3,14127,90.5,float64
Aliments pour animaux,930,12885,82.6,13815,88.5,float64
Pertes,1099,11327,72.6,12426,79.6,float64
Autres Utilisations,3298,10109,64.8,13407,85.9,float64
Variation de stock,5289,8829,56.6,14118,90.5,float64
Production,1434,6425,41.2,7859,50.4,float64
Disponibilité de protéines en quantité (g/personne/jour),2645,4044,25.9,6689,42.9,float64
Disponibilité de matière grasse en quantité (g/personne/jour),2734,3811,24.4,6545,41.9,float64
Exportations - Quantité,6496,3379,21.7,9875,63.3,float64


<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
   Beaucoup de valeurs manquantes et à zeros dans ce dataset , nous verrons plus tard ce que nous devons en faire
</div>

## Analyse Population

In [340]:
# pop.head()

In [341]:
# pop.info()

In [342]:
# pop[pop== 0].count()

In [343]:
# missing_zero_values_table(pop)

In [344]:
# pop.sort_values(by='Valeur', ascending=False).head(10)

<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
 Rien a signaler sur ce dataset , aucune valeur manquante ou a zero
</div>

## Analyse Nutrition

In [345]:
# inséc.head()

In [346]:
# inséc.info()

In [347]:
missing_zero_values_table(inséc)

Your selected dataframe has 3 columns and 1218 Rows.
There are 1 columns that have missing values.


Unnamed: 0,Zero Values,Missing Values,% of Total Values,Total Zero Missing Values,% Total Zero Missing Values,Data Type
Valeur,0,594,48.8,594,48.8,object


In [348]:
#On remplace par la date intervalle 
insecurite = inséc.replace(['2012-2014', '2013-2015', '2014-2016', '2015-2017','2016-2018','2017-2019'],
                        ['2013', '2014', '2015', '2016','2017','2018'])
insecurite['Année'] = insecurite['Année'].astype('int64')

In [349]:
#supression des NaN
insecurite = insecurite.dropna()

In [350]:
sous_nutrition_pourcentage = insecurite["Valeur"].value_counts(normalize=True).mul(100).round(2).astype(str) + '%'
sous_nutrition_pourcentage.head(10)

<0.1    19.23%
0.3      7.69%
0.4      5.13%
0.2      4.49%
1.5      3.21%
0.6      2.88%
0.8      2.72%
1.6      2.72%
0.9      2.24%
1.3      2.08%
Name: Valeur, dtype: object

In [351]:
#Les valeurs de population sont des strings, je fais un changement vers des floats
#Les valeurs <0.1 seront considérées comme nulles dans nos calculs
insecurite['Valeur'] = insecurite['Valeur'].replace('<0.1', 0)
insecurite['Valeur'] = insecurite['Valeur'].astype('float64')

<div class="alert alert-info">
    <strong>Conclusion :<br></strong>
- 48,8 % de données manquantes dans la feature Valeur du dataset nutrition<br>
- Suppression des NaN<br>
- Nous remplacons les dates avec l'années d'intervalles : ex l’intervalle 2012-2014 sera 2013 <br>
- Les valeurs <0.1 sont remplacer par 0 et seront considérées comme nulles dans nos calculs
    
</div>

# Jointure

In [352]:
aide1 = aide.rename(columns={"Pays bénéficiaire": "Zone","Valeur": "prod_données_tonne","Produit":"prod_données"})
pop1 = pop.rename(columns={"Valeur": "population"})
inséc1 = inséc.rename(columns={"Valeur": "mean_und-alim_million"})
inséc1 = inséc1.replace(['2012-2014', '2013-2015', '2014-2016', '2015-2017','2016-2018','2017-2019'],
                        ['2013', '2014', '2015', '2016','2017','2018'])
inséc1['Année'] = inséc1['Année'].astype('int64')

df = pd.merge(pd.merge(pd.merge(aide1,pop1,on=['Zone',"Année"],how='outer'),inséc1,on=['Zone',"Année"],how='outer'),dispo,on='Zone')

In [382]:
# df

# Etude année 2017

In [354]:
df_2017 = df[df['Année'] == 2017]

In [355]:
var_pop = df_2017[['Zone','population']]
var_pop = var_pop.drop_duplicates()

In [381]:
# df_2017.head()

## Partie 1

### Question1  Quel est la proportion de personnes en état de sous-nutrition ?

In [357]:
insecurite_2017 =  insecurite.loc[insecurite['Année'] == 2017] 
insecurite_2017.sum()

Zone      AfghanistanAfrique du SudAlbanieAlgérieAngolaA...
Année                                                209768
Valeur                                                535.7
dtype: object

In [358]:
pop_2017 = pop.loc[pop['Année'] == 2017] 
pop_mondial_2017 =  pop_2017['Valeur'].sum()/ 1e3
pop_mondial_2017

7548.134111

In [359]:
proportion_sous_nutrition = round((insecurite_2017["Valeur"].sum() / pop_mondial_2017) * 100, 2)
proportion_sous_nutrition

7.1

<div class="alert alert-info">
La proportion de personnes en état de sous-nutrition en 2017 est de 7.1 %
</div>

### Quel est le  nombre théorique de personnes qui pourraient être nourries ? 

In [379]:
pop_mondial_2017

7548.134111

In [360]:
df_kcal = df_2017 [['Zone','Disponibilité alimentaire (Kcal/personne/jour)']]
df_q2 = df_kcal.groupby(['Zone']).sum()

In [361]:
df_pop_2017= df_2017[['Zone','population']]
df_pop_2017 = df_pop_2017.drop_duplicates()

In [362]:
Q2= df_pop_2017.merge(df_q2, how='inner', on='Zone')

In [363]:
Q2['dispo_total_kcal']= Q2['Disponibilité alimentaire (Kcal/personne/jour)']*(Q2['population']* 1e3) 

In [364]:
nbre_calorie_by_person = Q2['dispo_total_kcal'].sum() / (pop_mondial_2017* 1e3)
nbre_calorie_by_person

2771411.3607024383

In [366]:
Q2['dispo_total_kcal'].sum()

20918984627331.0

In [367]:
nbre_total_pers_theorique = Q2['dispo_total_kcal'].sum() / 2500
nbre_total_pers_theorique

8367593850.9324

In [368]:
pourcentage = nbre_total_pers_theorique/ (pop_mondial_2017* 1e6) * 100
pourcentage

110.85645442809752

<div class="alert alert-info">
Le nombre théorique de personnes qui pourraient être nourries est de 8 367 593 850 personnes soit 110% de la population en 2017
</div>

### idem pour la disponibilité alimentaire des produits végétaux

In [369]:
df_veg = df_2017[['Zone','Disponibilité alimentaire (Kcal/personne/jour)', 'Origine']]

In [370]:
df_veg = df_veg.loc[df_veg['Origine'] == 'vegetale'] 

In [377]:
df_vegetable = df_veg.groupby(['Zone']).sum()

In [372]:
Q3= df_pop_2017.merge(df_vegetable, how='inner', on='Zone')

In [373]:
Q3['dispo_total_kcal']= Q3['Disponibilité alimentaire (Kcal/personne/jour)']*(Q3['population']* 1e3) 

In [374]:
nbre_calorie_by_person_veg = Q3['dispo_total_kcal'].sum() / (pop_mondial_2017* 1e3)
nbre_calorie_by_person_veg

2286759.0794851733

In [375]:
nbre_total_pers_theorique_veg = Q3['dispo_total_kcal'].sum() / 2500
nbre_total_pers_theorique_veg

6904305684.6004

In [376]:
pourcentage_veg = nbre_total_pers_theorique_veg / (pop_mondial_2017* 1e6) * 100
pourcentage_veg 

91.47036317940695

<div class="alert alert-info">
Le nombre théorique de personnes qui pourraient être nourries est de 6 904 305 684 personnes soit 91% de population en 2017
</div>