# Présentation du Projet

En tant que nouveau Data Analyst à la Food and Agriculture Organization of the United Nations (FAO), l'organe de l'ONU qui a pour objectif « d’aider à construire un monde libéré de la faim », je dois réaliser une étude sur la sous nutrition dans le monde.

J'ai des données sur la population, les aides alimentaires, la sous nutrition et la disponiblité alimentaire des pays.
Je vais les traiter grâce à Python, les mettre en relation et créer des visualisations afin de répondre au sujet.

Dans un premier temps, je nettoyerai les 4 fichiers de données, puis je les analyserai en répondant au différentes questions et en les mettant en lien.

# Préparation Données

## Sommaire <a id='sommaire'></a>
<ol>
    <li><a href="#sous_nutrition">Préparation données fichier sous_nutrition</a></li>    
        <ol>
            <li><a href="#sous_nutrition_import">Import du fichier csv sous_nutrition</a></li>
            <li><a href="#sous_nutrition_renom">Renommage des colonnes</a></li>
            <li><a href="#sous_nutrition_description">Description</a></li>
            <li><a href="#sous_nutrition_modification">Modification</a></li>
            <li><a href="#sous_nutrition_conversion">Conversion des types</a></li>
            <li><a href="#sous_nutrition_date">Traitement des dates</a></li>
            <li><a href="#sous_nutrition_traitement_doublons">Traitement des doublons</a></li>
            <li><a href="#sous_nutrition_export">Export du fichier nettoyé en csv</a></li>   
        </ol>
    <li><a href="#population">Préparation données fichier population</a></li>
        <ol>
            <li><a href="#import_population">Importation du fichier</a></li>
            <li><a href="#renommage_population">Renommage des colonnes</a></li>
            <li><a href="#exploration_population">Exploration du fichier</a></li>
            <li><a href="#modification_colonne_population">Modification de la colonne Population</a></li>
            <li><a href="#modification_type_population">Modification du type de la colonne Population</a></li>
            <li><a href="#traitement_doublons_population">Traitement des doublons</a></li>
            <li><a href="#export_population">Export du fichier nettoyé en csv</a></li>    
        </ol>
    <li><a href="#aide_alimentaire">Préparation données fichier aide_alimentaire</a></li>
        <ol>
            <li><a href="#aide_alimentaire_import">Importation du fichier</a></li>
            <li><a href="#aide_alimentaire_renommage">Renommage des colonnes</a></li>
            <li><a href="#aide_alimentaire_exploration">Exploration des données</a></li>
            <li><a href="#aide_alimentaire_traitement_doublons">Traitement des doublons</a></li>
            <li><a href="#aide_alimentaire_standardisation">Standardisation des noms de pays</a></li>
            <li><a href="#aide_alimentaire_export">Export fichier nettoyé en csv</a></li>
        </ol>
    <li><a href="#dispo_alimentaire">Préparation données fichier dispo_alimentaire</a></li>
        <ol>
            <li><a href="#dispo_alimentaire_renommage">Renommage des colonnes</a></li>
            <li><a href="#dispo_alimentaire_exploration">Exploration du fichier</a></li>
            <li><a href="#dispo_alimentaire_traitement_valnul">Traitement des valeurs nulles</a></li>
            <li><a href="#dispo_alimentaire_modif_unites">Modification des unités</a></li>
            <li><a href="#dispo_alimentaire_traitement_doublons">Traitement des doublons</a></li>
            <li><a href="#dispo_alimentaire_standardisation">Standardisation des noms de pays avec pour base le nom de pays du fichier population</a></li>
            <li><a href="#dispo_alimentaire_export">Export fichier nettoyé en csv</a></li>
        </ol>
</ol>

<a id='sous_nutrition'></a>
# 1. Préparation données fichier sous_nutrition

<a id='sous_nutrition_import'></a>
## Import du fichier csv sous_nutrition<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
folder='D:/Data_Analyst_Projet/Projet 4/Données/Données analyse python/'

In [2]:
df_sous_nutrition=pd.read_csv(folder+'sous_nutrition.csv')
df_sous_nutrition.head()

Unnamed: 0,Zone,Année,Valeur
0,Afghanistan,2012-2014,8.6
1,Afghanistan,2013-2015,8.8
2,Afghanistan,2014-2016,8.9
3,Afghanistan,2015-2017,9.7
4,Afghanistan,2016-2018,10.5


<a id='sous_nutrition_renom'></a>
## Renommage des colonnes<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [3]:
df_sous_nutrition.rename(columns={'Zone':'Pays', 'Valeur':'Population_en_sous_nutrition'}, inplace=True)
df_sous_nutrition.head()

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
0,Afghanistan,2012-2014,8.6
1,Afghanistan,2013-2015,8.8
2,Afghanistan,2014-2016,8.9
3,Afghanistan,2015-2017,9.7
4,Afghanistan,2016-2018,10.5


<a id='sous_nutrition_description'></a>
## Description du fichier<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [4]:
df_sous_nutrition.shape

(1218, 3)

In [5]:
df_sous_nutrition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 3 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Pays                          1218 non-null   object
 1   Année                         1218 non-null   object
 2   Population_en_sous_nutrition  624 non-null    object
dtypes: object(3)
memory usage: 28.7+ KB


In [6]:
df_sous_nutrition.dtypes

Pays                            object
Année                           object
Population_en_sous_nutrition    object
dtype: object

In [7]:
df_sous_nutrition.describe()

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
count,1218,1218,624
unique,203,6,139
top,Afghanistan,2012-2014,<0.1
freq,6,203,120


<a id='sous_nutrition_modification'></a>
## Modification de certaines valeurs<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

### Remplacement des NaN par 0

In [8]:
df_sous_nutrition.fillna(0, inplace=True)
df_sous_nutrition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 3 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Pays                          1218 non-null   object
 1   Année                         1218 non-null   object
 2   Population_en_sous_nutrition  1218 non-null   object
dtypes: object(3)
memory usage: 28.7+ KB


### Dans ['Population_en_sous_nutrition_millions'], remplacement des '<0.1' par 0

In [9]:
df_sous_nutrition.loc[df_sous_nutrition['Population_en_sous_nutrition']=='<0.1','Population_en_sous_nutrition']=0
df_sous_nutrition.head()

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
0,Afghanistan,2012-2014,8.6
1,Afghanistan,2013-2015,8.8
2,Afghanistan,2014-2016,8.9
3,Afghanistan,2015-2017,9.7
4,Afghanistan,2016-2018,10.5


In [10]:
df_sous_nutrition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 3 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Pays                          1218 non-null   object
 1   Année                         1218 non-null   object
 2   Population_en_sous_nutrition  1218 non-null   object
dtypes: object(3)
memory usage: 28.7+ KB


### Conversion en float pour pouvoir changer l'unité de la colonne ensuite

In [11]:
df_sous_nutrition['Population_en_sous_nutrition']=df_sous_nutrition['Population_en_sous_nutrition'].astype('float64')

In [12]:
df_sous_nutrition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 3 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Pays                          1218 non-null   object 
 1   Année                         1218 non-null   object 
 2   Population_en_sous_nutrition  1218 non-null   float64
dtypes: float64(1), object(2)
memory usage: 28.7+ KB


### Modification colonne Population_en_sous_nutrition

In [13]:
df_sous_nutrition['Population_en_sous_nutrition']=df_sous_nutrition['Population_en_sous_nutrition']*1000000
df_sous_nutrition.head()

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
0,Afghanistan,2012-2014,8600000.0
1,Afghanistan,2013-2015,8800000.0
2,Afghanistan,2014-2016,8900000.0
3,Afghanistan,2015-2017,9700000.0
4,Afghanistan,2016-2018,10500000.0


<a id='sous_nutrition_conversion'></a>
## Conversion des types<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [14]:
df_sous_nutrition['Population_en_sous_nutrition']=df_sous_nutrition['Population_en_sous_nutrition'].astype('int64')
df_sous_nutrition.dtypes

Pays                            object
Année                           object
Population_en_sous_nutrition     int64
dtype: object

<a id='sous_nutrition_date'></a>
## Remplacement interval année par valeur<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [15]:
index=0
for annee in df_sous_nutrition['Année']:
    if annee == '2012-2014': df_sous_nutrition.iloc[index,1] = '2013'
    elif annee == '2013-2015': df_sous_nutrition.iloc[index,1] = '2014'
    elif annee == '2014-2016': df_sous_nutrition.iloc[index,1] = '2015'
    elif annee == '2015-2017': df_sous_nutrition.iloc[index,1] = '2016'
    elif annee == '2016-2018': df_sous_nutrition.iloc[index,1] = '2017'
    elif annee == '2017-2019': df_sous_nutrition.iloc[index,1] = '2018'
    index=index+1    

In [16]:
valeur_annee = df_sous_nutrition['Année'].unique()
valeur_annee

array(['2013', '2014', '2015', '2016', '2017', '2018'], dtype=object)

In [17]:
df_sous_nutrition.head()

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
0,Afghanistan,2013,8600000
1,Afghanistan,2014,8800000
2,Afghanistan,2015,8900000
3,Afghanistan,2016,9700000
4,Afghanistan,2017,10500000


## Formatage année<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [18]:
df_sous_nutrition['Année']=pd.to_datetime(df_sous_nutrition['Année'])
df_sous_nutrition['Année']=df_sous_nutrition['Année'].dt.year
df_sous_nutrition.head()

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
0,Afghanistan,2013,8600000
1,Afghanistan,2014,8800000
2,Afghanistan,2015,8900000
3,Afghanistan,2016,9700000
4,Afghanistan,2017,10500000


In [19]:
df_sous_nutrition.dtypes

Pays                            object
Année                            int64
Population_en_sous_nutrition     int64
dtype: object

In [20]:
df_sous_nutrition.describe(include='all')

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
count,1218,1218.0,1218.0
unique,203,,
top,Afghanistan,,
freq,6,,
mean,,2015.5,2614778.0
std,,1.708527,14148810.0
min,,2013.0,0.0
25%,,2014.0,0.0
50%,,2015.5,0.0
75%,,2017.0,1200000.0


<a id='sous_nutrition_traitement_doublons'></a>
## Traitement des doublons<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [21]:
df_sous_nutrition[df_sous_nutrition.duplicated(subset=['Pays','Année'])]

Unnamed: 0,Pays,Année,Population_en_sous_nutrition


In [22]:
df_sous_nutrition.drop_duplicates(subset=['Pays','Année'])

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
0,Afghanistan,2013,8600000
1,Afghanistan,2014,8800000
2,Afghanistan,2015,8900000
3,Afghanistan,2016,9700000
4,Afghanistan,2017,10500000
...,...,...,...
1213,Zimbabwe,2014,0
1214,Zimbabwe,2015,0
1215,Zimbabwe,2016,0
1216,Zimbabwe,2017,0


In [23]:
df_sous_nutrition.head(30)

Unnamed: 0,Pays,Année,Population_en_sous_nutrition
0,Afghanistan,2013,8600000
1,Afghanistan,2014,8800000
2,Afghanistan,2015,8900000
3,Afghanistan,2016,9700000
4,Afghanistan,2017,10500000
5,Afghanistan,2018,11100000
6,Afrique du Sud,2013,2200000
7,Afrique du Sud,2014,2500000
8,Afrique du Sud,2015,2800000
9,Afrique du Sud,2016,3000000


<a id='sous_nutrition_export'></a>
## Export fichier nettoyé en csv<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [24]:
df_sous_nutrition.to_csv(folder+'sous_nutrition_2.csv', index=False)

<a id='population'></a>
# 2. Préparation données fichier population<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

<a id='import_population'></a>
## Importation du fichier <a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [25]:
df_population=pd.read_csv(folder+'population.csv')
df_population.head()

Unnamed: 0,Zone,Année,Valeur
0,Afghanistan,2013,32269.589
1,Afghanistan,2014,33370.794
2,Afghanistan,2015,34413.603
3,Afghanistan,2016,35383.032
4,Afghanistan,2017,36296.113


<a id='renommage_population'></a>
## Renommage des colonnes<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [26]:
df_population.rename(columns={'Zone':'Pays', 'Valeur':'Population'}, inplace=True)
df_population.head()

Unnamed: 0,Pays,Année,Population
0,Afghanistan,2013,32269.589
1,Afghanistan,2014,33370.794
2,Afghanistan,2015,34413.603
3,Afghanistan,2016,35383.032
4,Afghanistan,2017,36296.113


<a id='exploration_population'></a>
## Exploration du fichier<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [27]:
df_population.shape

(1416, 3)

In [28]:
df_population.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1416 entries, 0 to 1415
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Pays        1416 non-null   object 
 1   Année       1416 non-null   int64  
 2   Population  1416 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 33.3+ KB


In [29]:
df_population.describe(include='all')

Unnamed: 0,Pays,Année,Population
count,1416,1416.0,1416.0
unique,236,,
top,Afghanistan,,
freq,6,,
mean,,2015.5,31447.93
std,,1.708428,130081.2
min,,2013.0,0.793
25%,,2014.0,378.341
50%,,2015.5,5126.48
75%,,2017.0,19306.66


In [30]:
df_population.dtypes

Pays           object
Année           int64
Population    float64
dtype: object

<a id='modification_colonne_population'></a>
## Modification de la colonne Population<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [31]:
df_population['Population']=df_population['Population']*1000
df_population.head()

Unnamed: 0,Pays,Année,Population
0,Afghanistan,2013,32269589.0
1,Afghanistan,2014,33370794.0
2,Afghanistan,2015,34413603.0
3,Afghanistan,2016,35383032.0
4,Afghanistan,2017,36296113.0


<a id='modification_type_population'></a>
## Modification du type de la colonne Population<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [32]:
df_population['Population']=df_population['Population'].astype('int64')

In [33]:
df_population.head(10)

Unnamed: 0,Pays,Année,Population
0,Afghanistan,2013,32269589
1,Afghanistan,2014,33370794
2,Afghanistan,2015,34413603
3,Afghanistan,2016,35383032
4,Afghanistan,2017,36296113
5,Afghanistan,2018,37171921
6,Afrique du Sud,2013,53687121
7,Afrique du Sud,2014,54544186
8,Afrique du Sud,2015,55386367
9,Afrique du Sud,2016,56207645


<a id='traitement_doublons_population'></a>
## Traitement des doublons <a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [34]:
df_population[df_population.duplicated(subset=['Pays','Année'])]

Unnamed: 0,Pays,Année,Population


In [35]:
df_population.drop_duplicates(subset=['Pays','Année'])

Unnamed: 0,Pays,Année,Population
0,Afghanistan,2013,32269589
1,Afghanistan,2014,33370794
2,Afghanistan,2015,34413603
3,Afghanistan,2016,35383032
4,Afghanistan,2017,36296113
...,...,...,...
1411,Zimbabwe,2014,13586707
1412,Zimbabwe,2015,13814629
1413,Zimbabwe,2016,14030331
1414,Zimbabwe,2017,14236595


<a id='export_population'></a>
## Export fichier nettoyé en csv <a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [36]:
df_population.to_csv(folder+'population_2.csv', index=False)

<a id='aide_alimentaire'></a>
# 3. Préparation données fichier aide_alimentaire<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

<a id='aide_alimentaire_import'></a>
## Importation du fichier<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [37]:
df_aide_alimentaire=pd.read_csv(folder+'aide_alimentaire.csv')
df_aide_alimentaire.head()

Unnamed: 0,Pays bénéficiaire,Année,Produit,Valeur
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504


<a id='aide_alimentaire_renommage'></a>
## Renommage des colonnes<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [38]:
df_aide_alimentaire.rename(columns={'Pays bénéficiaire':'Pays','Produit':'Produit_aide',
                                    'Valeur':'Tonnage aide alimentaire'}, inplace=True)
df_aide_alimentaire.head()

Unnamed: 0,Pays,Année,Produit_aide,Tonnage aide alimentaire
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504


<a id='aide_alimentaire_exploration'></a>
## Exploration des données<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [39]:
df_aide_alimentaire.shape

(1475, 4)

In [40]:
df_aide_alimentaire.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1475 entries, 0 to 1474
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Pays                      1475 non-null   object
 1   Année                     1475 non-null   int64 
 2   Produit_aide              1475 non-null   object
 3   Tonnage aide alimentaire  1475 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 46.2+ KB


In [41]:
df_aide_alimentaire.describe(include='all')

Unnamed: 0,Pays,Année,Produit_aide,Tonnage aide alimentaire
count,1475,1475.0,1475,1475.0
unique,76,,16,
top,Algérie,,Non-céréales,
freq,39,,220,
mean,,2014.054237,,7481.96678
std,,0.946916,,23339.531424
min,,2013.0,,0.0
25%,,2013.0,,287.5
50%,,2014.0,,1178.0
75%,,2015.0,,4334.5


In [42]:
df_aide_alimentaire.head()

Unnamed: 0,Pays,Année,Produit_aide,Tonnage aide alimentaire
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504


<a id='aide_alimentaire_traitement_doublons'></a>
## Traitement des doublons<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [43]:
df_aide_alimentaire[df_aide_alimentaire.duplicated(subset=['Pays','Année','Produit_aide'])]

Unnamed: 0,Pays,Année,Produit_aide,Tonnage aide alimentaire


In [44]:
df_aide_alimentaire.drop_duplicates(subset=['Pays','Année','Produit_aide'])

Unnamed: 0,Pays,Année,Produit_aide,Tonnage aide alimentaire
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504
...,...,...,...,...
1470,Zimbabwe,2015,Mélanges et préparations,96
1471,Zimbabwe,2013,Non-céréales,5022
1472,Zimbabwe,2014,Non-céréales,2310
1473,Zimbabwe,2015,Non-céréales,306


<a id='aide_alimentaire_standardisation'></a>
## Standardisation des noms de pays<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [45]:
df_aide_alimentaire.loc[df_aide_alimentaire['Pays']=='Swaziland','Pays']='Eswatini'

In [46]:
df_aide_alimentaire.loc[df_aide_alimentaire['Pays']=='Eswatini',:]

Unnamed: 0,Pays,Année,Produit_aide,Tonnage aide alimentaire
1339,Eswatini,2013,Céréales,3854
1340,Eswatini,2014,Céréales,775
1341,Eswatini,2013,Céréales Secondaires,372
1342,Eswatini,2013,Huiles végétales,478
1343,Eswatini,2014,Huiles végétales,54
1344,Eswatini,2013,"Légumineuses Sèches,Tot.",2077
1345,Eswatini,2014,"Légumineuses Sèches,Tot.",526
1346,Eswatini,2013,Mélanges et préparations,476
1347,Eswatini,2013,Non-céréales,2555
1348,Eswatini,2014,Non-céréales,580


<a id='aide_alimentaire_export'></a>
## Export fichier nettoyé en csv<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [47]:
df_aide_alimentaire.to_csv(folder+'aide_alimentaire_2.csv', index=False)

<a id='dispo_alimentaire'></a>
# 4. Préparation données fichier dispo_alimentaire<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [48]:
df_dispo_alimentaire=pd.read_csv(folder+'dispo_alimentaire.csv')
df_dispo_alimentaire.head()

Unnamed: 0,Zone,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,,,5.0,1.72,0.2,0.77,53.0,,,53.0,,53.0,,,
1,Afghanistan,"Agrumes, Autres",vegetale,,,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,,,
2,Afghanistan,Aliments pour enfants,vegetale,,,1.0,0.06,0.01,0.03,2.0,,2.0,2.0,,,,,
3,Afghanistan,Ananas,vegetale,,,0.0,0.0,,,0.0,,0.0,0.0,,,,,
4,Afghanistan,Bananes,vegetale,,,4.0,2.7,0.02,0.05,82.0,,82.0,82.0,,,,,


<a id='dispo_alimentaire_renommage'></a>
## Renommage des colonnes<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [49]:
df_dispo_alimentaire.rename(columns=
                            {'Zone':'Pays', 
                             'Produit':'Produit_disponibilite',
                             "Disponibilité alimentaire en quantité (kg/personne/an)":"Disponibilité alimentaire en quantité (g/personne/jour)"}
                            , inplace=True)
df_dispo_alimentaire.head()

Unnamed: 0,Pays,Produit_disponibilite,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,,,5.0,1.72,0.2,0.77,53.0,,,53.0,,53.0,,,
1,Afghanistan,"Agrumes, Autres",vegetale,,,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,,,
2,Afghanistan,Aliments pour enfants,vegetale,,,1.0,0.06,0.01,0.03,2.0,,2.0,2.0,,,,,
3,Afghanistan,Ananas,vegetale,,,0.0,0.0,,,0.0,,0.0,0.0,,,,,
4,Afghanistan,Bananes,vegetale,,,4.0,2.7,0.02,0.05,82.0,,82.0,82.0,,,,,


<a id='dispo_alimentaire_exploration'></a>
## Exploration du fichier<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [50]:
df_dispo_alimentaire.shape

(15605, 18)

In [51]:
df_dispo_alimentaire.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15605 entries, 0 to 15604
Data columns (total 18 columns):
 #   Column                                                         Non-Null Count  Dtype  
---  ------                                                         --------------  -----  
 0   Pays                                                           15605 non-null  object 
 1   Produit_disponibilite                                          15605 non-null  object 
 2   Origine                                                        15605 non-null  object 
 3   Aliments pour animaux                                          2720 non-null   float64
 4   Autres Utilisations                                            5496 non-null   float64
 5   Disponibilité alimentaire (Kcal/personne/jour)                 14241 non-null  float64
 6   Disponibilité alimentaire en quantité (g/personne/jour)        14015 non-null  float64
 7   Disponibilité de matière grasse en quantité (g/personne/jo

In [52]:
df_dispo_alimentaire.describe()

Unnamed: 0,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
count,2720.0,5496.0,14241.0,14015.0,11794.0,11561.0,15382.0,12226.0,14852.0,14015.0,4278.0,9180.0,2091.0,2292.0,6776.0
mean,479.501838,157.391376,34.789832,8.719368,1.283111,1.223608,640.29346,110.596925,87.264543,347.931359,106.053763,1090.379085,73.974653,961.905323,-15.407615
std,4240.119637,5076.785816,107.287655,24.618223,3.680399,3.598686,9067.267153,1053.31899,717.372714,4475.704458,1113.100416,12067.344094,528.069224,10381.795904,549.83454
min,0.0,0.0,-21.0,-1.93,-0.03,-0.37,-3430.0,-41.0,-201.0,-246.0,0.0,0.0,0.0,-19.0,-39863.0
25%,0.0,0.0,0.0,0.06,0.01,0.01,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
50%,4.0,0.0,4.0,0.83,0.08,0.1,7.0,0.0,2.0,5.0,4.0,22.0,2.0,6.0,0.0
75%,74.0,4.0,21.0,5.19,0.63,0.66,76.75,9.0,18.0,52.0,26.0,191.25,17.0,69.0,0.0
max,150000.0,347309.0,1711.0,430.76,60.76,54.97,739267.0,42797.0,63381.0,426850.0,55047.0,739267.0,17060.0,326711.0,5284.0


<a id='dispo_alimentaire_traitement_valnul'></a>
## Traitement des valeurs nulles<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [53]:
df_dispo_alimentaire.fillna(0, inplace=True)
df_dispo_alimentaire.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15605 entries, 0 to 15604
Data columns (total 18 columns):
 #   Column                                                         Non-Null Count  Dtype  
---  ------                                                         --------------  -----  
 0   Pays                                                           15605 non-null  object 
 1   Produit_disponibilite                                          15605 non-null  object 
 2   Origine                                                        15605 non-null  object 
 3   Aliments pour animaux                                          15605 non-null  float64
 4   Autres Utilisations                                            15605 non-null  float64
 5   Disponibilité alimentaire (Kcal/personne/jour)                 15605 non-null  float64
 6   Disponibilité alimentaire en quantité (g/personne/jour)        15605 non-null  float64
 7   Disponibilité de matière grasse en quantité (g/personne/jo

<a id='dispo_alimentaire_modif_unites'></a>
## Modification des unités<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [54]:
df_dispo_alimentaire.head()

Unnamed: 0,Pays,Produit_disponibilite,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,0.0,0.0,5.0,1.72,0.2,0.77,53.0,0.0,0.0,53.0,0.0,53.0,0.0,0.0,0.0
1,Afghanistan,"Agrumes, Autres",vegetale,0.0,0.0,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,0.0,0.0,0.0
2,Afghanistan,Aliments pour enfants,vegetale,0.0,0.0,1.0,0.06,0.01,0.03,2.0,0.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0
3,Afghanistan,Ananas,vegetale,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,Bananes,vegetale,0.0,0.0,4.0,2.7,0.02,0.05,82.0,0.0,82.0,82.0,0.0,0.0,0.0,0.0,0.0


### Modification "Disponibilité alimentaire en quantité (kg/personne/an)" en "Disponibilité alimentaire en quantité (g/personne/jour)"

In [55]:
df_dispo_alimentaire["Disponibilité alimentaire en quantité (g/personne/jour)"]=df_dispo_alimentaire["Disponibilité alimentaire en quantité (g/personne/jour)"]*1000/365

### On arrondie à 2 décimales la colonne "Disponibilité alimentaire en quantité (g/personne/jour)"

In [56]:
df_dispo_alimentaire["Disponibilité alimentaire en quantité (g/personne/jour)"]=round(df_dispo_alimentaire["Disponibilité alimentaire en quantité (g/personne/jour)"],2)

In [57]:
df_dispo_alimentaire.head()

Unnamed: 0,Pays,Produit_disponibilite,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,0.0,0.0,5.0,4.71,0.2,0.77,53.0,0.0,0.0,53.0,0.0,53.0,0.0,0.0,0.0
1,Afghanistan,"Agrumes, Autres",vegetale,0.0,0.0,1.0,3.53,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,0.0,0.0,0.0
2,Afghanistan,Aliments pour enfants,vegetale,0.0,0.0,1.0,0.16,0.01,0.03,2.0,0.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0
3,Afghanistan,Ananas,vegetale,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,Bananes,vegetale,0.0,0.0,4.0,7.4,0.02,0.05,82.0,0.0,82.0,82.0,0.0,0.0,0.0,0.0,0.0


### Convertissage en tonnes (avant en milliers de tonnes) des 11 variables des utilisations/moyens d’acquisition de la disponibilité alimentaire

In [58]:
df_dispo_alimentaire.iloc[:,3:5]=df_dispo_alimentaire.iloc[:,3:5]*1000
df_dispo_alimentaire.iloc[:,9:18]=df_dispo_alimentaire.iloc[:,9:18]*1000

In [59]:
df_dispo_alimentaire.head()

Unnamed: 0,Pays,Produit_disponibilite,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,0.0,0.0,5.0,4.71,0.2,0.77,53000.0,0.0,0.0,53000.0,0.0,53000.0,0.0,0.0,0.0
1,Afghanistan,"Agrumes, Autres",vegetale,0.0,0.0,1.0,3.53,0.01,0.02,41000.0,2000.0,40000.0,39000.0,2000.0,3000.0,0.0,0.0,0.0
2,Afghanistan,Aliments pour enfants,vegetale,0.0,0.0,1.0,0.16,0.01,0.03,2000.0,0.0,2000.0,2000.0,0.0,0.0,0.0,0.0,0.0
3,Afghanistan,Ananas,vegetale,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,Bananes,vegetale,0.0,0.0,4.0,7.4,0.02,0.05,82000.0,0.0,82000.0,82000.0,0.0,0.0,0.0,0.0,0.0


<a id='dispo_alimentaire_traitement_doublons'></a>
## Traitement des doublons<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [60]:
df_dispo_alimentaire[df_dispo_alimentaire.duplicated(subset=['Pays','Produit_disponibilite'])]

Unnamed: 0,Pays,Produit_disponibilite,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock


In [61]:
df_dispo_alimentaire.drop_duplicates(subset=['Pays','Produit_disponibilite'])

Unnamed: 0,Pays,Produit_disponibilite,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,0.0,0.0,5.0,4.71,0.20,0.77,53000.0,0.0,0.0,53000.0,0.0,53000.0,0.0,0.0,0.0
1,Afghanistan,"Agrumes, Autres",vegetale,0.0,0.0,1.0,3.53,0.01,0.02,41000.0,2000.0,40000.0,39000.0,2000.0,3000.0,0.0,0.0,0.0
2,Afghanistan,Aliments pour enfants,vegetale,0.0,0.0,1.0,0.16,0.01,0.03,2000.0,0.0,2000.0,2000.0,0.0,0.0,0.0,0.0,0.0
3,Afghanistan,Ananas,vegetale,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,Bananes,vegetale,0.0,0.0,4.0,7.40,0.02,0.05,82000.0,0.0,82000.0,82000.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15600,Îles Salomon,Viande de Suides,animale,0.0,0.0,45.0,12.88,4.28,1.41,3000.0,0.0,0.0,3000.0,0.0,2000.0,0.0,0.0,0.0
15601,Îles Salomon,Viande de Volailles,animale,0.0,0.0,11.0,9.15,0.69,1.14,2000.0,0.0,2000.0,2000.0,0.0,0.0,0.0,0.0,0.0
15602,Îles Salomon,"Viande, Autre",animale,0.0,0.0,0.0,0.16,0.00,0.04,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
15603,Îles Salomon,Vin,vegetale,0.0,0.0,0.0,0.19,0.00,0.00,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


<a id='dispo_alimentaire_standardisation'></a>
## Standardisation des noms de pays avec pour base le nom de pays du fichier population<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [62]:
df_dispo_alimentaire.loc[df_dispo_alimentaire['Pays']=='Royaume-Uni','Pays']="Royaume-Uni de Grande-Bretagne et d'Irlande du Nord"

In [63]:
df_dispo_alimentaire.loc[df_dispo_alimentaire['Pays']=="Tchéquie (la)",'Pays']="Tchéquie"

In [64]:
df_dispo_alimentaire.loc[df_dispo_alimentaire['Pays']=="Tchéquie",:]

Unnamed: 0,Pays,Produit_disponibilite,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (g/personne/jour),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
13665,Tchéquie,Abats Comestible,animale,0.0,0.0,10.0,8.41,0.29,1.53,33000.0,10000.0,23000.0,33000.0,0.0,20000.0,0.0,0.0,0.0
13666,Tchéquie,"Agrumes, Autres",vegetale,0.0,0.0,0.0,0.79,0.00,0.00,3000.0,0.0,3000.0,3000.0,0.0,0.0,0.0,0.0,0.0
13667,Tchéquie,"Alcool, non Comestible",vegetale,0.0,14000.0,0.0,0.00,0.00,0.00,14000.0,33000.0,12000.0,0.0,0.0,35000.0,0.0,0.0,0.0
13668,Tchéquie,Aliments pour enfants,vegetale,0.0,0.0,8.0,2.14,0.06,0.33,8000.0,1000.0,9000.0,8000.0,0.0,0.0,0.0,0.0,0.0
13669,Tchéquie,Ananas,vegetale,0.0,0.0,2.0,3.89,0.01,0.01,16000.0,3000.0,19000.0,15000.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13754,Tchéquie,Viande de Suides,animale,0.0,0.0,178.0,112.79,14.64,10.60,441000.0,101000.0,299000.0,441000.0,0.0,243000.0,0.0,0.0,0.0
13755,Tchéquie,Viande de Volailles,animale,0.0,0.0,71.0,52.30,4.78,6.48,204000.0,50000.0,101000.0,204000.0,0.0,153000.0,0.0,0.0,0.0
13756,Tchéquie,"Viande, Autre",animale,0.0,0.0,13.0,11.12,0.54,1.95,44000.0,19000.0,23000.0,43000.0,0.0,40000.0,0.0,0.0,0.0
13757,Tchéquie,Vin,vegetale,0.0,0.0,18.0,25.12,0.00,0.00,160000.0,30000.0,142000.0,98000.0,0.0,49000.0,0.0,62000.0,0.0


<a id='dispo_alimentaire_export'></a>
## Export fichier nettoyé en csv<a href="#sommaire" style="font-size : 10px ; padding-left:10px">Retour Sommaire</a>

In [65]:
df_dispo_alimentaire.to_csv(folder+'dispo_alimentaire_2.csv', index=False)