# Préparation des données

## Importation des librairies "Data Science" pour Python

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

#Chargement des différentes librairies

## Importation des données

**Données sur la population mondiale**

In [3]:
InputPopulation = pd.read_csv('Data/population.csv')
InputPopulation.head()

#Importation du fichier csv "population" et création du data frame

Unnamed: 0,Zone,Année,Valeur
0,Afghanistan,2013,32269.589
1,Afghanistan,2014,33370.794
2,Afghanistan,2015,34413.603
3,Afghanistan,2016,35383.032
4,Afghanistan,2017,36296.113


**Aide alimentaire reçue (en tonnes) par pays, année et type de produit**

In [4]:
InputAideAlimentaire = pd.read_csv('Data/aide_alimentaire.csv')
InputAideAlimentaire.head()

#Importation du fichier csv "aide_alimentaire" et création du data frame

Unnamed: 0,Pays bénéficiaire,Année,Produit,Valeur
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504


**Nombre de personnes en sous-alimentation (en millions d'habitants) par pays et intervalle d'années**

In [5]:
InputSousNutrition = pd.read_csv('Data/sous_nutrition.csv')
InputSousNutrition.head()

#Importation du fichier csv "sous_nutrition" et création du data frame

Unnamed: 0,Zone,Année,Valeur
0,Afghanistan,2012-2014,8.6
1,Afghanistan,2013-2015,8.8
2,Afghanistan,2014-2016,8.9
3,Afghanistan,2015-2017,9.7
4,Afghanistan,2016-2018,10.5


**Disponibilité Alimentaire par pays et type de produit pour l'année 2013**

In [6]:
InputDispoAlimentaire = pd.read_csv('Data/dispo_alimentaire.csv')
InputDispoAlimentaire.head()

#Importation du fichier csv "dispo_alimentaire" et création du data frame

Unnamed: 0,Zone,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,,,5.0,1.72,0.2,0.77,53.0,,,53.0,,53.0,,,
1,Afghanistan,"Agrumes, Autres",vegetale,,,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,,,
2,Afghanistan,Aliments pour enfants,vegetale,,,1.0,0.06,0.01,0.03,2.0,,2.0,2.0,,,,,
3,Afghanistan,Ananas,vegetale,,,0.0,0.0,,,0.0,,0.0,0.0,,,,,
4,Afghanistan,Bananes,vegetale,,,4.0,2.7,0.02,0.05,82.0,,82.0,82.0,,,,,


## Création des Output

In [7]:
population = InputPopulation.copy()
AideAlimentaire = InputAideAlimentaire.copy()
SousNutrition = InputSousNutrition.copy()
DispoAlimentaire = InputDispoAlimentaire.copy()

#Copie des fichiers d'origine avec de conserver les originaux

## Analyse des données

### Population

In [8]:
population.shape

#Visualisation des dimensions du fichier "population"

(1416, 3)

In [9]:
population.dtypes

#Visualisation des types de données du fichier "population"

Zone       object
Année       int64
Valeur    float64
dtype: object

In [10]:
population[population.duplicated()].head()

#Détection des doublons

Unnamed: 0,Zone,Année,Valeur


In [11]:
population.describe()

#Détection des outliers

Unnamed: 0,Année,Valeur
count,1416.0,1416.0
mean,2015.5,31447.93
std,1.708428,130081.2
min,2013.0,0.793
25%,2014.0,378.341
50%,2015.5,5126.48
75%,2017.0,19306.66
max,2018.0,1427648.0


In [12]:
population.isnull().sum()

#Vérification des valeurs manquantes

Zone      0
Année     0
Valeur    0
dtype: int64

**Conclusion:**

- 1416 lignes, 3 colonnes
- Les types de données sont corrects
- Pas de doublons
- Pas de valeurs manquantes

**A corriger:**

- Renommer les colonnes "Zone" et "Valeur"
- Convertir les unités de population en millions d'habitants ( x 1000)

### Aide Alimentaire

In [13]:
AideAlimentaire.shape

#Visualisation des dimensions du fichier "aide_alimentaire"

(1475, 4)

In [14]:
AideAlimentaire.dtypes

#Visualisation des types de données du fichier "aide_alimentaire"

Pays bénéficiaire    object
Année                 int64
Produit              object
Valeur                int64
dtype: object

In [15]:
AideAlimentaire[AideAlimentaire.duplicated()].head()

#Détection des doublons

Unnamed: 0,Pays bénéficiaire,Année,Produit,Valeur


In [16]:
AideAlimentaire.describe()

#Détection des outliers

Unnamed: 0,Année,Valeur
count,1475.0,1475.0
mean,2014.054237,7481.96678
std,0.946916,23339.531424
min,2013.0,0.0
25%,2013.0,287.5
50%,2014.0,1178.0
75%,2015.0,4334.5
max,2016.0,265013.0


In [17]:
AideAlimentaire.isnull().sum()

#Vérification des valeurs manquantes

Pays bénéficiaire    0
Année                0
Produit              0
Valeur               0
dtype: int64

**Conclusion:**

- 1475 lignes, 4 colonnes
- Les types de données sont corrects
- Pas de doublons
- Pas de valeurs manquantes

**A corriger:**

- Renommer les colonnes "Pays bénéficiaire" et "Valeur"

### Sous Nutrition

In [18]:
SousNutrition.shape

#Visualisation des dimensions du fichier "sous_nutrition"

(1218, 3)

In [19]:
SousNutrition.dtypes

#Visualisation des types de données du fichier "sous_nutrition"

Zone      object
Année     object
Valeur    object
dtype: object

In [20]:
SousNutrition[SousNutrition.duplicated()].head()

#Détection des doublons

Unnamed: 0,Zone,Année,Valeur


In [21]:
SousNutrition.describe()

#Détection des outliers

Unnamed: 0,Zone,Année,Valeur
count,1218,1218,624
unique,203,6,139
top,Afghanistan,2012-2014,<0.1
freq,6,203,120


In [22]:
SousNutrition.loc[SousNutrition['Valeur'] == '<0.1']

# 120 lignes avec pour valeur '<0.1'

Unnamed: 0,Zone,Année,Valeur
60,Arménie,2012-2014,<0.1
61,Arménie,2013-2015,<0.1
62,Arménie,2014-2016,<0.1
63,Arménie,2015-2017,<0.1
64,Arménie,2016-2018,<0.1
...,...,...,...
1183,Vanuatu,2013-2015,<0.1
1184,Vanuatu,2014-2016,<0.1
1185,Vanuatu,2015-2017,<0.1
1186,Vanuatu,2016-2018,<0.1


In [23]:
SousNutrition.isnull().sum()

#Vérification des valeurs manquantes

Zone        0
Année       0
Valeur    594
dtype: int64

**Conclusion:**

- 1218 lignes, 3 colonnes
- dtype de la colonne 'valeur' en object !
- Pas de doublons
- 594 valeurs manquantes dans la colonne 'Valeur'
- 120 lignes avec "<0.1" dans la colonne 'Valeur'


**A corriger:**

- Corriger le dtype de la colonne valeur en float
- Remplacer les valeurs manquantes par 0
- Remplacer les "<0.1" par 0,01
- Convertir les unités de population en millions d'habitants ( x 1 000 000)
- Renommer les colonnes "Zone" et "Valeur"

### Dispo Alimentaire

In [24]:
DispoAlimentaire.shape

#Visualisation des dimensions du fichier "dispo_alimentaire"

(15605, 18)

In [25]:
DispoAlimentaire.dtypes

#Visualisation des types de données du fichier "dispo_alimentaire"

Zone                                                              object
Produit                                                           object
Origine                                                           object
Aliments pour animaux                                            float64
Autres Utilisations                                              float64
Disponibilité alimentaire (Kcal/personne/jour)                   float64
Disponibilité alimentaire en quantité (kg/personne/an)           float64
Disponibilité de matière grasse en quantité (g/personne/jour)    float64
Disponibilité de protéines en quantité (g/personne/jour)         float64
Disponibilité intérieure                                         float64
Exportations - Quantité                                          float64
Importations - Quantité                                          float64
Nourriture                                                       float64
Pertes                                             

In [26]:
DispoAlimentaire[DispoAlimentaire.duplicated()].head()

#Détection des doublons

Unnamed: 0,Zone,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock


In [27]:
DispoAlimentaire.describe()

#Détection des outliers

Unnamed: 0,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
count,2720.0,5496.0,14241.0,14015.0,11794.0,11561.0,15382.0,12226.0,14852.0,14015.0,4278.0,9180.0,2091.0,2292.0,6776.0
mean,479.501838,157.391376,34.789832,8.719368,1.283111,1.223608,640.29346,110.596925,87.264543,347.931359,106.053763,1090.379085,73.974653,961.905323,-15.407615
std,4240.119637,5076.785816,107.287655,24.618223,3.680399,3.598686,9067.267153,1053.31899,717.372714,4475.704458,1113.100416,12067.344094,528.069224,10381.795904,549.83454
min,0.0,0.0,-21.0,-1.93,-0.03,-0.37,-3430.0,-41.0,-201.0,-246.0,0.0,0.0,0.0,-19.0,-39863.0
25%,0.0,0.0,0.0,0.06,0.01,0.01,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
50%,4.0,0.0,4.0,0.83,0.08,0.1,7.0,0.0,2.0,5.0,4.0,22.0,2.0,6.0,0.0
75%,74.0,4.0,21.0,5.19,0.63,0.66,76.75,9.0,18.0,52.0,26.0,191.25,17.0,69.0,0.0
max,150000.0,347309.0,1711.0,430.76,60.76,54.97,739267.0,42797.0,63381.0,426850.0,55047.0,739267.0,17060.0,326711.0,5284.0


In [28]:
DispoAlimentaire.isnull().sum()

#Vérification des valeurs manquantes

Zone                                                                 0
Produit                                                              0
Origine                                                              0
Aliments pour animaux                                            12885
Autres Utilisations                                              10109
Disponibilité alimentaire (Kcal/personne/jour)                    1364
Disponibilité alimentaire en quantité (kg/personne/an)            1590
Disponibilité de matière grasse en quantité (g/personne/jour)     3811
Disponibilité de protéines en quantité (g/personne/jour)          4044
Disponibilité intérieure                                           223
Exportations - Quantité                                           3379
Importations - Quantité                                            753
Nourriture                                                        1590
Pertes                                                           11327
Produc

**Conclusion:**

- 15605 lignes, 18 colonnes
- Les types de données sont corrects
- Pas de doublons
- Beaucoup de valeurs manquantes dans les différentes colonnes

**A corriger:**

- Renommer la colonne "Zone"
- Remplacer les valeurs manquantes par 0

## Préparation des données

### Population

In [29]:
population['Valeur'] = population['Valeur'] * 1000

#Conversion des unités de population en millions d'habitants

In [30]:
population = population.rename(columns={'Zone': 'Pays', 'Valeur': 'Population'})
population.head()

#Modification des noms des colonnes

Unnamed: 0,Pays,Année,Population
0,Afghanistan,2013,32269589.0
1,Afghanistan,2014,33370794.0
2,Afghanistan,2015,34413603.0
3,Afghanistan,2016,35383032.0
4,Afghanistan,2017,36296113.0


### Aide Alimentaire

In [31]:
AideAlimentaire = AideAlimentaire.rename(columns={'Valeur': 'Quantité', 'Pays bénéficiaire':'Pays'})
AideAlimentaire.head()

#Modification des noms des colonnes

Unnamed: 0,Pays,Année,Produit,Quantité
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504


### Sous Nutrition

In [32]:
SousNutrition['Valeur'] = SousNutrition['Valeur'].fillna(0)

#Remplacement des 'NaN' par '0' --> 594 lignes

In [33]:
SousNutrition.loc[SousNutrition['Valeur'] == '<0.1', 'Valeur'] = 0.01

#Remplacement des données = '<0.1' par '0.01' --> 120 lignes

In [34]:
SousNutrition['Valeur'] = SousNutrition['Valeur'].astype(float)

#Modification du type de la colonne valeur de object à float

In [35]:
SousNutrition['Valeur'] = SousNutrition['Valeur'] * 1000000

#Conversion des unités de population en millions d'habitants

In [36]:
SousNutrition = SousNutrition.rename(columns={'Zone': 'Pays', 'Valeur': 'Nombre de personnes en sous-alimentation (en millions habitants)'})
SousNutrition.head()

#Modification des noms des colonnes

Unnamed: 0,Pays,Année,Nombre de personnes en sous-alimentation (en millions habitants)
0,Afghanistan,2012-2014,8600000.0
1,Afghanistan,2013-2015,8800000.0
2,Afghanistan,2014-2016,8900000.0
3,Afghanistan,2015-2017,9700000.0
4,Afghanistan,2016-2018,10500000.0


### Dispo Alimentaire

In [37]:
DispoAlimentaire = DispoAlimentaire.fillna(0)

#Remplacement des 'NaN' par '0'

In [38]:
DispoAlimentaire = DispoAlimentaire.rename(columns={'Zone': 'Pays'})
DispoAlimentaire.head()

#Modification du nom de la colonne "Zone" par "Pays"

Unnamed: 0,Pays,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,0.0,0.0,5.0,1.72,0.2,0.77,53.0,0.0,0.0,53.0,0.0,53.0,0.0,0.0,0.0
1,Afghanistan,"Agrumes, Autres",vegetale,0.0,0.0,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,0.0,0.0,0.0
2,Afghanistan,Aliments pour enfants,vegetale,0.0,0.0,1.0,0.06,0.01,0.03,2.0,0.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0
3,Afghanistan,Ananas,vegetale,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,Bananes,vegetale,0.0,0.0,4.0,2.7,0.02,0.05,82.0,0.0,82.0,82.0,0.0,0.0,0.0,0.0,0.0


In [39]:
DispoAlimentaire['Pays']= DispoAlimentaire['Pays'].replace(['Royaume-Uni','Tchéquie (la)'],["Royaume-Uni de Grande-Bretagne et d'Irlande du Nord",'Tchéquie'])
#Modification des noms pour Royaume-Uni et Tchéquie pour matcher avec les df "Population" et "SousNutrition"

## Affichage des 4 Data Frames après modification

In [40]:
population.head()

Unnamed: 0,Pays,Année,Population
0,Afghanistan,2013,32269589.0
1,Afghanistan,2014,33370794.0
2,Afghanistan,2015,34413603.0
3,Afghanistan,2016,35383032.0
4,Afghanistan,2017,36296113.0


In [41]:
AideAlimentaire.head()

Unnamed: 0,Pays,Année,Produit,Quantité
0,Afghanistan,2013,Autres non-céréales,682
1,Afghanistan,2014,Autres non-céréales,335
2,Afghanistan,2013,Blé et Farin,39224
3,Afghanistan,2014,Blé et Farin,15160
4,Afghanistan,2013,Céréales,40504


In [42]:
SousNutrition.head()

Unnamed: 0,Pays,Année,Nombre de personnes en sous-alimentation (en millions habitants)
0,Afghanistan,2012-2014,8600000.0
1,Afghanistan,2013-2015,8800000.0
2,Afghanistan,2014-2016,8900000.0
3,Afghanistan,2015-2017,9700000.0
4,Afghanistan,2016-2018,10500000.0


In [43]:
DispoAlimentaire.head()

Unnamed: 0,Pays,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,0.0,0.0,5.0,1.72,0.2,0.77,53.0,0.0,0.0,53.0,0.0,53.0,0.0,0.0,0.0
1,Afghanistan,"Agrumes, Autres",vegetale,0.0,0.0,1.0,1.29,0.01,0.02,41.0,2.0,40.0,39.0,2.0,3.0,0.0,0.0,0.0
2,Afghanistan,Aliments pour enfants,vegetale,0.0,0.0,1.0,0.06,0.01,0.03,2.0,0.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0
3,Afghanistan,Ananas,vegetale,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,Bananes,vegetale,0.0,0.0,4.0,2.7,0.02,0.05,82.0,0.0,82.0,82.0,0.0,0.0,0.0,0.0,0.0
