<img src="img/logo_FAO.png">

*L’Organisation pour l’alimentation et l’agriculture (FAO) est l’agence spécialisée des Nations Unies qui mène les efforts internationaux vers l’élimination de la faim. Notre objectif est d’atteindre la sécurité alimentaire pour tous et d’assurer un accès régulier et suffisant à une nourriture de bonne qualité permettant à tous, de mener une vie saine et active. Avec 195 membres - 194 pays et l'Union européenne, la FAO est active dans 130 pays à travers le monde.*

*Dans le présent rapport je vais vous présenter le nettoyage des données sur la sous-nutrition dans le monde depuis 2013.*

# Chargement des librairies

In [1]:
import numpy as np
import pandas as pd

print("Version numpy : " + np.__version__)
print("Version pandas : " + pd.__version__)

chemin_aide_alim = 'src/aide_alimentaire.csv'
chemin_dispo_alim = 'src/dispo_alimentaire.csv'
chemin_pop = 'src/population.csv'
chemin_sous_nut = 'src/sous_nutrition.csv'
chemin_iso = 'src/iso_gouv.csv'

Version numpy : 1.23.5
Version pandas : 1.4.4


# Chargement des fichiers .csv

In [2]:
aide_alim = pd.read_csv(chemin_aide_alim)
dispo_alim = pd.read_csv(chemin_dispo_alim)
population = pd.read_csv(chemin_pop)
sous_nutrition = pd.read_csv(chemin_sous_nut)
iso = pd.read_csv(chemin_iso, sep=";")

# **Sous-nutrition**

## Remplacement des valeurs NaN par 0

In [3]:
sous_nutrition = sous_nutrition.replace(np.nan, 0)

In [4]:
sous_nutrition.sample(5)

Unnamed: 0,Zone,Année,Valeur
183,Burkina Faso,2015-2017,3.4
598,Koweït,2016-2018,0
891,Portugal,2015-2017,0
791,Nouvelle-Calédonie,2017-2019,<0.1
715,Mongolie,2013-2015,0.6


## Changement du format en float (colonne "Valeur")

In [5]:
sous_nutrition['Valeur'] = sous_nutrition['Valeur'].replace('<0.1', 0)

In [6]:
sous_nutrition['Valeur'] = sous_nutrition['Valeur'].astype('float')

In [7]:
sous_nutrition.dtypes

Zone       object
Année      object
Valeur    float64
dtype: object

## Mise en commun des échelles

In [8]:
sous_nutrition['Valeur'] = sous_nutrition['Valeur'] * 1000000

In [9]:
sous_nutrition.sample(5)

Unnamed: 0,Zone,Année,Valeur
453,Guinée équatoriale,2015-2017,0.0
76,Autriche,2016-2018,0.0
1083,Suisse,2015-2017,0.0
845,Papouasie-Nouvelle-Guinée,2017-2019,0.0
313,Égypte,2013-2015,4300000.0


## Mise en commun des années

In [10]:
sous_nutrition['Année'].unique()

array(['2012-2014', '2013-2015', '2014-2016', '2015-2017', '2016-2018',
       '2017-2019'], dtype=object)

In [11]:
sous_nutrition["Année"] = sous_nutrition["Année"].replace("2012-2014", 2013).replace("2013-2015", 2014).replace("2014-2016", 2015).replace("2015-2017", 2016).replace("2016-2018", 2017).replace("2017-2019", 2018)

In [12]:
sous_nutrition['Année'].unique()

array([2013, 2014, 2015, 2016, 2017, 2018])

In [13]:
sous_nutrition['Année'].dtypes

dtype('int64')

In [14]:
sous_nutrition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Zone    1218 non-null   object 
 1   Année   1218 non-null   int64  
 2   Valeur  1218 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 28.7+ KB


## Au vu des futures jointures renommage des colonnes en noms uniques

In [15]:
sous_nutrition.rename(columns = {'Valeur': 'Population en sous-nutrition'}, inplace=True)

In [16]:
sous_nutrition.sample(5)

Unnamed: 0,Zone,Année,Population en sous-nutrition
648,Madagascar,2013,7600000.0
686,Maroc,2015,1300000.0
439,Guatemala,2014,2800000.0
708,Micronésie (États fédérés de),2013,0.0
752,Népal,2015,1700000.0


# **Population**

## Mise en commun des échelles

In [17]:
population['Valeur'] = population['Valeur'] * 1000

In [18]:
population.sample(5)

Unnamed: 0,Zone,Année,Valeur
170,"Bonaire, Saint-Eustache et Saba",2015,24570.0
104,Bahamas,2015,374206.0
1052,République centrafricaine,2015,4493170.0
1023,Polynésie française,2016,274575.0
149,Bénin,2018,11485044.0


## Au vu des futures jointures renommage des colonnes en noms uniques

In [19]:
population.rename(columns = {'Valeur': 'Population'}, inplace=True)

In [20]:
population.sample(5)

Unnamed: 0,Zone,Année,Population
453,Gibraltar,2016,33737.0
462,Grenade,2013,108170.0
808,Maroc,2017,35581255.0
912,Nigéria,2013,171765816.0
1374,Uruguay,2013,3389443.0


## Au vu des futures jointures renommage des valeurs

In [21]:
population['Zone'] = population['Zone'].replace("Chine - RAS de Hong-Kong", "Hong Kong")
population['Zone'] = population['Zone'].replace("Chine - RAS de Macao", "Macao")
population['Zone'] = population['Zone'].replace("Saint-Vincent-et-les Grenadines", "Saint-Vincent-et-les-Grenadines")

# **Dispo alimentaire**

## Remplacement des valeurs NaN par 0

In [22]:
dispo_alim = dispo_alim.replace(np.nan, 0)

In [23]:
dispo_alim.sample(5)

Unnamed: 0,Zone,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
9383,Mozambique,Oeufs,animale,0.0,0.0,6.0,1.7,0.39,0.48,51.0,0.0,6.0,44.0,5.0,45.0,2.0,0.0,0.0
3581,Congo,Dattes,vegetale,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
12878,Slovaquie,Thé,vegetale,0.0,0.0,0.0,0.19,0.0,0.03,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0
10314,Oman,Poissons Pelagiques,animale,9.0,0.0,8.0,5.59,0.29,1.27,29.0,81.0,23.0,20.0,0.0,87.0,0.0,0.0,0.0
6798,Israël,Oignons,vegetale,0.0,0.0,13.0,11.82,0.06,0.39,96.0,0.0,12.0,91.0,5.0,84.0,0.0,0.0,0.0


## Au vu des futures jointures renommage des valeurs

In [24]:
dispo_alim['Zone'] = dispo_alim['Zone'].replace("Chine - RAS de Hong-Kong", "Hong Kong")
dispo_alim['Zone'] = dispo_alim['Zone'].replace("Chine - RAS de Macao", "Macao")
dispo_alim['Zone'] = dispo_alim['Zone'].replace("Royaume-Uni", "Royaume-Uni de Grande-Bretagne et d'Irlande du Nord")
dispo_alim['Zone'] = dispo_alim['Zone'].replace("Saint-Vincent-et-les Grenadines", "Saint-Vincent-et-les-Grenadines")
dispo_alim['Zone'] = dispo_alim['Zone'].replace("Tchéquie (la)", "Tchéquie")

## Mise en commun des échelles

In [25]:
col = ['Aliments pour animaux', 'Autres Utilisations', 'Disponibilité intérieure', 'Exportations - Quantité', 
       'Importations - Quantité', 'Nourriture', 'Pertes', 'Production', 'Semences', 
       'Traitement', 
       'Variation de stock']

for i in col:
    dispo_alim[[i]] = dispo_alim[[i]] * 1000000
    
# dispo_alim[col] = dispo_alim[col].apply(lambda x: x * 1000000)

In [26]:
dispo_alim.head(5)

Unnamed: 0,Zone,Produit,Origine,Aliments pour animaux,Autres Utilisations,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Semences,Traitement,Variation de stock
0,Afghanistan,Abats Comestible,animale,0.0,0.0,5.0,1.72,0.2,0.77,53000000.0,0.0,0.0,53000000.0,0.0,53000000.0,0.0,0.0,0.0
1,Afghanistan,"Agrumes, Autres",vegetale,0.0,0.0,1.0,1.29,0.01,0.02,41000000.0,2000000.0,40000000.0,39000000.0,2000000.0,3000000.0,0.0,0.0,0.0
2,Afghanistan,Aliments pour enfants,vegetale,0.0,0.0,1.0,0.06,0.01,0.03,2000000.0,0.0,2000000.0,2000000.0,0.0,0.0,0.0,0.0,0.0
3,Afghanistan,Ananas,vegetale,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Afghanistan,Bananes,vegetale,0.0,0.0,4.0,2.7,0.02,0.05,82000000.0,0.0,82000000.0,82000000.0,0.0,0.0,0.0,0.0,0.0


# **Aide alimentaire**

## Mise en commun des échelles

In [27]:
aide_alim['Valeur'] = aide_alim['Valeur'] * 1000

In [28]:
aide_alim.sample(5)

Unnamed: 0,Pays bénéficiaire,Année,Produit,Valeur
34,Algérie,2015,"Lait, total",500000
1010,République arabe syrienne,2014,BulgurFarEnt,47816000
682,Lesotho,2015,"Sucre, total",125000
1404,Togo,2013,Autres non-céréales,2000
465,Guinée,2013,Autres non-céréales,57000


## Pour une meilleure lisibilité renommage de la colonne "Valeur" en "Quantité"

In [29]:
aide_alim.rename(columns = {'Valeur': 'Quantité'}, inplace=True)

In [30]:
aide_alim.sample(5)

Unnamed: 0,Pays bénéficiaire,Année,Produit,Quantité
499,Guinée-Bissau,2015,"Légumineuses Sèches,Tot.",275000
379,Éthiopie,2013,Non-céréales,39506000
196,Cameroun,2013,Céréales Secondaires,968000
242,Comores,2013,Céréales,3903000
455,Guatemala,2014,Mélanges et préparations,1720000


## Au vu des futures jointures renommage des colonnes en noms uniques

In [31]:
aide_alim.rename(columns = {'Pays bénéficiaire': 'Zone'}, inplace=True)

## Au vu des futures jointures renommage des valeurs

In [32]:
aide_alim['Zone'] = aide_alim['Zone'].replace('Swaziland', 'Eswatini')

# **Fichier pays ISO**

## Au vu des futures jointures renommage des valeurs

In [33]:
iso['NOM'] = iso['NOM'].replace('Taiwan', 'Chine, Taiwan Province de')
iso['NOM'] = iso['NOM'].replace('Chine', 'Chine, continentale')

## Au vu des futures jointures renommage des colonnes en noms uniques

In [34]:
iso.rename(columns = {'NOM': 'Zone'}, inplace=True)

## Au vu des futures jointures rajout de valeurs

In [35]:
new_elements = [('Bermudes', 'BMU'), ("Hong Kong", "HKG"), ("Macao", "MAC"), ("Saint-Kitts-et-Nevis", 'KNA')]
new_iso_data = pd.DataFrame(new_elements, columns = ['Zone' , 'CODE'])
iso = pd.concat([iso, new_iso_data])

# **Exportation des fichiers nettoyés vers un nouveau CSV**

In [36]:
aide_alim.to_csv('src/aide_alimentaire_cleaned.csv', index=False) 
dispo_alim.to_csv('src/dispo_alimentaire_cleaned.csv', index=False) 
population.to_csv('src/population_cleaned.csv', index=False) 
sous_nutrition.to_csv('src/sous_nutrition_cleaned.csv', index=False)
iso.to_csv('src/iso_gouv_cleaned.csv', index=False)
print("Exportation terminée")

Exportation terminée
