<a href="https://colab.research.google.com/github/nepnederlander/the-singing-hen/blob/master/preparation_nettoyage_analyse_exploratoire.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Présentation

Dans ce notebook, nous entreprenons une analyse exploratoire de données en utilisant Python.

L'analyse exploratoire est une étape cruciale dans tout projet de data analyse, car elle nous permet de comprendre et de tirer des informations utiles à partir de nos données avant de passer à des analyses plus avancées ou des visualisations.

Dans cette analyse, nous allons suivre un processus méthodique comprenant les étapes suivantes :

1. **Importation des bibliothèques nécessaires :** Nous importerons les bibliothèques Python nécessaires pour l'analyse de données, telles que Pandas, NumPy, Matplotlib et Seaborn.

2. **Chargement des données :** Nous chargerons nos données dans un objet de structure de données approprié, tel qu'un DataFrame Pandas.

3. **Exploration des données :** Nous explorerons nos données en affichant les premières lignes, en vérifiant les types de données, en effectuant des statistiques descriptives et en visualisant les données pour comprendre leur distribution et les relations entre les variables.

4. **Nettoyage des données :** Nous nettoierons les données en traitant les valeurs manquantes et les valeurs aberrantes qui pourraient fausser nos analyses.

5. **Analyse des relations entre les variables :** Nous analyserons les relations entre les variables en calculant les corrélations, en utilisant des visualisations telles que des nuages de points et des matrices de corrélation, et en effectuant des transformations de données si nécessaire.

6. **Création de nouvelles variables :** Si nécessaire, nous créerons de nouvelles variables dérivées à partir des variables existantes pour améliorer notre analyse.

---

Les **sources de données** que nous allons analyser sont les suivantes :

*   **dispo_alimentaire.csv** : fichier contenant différentes informations sur les importations, l'alimentation et autres indicateurs importants par pays.
*   **population.csv** : fichier contenant les informations sur la population de chaque pays par année.
*   **produit_interieur_brut_hab.csv** : fichier extrait de la FAO contenant le PIB par habitant par pays.
*   **investissement_direct_etranger.csv** : fichier extrait de la FAO nous informant sur l'ouverture de chaque pays aux investissements étrangers. Cette source de données regroupe des informations de l'ONU et de la FAO.
*   **insecurite_alimentaire.csv** : fichier extrait de la FAO nous informant sur la prévalence de personnes en cas d'insécurité alimentaire grave.



# Import des librairies

In [176]:
import pandas as pd
import numpy as np
import seaborn as sns

# Import des fichiers

In [177]:
dispo_alimentaire = pd.read_csv('/content/drive/Othercomputers/Mon MacBook Pro/Alternance/projet9/files/dispo_alimentaire.csv')
population = pd.read_csv('/content/drive/Othercomputers/Mon MacBook Pro/Alternance/projet9/files/population.csv')
pib = pd.read_csv('/content/drive/Othercomputers/Mon MacBook Pro/Alternance/projet9/files/produit_interieur_brut_hab.csv')
ide = pd.read_csv('/content/drive/Othercomputers/Mon MacBook Pro/Alternance/projet9/files/investissement_direct_etranger.csv')
insecurite_alimentaire = pd.read_csv('/content/drive/Othercomputers/Mon MacBook Pro/Alternance/projet9/files/insecurite_alimentaire.csv')

# Exploration et nettoyage



## dispo_alimentaire.csv

In [178]:
print(f'Lignes : {dispo_alimentaire.shape[0]}')
print(f'Colonnes : {dispo_alimentaire.shape[1]}')

Lignes : 176600
Colonnes : 14


In [179]:
dispo_alimentaire.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Blé et produits,2017,2017,Milliers de tonnes,4281.0,S,Données standardisées
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,2302.0,S,Données standardisées
2,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2511,Blé et produits,2017,2017,Milliers de tonnes,-119.0,S,Données standardisées
3,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5911,Exportations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,0.0,S,Données standardisées
4,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5301,Disponibilité intérieure,2511,Blé et produits,2017,2017,Milliers de tonnes,6701.0,S,Données standardisées


On remarque que la colonne Produit contient le type d'aliments. Analysons la.

In [180]:
dispo_alimentaire['Produit'].unique()

array(['Blé et produits', 'Riz et produits', 'Orge et produits',
       'Maïs et produits', 'Seigle et produits', 'Avoine',
       'Millet et produits', 'Sorgho et produits', 'Céréales, Autres',
       'Pommes de Terre et produits', 'Ignames', 'Racines nda',
       'Sucre, canne', 'Sucre, betterave', 'Sucre Eq Brut',
       'Edulcorants Autres', 'Miel', 'Haricots', 'Pois',
       'Légumineuses Autres et produits', 'Noix et produits', 'Soja',
       'Arachides Decortiquees', 'Graines de tournesol',
       'Graines Colza/Moutarde', 'Graines de coton', 'Coco (Incl Coprah)',
       'Sésame', 'Olives', 'Plantes Oleiferes, Autre', 'Huile de Soja',
       "Huile d'Arachide", 'Huile de Tournesol',
       'Huile de Colza&Moutarde', 'Huile Graines de Coton',
       'Huile de Palmistes', 'Huile de Palme', 'Huile de Coco',
       'Huile de Sésame', "Huile d'Olive", 'Huile de Son de Riz',
       'Huile de Germe de Maïs', 'Huil Plantes Oleif Autr',
       'Tomates et produits', 'Oignons', 'Légumes, 

Cette colonne contient une valeur "Viande de Volailles", or, seul cet aliment nous intéresse pour notre étude de marché. On décide donc de supprimer les autres valeurs.

In [181]:
dispo_alimentaire = dispo_alimentaire[dispo_alimentaire['Produit'] == "Viande de Volailles"]

Nous allons ensuite faire un tri dans les colonnes qui nous semblent utiles et celles qui ne le sont pas.

In [182]:
dispo_alimentaire.drop(columns=['Code Domaine', 'Domaine', 'Code zone', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dispo_alimentaire.drop(columns=['Code Domaine', 'Domaine', 'Code zone', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole'], inplace=True)


In [183]:
dispo_alimentaire.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2061 entries, 651 to 176400
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Zone     2061 non-null   object 
 1   Élément  2061 non-null   object 
 2   Année    2061 non-null   int64  
 3   Unité    2061 non-null   object 
 4   Valeur   2061 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 96.6+ KB


In [184]:
dispo_alimentaire.describe()

Unnamed: 0,Année,Valeur
count,2061.0,2061.0
mean,2017.0,198.614794
std,0.0,1173.205732
min,2017.0,-125.0
25%,2017.0,1.0
50%,2017.0,9.44
75%,2017.0,57.0
max,2017.0,21914.0


Ici, on remarque que le Dataset couvre l'année 2017. On peut également deviner au minimum un outlier dans la colonne Valeur car le max semble très éloigné du reste, mais cela reste une supposition car nous avons vu précédemment que les Elements sont différents et sont exprimés dans différentes échelles de valeurs.

In [185]:
dispo_alimentaire.tail()

Unnamed: 0,Zone,Élément,Année,Unité,Valeur
176396,Zimbabwe,Nourriture,2017,Milliers de tonnes,67.0
176397,Zimbabwe,Disponibilité alimentaire en quantité (kg/pers...,2017,kg,4.68
176398,Zimbabwe,Disponibilité alimentaire (Kcal/personne/jour),2017,Kcal/personne/jour,16.0
176399,Zimbabwe,Disponibilité de protéines en quantité (g/pers...,2017,g/personne/jour,1.59
176400,Zimbabwe,Disponibilité de matière grasse en quantité (g...,2017,g/personne/jour,0.99


## population.csv

In [186]:
print(f'Lignes : {population.shape[0]}')
print(f'Colonnes : {population.shape[1]}')

Lignes : 4411
Colonnes : 15


In [187]:
population.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales sûres,
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales sûres,
2,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2002,2002,1000 personnes,22600.77,X,Sources internationales sûres,
3,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2003,2003,1000 personnes,23680.871,X,Sources internationales sûres,
4,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2004,2004,1000 personnes,24726.684,X,Sources internationales sûres,


On remarque directement que les colonnes suivent la même distribution que le Dataset précédent. Nous n'allons donc garder uniquement les colonnes nécessaires.

In [188]:
population.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4411 entries, 0 to 4410
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            4411 non-null   object 
 1   Domaine                 4411 non-null   object 
 2   Code zone               4411 non-null   int64  
 3   Zone                    4411 non-null   object 
 4   Code Élément            4411 non-null   int64  
 5   Élément                 4411 non-null   object 
 6   Code Produit            4411 non-null   int64  
 7   Produit                 4411 non-null   object 
 8   Code année              4411 non-null   int64  
 9   Année                   4411 non-null   int64  
 10  Unité                   4411 non-null   object 
 11  Valeur                  4411 non-null   float64
 12  Symbole                 4411 non-null   object 
 13  Description du Symbole  4411 non-null   object 
 14  Note                    258 non-null    

In [189]:
population.drop(columns=['Code Domaine', 'Domaine', 'Code zone', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole', 'Note'], inplace=True)

In [190]:
population.describe()

Unnamed: 0,Année,Valeur
count,4411.0,4411.0
mean,2009.068238,29630.04
std,5.481539,123802.9
min,2000.0,0.785
25%,2004.0,392.189
50%,2009.0,4764.741
75%,2014.0,18215.48
max,2018.0,1427648.0


On remarque que les années s'étendent de 2000 à 2018. Notre autre Dataset concerne 2017 donc nous n'allons pas garder l'année 2018.
Nous allons conserver les années de 2007 à 2017 afin de calculer, par la suite, l'évolution de la population sur les dix dernières années.

In [191]:
population = population[(population['Année'] >= 2007) & (population['Année'] <= 2017)]

In [192]:
population.tail()

Unnamed: 0,Zone,Élément,Année,Unité,Valeur
4405,Zimbabwe,Population totale,2013,1000 personnes,13350.373
4406,Zimbabwe,Population totale,2014,1000 personnes,13586.707
4407,Zimbabwe,Population totale,2015,1000 personnes,13814.629
4408,Zimbabwe,Population totale,2016,1000 personnes,14030.331
4409,Zimbabwe,Population totale,2017,1000 personnes,14236.595


## produit_interieur_brut_hab.csv

In [193]:
print(f'Lignes : {pib.shape[0]}')
print(f'Colonnes : {pib.shape[1]}')

Lignes : 422
Colonnes : 15


In [194]:
pib.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,MK,Indicateurs macro,4,Afghanistan,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Millions d’USD,18896.352021,X,Ciffre de sources internationales,
1,MK,Indicateurs macro,4,Afghanistan,6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,530.149831,X,Ciffre de sources internationales,
2,MK,Indicateurs macro,710,Afrique du Sud,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Millions d’USD,380851.444101,X,Ciffre de sources internationales,
3,MK,Indicateurs macro,710,Afrique du Sud,6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,6723.928582,X,Ciffre de sources internationales,
4,MK,Indicateurs macro,8,Albanie,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Millions d’USD,13019.729856,X,Ciffre de sources internationales,


In [195]:
pib['Élément'].unique()

array(['Valeur US $', 'Valeur US $ par habitant'], dtype=object)

On ne va garder ici que les éléments exprimés en USD par habitant.

In [196]:
pib = pib[pib['Élément'] == "Valeur US $ par habitant"]

In [197]:
pib.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 211 entries, 1 to 421
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            211 non-null    object 
 1   Domaine                 211 non-null    object 
 2   Code zone (M49)         211 non-null    int64  
 3   Zone                    211 non-null    object 
 4   Code Élément            211 non-null    int64  
 5   Élément                 211 non-null    object 
 6   Code Produit            211 non-null    int64  
 7   Produit                 211 non-null    object 
 8   Code année              211 non-null    int64  
 9   Année                   211 non-null    int64  
 10  Unité                   211 non-null    object 
 11  Valeur                  211 non-null    float64
 12  Symbole                 211 non-null    object 
 13  Description du Symbole  211 non-null    object 
 14  Note                    0 non-null      fl

In [198]:
pib.drop(columns=['Code Domaine', 'Domaine', 'Code zone (M49)', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole', 'Note'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pib.drop(columns=['Code Domaine', 'Domaine', 'Code zone (M49)', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole', 'Note'], inplace=True)


In [199]:
pib.describe()

Unnamed: 0,Année,Valeur
count,211.0,211.0
mean,2017.0,16889.862489
std,0.0,25548.750797
min,2017.0,295.620936
25%,2017.0,2082.32402
50%,2017.0,6450.319585
75%,2017.0,19806.127104
max,2017.0,173611.814797


In [200]:
pib.tail()

Unnamed: 0,Zone,Élément,Année,Unité,Valeur
413,Venezuela (République bolivarienne du),Valeur US $ par habitant,2017,US$,8112.053374
415,Viet Nam,Valeur US $ par habitant,2017,US$,2992.071534
417,Yémen,Valeur US $ par habitant,2017,US$,612.353054
419,Zambie,Valeur US $ par habitant,2017,US$,1495.437665
421,Zimbabwe,Valeur US $ par habitant,2017,US$,1494.170144


## investissement_direct_etranger.csv

In [201]:
print(f'Lignes : {ide.shape[0]}')
print(f'Colonnes : {ide.shape[1]}')

Lignes : 468
Colonnes : 15


In [202]:
ide.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FDI,L’investissement Direct étranger (IDE),4,Afghanistan,6110,Valeur US $,23082,IED - entrées totales,2017,2017,Millions d’USD,51.533897,X,Ciffre de sources internationales,UNCTAD
1,FDI,L’investissement Direct étranger (IDE),710,Afrique du Sud,6110,Valeur US $,23082,IED - entrées totales,2017,2017,Millions d’USD,2008.360978,X,Ciffre de sources internationales,UNCTAD
2,FDI,L’investissement Direct étranger (IDE),8,Albanie,6110,Valeur US $,23080,"IED - entrées, Agriculture, Sylviculture et Pêche",2017,2017,Millions d’USD,5.795235,X,Ciffre de sources internationales,UNCTAD
3,FDI,L’investissement Direct étranger (IDE),8,Albanie,6141,"Part au IED, entrées totales US $",23080,"IED - entrées, Agriculture, Sylviculture et Pêche",2017,2017,%,0.570082,X,Ciffre de sources internationales,FAO
4,FDI,L’investissement Direct étranger (IDE),8,Albanie,6110,Valeur US $,23082,IED - entrées totales,2017,2017,Millions d’USD,1016.561053,X,Ciffre de sources internationales,UNCTAD


In [203]:
ide['Élément'].unique()

array(['Valeur US $', 'Part au IED, entrées totales US $'], dtype=object)

In [204]:
ide['Produit'].unique()

array(['IED - entrées totales',
       'IED - entrées, Agriculture, Sylviculture et Pêche',
       'IED - entrées, Aliments, Boissons et Tabac'], dtype=object)

In [205]:
ide = ide[(ide['Élément'] == "Valeur US $") & (ide['Produit'] == "IED - entrées totales")]

In [206]:
ide.drop(columns=['Code Domaine', 'Domaine', 'Code zone (M49)', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ide.drop(columns=['Code Domaine', 'Domaine', 'Code zone (M49)', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole'], inplace=True)


In [207]:
ide.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 200 entries, 0 to 467
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Zone     200 non-null    object 
 1   Élément  200 non-null    object 
 2   Année    200 non-null    int64  
 3   Unité    200 non-null    object 
 4   Valeur   200 non-null    float64
 5   Note     200 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 10.9+ KB


In [208]:
ide.describe()

Unnamed: 0,Année,Valeur
count,200.0,200.0
mean,2017.0,7707.803897
std,0.0,27687.468154
min,2017.0,-27368.646988
25%,2017.0,90.159663
50%,2017.0,885.017303
75%,2017.0,3609.750832
max,2017.0,308956.0


In [209]:
ide.tail()

Unnamed: 0,Zone,Élément,Année,Unité,Valeur,Note
459,Venezuela (République bolivarienne du),Valeur US $,2017,Millions d’USD,-68.0,UNCTAD
462,Viet Nam,Valeur US $,2017,Millions d’USD,14100.0,UNCTAD
463,Yémen,Valeur US $,2017,Millions d’USD,-269.85,UNCTAD
466,Zambie,Valeur US $,2017,Millions d’USD,1107.4,UNCTAD
467,Zimbabwe,Valeur US $,2017,Millions d’USD,349.0,UNCTAD


In [210]:
ide['Note'].unique()

array(['UNCTAD'], dtype=object)

Je vérifie ici la colonne note car j'avais remarqué qu'elle indiquait la provenance des informations (FAO ou ONU). Les valeurs de l'ONU sur ce sujet semblent plus précises.

In [211]:
ide.drop(columns=['Note'], inplace=True)

## insecurite_alimentaire.csv

In [212]:
print(f'Lignes : {insecurite_alimentaire.shape[0]}')
print(f'Colonnes : {insecurite_alimentaire.shape[1]}')

Lignes : 612
Colonnes : 15


In [213]:
insecurite_alimentaire.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,528,Pays-Bas (Royaume des),6121,Valeur,210401,Prévalence de l’insécurité alimentaire grave –...,20162018,2016-2018,%,1.5,A,Chiffre officiel,FAO data
1,FS,Données de la sécurité alimentaire,528,Pays-Bas (Royaume des),6121,Valeur,210401M,Prévalence de l’insécurité alimentaire grave –...,20162018,2016-2018,%,1.3,A,Chiffre officiel,FAO data
2,FS,Données de la sécurité alimentaire,528,Pays-Bas (Royaume des),6121,Valeur,210401F,Prévalence de l’insécurité alimentaire grave –...,20162018,2016-2018,%,1.7,A,Chiffre officiel,FAO data
3,FS,Données de la sécurité alimentaire,4,Afghanistan,6121,Valeur,210401,Prévalence de l’insécurité alimentaire grave –...,20162018,2016-2018,%,17.3,A,Chiffre officiel,FAO data
4,FS,Données de la sécurité alimentaire,4,Afghanistan,6121,Valeur,210401M,Prévalence de l’insécurité alimentaire grave –...,20162018,2016-2018,%,15.3,A,Chiffre officiel,FAO data


In [214]:
insecurite_alimentaire.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 612 entries, 0 to 611
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Code Domaine            612 non-null    object
 1   Domaine                 612 non-null    object
 2   Code zone (M49)         612 non-null    int64 
 3   Zone                    612 non-null    object
 4   Code Élément            612 non-null    int64 
 5   Élément                 612 non-null    object
 6   Code Produit            612 non-null    object
 7   Produit                 612 non-null    object
 8   Code année              612 non-null    int64 
 9   Année                   612 non-null    object
 10  Unité                   612 non-null    object
 11  Valeur                  355 non-null    object
 12  Symbole                 612 non-null    object
 13  Description du Symbole  612 non-null    object
 14  Note                    355 non-null    object
dtypes: int

On remarque un certains nombre de valeurs nulles dans le champ Valeur. En se basanr sur les informations de la colonne Note, on peut constater que ce sont des valeurs manquantes et/ou qui ont été supprimées. Ces données ne nous seront pas utiles pour l'analyse, nous allons donc les supprimer car les remplacer par zéro fausserait les chiffres.

In [215]:
insecurite_alimentaire.dropna(subset=['Valeur'], inplace=True)

On a trois types de produits, la prévalence d'hommes par rapport au total, celle de femme et la prévalence totale par rapport à toute la population. Nous allons utiliser la prévalence totale (code: 210401)

In [216]:
insecurite_alimentaire = insecurite_alimentaire[insecurite_alimentaire['Code Produit'] == '210401']

On remarque également que l'année est exprimée en échelle. Nous devinons qu'il s'agit de l'intervalle définissant 2017, remplaçons la valeur.

In [217]:
insecurite_alimentaire['Année'].unique()

array(['2016-2018'], dtype=object)

In [218]:
# on remplace la valeur par un int pour être cohérent avec les autre dataframes
insecurite_alimentaire['Année'] = insecurite_alimentaire['Année'].replace('2016-2018', 2017)

In [219]:
insecurite_alimentaire.drop(columns=['Code Domaine', 'Domaine', 'Code zone (M49)', 'Code Élément', 'Code Produit', 'Produit', 'Code année', 'Symbole', 'Description du Symbole'], inplace=True)

On a également remarqué lors de l'affichage du .info() que le champ Valeur n'est pas de type float comme sur les jeux de données précédents. Cela peut-être dû à une chaine de caractères en son sein.

In [220]:
try:
  insecurite_alimentaire = insecurite_alimentaire.astype({'Valeur': 'float64'}, errors='raise')
except ValueError as e:
  print(e)

could not convert string to float: '<0.5'


In [221]:
insecurite_alimentaire['Valeur'] = insecurite_alimentaire['Valeur'].replace('<0.5', 0.5)

In [222]:
try:
  insecurite_alimentaire = insecurite_alimentaire.astype({'Valeur': 'float64'}, errors='raise')
  print(insecurite_alimentaire.dtypes)
except ValueError as e:
  print(e)

Zone        object
Élément     object
Année        int64
Unité       object
Valeur     float64
Note        object
dtype: object


In [223]:
insecurite_alimentaire.describe()

Unnamed: 0,Année,Valeur
count,119.0,119.0
mean,2017.0,9.289076
std,0.0,12.345024
min,2017.0,0.5
25%,2017.0,1.1
50%,2017.0,3.4
75%,2017.0,11.65
max,2017.0,65.4


In [224]:
insecurite_alimentaire.tail()

Unnamed: 0,Zone,Élément,Année,Unité,Valeur,Note
591,Uruguay,Valeur,2017,%,1.7,Official estimate integrated with FAO data
600,Viet Nam,Valeur,2017,%,0.5,Official estimate
603,Yémen,Valeur,2017,%,11.3,FAO data
606,Zambie,Valeur,2017,%,24.1,Official estimate integrated with FAO data
609,Zimbabwe,Valeur,2017,%,35.9,FAO data


In [225]:
insecurite_alimentaire.Note.unique()

array(['FAO data', 'Official estimate',
       'Official estimate integrated with FAO data'], dtype=object)

In [226]:
insecurite_alimentaire[insecurite_alimentaire.duplicated(subset=['Zone'])]

Unnamed: 0,Zone,Élément,Année,Unité,Valeur,Note


In [227]:
insecurite_alimentaire.drop(columns=['Note'], inplace=True)

## dataframe final

In [228]:
print(dispo_alimentaire.shape)
print(population.shape)
print(pib.shape)
print(ide.shape)
print(insecurite_alimentaire.shape)

(2061, 5)
(2571, 5)
(211, 5)
(200, 5)
(119, 5)
