In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import seaborn as sns

# Préparation des données

## Import des données

**On supprime directement les colonnes non nécessaire ainsi que les doublons !**

In [2]:
# Liste des colonnes non nécessaires

drop_columns = ['Code Domaine', 'Code Élément', 'Code année', 'Symbole', 'Description du Symbole', 'Code Produit']

*Les données concernant la disponibilité alimentaire, nous interesse afin de connaitre les pays qui importent et conssoment le plus de viande de poulet .*

In [3]:
datadispo = pd.read_csv('Data/raw_data/FAOSTAT_data_Disponibilité_2020.csv')
datadispo = datadispo.rename(columns={'Code Produit (CPC)': 'Code Produit'})

# Suppression des colonnes non nécessaires
datadispo = datadispo.drop(drop_columns, axis=1)

#  Suppression des doublons
datadispo = datadispo.drop_duplicates()
datadispo

Unnamed: 0,Domaine,Code zone (M49),Zone,Élément,Produit,Année,Unité,Valeur
0,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Production,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,27938.44
1,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Importations - Quantité,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,35616.91
2,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Exportations - Quantité,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,0.24
3,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),"Viande, poulet, fraîche ou réfrigérée",2020,Kcal/personne/jour,5.90
4,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Disponibilité de protéines en quantité (g/pers...,"Viande, poulet, fraîche ou réfrigérée",2020,g/personne/jour,0.60
...,...,...,...,...,...,...,...,...
856,Compte Disponibilités et Utilisations (CDU) (2...,894,Zambie,Disponibilité de protéines en quantité (g/pers...,"Viande, poulet, fraîche ou réfrigérée",2020,g/personne/jour,0.89
857,Compte Disponibilités et Utilisations (CDU) (2...,716,Zimbabwe,Production,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,67211.11
858,Compte Disponibilités et Utilisations (CDU) (2...,716,Zimbabwe,Importations - Quantité,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,1288.10
859,Compte Disponibilités et Utilisations (CDU) (2...,716,Zimbabwe,Disponibilité alimentaire (Kcal/personne/jour),"Viande, poulet, fraîche ou réfrigérée",2020,Kcal/personne/jour,15.40


*La stabilité politique ainsi que le PIB par habitant, nous donnent des information concernant l'aspect politique et économique .*

In [4]:
datasecurite = pd.read_csv('Data/raw_data/FAOSTAT_data_PIB_2010&2020.csv').drop(drop_columns, axis=1)# Suppression des colonnes non nécessaires
datasecurite = datasecurite.drop(['Note'], axis=1)

# Suppression des doublons
datasecurite = datasecurite.drop_duplicates()
datasecurite

Unnamed: 0,Domaine,Code zone (M49),Zone,Élément,Produit,Année,Unité,Valeur
0,Données de la sécurité alimentaire,4,Afghanistan,Valeur,"PIB par habitant, ($ PPA internationaux consta...",2020,I$,1970.60
1,Données de la sécurité alimentaire,4,Afghanistan,Valeur,Stabilité politique et absence de violence/ter...,2010,indice,-2.58
2,Données de la sécurité alimentaire,4,Afghanistan,Valeur,Stabilité politique et absence de violence/ter...,2020,indice,-2.73
3,Données de la sécurité alimentaire,710,Afrique du Sud,Valeur,"PIB par habitant, ($ PPA internationaux consta...",2020,I$,12665.80
4,Données de la sécurité alimentaire,710,Afrique du Sud,Valeur,Stabilité politique et absence de violence/ter...,2010,indice,-0.03
...,...,...,...,...,...,...,...,...
578,Données de la sécurité alimentaire,894,Zambie,Valeur,Stabilité politique et absence de violence/ter...,2010,indice,0.52
579,Données de la sécurité alimentaire,894,Zambie,Valeur,Stabilité politique et absence de violence/ter...,2020,indice,-0.13
580,Données de la sécurité alimentaire,716,Zimbabwe,Valeur,"PIB par habitant, ($ PPA internationaux consta...",2020,I$,3353.40
581,Données de la sécurité alimentaire,716,Zimbabwe,Valeur,Stabilité politique et absence de violence/ter...,2010,indice,-1.10


*On s'interesse aussi à l'évolution de la population !*

In [5]:
datapop = pd.read_csv('Data/raw_data/FAOSTAT_data_Population_2010&2020.csv').drop(drop_columns, axis=1)# Suppression des colonnes non nécessaires
datapop = datapop.drop(['Note'], axis=1)

# Suppression des doublons
datapop = datapop.drop_duplicates()
datapop

Unnamed: 0,Domaine,Code zone (M49),Zone,Élément,Produit,Année,Unité,Valeur
0,Séries temporelles annuelles,4,Afghanistan,Population totale,Population-Estimations,2010,1000 personnes,28189.672
1,Séries temporelles annuelles,4,Afghanistan,Population totale,Population-Estimations,2020,1000 personnes,38972.230
2,Séries temporelles annuelles,710,Afrique du Sud,Population totale,Population-Estimations,2010,1000 personnes,51784.921
3,Séries temporelles annuelles,710,Afrique du Sud,Population totale,Population-Estimations,2020,1000 personnes,58801.927
4,Séries temporelles annuelles,8,Albanie,Population totale,Population-Estimations,2010,1000 personnes,2913.399
...,...,...,...,...,...,...,...,...
460,Séries temporelles annuelles,887,Yémen,Population totale,Population-Estimations,2020,1000 personnes,32284.046
461,Séries temporelles annuelles,894,Zambie,Population totale,Population-Estimations,2010,1000 personnes,13792.086
462,Séries temporelles annuelles,894,Zambie,Population totale,Population-Estimations,2020,1000 personnes,18927.715
463,Séries temporelles annuelles,716,Zimbabwe,Population totale,Population-Estimations,2010,1000 personnes,12839.771


## Exploration des données

In [6]:
datadispo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 861 entries, 0 to 860
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Domaine          861 non-null    object 
 1   Code zone (M49)  861 non-null    int64  
 2   Zone             861 non-null    object 
 3   Élément          861 non-null    object 
 4   Produit          861 non-null    object 
 5   Année            861 non-null    int64  
 6   Unité            861 non-null    object 
 7   Valeur           861 non-null    float64
dtypes: float64(1), int64(2), object(5)
memory usage: 60.5+ KB


In [7]:
print(datadispo['Zone'].nunique(), "pays différents pour la disponibilité!")

186 pays différents pour la disponibilité!


In [8]:
datapop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 465 entries, 0 to 464
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Domaine          465 non-null    object 
 1   Code zone (M49)  465 non-null    int64  
 2   Zone             465 non-null    object 
 3   Élément          465 non-null    object 
 4   Produit          465 non-null    object 
 5   Année            465 non-null    int64  
 6   Unité            465 non-null    object 
 7   Valeur           465 non-null    float64
dtypes: float64(1), int64(2), object(5)
memory usage: 32.7+ KB


In [9]:
print(datapop['Zone'].nunique(), "pays différents pour la population !")

237 pays différents pour la population !


In [10]:
datasecurite.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 583 entries, 0 to 582
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Domaine          583 non-null    object 
 1   Code zone (M49)  583 non-null    int64  
 2   Zone             583 non-null    object 
 3   Élément          583 non-null    object 
 4   Produit          583 non-null    object 
 5   Année            583 non-null    int64  
 6   Unité            583 non-null    object 
 7   Valeur           583 non-null    float64
dtypes: float64(1), int64(2), object(5)
memory usage: 41.0+ KB


In [11]:
print(datasecurite['Zone'].nunique(), "pays différents pour la politique !")

200 pays différents pour la politique !


## Enrichissement des données

*Concaténation des données afin d'avoir tout dans 1 seul tableau !*

In [12]:
# Concaténation

data = pd.concat([datadispo, datasecurite, datapop])
data

Unnamed: 0,Domaine,Code zone (M49),Zone,Élément,Produit,Année,Unité,Valeur
0,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Production,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,27938.440
1,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Importations - Quantité,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,35616.910
2,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Exportations - Quantité,"Viande, poulet, fraîche ou réfrigérée",2020,tonnes,0.240
3,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),"Viande, poulet, fraîche ou réfrigérée",2020,Kcal/personne/jour,5.900
4,Compte Disponibilités et Utilisations (CDU) (2...,4,Afghanistan,Disponibilité de protéines en quantité (g/pers...,"Viande, poulet, fraîche ou réfrigérée",2020,g/personne/jour,0.600
...,...,...,...,...,...,...,...,...
460,Séries temporelles annuelles,887,Yémen,Population totale,Population-Estimations,2020,1000 personnes,32284.046
461,Séries temporelles annuelles,894,Zambie,Population totale,Population-Estimations,2010,1000 personnes,13792.086
462,Séries temporelles annuelles,894,Zambie,Population totale,Population-Estimations,2020,1000 personnes,18927.715
463,Séries temporelles annuelles,716,Zimbabwe,Population totale,Population-Estimations,2010,1000 personnes,12839.771


*Pivotattion sur la colonne pays afin d'avoir toute les données sur 1 seul ligne pour chaque pays*

In [13]:
# Table pivot

data = data.pivot_table(index='Zone', values='Valeur', columns=['Élément', 'Produit', 'Année']).reset_index()
data

Élément,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Exportations - Quantité,Importations - Quantité,Population totale,Population totale,Production,Valeur,Valeur,Valeur
Produit,Unnamed: 1_level_1,"Viande, poulet, fraîche ou réfrigérée","Viande, poulet, fraîche ou réfrigérée","Viande, poulet, fraîche ou réfrigérée","Viande, poulet, fraîche ou réfrigérée",Population-Estimations,Population-Estimations,"Viande, poulet, fraîche ou réfrigérée","PIB par habitant, ($ PPA internationaux constants de 2017)",Stabilité politique et absence de violence/terrorisme (indice),Stabilité politique et absence de violence/terrorisme (indice)
Année,Unnamed: 1_level_2,2020,2020,2020,2020,2010,2020,2020,2020,2010,2020
0,Afghanistan,5.90,0.60,0.24,35616.91,28189.672,38972.230,27938.44,1970.6,-2.58,-2.73
1,Afrique du Sud,138.50,13.57,45619.27,398923.26,51784.921,58801.927,1873238.00,12665.8,-0.03,-0.24
2,Albanie,64.98,4.59,,23503.19,2913.399,2866.849,12233.91,13253.7,-0.19,0.08
3,Algérie,20.44,1.75,568.50,0.49,35856.344,43451.666,260268.79,10735.4,-1.26,-0.86
4,Allemagne,39.69,4.74,254316.47,470860.36,81325.090,83328.988,1066000.00,51423.2,0.80,0.67
...,...,...,...,...,...,...,...,...,...,...,...
232,Îles Salomon,14.52,1.46,,3732.02,540.394,691.191,279.10,2482.4,0.34,0.64
233,Îles Turques-et-Caïques,,,,,29.726,44.276,,,,
234,Îles Vierges américaines,,,,,106.142,100.442,,,,
235,Îles Vierges britanniques,,,,,27.556,30.910,,,,


### Création d'un nouveau Dataframe

*On crée un nouveau Dataframe afin d'avoir un tableau de données plus lisible !*

In [14]:
# Abbréviations des data
exports, imports, kcal, prot, pop, pop1, poulet, production, prix_prod, pib, politique, secu = 'Exportations - Quantité', 'Importations - Quantité', 'Disponibilité alimentaire (Kcal/personne/jour)', 'Disponibilité de protéines en quantité (g/personne/jour)', 'Population totale', 'Population-Estimations', 'Viande, poulet, fraîche ou réfrigérée', 'Production', 'Prix à la Production (USD/tonne)', 'PIB par habitant, ($ PPA internationaux constants de 2017)', 'Stabilité politique et absence de violence/terrorisme (indice)', 'Valeur'
annee_1, annee_2 = 2010, 2020

df = pd.DataFrame()
df['pays'] = data['Zone']
df['dispo_calories'] = data[kcal][poulet][annee_2]
df['dispo_proteines'] = data[prot][poulet][annee_2]
#df['population'] = data[pop][pop1][annee_2]
df['pop_croissance'] = data[pop][pop1][annee_2] / data[pop][pop1][annee_1]
df['pib'] = data[secu][pib][annee_2]
df['politique'] = data[secu][politique][annee_2]
#df['production'] = data[production][poulet][annee_2]
df['importation'] = data[imports][poulet][annee_2]
#df['exportation'] = data[exports][poulet][annee_2]
#df['poulet_import-export'] = data[imports][poulet][annee_2] / data[exports][poulet][annee_2]

df

Unnamed: 0,pays,dispo_calories,dispo_proteines,pop_croissance,pib,politique,importation
0,Afghanistan,5.90,0.60,1.382500,1970.6,-2.73,35616.91
1,Afrique du Sud,138.50,13.57,1.135503,12665.8,-0.24,398923.26
2,Albanie,64.98,4.59,0.984022,13253.7,0.08,23503.19
3,Algérie,20.44,1.75,1.211826,10735.4,-0.86,0.49
4,Allemagne,39.69,4.74,1.024641,51423.2,0.67,470860.36
...,...,...,...,...,...,...,...
232,Îles Salomon,14.52,1.46,1.279050,2482.4,0.64,3732.02
233,Îles Turques-et-Caïques,,,1.489470,,,
234,Îles Vierges américaines,,,0.946298,,,
235,Îles Vierges britanniques,,,1.121716,,,


### Gestion des données manquantes

In [15]:
df = df.replace([np.inf, -np.inf], np.nan).dropna().reset_index().drop(['index'], axis=1)
df

Unnamed: 0,pays,dispo_calories,dispo_proteines,pop_croissance,pib,politique,importation
0,Afghanistan,5.90,0.60,1.382500,1970.6,-2.73,35616.91
1,Afrique du Sud,138.50,13.57,1.135503,12665.8,-0.24,398923.26
2,Albanie,64.98,4.59,0.984022,13253.7,0.08,23503.19
3,Algérie,20.44,1.75,1.211826,10735.4,-0.86,0.49
4,Allemagne,39.69,4.74,1.024641,51423.2,0.67,470860.36
...,...,...,...,...,...,...,...
165,Égypte,46.07,4.72,1.231658,11951.4,-1.21,19675.01
166,Émirats arabes unis,103.12,10.40,1.094970,63299.4,0.63,474939.04
167,États-Unis d'Amérique,205.19,17.71,1.079565,59755.2,-0.02,66140.69
168,Éthiopie,1.98,0.20,1.313243,2296.9,-1.74,451.20


### Gestion des données inutile

*Notre objectif ici est l'exportation donc on peut exclure la France !*

In [16]:
fr = df[df['pays'] == "France"]
fr

Unnamed: 0,pays,dispo_calories,dispo_proteines,pop_croissance,pib,politique,importation
52,France,50.44,6.02,1.032597,42320.5,0.31,367111.55


In [17]:
df = df.drop(df.loc[df['pays'] == "France"].index)

### Sortie d'un fichier CSV

In [18]:
df.to_csv('Data/processed_data/data.csv')