# Etude du marché du poulet mondiale
##  Nettoyage des données

### <a href='#T1'> 1 - Import libraries et fichirs </a>
### <a href='#T2'> 2 - Traitement des données </a>
- <a href='#T3'> 2.1 - Disponibilité Alimentaire </a><br>
- <a href='#T4'> 2.2 - Population </a><br>
- <a href='#T5'> 2.3 - Indicateurs Macro-économique </a><br>
- <a href='#T6'> 2.4 - Stabilité politique </a><br>

### <a href='#T7'>3 - Jointures </a>

## <a name = 'T1'> 1 - Import libraries et fichiers </a>

In [1]:
# import libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# import fichiers
df_alim = pd.read_csv('DisponibiliteAlimentaire_2017.csv')
df_pib = pd.read_csv('Indicateur_macro_PIB.csv')
df_pop = pd.read_csv('Population_2000_2018.csv')
df_stab = pd.read_csv('Stab_pol.csv')

## <a name = 'T2' >  2 - Traitement des données </a> 

### <a name = 'T3'> 2.1 - Disponibilité alimentaire </a>

In [3]:
# affichage df
df_alim.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Blé et produits,2017,2017,Milliers de tonnes,4281.0,S,Données standardisées
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,2302.0,S,Données standardisées


In [4]:
# controle dimension
df_alim.shape

(176600, 14)

In [5]:
# controle valeurs nulles
df_alim.isnull().sum()

Code Domaine              0
Domaine                   0
Code zone                 0
Zone                      0
Code Élément              0
Élément                   0
Code Produit              0
Produit                   0
Code année                0
Année                     0
Unité                     0
Valeur                    0
Symbole                   0
Description du Symbole    0
dtype: int64

In [6]:
# controle valeur unique
df_alim['Produit'].unique()

array(['Blé et produits', 'Riz et produits', 'Orge et produits',
       'Maïs et produits', 'Seigle et produits', 'Avoine',
       'Millet et produits', 'Sorgho et produits', 'Céréales, Autres',
       'Pommes de Terre et produits', 'Ignames', 'Racines nda',
       'Sucre, canne', 'Sucre, betterave', 'Sucre Eq Brut',
       'Edulcorants Autres', 'Miel', 'Haricots', 'Pois',
       'Légumineuses Autres et produits', 'Noix et produits', 'Soja',
       'Arachides Decortiquees', 'Graines de tournesol',
       'Graines Colza/Moutarde', 'Graines de coton', 'Coco (Incl Coprah)',
       'Sésame', 'Olives', 'Plantes Oleiferes, Autre', 'Huile de Soja',
       "Huile d'Arachide", 'Huile de Tournesol',
       'Huile de Colza&Moutarde', 'Huile Graines de Coton',
       'Huile de Palmistes', 'Huile de Palme', 'Huile de Coco',
       'Huile de Sésame', "Huile d'Olive", 'Huile de Son de Riz',
       'Huile de Germe de Maïs', 'Huil Plantes Oleif Autr',
       'Tomates et produits', 'Oignons', 'Légumes, 

Présence de divers typologie des produits, je vais extraire les valeurs 'viande de vollailles'

In [7]:
# filtre pour la viande de volailles
df_alim_v = df_alim[df_alim['Produit'] == 'Viande de Volailles'].reset_index()
df_alim_v.head(3)

Unnamed: 0,index,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,651,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2734,Viande de Volailles,2017,2017,Milliers de tonnes,28.0,S,Données standardisées
1,652,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2734,Viande de Volailles,2017,2017,Milliers de tonnes,29.0,S,Données standardisées
2,653,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2734,Viande de Volailles,2017,2017,Milliers de tonnes,0.0,S,Données standardisées


Il y a divers colonnes qui ne semble pas être pertinent avec l'étude ou que sont redondantes

In [8]:
# création variable pour stocker les noms de colonnes
col_alim_d = ['index','Code Domaine',
              'Domaine','Code zone','Code Élément',
              'Code Produit','Produit','Code année',
              'Description du Symbole']

In [9]:
# supprimer colonnes 
df_alim_v.drop(columns=col_alim_d, inplace = True)
df_alim_v.head(3)

Unnamed: 0,Zone,Élément,Année,Unité,Valeur,Symbole
0,Afghanistan,Production,2017,Milliers de tonnes,28.0,S
1,Afghanistan,Importations - Quantité,2017,Milliers de tonnes,29.0,S
2,Afghanistan,Variation de stock,2017,Milliers de tonnes,0.0,S


In [10]:
# pivotage df
df_alim_pi = df_alim_v.pivot(index='Zone', columns='Élément', values ='Valeur')
df_alim_pi.head(2)

Élément,Alimentation pour touristes,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Résidus,Semences,Traitement,Variation de stock
Zone,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
Afghanistan,,,,5.0,1.53,0.33,0.54,57.0,,29.0,55.0,2.0,28.0,0.0,,,0.0
Afrique du Sud,0.0,,,143.0,35.69,9.25,14.11,2118.0,63.0,514.0,2035.0,83.0,1667.0,0.0,,,-0.0


Divers valeurs NaN dans le Dataframe pivoté, on vas les traiter.

In [11]:
# controle valeurs nulles
df_alim_pi.isnull().sum()

Élément
Alimentation pour touristes                                       94
Aliments pour animaux                                            171
Autres utilisations (non alimentaire)                            138
Disponibilité alimentaire (Kcal/personne/jour)                     0
Disponibilité alimentaire en quantité (kg/personne/an)             0
Disponibilité de matière grasse en quantité (g/personne/jour)      0
Disponibilité de protéines en quantité (g/personne/jour)           0
Disponibilité intérieure                                           2
Exportations - Quantité                                           37
Importations - Quantité                                            2
Nourriture                                                         2
Pertes                                                           105
Production                                                         4
Résidus                                                            8
Semences                  

Certaines colonnes on vas les supprimer parceque elles n'ont pas pertinence avec l'étude.

On peut calculer les valeurs nulles à travers la formule ci dessous

Disponibilité intérieure = Nourriture + Pertes.
Ou encore

Disponibilité intérieure = importation - exportation + production +- Variation de stock.
On générale on observe que le resultat des ces calculs donne une valeur de 0, donc on peut procéder avec la conversion de ces valeurs

In [12]:
# creation variable contenant des colonnes à supprimer
col_alim_d_1 = ['Alimentation pour touristes',
              'Exportations - Quantité','Nourriture',
              'Pertes', 'Aliments pour animaux', 
              'Autres utilisations (non alimentaire)',
              'Disponibilité alimentaire en quantité (kg/personne/an)',
              'Disponibilité de matière grasse en quantité (g/personne/jour)',
              'Résidus', 'Semences', 'Traitement','Variation de stock']

In [13]:
# suppression colonnes
df_alim_pi.drop(columns=col_alim_d_1, inplace = True)

In [14]:
# affichage df
df_alim_pi.head(2)

Élément,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Importations - Quantité,Production
Zone,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,5.0,0.54,57.0,29.0,28.0
Afrique du Sud,143.0,14.11,2118.0,514.0,1667.0


In [15]:
# traitement des valeurs NaN
df_alim_pi.fillna(0, inplace=True)
df_alim_pi.isnull().sum()

Élément
Disponibilité alimentaire (Kcal/personne/jour)              0
Disponibilité de protéines en quantité (g/personne/jour)    0
Disponibilité intérieure                                    0
Importations - Quantité                                     0
Production                                                  0
dtype: int64

### <a name='T4'> 2.2 - Population </a>

In [16]:
# affichage df
df_pop.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales sûres,
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales sûres,


In [17]:
# controle dimensions
df_pop.shape

(4411, 15)

In [18]:
# controle valeurs nulls
df_pop.isnull().sum()

Code Domaine                 0
Domaine                      0
Code zone                    0
Zone                         0
Code Élément                 0
Élément                      0
Code Produit                 0
Produit                      0
Code année                   0
Année                        0
Unité                        0
Valeur                       0
Symbole                      0
Description du Symbole       0
Note                      4153
dtype: int64

In [19]:
# description des valeurs
df_pop.describe()

Unnamed: 0,Code zone,Code Élément,Code Produit,Code année,Année,Valeur
count,4411.0,4411.0,4411.0,4411.0,4411.0,4411.0
mean,132.202902,511.0,3010.0,2009.068238,2009.068238,29630.04
std,75.85484,0.0,0.0,5.481539,5.481539,123802.9
min,1.0,511.0,3010.0,2000.0,2000.0,0.785
25%,68.0,511.0,3010.0,2004.0,2004.0,392.189
50%,132.0,511.0,3010.0,2009.0,2009.0,4764.741
75%,195.0,511.0,3010.0,2014.0,2014.0,18215.48
max,299.0,511.0,3010.0,2018.0,2018.0,1427648.0


On observe la présence des valeurs concernant la population tres importantes

L'étude est basé sur l'année 2017, on commence alors avec un filtrage

In [20]:
# filtrafe année 20127
df_pop_2017 = df_pop[df_pop['Année'] == 2017].reset_index()
df_pop_2017.head(2)

Unnamed: 0,index,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,17,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,36296.113,X,Sources internationales sûres,
1,36,OA,Séries temporelles annuelles,202,Afrique du Sud,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,57009.756,X,Sources internationales sûres,


Présence des divers colonnes avec des valeurs redondantes, ou pas relevantes pours l'étude

In [21]:
# création variable avec colonnes
col_pop_d = ['index','Code Domaine','Domaine','Code zone',
                'Code Élément','Code Produit','Code année','Année',
                'Unité','Description du Symbole','Produit','Élément','Note','Symbole']

In [22]:
# supprimer colonnes
df_pop_2017.drop(columns=col_pop_d, inplace=True)
df_pop_2017.head(2)

Unnamed: 0,Zone,Valeur
0,Afghanistan,36296.113
1,Afrique du Sud,57009.756


In [23]:
# conversion population en logarithme
df_pop_2017['Valeur'] = np.log(df_pop_2017['Valeur'])

In [24]:
# conversion nome de la colonne
df_pop_2017.rename(columns={'Valeur' : 'Population'},inplace=True)

In [25]:
# set index
df_pop_2017.set_index('Zone',inplace=True)

In [26]:
# affichage df 
df_pop_2017.head(2)

Unnamed: 0_level_0,Population
Zone,Unnamed: 1_level_1
Afghanistan,10.499466
Afrique du Sud,10.950978


### <a name = 'T5'> 2.3 - Indicateurs Macro-économique </a>

In [27]:
#affichage table
df_pib.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,MK,Indicateurs macro,4,Afghanistan,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,18896.35202,X,Ciffre de sources internationales,
1,MK,Indicateurs macro,4,Afghanistan,6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,530.149831,X,Ciffre de sources internationales,


In [28]:
# controle dimensions
df_pib.shape

(422, 15)

In [29]:
# controle valeurs nulles
df_pib.isnull().sum()

Code Domaine                0
Domaine                     0
Code zone (M49)             0
Zone                        0
Code Élément                0
Élément                     0
Code Produit                0
Produit                     0
Code année                  0
Année                       0
Unité                       0
Valeur                      0
Symbole                     0
Description du Symbole      0
Note                      422
dtype: int64

Presence des valeurs nulles danas la colonne **Note** que on vas supprimer, donc on ne la traite pas

In [30]:
# creation variable colonnes
col_pib_d = ['Code Domaine','Domaine','Code zone (M49)',
                'Code Élément','Code Produit','Code année','Année','Unité',
                'Symbole','Description du Symbole','Produit','Note']

In [31]:
# supprimer les colonnes
df_pib_2017 = df_pib.drop(columns=col_pib_d)
df_pib_2017.head(2)

Unnamed: 0,Zone,Élément,Valeur
0,Afghanistan,Valeur US $,18896.35202
1,Afghanistan,Valeur US $ par habitant,530.149831


In [32]:
# pivotage
df_pib_pi = df_pib_2017.pivot(index='Zone', columns='Élément', values='Valeur')
df_pib_pi.head(3)

Élément,Valeur US $,Valeur US $ par habitant
Zone,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,18896.35202,530.149831
Afrique du Sud,380851.4441,6723.928582
Albanie,13019.72986,4521.752219


On préfère le PIB par habitant parcque je trouve la données plus parlante par rapport au PIB générale.

In [33]:
# drop colonne
df_pib_pi.drop(columns='Valeur US $', inplace=True)

In [34]:
# renommer la colonne
df_pib_pi.rename(columns={'Valeur US $ par habitant':'PIB/Habitant US $' }, inplace=True)
df_pib_pi.head(2)

Élément,PIB/Habitant US $
Zone,Unnamed: 1_level_1
Afghanistan,530.149831
Afrique du Sud,6723.928582


### <a name = 'T6'> 2.4 Stabilité politique </a>

In [35]:
# affichage df
df_stab.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone (FAO),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,2,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-2.8,X,Ciffre de sources internationales,
1,FS,Données de la sécurité alimentaire,202,Afrique du Sud,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-0.28,X,Ciffre de sources internationales,


In [36]:
# controle dimensions
df_stab.shape

(197, 15)

In [37]:
# controle valeurs nulles
df_stab.isnull().sum()

Code Domaine                0
Domaine                     0
Code zone (FAO)             0
Zone                        0
Code Élément                0
Élément                     0
Code Produit                0
Produit                     0
Code année                  0
Année                       0
Unité                       0
Valeur                      0
Symbole                     0
Description du Symbole      0
Note                      197
dtype: int64

In [38]:
# variable colonne
coll_stab_d = ['Code Domaine', 'Domaine', 'Code zone (FAO)', 'Code Élément',
             'Élément', 'Code Produit', 'Produit', 'Code année', 'Année', 
             'Unité','Symbole', 'Description du Symbole', 'Note']

In [39]:
# supprimer les colonnes
df_stab.drop(columns=coll_stab_d, inplace = True)

In [40]:
# création moyenne pour la chine continentale
means = df_stab[df_stab.Zone.str.contains('Chine')]
moy = means['Valeur'].mean()

In [41]:
# insertion de la ligne avec la chine continentale dans le df
df2 = {'Zone': 'Chine, continentale', 'Valeur' :moy}
df_stab = df_stab.append(df2, ignore_index = True)

  df_stab = df_stab.append(df2, ignore_index = True)


In [42]:
# renommer la colonne valeur
df_stab.rename(columns={'Valeur':'Stabilité Politique'}, inplace = True)

In [43]:
# set index
df_stab.set_index('Zone')

Unnamed: 0_level_0,Stabilité Politique
Zone,Unnamed: 1_level_1
Afghanistan,-2.80
Afrique du Sud,-0.28
Albanie,0.38
Algérie,-0.92
Allemagne,0.59
...,...
Viet Nam,0.23
Yémen,-2.94
Zambie,0.15
Zimbabwe,-0.71


## <a name = 'T7'> 3 - Jointures </a> 

In [44]:
# Merge entre alim, population et pib
df_1 = pd.merge(pd.merge(df_alim_pi,df_pop_2017, on='Zone'),df_pib_pi, on='Zone')

In [45]:
# merge avec stabilité politique
df = pd.merge(df_1, df_stab, on='Zone')

In [46]:
# affichage df
df.head(2)

Unnamed: 0,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Importations - Quantité,Production,Population,PIB/Habitant US $,Stabilité Politique
0,Afghanistan,5.0,0.54,57.0,29.0,28.0,10.499466,530.149831,-2.8
1,Afrique du Sud,143.0,14.11,2118.0,514.0,1667.0,10.950978,6723.928582,-0.28


In [47]:
# rennomer 
df.rename(columns={'Zone':'Pays'},inplace=True)

In [48]:
# affichage df 
df.head(2)

Unnamed: 0,Pays,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Importations - Quantité,Production,Population,PIB/Habitant US $,Stabilité Politique
0,Afghanistan,5.0,0.54,57.0,29.0,28.0,10.499466,530.149831,-2.8
1,Afrique du Sud,143.0,14.11,2118.0,514.0,1667.0,10.950978,6723.928582,-0.28


In [49]:
df.to_csv('data_nettoyage', index=False)