<hr style="height: 4px; color: #839D2D; width: 100%; ">

# <font color='#61210B'>Formation OpenClassRooms   -   Parcours DATA ANALYST</font>

<hr style="height: 2px; color: #839D2D; width: 100%; ">

## <font color='#38610B'>Projet V - Etude de Marché Internationale</font>

### Partie 1 - Constitution Jeu de Données & Nettoyage 
<u>Les données sont issues des sites web suivants</u> :
- Organisation des Nations Unies pour l'alimentation et l'agriculture (<a href="http://www.fao.org/faostat/en/#data">FAO</a>)  
- Banque Mondiale - World Bank Open Data (<a href="https://databank.banquemondiale.org/data/home.aspx">WBD</a>)  
- Wikipedia (données ISO-3166 Codes pays)

<u>DataFrames pandas utilisés et critères de téléchargement</u> :  
* <font color='#8A0808'>DataFrame <strong>pays</strong></font> : Table de correspondance entre les codes pays issus de la FAO, de la WBD, et la norme Iso-3166  
Constitué avec Excel en consolidant toutes les données pays issus de la FAO, WBD et de Wikipedia pour la norme ISO-3166  


* <font color='#8A0808'>DataFrame <strong>fao</strong></font> : Année 2013 - Population & Bilans Alimentaires Volaille & Viande (source FAO)   
Critères de selection : (**Pays** = tous, **Eléments** = tous, **Année** = 2013, **Produits** = Volailles, **Groupe Produits** = Viande (total) )  


* <font color='#8A0808'>DataFrame <strong>wbdxch</strong></font> : Année 2013 - Achat Vente de Volailles entre France & Autres Pays (en $)   
(**Pays Acheteur** = tous, **Pays Vendeur** = France, **Année** = 2013, **Produits** = Volailles vivante & Viande Volailles )


* <font color='#8A0808'>DataFrame <strong>wbdeco</strong></font> Année 2013 - Données Macro-economiques (source WBD)

  
* <font color='#013ADF'>DataFrame <strong>gen</strong></font> : Fichier enrichi, nettoyé pour etude de marché


**<font color='#38610B'>- Date : 15 Avr 2019</font>**  
Auteur : Frédéric Boissy
<hr style="height: 4px; color: #839D2D; width: 100%; ">


In [1]:
# -*- coding: utf8 -*-
import numpy as np
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format   # Nombres avec sepa milliers "," et 2décimales après "."
pd.options.mode.use_inf_as_na = True

import seaborn as sns
import matplotlib as matplt
import matplotlib.pyplot as plt
import scipy as sc
import scipy.stats as scst
from scipy.cluster.hierarchy import linkage, fcluster, dendrogram
import statsmodels as st
from sklearn import decomposition, preprocessing
from functions import *

from IPython.display import display, Markdown, HTML  # pour gérer un affichage plus joli que la fonction "print"

import time   # Librairie temps pour calculs durée par exemple
trt_start_time = time.time()

In [2]:
pays = pd.read_excel("DATA/0-Table_Corresp_Pays_ISO_FAO_WBD.xlsx", sheet_name='data_pj5') 
fao = pd.read_excel("DATA/1-FAO_Data_Principales.xlsx", sheet_name='data_pj5') 
wbdxch = pd.read_excel("DATA/2-WBD_Data_CNUCED_FRA_2013.xlsx", sheet_name='data_pj5')
wbdeco = pd.read_excel("DATA/3-WBD_Data_Indic_Dev_PIB_2013.xlsx", sheet_name='data_pj5')

<hr style="height: 3px; color: #839D2D; width: 100%; ">

###  <font color='#61210B'><u>Table de Correspondance Code Pays</u></font> : Dataframe 'pays'
#### Détails des zones

- <b>cpays_fao :</b> Code Pays (Source FAO)   
- <b>pays_fao :</b> Nom Pays (Source FAO)   
- <b>cpays_wbd :</b> Code Pays (Source WBD)   
- <b>pays_wbd :</b> Nom Pays (Source WBD)   
- <b>cpays_iso_n2 :</b> Code Pays Norme ISO - 2 digits numeriques (Source Wikipedia)   
- <b>cpays_iso_a2 :</b> Code Pays Norme ISO - 2 digits alphanum (Source Wikipedia)   
- <b>cpays_iso_a3 :</b> Code Pays Norme ISO - 3 digits alphanum (Source Wikipedia)   
- <b>pays_iso :</b> Nom Pays Norme ISO (Source Wikipedia)   
- <b>pays_iso_nom_francais :</b> Nom Pays Français Norme ISO (Source Wikipedia)   

In [3]:
pays.head()

Unnamed: 0,cpays_fao,pays_fao,cpays_wbd,pays_wbd,cpays_iso_n2,cpays_iso_a2,cpays_iso_a3,pays_iso,pays_iso_nom_francais
0,1.0,Armenie,ARM,Armenie,51,AM,ARM,Arménie,Armenie
1,2.0,Afghanistan,AFG,Afghanistan,4,AF,AFG,Afghanistan,Afghanistan
2,3.0,Albanie,ALB,Albanie,8,AL,ALB,Albanie,Albanie
3,4.0,Algerie,DZA,Algerie,12,DZ,DZA,Algérie,Algerie
4,5.0,Samoa americaines,ASM,Samoa americaines,16,AS,ASM,Samoa Américaines,Samoa Americaines


Pas de nettoyage ici, table brute pour ne perdre aucune informations.

<hr style="height: 3px; color: #839D2D; width: 100%; ">

###  <font color='#61210B'><u>Données Requises Projets</u></font> : Dataframe 'fao'
#### Détails des zones

- <b>cpays_fao :</b> Code Pays   
- <b>pays_fao :</b> nom Pays   
- <b>pop_2010 :</b> Population en 2010   
- <b>pop_2013 :</b> Population en 2013   
- <b>evo_2010_2013 :</b> (%) Evolution population entre 2010 & 2013   
- <b>qt_disp_(kcal/p/j) :</b> Quantité dispo alimentaire totale pays (en Kcal/pers/jour)   
- <b>qt_disp_prot_(gr/p/j) :</b> Quantité dispo alim. protéines totale pays (en Grammes/pers/jour)   
- <b>qt_prot_via_(gr/p/j) :</b> Quantité dispo alim. protéines viande (volaille incluse) pays (en Grammes/pers/jour)   
- <b>qt_prot_vol_(gr/p/j) :</b> Quantité dispo alim. protéines volaille pays (en Grammes/pers/jour)   
- <b>ratio_prot_viande :</b> Ratio Qté Proteines Viande (volaille incluse) / Qté Proteines Totale du Pays   
- <b>ratio_prot_volaille :</b> Ratio Qté Proteines Volaille / Qté Proteines Totale du Pays   
- <b>qt_exp_via_(t) :</b> Quantité Export viande (volaille incluse) pays (en tonnes/an)   
- <b>qt_exp_vol_(t) :</b> Quantité Export volaille pays (en tonnes/an)   
- <b>qt_imp_via_(t) :</b> Quantité Import viande (volaille incluse) pays (en tonnes/an)   
- <b>qt_imp_vol_(t) :</b> Quantité Import volaille pays (en tonnes/an)   
- <b>qt_prod_via_(t) :</b> Quantité Production viande (volaille incluse) pays (en tonnes/an)   
- <b>qt_prod_vol_(t) :</b> Quantité Production volaille pays (en tonnes/an)   


In [4]:
fao.describe(include='all')

Unnamed: 0,cpays_fao,pays_fao,pop_2010,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),qt_prot_via_(gr/p/j),qt_prot_vol_(gr/p/j),ratio_prot_viande,ratio_prot_volaille,qt_exp_via_(t),qt_exp_vol_(t),qt_imp_via_(t),qt_imp_vol_(t),qt_prod_via_(t),qt_prod_vol_(t)
count,231.0,231,229.0,229.0,227.0,174.0,174.0,174.0,174.0,174.0,174.0,164.0,147.0,174.0,173.0,174.0,172.0
unique,,231,,,,,,,,,,,,,,,
top,,Tokelaou,,,,,,,,,,,,,,,
freq,,1,,,,,,,,,,,,,,,
mean,131.35,,30367259.08,31479462.74,4.07,2848.94,81.37,17.49,7.14,20.31,8.29,280597.56,113551.02,243339.08,87335.26,1776528.74,630941.86
std,75.22,,125485994.26,128920703.18,4.54,438.12,19.99,10.39,5.69,9.5,6.18,921642.51,487157.69,530645.48,194877.16,7399835.59,2315308.27
min,1.0,,794.0,801.0,-6.53,1879.0,37.66,1.32,0.14,2.19,0.22,0.0,0.0,0.0,0.0,0.0,0.0
25%,67.5,,416110.0,451338.0,1.1,2531.5,64.39,9.2,1.97,12.48,3.36,0.0,0.0,8000.0,2000.0,71000.0,12750.0
50%,131.0,,5074252.0,5366277.0,3.56,2833.0,81.59,16.41,6.48,20.69,7.43,6500.0,1000.0,44500.0,16000.0,255000.0,59500.0
75%,194.5,,20198353.0,20068201.0,6.8,3189.5,94.95,25.13,10.68,27.36,11.71,56750.0,24000.0,196000.0,73000.0,917500.0,327750.0


#### Nettoyage & mise en Forme

In [5]:
# cas du Soudan => Après 2010, le Soudan s'est divisé en deux parties.
fao[fao['pays_fao'].str.contains('oudan', na=False) == True ]

Unnamed: 0,cpays_fao,pays_fao,pop_2010,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),qt_prot_via_(gr/p/j),qt_prot_vol_(gr/p/j),ratio_prot_viande,ratio_prot_volaille,qt_exp_via_(t),qt_exp_vol_(t),qt_imp_via_(t),qt_imp_vol_(t),qt_prod_via_(t),qt_prod_vol_(t)
183,206,Soudan (ex),44453155.0,,,,,,,,,,,,,,
229,276,Soudan,,36849918.0,,2336.0,70.71,10.7,0.45,15.13,0.64,8000.0,0.0,2000.0,2000.0,1032000.0,46000.0
230,277,Soudan du Sud,,11177490.0,,,,,,,,,,,,,


Choix de ne garder que les données de 2013.   
- Donc suppression de la ligne codePays=206
- Modification des valeurs de populations et d'évolution par application de regle de 3 avec valeur de 2010 (code 206)

In [6]:
pop1 = fao[fao['cpays_fao'] == 276]['pop_2013'].values
pop2 = fao[fao['cpays_fao'] == 277]['pop_2013'].values
r = pop1/pop2
fao.loc[(fao['cpays_fao'] == 277), 'pop_2010'] = fao.loc[(fao['cpays_fao'] == 206), 'pop_2010'].values / (r+1)
fao.loc[(fao['cpays_fao'] == 276), 'pop_2010'] = fao.loc[(fao['cpays_fao'] == 206), 'pop_2010'].values * r / (r+1)
fao.drop(fao[fao.cpays_fao == 206].index, inplace=True)
fao.loc[(fao['cpays_fao'] == 276), 'evo_2010_2013'] = ((fao[fao['cpays_fao'] == 276]['pop_2013'].values / fao[fao['cpays_fao'] == 276]['pop_2010'].values)-1)*100
fao.loc[(fao['cpays_fao'] == 277), 'evo_2010_2013'] = ((fao[fao['cpays_fao'] == 277]['pop_2013'].values / fao[fao['cpays_fao'] == 277]['pop_2010'].values)-1)*100

In [7]:
# cas du Soudan => Après 2010, le Soudan s'est divisé en deux parties.
fao[fao['pays_fao'].str.contains('oudan', na=False) == True ]

Unnamed: 0,cpays_fao,pays_fao,pop_2010,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),qt_prot_via_(gr/p/j),qt_prot_vol_(gr/p/j),ratio_prot_viande,ratio_prot_volaille,qt_exp_via_(t),qt_exp_vol_(t),qt_imp_via_(t),qt_imp_vol_(t),qt_prod_via_(t),qt_prod_vol_(t)
229,276,Soudan,34107506.21,36849918.0,8.04,2336.0,70.71,10.7,0.45,15.13,0.64,8000.0,0.0,2000.0,2000.0,1032000.0,46000.0
230,277,Soudan du Sud,10345648.79,11177490.0,8.04,,,,,,,,,,,,


In [8]:
fao[fao['qt_disp_(kcal/p/j)'].isna() == True].head()

Unnamed: 0,cpays_fao,pays_fao,pop_2010,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),qt_prot_via_(gr/p/j),qt_prot_vol_(gr/p/j),ratio_prot_viande,ratio_prot_volaille,qt_exp_via_(t),qt_exp_vol_(t),qt_imp_via_(t),qt_imp_vol_(t),qt_prod_via_(t),qt_prod_vol_(t)
4,5,Samoa americaines,55637.0,55307.0,-0.59,,,,,,,,,,,,
5,6,Andorre,84449.0,80788.0,-4.34,,,,,,,,,,,,
12,13,Bahrein,1240862.0,1315411.0,6.01,,,,,,,,,,,,
16,18,Bhoutan,727641.0,764961.0,5.13,,,,,,,,,,,,
20,22,Aruba,101669.0,103187.0,1.49,,,,,,,,,,,,


In [9]:
# Choix d'ecarter les pays n'ayant pas de valeurs renseignées sur cette variable imposée
fao = fao.dropna(subset=['qt_disp_(kcal/p/j)'])

In [10]:
fao.describe(include='all')

Unnamed: 0,cpays_fao,pays_fao,pop_2010,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),qt_prot_via_(gr/p/j),qt_prot_vol_(gr/p/j),ratio_prot_viande,ratio_prot_volaille,qt_exp_via_(t),qt_exp_vol_(t),qt_imp_via_(t),qt_imp_vol_(t),qt_prod_via_(t),qt_prod_vol_(t)
count,174.0,174,174.0,174.0,174.0,174.0,174.0,174.0,174.0,174.0,174.0,164.0,147.0,174.0,173.0,174.0,172.0
unique,,174,,,,,,,,,,,,,,,
top,,Namibie,,,,,,,,,,,,,,,
freq,,1,,,,,,,,,,,,,,,
mean,125.43,,39086939.1,40493134.02,4.39,2848.94,81.37,17.49,7.14,20.31,8.29,280597.56,113551.02,243339.08,87335.26,1776528.74,630941.86
std,73.42,,142840744.67,146738502.44,4.26,438.12,19.99,10.39,5.69,9.5,6.18,921642.51,487157.69,530645.48,194877.16,7399835.59,2315308.27
min,1.0,,51445.0,53169.0,-4.39,1879.0,37.66,1.32,0.14,2.19,0.22,0.0,0.0,0.0,0.0,0.0,0.0
25%,63.75,,2308040.0,2450341.75,1.39,2531.5,64.39,9.2,1.97,12.48,3.36,0.0,0.0,8000.0,2000.0,71000.0,12750.0
50%,120.5,,9031086.5,9195778.0,3.89,2833.0,81.59,16.41,6.48,20.69,7.43,6500.0,1000.0,44500.0,16000.0,255000.0,59500.0
75%,187.25,,27325041.25,29276370.5,7.02,3189.5,94.95,25.13,10.68,27.36,11.71,56750.0,24000.0,196000.0,73000.0,917500.0,327750.0


Controle du cas de la Chine (vu Etude PJ3)  
- Données FAO :  Le Code Pays "351" est une agrégation des Codes Pays (41, 96, 128, 214)

In [11]:
fao[fao['pays_fao'].str.contains("hine")]

Unnamed: 0,cpays_fao,pays_fao,pop_2010,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),qt_prot_via_(gr/p/j),qt_prot_vol_(gr/p/j),ratio_prot_viande,ratio_prot_volaille,qt_exp_via_(t),qt_exp_vol_(t),qt_imp_via_(t),qt_imp_vol_(t),qt_prod_via_(t),qt_prod_vol_(t)
35,41,"Chine, continentale",1359755102.0,1382793212.0,1.69,3108.0,98.02,19.52,4.26,19.91,4.35,901000.0,564000.0,2054000.0,584000.0,83462000.0,18265000.0
81,96,Chine - RAS de Hong-Kong,7025221.0,7148571.0,1.76,3290.0,129.18,49.55,19.58,38.36,15.16,1047000.0,806000.0,2023000.0,1186000.0,167000.0,28000.0
112,128,Chine - RAS de Macao,536969.0,575841.0,7.24,2915.0,94.84,35.84,12.04,37.79,12.7,0.0,0.0,56000.0,17000.0,13000.0,4000.0
191,214,"Chine, Taiwan Province de",23102406.0,23339858.0,1.03,2997.0,89.74,24.96,10.69,27.81,11.91,12000.0,7000.0,289000.0,116000.0,1538000.0,642000.0


Pas de soucis ici dans notre DataSet

<hr style="height: 3px; color: #839D2D; width: 100%; ">

###  <font color='#61210B'><u>Données Complémentaires - Echanges Commerciaux InterPays</u></font> : Dataframe 'wbdxch'
#### Détails des zones

ICI POSTULAT ENTREPRISE FRANCAISE

- <b>cpays_vnd :</b> Code Pays Vendeur   
- <b>pays_vnd :</b> Nom Pays Vendeur   
- <b>cpays_ach :</b> Code Pays Acheteur   
- <b>pays_ach :</b> Nom Pays Acheteur   
- <b>live_poultry_tr_value :</b> Valeur Marchande de Volaille vivante (US Dollars) Année 2013   
- <b>poultry_meat_tr_value :</b> Valeur Marchande de Viande de Volaille (US Dollars) Année 2013   
- <b>tot_poultry_tr_value :</b> Valeur Marchande de Totale de Volaille (US Dollars) Année 2013   
- <b>cpays_fao :</b> Code Pays FAO   
- <b>cpays_wbd :</b> Code Pays WBD   


In [12]:
wbdxch.head()

Unnamed: 0,cpays_vnd,pays_vnd,cpays_ach,pays_ach,live_poultry_tr_value,poultry_meat_tr_value,tot_poultry_tr_value,cpays_fao,cpays_wbd
0,250,France,4,Afghanistan,0.0,0.0,0.0,2.0,AFG
1,250,France,8,Albania,11738.0,318497.0,330235.0,3.0,ALB
2,250,France,12,Algeria,0.0,0.0,0.0,4.0,DZA
3,250,France,24,Angola,0.0,1584588.0,1584588.0,7.0,AGO
4,250,France,28,Antigua and Barbuda,0.0,0.0,0.0,8.0,ATG


In [13]:
wbdxch.describe(include='all')

Unnamed: 0,cpays_vnd,pays_vnd,cpays_ach,pays_ach,live_poultry_tr_value,poultry_meat_tr_value,tot_poultry_tr_value,cpays_fao,cpays_wbd
count,188.0,188,188.0,188,188.0,188.0,188.0,187.0,187
unique,,1,,188,,,,,187
top,,France,,Poland,,,,,HND
freq,,188,,1,,,,,1
mean,250.0,,426.38,,266024.82,3802083.06,4068107.88,127.43,
std,0.0,,258.15,,819045.19,23869973.43,24044539.85,75.4,
min,250.0,,4.0,,0.0,0.0,0.0,1.0,
25%,250.0,,195.0,,0.0,0.0,0.0,58.5,
50%,250.0,,424.0,,0.0,0.0,0.0,126.0,
75%,250.0,,649.25,,39608.0,89570.0,399787.75,193.5,


In [14]:
# On ne conserve que les données pour les code_pays de la FAO
wbdxch = wbdxch.dropna(subset=['cpays_fao'])

<hr style="height: 3px; color: #839D2D; width: 100%; ">

###  <font color='#61210B'><u>Données Complémentaires - Macro Economiques</u></font> : Dataframe 'wbdeco'
#### Détails des zones

- <b>cpays_wbd :</b> Code Pays (WBD)   
- <b>pays_wbd :</b> Nom Pays (WBD)   
- <b>PIB_h_2013($US) :</b> PIB / habitant année 2013 (en US Dollars)   
- <b>evo_PIB_h_(%annu)_2013 :</b> Evolution / Croissance du PIB en 2013 (%)   


In [15]:
wbdeco.head()

Unnamed: 0,cpays_wbd,pays_wbd,PIB_h_2013($US),evo_PIB_h_(%annu)_2013
0,AFG,Afghanistan,647.97,2.16
1,ZAF,Afrique du Sud,6819.06,1.02
2,ALB,Albanie,4413.08,1.19
3,DZA,Algérie,5471.12,0.7
4,DEU,Allemagne,46530.91,0.22


In [16]:
wbdeco.describe(include='all')

Unnamed: 0,cpays_wbd,pays_wbd,PIB_h_2013($US),evo_PIB_h_(%annu)_2013
count,264,264,250.0,248.0
unique,264,264,,
top,HUN,République tchèque,,
freq,1,1,,
mean,,,16263.57,1.93
std,,,24735.6,4.67
min,,,255.37,-36.83
25%,,,1963.83,0.35
50%,,,6590.17,2.08
75%,,,17864.01,3.72


In [17]:
# Choix : On ne conserve que les pays contenant des Informations PIB renseignées dans les deux colonnes
wbdeco = wbdeco.dropna()

<hr style="height: 3px; color: #839D2D; width: 100%; ">

###  <font color='#61210B'><u>Constitution du jeu de données Consolidé pour Analyse</u></font> : Dataframe 'gen'
#### Détails des zones

<u>A partir du Dataframe "fao" </u> :
- <b>pays_fao :</b> Nom Pays FAO   
- <b>evo_2010_2013 :</b> (%) Evolution population entre 2010 & 2013   
- <b>qt_disp_(kcal/p/j) :</b> Quantité dispo alimentaire totale pays (en Kcal/pers/jour)   
- <b>qt_disp_prot_(gr/p/j) :</b> Quantité dispo alim. protéines totale pays (en Grammes/pers/jour)   
- <b>ratio_prot_viande :</b> Ratio Qté Proteines Viande (volaille incluse) / Qté Proteines Totale du Pays   


<u>A partir du Dataframe "xch" </u> :
- <b>tot_poultry_tr_value :</b> Valeur Marchande de Totale de Volaille (US Dollars) Année 2013   

<u>A partir du Dataframe "eco" </u> :
- <b>PIB_h_2013($US) :</b> PIB / habitant année 2013 (en US Dollars)   

<u>Zone Calculée</u> :
- <b>qt_vol_(kg/h/an) :</b> Quantité Volailles Disponible (en Kg/Hab/An)   
Formule -->   qt_vol_(kg/h/an) = [qt_prod_vol_(t) + qt_imp_vol_(t) - qt_exp_vol_(t)] / pop_2013

qt_exp_vol_(t) : Quantité Export volaille pays (en tonnes/an)  
qt_imp_vol_(t) : Quantité Import volaille pays (en tonnes/an)  
qt_prod_vol_(t) : Quantité Production volaille pays (en tonnes/an)  

In [18]:
gen = fao[['cpays_fao', 'pays_fao', 'pop_2013', 'evo_2010_2013', 'qt_disp_(kcal/p/j)', 'qt_disp_prot_(gr/p/j)', 
           'ratio_prot_viande', 'qt_prod_vol_(t)', 'qt_imp_vol_(t)', 'qt_exp_vol_(t)']].copy()
# On remplace les Nan par O pour les colonnes qt_prod, qt_imp, qt_exp, car il faut conserver ces lignes
gen = gen.fillna(0)
# Création de la nouvelle colonne
gen['qt_vol_(kg/h/an)'] = (gen['qt_prod_vol_(t)'] + gen['qt_imp_vol_(t)'] - gen ['qt_exp_vol_(t)'])*1000 / gen['pop_2013']
# Suppression des colonnes inutiles (pop et qté utilisées pour le calcul)
gen.drop(columns=['qt_prod_vol_(t)', 'qt_imp_vol_(t)', 'qt_exp_vol_(t)'], inplace=True)
# Renommage des Colonnes
gen.head()

Unnamed: 0,cpays_fao,pays_fao,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),ratio_prot_viande,qt_vol_(kg/h/an)
0,1,Armenie,2893509.0,0.56,2928.0,90.04,17.91,13.82
1,2,Afghanistan,31731688.0,10.17,2090.0,58.25,8.33,2.33
2,3,Albanie,2918978.0,-0.73,3193.0,111.42,20.39,14.39
3,4,Algerie,38338562.0,6.15,3296.0,91.96,8.16,7.59
6,7,Angola,25998340.0,11.25,2473.0,57.26,21.73,14.31


In [19]:
# Jointure Table Pays pour Recupérer le code pays wbd dans la table de transco
temp = pd.merge(gen,pays[['cpays_fao','cpays_wbd']], on='cpays_fao', how='left')
# Jointure Table eco pour Recupérer les données PIB des pays en 2013
temp = pd.merge(temp,wbdeco[['cpays_wbd','PIB_h_2013($US)']], on='cpays_wbd', how='left')
# Jointure Table echange pour Recupérer les données valeurs de volailles echangees avec la france en 2013
temp = pd.merge(temp,wbdxch[['cpays_wbd', 'tot_poultry_tr_value']], on='cpays_wbd', how='left')
temp.head()

Unnamed: 0,cpays_fao,pays_fao,pop_2013,evo_2010_2013,qt_disp_(kcal/p/j),qt_disp_prot_(gr/p/j),ratio_prot_viande,qt_vol_(kg/h/an),cpays_wbd,PIB_h_2013($US),tot_poultry_tr_value
0,1,Armenie,2893509.0,0.56,2928.0,90.04,17.91,13.82,ARM,3843.59,4538.0
1,2,Afghanistan,31731688.0,10.17,2090.0,58.25,8.33,2.33,AFG,647.97,0.0
2,3,Albanie,2918978.0,-0.73,3193.0,111.42,20.39,14.39,ALB,4413.08,330235.0
3,4,Algerie,38338562.0,6.15,3296.0,91.96,8.16,7.59,DZA,5471.12,0.0
4,7,Angola,25998340.0,11.25,2473.0,57.26,21.73,14.31,AGO,5258.41,1584588.0


In [20]:
gen = temp.copy()
# On supprime les colonnes inutiles et on renomme les autres pour faire plus synthétique / propre
gen.drop(columns=['cpays_fao', 'cpays_wbd'], inplace=True)
gen.columns = ['pays', 'population', 'evo_pop_%', 'qt_kcal/h', 'qt_prot_gr/h', 'ratio_prot_viande_%', 'qt_volaille_Kg/h', 
               'PIBh_$', 'tot_poultry_exch_$']
gen.head()

Unnamed: 0,pays,population,evo_pop_%,qt_kcal/h,qt_prot_gr/h,ratio_prot_viande_%,qt_volaille_Kg/h,PIBh_$,tot_poultry_exch_$
0,Armenie,2893509.0,0.56,2928.0,90.04,17.91,13.82,3843.59,4538.0
1,Afghanistan,31731688.0,10.17,2090.0,58.25,8.33,2.33,647.97,0.0
2,Albanie,2918978.0,-0.73,3193.0,111.42,20.39,14.39,4413.08,330235.0
3,Algerie,38338562.0,6.15,3296.0,91.96,8.16,7.59,5471.12,0.0
4,Angola,25998340.0,11.25,2473.0,57.26,21.73,14.31,5258.41,1584588.0


In [21]:
# On conserve les lignes données nan our live_poultry et poultry_meat car ce ne sont pas des erreurs  (on force à = 0 )
gen['tot_poultry_exch_$'] = gen['tot_poultry_exch_$'].fillna(0)

# On peut supprimer de notre analyse les pays n'ayant pas d'informations de PIB
gen = gen.dropna(subset=['PIBh_$'])
gen.describe(include='all')

Unnamed: 0,pays,population,evo_pop_%,qt_kcal/h,qt_prot_gr/h,ratio_prot_viande_%,qt_volaille_Kg/h,PIBh_$,tot_poultry_exch_$
count,169,169.0,169.0,169.0,169.0,169.0,169.0,169.0,169.0
unique,169,,,,,,,,
top,Namibie,,,,,,,,
freq,1,,,,,,,,
mean,,41396730.06,4.44,2853.47,81.44,20.21,22.19,14918.37,4390682.83
std,,148796597.33,4.31,440.15,20.1,9.43,18.79,21011.93,25339643.29
min,,53169.0,-4.39,1879.0,37.66,2.19,0.38,332.92,0.0
25%,,2869107.0,1.39,2529.0,64.38,12.61,6.39,1871.33,0.0
50%,,9385293.0,3.91,2830.0,81.58,20.68,19.06,6168.39,0.0
75%,,29944476.0,7.02,3228.0,94.99,27.12,30.07,16326.91,393266.0


In [22]:
# On supprime aussi la France de notre Jeu de données car nous partons du postulat "entreprise Française"
gen.drop(gen[gen.pays == 'France'].index, inplace=True)

<hr style="height: 3px; color: #839D2D; width: 100%; ">

###  <font color='#61210B'><u>Export du Dataframe Consolidé</u></font> : Dataframe 'gen'
#### Dans un fichier csv - Pour analyse

In [23]:
gen.to_csv('DATA/selection_pays.csv', sep=',', encoding='utf-8', index=False)

In [24]:
dureetotale = round(time.time() - trt_start_time, 5)
print("--- Durée TOTALE du Notebook PJ5 -1- Load&Clean --- ", "%s seconds" % dureetotale)

--- Durée TOTALE du Notebook PJ5 -1- Load&Clean ---  1.0113 seconds
