# Produisez une étude de marché

## Contexte

Spécialisée dans le poulet, une entreprise d'agroalimentaire souhaite se développer à l'international. Tous les pays sont envisageables. 

 - **Objectif** : cibler plus particulièrement certains pays, dans le but d'approfondir ensuite l'étude de marché. Plus particulièrement, l'idéal serait de produire des "groupes" de pays, plus ou moins gros, dont on connaît les caractéristiques.

Dans un premier temps, la stratégie est plutôt d'exporter les produits plutôt que de produire sur place, c'est-à-dire dans le(s) nouveau(x) pays ciblé(s).


# Sommaire

 - [Importation des librairies et définition des constantes ](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Importation-des-librairies-et-d%C3%A9finition-des-constantes)
 - [Importation des fichiers du site de la FAO](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Importation-des-fichiers-du-site-de-la-FAO-(http://www.fao.org/faostat/fr/#data/FBSH)
 - [Fichier population](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Fichier-population)
     - [Nettoyage (Soudan, Serbie, Monténégro, Antilles néerlandaises)](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Nettoyage-(suppression-de-la-Chine,-valeurs-null,-doublons...)
     - [Calcul de la différence de population entre 2003 et 2013, exprimée en pourcentage](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Calcul-de-la-diff%C3%A9rence-de-population-entre-2003-et-2013,-exprim%C3%A9e-en-pourcentage)
 - [Fichier des données des disponibilités alimentaires](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Fichier-des-donn%C3%A9es-disponibilit%C3%A9-alimentaire-en-2013)
     - [Nettoyage des données](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Nettoyage-de-donn%C3%A9es)
     - [Calcul des disponibilités totales par pays et par habitant(kcal et g de protéïne)](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Calcul-des-disponibilit%C3%A9s-totales-des-pays-par-habitant-(kcal-et-g-de-prot%C3%A9%C3%AFne)
 - [Fichier disponibilité alimentaire animale](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Fichier-disponibilit%C3%A9-alimentaire-animale)
     - [Nettoyage des données](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Fichier-disponibilit%C3%A9-alimentaire-animale)
     - [Calcul des disponibilités alimentaires animales](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Fichier-disponibilit%C3%A9-alimentaire-animale)
 - [Calcul des proportions de protéïne animale par rapport à la quantité totale de protéïne dans la disponibilité alimentaire du pays](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Proportion-de-prot%C3%A9ines-d'origine-animale-par-rapport-%C3%A0-la-quantit%C3%A9-totale-de-prot%C3%A9ines-dans-la-disponibilit%C3%A9-alimentaire-du-pays)
 - [Echantillon contenant l'ensemble des pays disponibles, chacun caractérisé par ces variables](http://localhost:8888/notebooks/Documents/1produisez_etude_de_marche/P5_donnees.ipynb#Cr%C3%A9ation-du-dataframe-contenant-les-quatre-variables)
 - [Données pour effectuer une analyse plus fine lors de l'ACP](http://localhost:8888/notebooks/Documents/P5_etude_marche/P5_donnees.ipynb#Donn%C3%A9es-utilis%C3%A9es-pour-effectuer-une-analyse-plus-fine-lors-de-l'ACP)
 
     
     
     


### Importation des librairies et définition des constantes

In [2]:
# importation des librairies
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind

In [3]:
ENCODAGE = 'UTF-8'

In [4]:
UNITE_VALEUR_POP = 1000

### Importation des fichiers du site de la FAO (http://www.fao.org/faostat/fr/#data/FBSH)

Choix des années 2013 et 2003 car les données appartiennent aux Bilans Alimentaires (Ancienne méthodologie et population)

In [5]:
# importation des données population 2003 - 2013
df_population_fao = pd.read_csv('FAOSTAT_population_2013_2003.csv', encoding=ENCODAGE)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,511,Population totale,2501,Population,2003,2003,1000 personnes,23116,,Donnée officielle
1,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,2,Afghanistan,511,Population totale,2501,Population,2013,2013,1000 personnes,30552,,Donnée officielle
2,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,202,Afrique du Sud,511,Population totale,2501,Population,2003,2003,1000 personnes,46869,,Donnée officielle
3,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,202,Afrique du Sud,511,Population totale,2501,Population,2013,2013,1000 personnes,52776,,Donnée officielle
4,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,3,Albanie,511,Population totale,2501,Population,2003,2003,1000 personnes,3239,,Donnée officielle
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
345,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,249,Yémen,511,Population totale,2501,Population,2013,2013,1000 personnes,24407,,Donnée officielle
346,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,251,Zambie,511,Population totale,2501,Population,2003,2003,1000 personnes,10895,,Donnée officielle
347,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,251,Zambie,511,Population totale,2501,Population,2013,2013,1000 personnes,14539,,Donnée officielle
348,FBSH,Bilans Alimentaire (Ancienne méthodologie et p...,181,Zimbabwe,511,Population totale,2501,Population,2003,2003,1000 personnes,12673,,Donnée officielle


In [5]:
# importation des données disponibilité alimentaire en 2013 
df_dispo_fao = pd.read_csv('FAOSTAT_disponibilite_alimentaire_2013.csv', encoding=ENCODAGE)

In [6]:
# importation des données disponibilité alimentaire animale en 2013 
df_dispoAni_fao = pd.read_csv('FAOSTAT_disponibilite_animale_2013.csv', encoding=ENCODAGE)

### Fichier population

#### Nettoyage (suppression de la Chine, valeurs null, doublons...)

In [7]:
# On ne récupère que les colonnes qui nous interressent
df_population_fao = df_population_fao.loc[:,['Code zone','Zone', 'Code année','Année','Unité','Valeur']]

In [8]:
df_population_fao.shape

(350, 6)

In [9]:
df_pop = df_population_fao.copy()

Suppression de la Chine car conservation des terrictoires indépendants pour avoir des données plus fines

In [10]:
df_pop[df_pop['Code zone'] == 351]

Unnamed: 0,Code zone,Zone,Code année,Année,Unité,Valeur
67,351,Chine,2003,2003,1000 personnes,1332606
68,351,Chine,2013,2013,1000 personnes,1416667


In [11]:
# Suppression de la Chine dans df_population car doublon avec les terrictoires indépendants
df_pop.drop(df_pop[df_pop['Code zone'] == 351].index, inplace=True)

In [12]:
df_pop.shape

(348, 6)

- Analyse de données

In [13]:
df_pop.describe()

Unnamed: 0,Code zone,Code année,Année,Valeur
count,348.0,348.0,348.0,348.0
mean,124.632184,2008.0,2008.0,38036.88
std,72.218587,5.007199,5.007199,139032.4
min,1.0,2003.0,2003.0,48.0
25%,63.0,2003.0,2003.0,2245.0
50%,120.5,2008.0,2008.0,8969.0
75%,185.25,2013.0,2013.0,25614.75
max,276.0,2013.0,2013.0,1385567.0


In [14]:
df_pop.dtypes

Code zone      int64
Zone          object
Code année     int64
Année          int64
Unité         object
Valeur         int64
dtype: object

In [15]:
# pas de valeurs null 
df_pop.isnull().sum()

Code zone     0
Zone          0
Code année    0
Année         0
Unité         0
Valeur        0
dtype: int64

In [16]:
# pas de doublons
df_pop.duplicated().sum()

0

In [17]:
# création d'une colonne 'population'
df_pop['population']= df_pop['Valeur'] * UNITE_VALEUR_POP

In [18]:
df_popu = df_pop.loc[:,['Code zone','Zone', 'Année', 'population']]

In [19]:
df_popu.head(2)

Unnamed: 0,Code zone,Zone,Année,population
0,2,Afghanistan,2003,23116000
1,2,Afghanistan,2013,30552000


In [20]:
df_popu[df_popu['Zone']== 'Monténégro']

Unnamed: 0,Code zone,Zone,Année,population
219,273,Monténégro,2013,621000


In [21]:
df_popu[df_popu['Code zone']== 273]

Unnamed: 0,Code zone,Zone,Année,population
219,273,Monténégro,2013,621000


#### Modification des données "Serbie" et "Monténégro" : séparation des 2 en 2003.
Imputation par ratio des données "Serbie-et-Monténégro" de 2003 pour avoir une population estimée pour chacun des 2 terrictoires.

In [22]:
#  ratio de la population de Serbie(272) et de la population du Monténégro(273)(en fonction des données de 2013)
ratio_SerbieMotenegro = df_popu[df_popu['Code zone']== 272]['population'].values[0] / df_popu[df_popu['Code zone']== 273]['population'].values[0]
ratio_SerbieMotenegro

15.31561996779388

La population de Serbie est ~ 15 fois supérieure à celle du Monténégro.

In [23]:
# population totale en 2003 Serbie_Monténégro confondues
pop_SerbieMontengro = df_popu[df_popu['Code zone']== 186]['population'].values[0]
pop_SerbieMontengro

10584000

In [24]:
# Population estimée de Monténégro en 2003
pop_Montenegro = pop_SerbieMontengro / (ratio_SerbieMotenegro + 1)
pop_Montenegro

648703.5136202133

In [25]:
# Population estimée de Serbie en 2003
df_popSerbie = pop_Montenegro * ratio_SerbieMotenegro
df_popSerbie

9935296.486379787

Mise à jour des données de 2003 pour la Serbie et le Monténégro

In [26]:
# Modification du code zone et de l'appelation de Serbie-et-Monténégro dans le dataframe
df_popu = df_popu.replace(to_replace =[186, "Serbie-et-Monténégro", 10584000], 
                            value = [273, "Monténégro", int(pop_Montenegro)])

In [27]:
# Vérification
df_popu[df_popu['Zone']== 'Monténégro']

Unnamed: 0,Code zone,Zone,Année,population
219,273,Monténégro,2013,621000
297,273,Monténégro,2003,648703


In [28]:
# Ajout des données 2003 de Serbie implémentées dans le dataframe
df_popu = df_popu.append({'Code zone' : 272 , 'Zone' : 'Serbie', 'Année' : 2003,'population':int(df_popSerbie)} , ignore_index=True)

In [29]:
# Vérification
df_popu[df_popu['Zone']== 'Serbie']

Unnamed: 0,Code zone,Zone,Année,population
294,272,Serbie,2013,9511000
348,272,Serbie,2003,9935296


#### Modification des données de "Soudan (ex)" en "Soudan"

In [30]:
# Modification du code zone et de l'appelation du Soudan
df_popu = df_popu.replace(to_replace =[int(206) , "Soudan (ex)"], 
                            value = [int(276) , "Soudan"])

In [31]:
df_popu[df_popu['Zone']== 'Soudan']

Unnamed: 0,Code zone,Zone,Année,population
302,276,Soudan,2013,37964000
303,276,Soudan,2003,36643000


#### Pas de données pour les Antilles néerlandaises (ex) en 2013. En effet, en 2010, les Antilles néerlandaises sont devenues des territoires insulaires. Compte tenu de la faible population, je supprime ces données.	

In [32]:
# Suppression des données relatives aux Antilles néerlandaises
df_popu = df_popu.drop(index=14, axis=0)

In [33]:
#  pivot_table sur df_population pour avoir les années en colonnes
df_pop = pd.pivot_table(df_popu, values='population', index=['Code zone', 'Zone'],
                        columns='Année', aggfunc=sum).reset_index()
df_pop.head(2)

Année,Code zone,Zone,2003,2013
0,1,Arménie,3036000,2977000
1,2,Afghanistan,23116000,30552000


In [34]:
df_pop.dtypes

Année
Code zone     int64
Zone         object
2003          int64
2013          int64
dtype: object

In [35]:
df_pop.isnull().sum()

Année
Code zone    0
Zone         0
2003         0
2013         0
dtype: int64

In [36]:
df_popu = df_pop.rename(columns={"Code zone" : "code_pays", "Zone":"pays",
                                 2003 : "pop_2003", 2013 : "pop_2013"})

In [37]:
df_popu.shape

(174, 4)

In [38]:
df_popu.head(2)

Année,code_pays,pays,pop_2003,pop_2013
0,1,Arménie,3036000,2977000
1,2,Afghanistan,23116000,30552000


#### Test de Student pour voir s'il il y a une différences significative entre les données des 2 années
- H0 : les 2 populations ont la même moyenne
- H1 : les moyennes sont différentes
- seuil de 5%

In [39]:
pop_ancienne = df_popu.loc[:,['pop_2003', 'pays']] 
pop_ancienne.shape

(174, 2)

In [40]:
pop_recente = df_popu.loc[:,['pop_2013', 'pays']]
pop_recente.shape

(174, 2)

In [41]:
stat, p =  ttest_ind(pop_ancienne['pop_2003'].dropna(), pop_recente['pop_2013'].dropna(),equal_var=False)

In [42]:
p

0.7705620488808707

T test "manuel"

In [43]:
xa = pop_ancienne['pop_2003'].mean()
na = pop_ancienne['pop_2003'].shape[0]
# écart type estimé
stda = pop_ancienne['pop_2003'].std()

In [44]:
xb = pop_recente['pop_2013'].mean()
nb = pop_recente['pop_2013'].shape[0]
stdb = pop_recente['pop_2013'].std()

In [45]:
# T Test => voir table T Test => ddl grd => 1.96 => pas significatif
(xb - xa)/(np.sqrt(stda**2 / na + stdb**2 / nb))

0.29187057409588996

In [46]:
# 1.96 intervalle de confiance
1.96 * (np.sqrt(stda**2 / na + stdb**2 / nb))

29254030.976952523

In [47]:
(np.sqrt(stda**2 / na + stdb**2 / nb))

14925526.008649247

In [48]:
xb - xa

4356321.844827592

#### Calcul de la différence de population entre 2003 et 2013, exprimée en pourcentage

In [49]:
# Création d'une colonne contenant la différence de population entre 2003 et 2013 exprimée en pourcentage
df_popu['diff_pop_pourcent'] = (df_popu.pop_2013 - df_popu.pop_2003)* 100 / df_popu.pop_2003                         

In [50]:
df_popu.head(2)

Année,code_pays,pays,pop_2003,pop_2013,diff_pop_pourcent
0,1,Arménie,3036000,2977000,-1.943347
1,2,Afghanistan,23116000,30552000,32.168195


In [51]:
# Récupération des colonnes intéressantes
df_population = df_popu.loc[:, ["code_pays", "pays", "diff_pop_pourcent"]]
df_population.head(2)

Année,code_pays,pays,diff_pop_pourcent
0,1,Arménie,-1.943347
1,2,Afghanistan,32.168195


### Calcul de la quantité totale de protéines dans la disponibilité alimentaire du pays 

### Fichier des données disponibilité alimentaire en 2013

In [52]:
# Récupération des colonnes intéressantes
df_dispo = df_dispo_fao.loc[:, ['Code zone', 'Zone', 'Élément', 'Valeur']]

In [53]:
# Suppression de la Chine dans df_population car doublon avec les terrictoires indépendants
df_pop.drop(df_pop[df_pop['Code zone'] == 351].index, inplace=True)

In [54]:
df_dispo.shape

(25974, 4)

In [55]:
df_dispo.head(2)

Unnamed: 0,Code zone,Zone,Élément,Valeur
0,2,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),1369.0
1,2,Afghanistan,Disponibilité de protéines en quantité (g/pers...,36.91


#### Nettoyage de données

In [56]:
df_dispo.dtypes

Code zone      int64
Zone          object
Élément       object
Valeur       float64
dtype: object

In [57]:
# Recherche des valeurs null
df_dispo.isnull().sum()

Code zone    0
Zone         0
Élément      0
Valeur       0
dtype: int64

In [58]:
# Recherche de doublons
df_dispo.duplicated().sum()

13371

#### Calcul des disponibilités totales des pays par habitant (kcal et g de protéïne)

In [59]:
# pivot_table pour avoir les disponibilités en colonne
df_dispoPv = pd.pivot_table(df_dispo, values='Valeur', index=['Code zone', 'Zone'],
                           columns='Élément', aggfunc=sum)

In [60]:
df_dispoPv = df_dispoPv.reset_index()

In [61]:
df_dispoPv.head(2)

Élément,Code zone,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour)
0,1,Arménie,2924.0,90.06
1,2,Afghanistan,2087.0,58.26


In [62]:
df_dispoPv.isnull().sum()

Élément
Code zone                                                   0
Zone                                                        0
Disponibilité alimentaire (Kcal/personne/jour)              0
Disponibilité de protéines en quantité (g/personne/jour)    0
dtype: int64

- Nommage des colonnes

In [63]:
# Nommage des colonnes
df_dispoPays = df_dispoPv.rename(columns={"Code zone" : "code_pays", "Zone":"pays",
                                 'Disponibilité alimentaire (Kcal/personne/jour)' : 'dispo_alim_T_kcal_hab_jr',
                                          'Disponibilité de protéines en quantité (g/personne/jour)' : 'dispo_proteine_T_g_hab_jr'})

In [64]:
df_dispoPays = df_dispoPays.reset_index()

In [65]:
df_dispoPays.head(2)

Élément,index,code_pays,pays,dispo_alim_T_kcal_hab_jr,dispo_proteine_T_g_hab_jr
0,0,1,Arménie,2924.0,90.06
1,1,2,Afghanistan,2087.0,58.26


In [66]:
df_dispoPays.shape

(175, 5)

### Proportion de protéines d'origine animale

### Fichier disponibilité alimentaire animale

In [67]:
# Récupération des colonnes intéressantes
df_dispoAni = df_dispoAni_fao.loc[:, ['Code zone', 'Zone', 'Élément', 'Valeur']]
df_dispoAni

Unnamed: 0,Code zone,Zone,Élément,Valeur
0,2,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),27.00
1,2,Afghanistan,Disponibilité de protéines en quantité (g/pers...,1.89
2,2,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),31.00
3,2,Afghanistan,Disponibilité de protéines en quantité (g/pers...,1.91
4,2,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),9.00
...,...,...,...,...
7418,181,Zimbabwe,Disponibilité de protéines en quantité (g/pers...,0.00
7419,181,Zimbabwe,Disponibilité alimentaire (Kcal/personne/jour),0.00
7420,181,Zimbabwe,Disponibilité de protéines en quantité (g/pers...,0.00
7421,181,Zimbabwe,Disponibilité alimentaire (Kcal/personne/jour),0.00


#### Nettoyage des données

In [68]:
# Suppression de la Chine dans df_population car doublon avec les terrictoires indépendants
df_dispoAni.drop(df_dispoAni[df_dispoAni['Code zone'] == 351].index, inplace=True)

In [69]:
df_dispoAni.shape

(7379, 4)

In [70]:
df_dispoAni.dtypes

Code zone      int64
Zone          object
Élément       object
Valeur       float64
dtype: object

In [71]:
# Recherche des valeurs null
df_dispoAni.isnull().sum()

Code zone    0
Zone         0
Élément      0
Valeur       0
dtype: int64

In [72]:
# Recherche de doublons
df_dispoAni.duplicated().sum()

2447

#### Calcul des disponibilités alimentaires animales

In [73]:
# pivot_table pour avoir les disponibilités en colonne
df_dispoAniPv = pd.pivot_table(df_dispoAni, values='Valeur', index=['Code zone', 'Zone'],
                           columns='Élément', aggfunc=sum)

In [74]:
df_dispoAniPv.head(2)

Unnamed: 0_level_0,Élément,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour)
Code zone,Zone,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Arménie,784.0,43.24
2,Afghanistan,216.0,12.21


In [75]:
df_dispoAniPv = df_dispoAniPv.reset_index()

In [76]:
df_dispoAniPv.isnull().sum()

Élément
Code zone                                                   0
Zone                                                        0
Disponibilité alimentaire (Kcal/personne/jour)              0
Disponibilité de protéines en quantité (g/personne/jour)    0
dtype: int64

In [77]:
# Nommage des colonnes
df_dispoAni = df_dispoAniPv.rename(columns={"Code zone" : "code_pays", "Zone":"pays",
                                 'Disponibilité alimentaire (Kcal/personne/jour)' : 'dispo_ani_kcal_hab_jr',
                                          'Disponibilité de protéines en quantité (g/personne/jour)' : 'dispo_proteine_ani_g_hab_jr'})

In [78]:
df_dispoAni.shape

(174, 4)

#### Proportion de protéines d'origine animale par rapport à la quantité totale de protéines dans la disponibilité alimentaire du pays

In [79]:
# Jointure de df_dispoPays avec df_dispoAni sur le nom du pays
df_sample_pays = pd.merge(df_dispoPays, df_dispoAni)

In [80]:
df_sample_pays.columns

Index(['index', 'code_pays', 'pays', 'dispo_alim_T_kcal_hab_jr',
       'dispo_proteine_T_g_hab_jr', 'dispo_ani_kcal_hab_jr',
       'dispo_proteine_ani_g_hab_jr'],
      dtype='object', name='Élément')

In [81]:
df_regime_alim_pays = df_sample_pays.loc[:,['code_pays', 'pays', 'dispo_alim_T_kcal_hab_jr',
       'dispo_proteine_T_g_hab_jr',       
       'dispo_proteine_ani_g_hab_jr']]

#### Création d'une colonne proportion de protéines d'origine animale par rapport à la quantité totale de protéines dans la disponibilité alimentaire du pays 

In [82]:
df_regime_alim_pays['ratio_prot_ani_dispo_proteine_T'] = df_regime_alim_pays['dispo_proteine_ani_g_hab_jr'] / df_regime_alim_pays['dispo_proteine_T_g_hab_jr']

In [83]:
df_regime_alim_pays.isnull().sum()

Élément
code_pays                          0
pays                               0
dispo_alim_T_kcal_hab_jr           0
dispo_proteine_T_g_hab_jr          0
dispo_proteine_ani_g_hab_jr        0
ratio_prot_ani_dispo_proteine_T    0
dtype: int64

In [84]:
df_regime_alim_pays.head(3)

Élément,code_pays,pays,dispo_alim_T_kcal_hab_jr,dispo_proteine_T_g_hab_jr,dispo_proteine_ani_g_hab_jr,ratio_prot_ani_dispo_proteine_T
0,1,Arménie,2924.0,90.06,43.24,0.480124
1,2,Afghanistan,2087.0,58.26,12.21,0.209578
2,3,Albanie,3188.0,111.37,59.41,0.533447


In [85]:
df_regime_alim_pays.shape

(174, 6)

In [86]:
df_population.shape

(174, 3)

### Création du dataframe contenant les quatre variables

Jointure avec df_population et df_regime_alim_pays

In [87]:
# jointure à droite pour récupérer des données 'entières'
df_pop_alim = pd.merge(df_population, df_regime_alim_pays, how = 'right')

In [88]:
df_pop_alim.head(5)

Unnamed: 0,code_pays,pays,diff_pop_pourcent,dispo_alim_T_kcal_hab_jr,dispo_proteine_T_g_hab_jr,dispo_proteine_ani_g_hab_jr,ratio_prot_ani_dispo_proteine_T
0,1,Arménie,-1.943347,2924.0,90.06,43.24,0.480124
1,2,Afghanistan,32.168195,2087.0,58.26,12.21,0.209578
2,3,Albanie,-2.037666,3188.0,111.37,59.41,0.533447
3,4,Algérie,18.801321,3293.0,91.92,24.98,0.271758
4,7,Angola,39.2387,2474.0,57.27,18.4,0.321285


In [89]:
# Suppression de la colonne 'dispo_proteine_ani_g_pr_hab_pr_jr'
df_pop_dispo_alim = df_pop_alim.drop('dispo_proteine_ani_g_hab_jr', axis=1)

In [90]:
df_pop_dispo_alim.shape

(174, 6)

In [91]:
df_pop_dispo_alim = df_pop_dispo_alim.drop('code_pays', axis=1)

In [92]:
# valeur null
df_pop_dispo_alim.isnull().sum()

pays                               0
diff_pop_pourcent                  0
dispo_alim_T_kcal_hab_jr           0
dispo_proteine_T_g_hab_jr          0
ratio_prot_ani_dispo_proteine_T    0
dtype: int64

In [93]:
# Echantillon
df_pop_dispo_alim.head(5)

Unnamed: 0,pays,diff_pop_pourcent,dispo_alim_T_kcal_hab_jr,dispo_proteine_T_g_hab_jr,ratio_prot_ani_dispo_proteine_T
0,Arménie,-1.943347,2924.0,90.06,0.480124
1,Afghanistan,32.168195,2087.0,58.26,0.209578
2,Albanie,-2.037666,3188.0,111.37,0.533447
3,Algérie,18.801321,3293.0,91.92,0.271758
4,Angola,39.2387,2474.0,57.27,0.321285


In [94]:
df_pop_dispo_alim.shape

(174, 5)

### Export du dataframe

In [95]:
# Export en csv
df_pop_dispo_alim.to_csv("df_pop_dispo_alim.csv", index = False)

### Données supplémentaires pour effectuer une analyse plus fine lors de l'ACP (variable illustrative)

#### PIB 2013 : http://www.fao.org/faostat/fr/#data/FS

In [96]:
# Importation et lecture des données PIB par habitant
# usecols= ['Zone', 'Valeur']
df_pib_fao = pd.read_csv('FAOSTAT_PIB_2013.csv', encoding= ENCODAGE, usecols= ['Zone', 'Valeur'])

In [97]:
df_pib_fao.head(2)

Unnamed: 0,Zone,Valeur
0,Afghanistan,2264.3
1,Afrique du Sud,12852.3


In [98]:
# Vérification que les Émirats arabes unis ne sont pas dans les données
df_pib_fao[df_pib_fao['Valeur']=='Émirats arabes unis']

Unnamed: 0,Zone,Valeur


In [99]:
df_pib_fao.shape

(185, 2)

In [100]:
df_pib_fao.describe()

Unnamed: 0,Valeur
count,185.0
mean,19455.30973
std,21921.375945
min,824.9
25%,4028.4
50%,11724.0
75%,26485.6
max,161939.0


In [101]:
df_pib_fao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 185 entries, 0 to 184
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Zone    185 non-null    object 
 1   Valeur  185 non-null    float64
dtypes: float64(1), object(1)
memory usage: 3.0+ KB


In [102]:
# Recherche des valeurs null
df_pib_fao.isnull().sum()

Zone      0
Valeur    0
dtype: int64

In [103]:
# Nommage des colonnes
df_pib = df_pib_fao.rename(columns={"Zone":"pays", "Valeur":"PIB_hab_dollars"})                              

In [104]:
df_pib.head(2)

Unnamed: 0,pays,PIB_hab_dollars
0,Afghanistan,2264.3
1,Afrique du Sud,12852.3


In [105]:
df_population.shape

(174, 3)

In [106]:
df_pib.shape

(185, 2)

In [107]:
# Fusion avec df_population afin de voir les pays qui n'ont pas de pib renseignés
df_pib_2013f = pd.merge(df_population,df_pib, on='pays', how='left')

In [108]:
#  Suppression des Émirats arabes unis du dataframe
df_pib_2013f = df_pib_2013f.drop(df_pib_2013f[df_pib_2013f['pays']=='Émirats arabes unis'].index)

In [109]:
# Vérification de la suppression des Émirats arabes unis du dataframe
df_pib_2013f[df_pib_2013f['pays']=='Émirats arabes unis']

Unnamed: 0,code_pays,pays,diff_pop_pourcent,PIB_hab_dollars


In [110]:
df_pib_2013f.isnull().sum()

code_pays            0
pays                 0
diff_pop_pourcent    0
PIB_hab_dollars      8
dtype: int64

In [111]:
df_pib_2013f.shape

(173, 4)

In [112]:
#  Aucune données PIB sur ces pays
pays_sans_pib = df_pib_2013f[df_pib_2013f.PIB_hab_dollars.isnull()]
pays_sans_pib

Unnamed: 0,code_pays,pays,diff_pop_pourcent,PIB_hab_dollars
12,17,Bermudes,1.5625,
32,49,Cuba,0.177841,
47,70,Polynésie française,11.24498,
82,116,République populaire démocratique de Corée,6.166574,
108,153,Nouvelle-Calédonie,15.837104,
147,214,"Chine, Taiwan Province de",3.975399,
163,236,Venezuela (République bolivarienne du),17.862542,
167,249,Yémen,27.912583,


In [113]:
# remplacement des valeurs nulles par la moyenne de la variable PIB
df_pib_2013f = df_pib_2013f.fillna(df_pib_2013f.mean())

In [114]:
pays_sans_pib.shape

(8, 4)

In [115]:
# vérification qu'il n'y ait plus de NaN
df_pib_2013f.isnull().sum()

code_pays            0
pays                 0
diff_pop_pourcent    0
PIB_hab_dollars      0
dtype: int64

In [116]:
df_pib_2013f.shape

(173, 4)

In [117]:
df_pib_2013 = df_pib_2013f[['pays', 'PIB_hab_dollars']]

In [118]:
df_pib_2013[df_pib_2013['pays']=='Émirats arabes unis']

Unnamed: 0,pays,PIB_hab_dollars


In [119]:
# Export en csv
df_pib_2013.to_csv("df_pib_2013.csv", index = False)