# Produisez une étude de marché

# Scénario
Votre entreprise **d'agroalimentaire** souhaite se développer à l'international. Elle est spécialisée dans...
 le poulet !

L'international, oui, mais pour l'instant, le champ des possibles est bien large : aucun pays particulier ni aucun continent n'est pour le moment choisi. Tous les pays sont envisageables !

Votre objectif sera d'aider **à cibler plus particulièrement certains pays**, dans le but d'approfondir ensuite l'étude de marché. Plus particulièrement, l'idéal serait de produire des "groupes" de pays, plus ou moins gros, dont on connaît les caractéristiques.

Dans un premier temps, la stratégie est plutôt d'exporter les produits plutôt que de produire sur place, c'est-à-dire dans le(s) nouveau(x) pays ciblé(s).


Pour identifier les pays propices à une insertion dans le marché du poulet,
 Il vous a été demandé de cibler les pays. 
 Etudier les régimes alimentaires de chaque pays, notamment en termes de protéines d'origine animale et en termes de calories.


Construisez votre échantillon contenant l'ensemble des pays disponibles, chacun caractérisé par ces variables :

différence de population entre une année antérieure (au choix) et l'année courante, exprimée en pourcentage ;
proportion de protéines d'origine animale par rapport à la quantité totale de protéines dans la disponibilité alimentaire du pays ;
disponibilité alimentaire en protéines par habitant ;
disponibilité alimentaire en calories par habitant.

Construisez un dendrogramme contenant l'ensemble des pays étudiés, puis coupez-le afin d'obtenir 5 groupes.

Caractérisez chacun de ces groupes selon les variables cités précédemment, et facultativement selon d'autres variables que vous jugerez pertinentes (ex : le PIB par habitant). Vous pouvez le faire en calculant la position des centroïdes de chacun des groupes, puis en les commentant et en les critiquant au vu de vos objectifs.

Donnez une courte liste de pays à cibler, en présentant leurs caractéristiques. Un découpage plus précis qu'en 5 groupes peut si besoin être effectué pour cibler un nombre raisonnable de pays. 

Visualisez vos  partitions dans le premier plan factoriel obtenu par ACP.

Dans votre partition, vous avez obtenu des groupes distincts. Vérifiez donc qu'ils diffèrent réellement. Pour cela, réalisez les tests statistiques suivants :

un test d'adéquation : parmi les 4 variables, ou parmi d'autres variables que vous trouverez pertinentes, trouvez une variable dont la loi est normale ;
un test de comparaison de deux populations (dans le cas gaussien) : choisissez 2 clusters parmi ceux que vous aurez déterminé. Sur ces 2 clusters, testez la variable gaussienne grâce à un test de comparaison.

In [779]:
# Librairies
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import seaborn as sns
import sklearn as sk
import scipy as sp
import pca as pca






In [780]:
#Versions utilisées
print("Jupyter Notebook : " + str(pd.__version__))
print("Pandas : " + str(pd.__version__))
print("Numpy : " + str(np.__version__))
print("Seaborn : " + str(sns.__version__))

Jupyter Notebook : 1.2.4
Pandas : 1.2.4
Numpy : 1.20.1
Seaborn : 0.11.1


In [781]:
sns.set( # Styles Seaborn
    style='whitegrid',
    context='notebook',
    palette='Paired',
    rc={'figure.figsize':(8,5)})

In [782]:
# Couleurs
red_a400 = '#ff1744'
indigo_a100 = '#8c9eff'
indigo_a400 = '#3d5afe'
indigo_a700 = '#304ffe'
bluegrey_900 = '#263238'
teal_a400 = '#1de9b6'
purple_a400 = '#d500f9'
yellow_a400 = '#ffea00'
bluegrey_900 = '#263238'
palette_5 = [teal_a400, indigo_a400, red_a400, yellow_a400, purple_a400]

# 1. Import des données

## 1.1 Import et traitement de la population par pays
la variation de la population entre 2013 et 2019, en %, qui sera positive en cas de croissance ou négative en cas de baisse démographique ;

In [783]:
df_population = pd.read_csv('datas/FAOSTAT_data_2-16-2022 copie.csv' , header=0, sep=",", decimal=".")
df_population.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone (FAO),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2008,2008,1000 personnes,27722.276,X,Sources internationales sûres,
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2018,2018,1000 personnes,37171.921,X,Sources internationales sûres,


In [784]:
df_population = df_population[['Code zone (FAO)', 'Zone', 'Produit', 'Année', 'Valeur']]
df_population['Valeur'] = df_population['Valeur']/1000
df_population.head()

Unnamed: 0,Code zone (FAO),Zone,Produit,Année,Valeur
0,2,Afghanistan,Population-Estimations,2008,27.722276
1,2,Afghanistan,Population-Estimations,2018,37.171921
2,2,Afghanistan,Population-Estimations,2019,38.041754
3,202,Afrique du Sud,Population-Estimations,2008,49.779471
4,202,Afrique du Sud,Population-Estimations,2018,57.792518


In [785]:
df_population = df_population.pivot_table(index=['Code zone (FAO)', 'Zone'], columns='Année', values = 'Valeur', aggfunc = sum).reset_index()
df_population.head()

Année,Code zone (FAO),Zone,2008,2018,2019
0,1,Arménie,2.907618,2.951745,2.957731
1,2,Afghanistan,27.722276,37.171921,38.041754
2,3,Albanie,3.002678,2.88274,2.880917
3,4,Algérie,34.730608,42.228408,43.053054
4,5,Samoa américaines,0.057492,0.055465,0.055312


In [786]:
df_population['Evolution population '] = round((df_population[2018]/df_population[2008]),3)
df_population= df_population.rename(columns= {2018: 'population(M)', 'Code zone (FAO)': 'Code zone'})
df_population= df_population[['Code zone', 'Zone' , 'population(M)' ,'Evolution population ']]
df_population.head(2)

Année,Code zone,Zone,population(M),Evolution population
0,1,Arménie,2.951745,1.015
1,2,Afghanistan,37.171921,1.341


## 2.1 Données sur les bilans alimentaires mondiaux (2018)


le ratio entre la quantité de protéines d’origine animale et la quantité totale de protéines consommées ;


In [787]:
df_dispo_alimentaire = pd.read_csv('datas/FAOSTAT_data_2-16-2022 .csv', header=0, sep=",", decimal=".")
df_dispo_alimentaire.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires (2010-),2,Afghanistan,664,Disponibilité alimentaire (Kcal/personne/jour),2901,Total General,2018,2018,Kcal/personne/jour,2270.0,Fc,Donnée calculée
1,FBS,Bilans Alimentaires (2010-),2,Afghanistan,674,Disponibilité de protéines en quantité (g/pers...,2901,Total General,2018,2018,g/personne/jour,57.62,Fc,Donnée calculée


In [788]:
df_dispo_alimentaire = df_dispo_alimentaire.pivot_table(index=['Code zone', 'Zone', 'Année'],
                                columns=['Élément', 'Produit'],
                                values = 'Valeur',
                                aggfunc=sum).reset_index()
df_dispo_alimentaire.head(2)

Élément,Code zone,Zone,Année,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour)
Produit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Produits Animaux,Total General,Produits Animaux,Total General
0,1,Arménie,2018,832.0,3074.0,47.75,97.38
1,2,Afghanistan,2018,189.0,2270.0,10.69,57.62


In [789]:
# proportion de protéines d'origine animale par rapport à la quantité totale de protéines dans la disponibilité alimentaire du pays
df_dispo_alimentaire["ratio_proteines_animales"] = round((df_dispo_alimentaire[('Disponibilité de protéines en quantité (g/personne/jour)', 'Produits Animaux')]
                                                                         /df_dispo_alimentaire[('Disponibilité de protéines en quantité (g/personne/jour)', 'Total General')]),3)
df_dispo_alimentaire.head(2)

Élément,Code zone,Zone,Année,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),ratio_proteines_animales
Produit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Produits Animaux,Total General,Produits Animaux,Total General,Unnamed: 8_level_1
0,1,Arménie,2018,832.0,3074.0,47.75,97.38,0.49
1,2,Afghanistan,2018,189.0,2270.0,10.69,57.62,0.186


## 3.1  les valeurs de PIB par habitant,
en $ paritaire, c’est à dire normalisé en fonction du coût de la vie.


In [790]:
# Dataframes des données complémentaires
# Indicateurs Macro (PIB et croissance)
df_indicateurs_macro = pd.read_csv('datas/Produit intérieur brut par habitant.csv', header=0, sep=',', decimal='.')
df_indicateurs_macro.head(2)

Unnamed: 0,Code Domaine,Domaine,Code zone (FAO),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,2,Afghanistan,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2008,2008,I$,1484.1,X,Sources internationales sûres,
1,FS,Données de la sécurité alimentaire,2,Afghanistan,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2018,2018,I$,2033.8,X,Sources internationales sûres,


In [791]:
df_indicateurs_macro = df_indicateurs_macro.pivot_table(index=['Code zone (FAO)'], columns=('Produit','Année'), values='Valeur', aggfunc=sum).reset_index()
df_indicateurs_macro.head(2) 

Produit,Code zone (FAO),"PIB par habitant, ($ PPA internationaux constants de 2011)","PIB par habitant, ($ PPA internationaux constants de 2011)",Stabilité politique et absence de violence/terrorisme (indice),Stabilité politique et absence de violence/terrorisme (indice)
Année,Unnamed: 1_level_1,2008,2018,2008,2018
0,1,10467.5,12715.1,-0.01,-0.44
1,2,1484.1,2033.8,-2.69,-2.75


In [792]:
annee_a, annee_b, pib, stable = 2008, 2018,'PIB par habitant, ($ PPA internationaux constants de 2011)', 'Stabilité politique et absence de violence/terrorisme (indice)'



In [793]:
# Nouvelles variables
df_indicateurs_macro['pib'] = df_indicateurs_macro[pib][annee_b]
df_indicateurs_macro['ppa'] = df_indicateurs_macro['pib'] / (df_population['population(M)'] * 10**6) # PIB / habitant
df_indicateurs_macro['pib_croissance'] = df_indicateurs_macro[pib][annee_b] / df_indicateurs_macro[pib][annee_a]

df_indicateurs_macro.head(2)

Produit,Code zone (FAO),"PIB par habitant, ($ PPA internationaux constants de 2011)","PIB par habitant, ($ PPA internationaux constants de 2011)",Stabilité politique et absence de violence/terrorisme (indice),Stabilité politique et absence de violence/terrorisme (indice),pib,ppa,pib_croissance
Année,Unnamed: 1_level_1,2008,2018,2008,2018,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,1,10467.5,12715.1,-0.01,-0.44,12715.1,0.004308,1.214722
1,2,1484.1,2033.8,-2.69,-2.75,2033.8,5.5e-05,1.370393


In [794]:

df_indicateurs_macro = df_indicateurs_macro[["Code zone (FAO)",'pib' ,'ppa','pib_croissance']]
df_indicateurs_macro = df_indicateurs_macro.rename(columns= {'Code zone (FAO)': 'Code zone'})
df_indicateurs_macro.head(2)

Produit,Code zone,pib,ppa,pib_croissance
Année,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1,12715.1,0.004308,1.214722
1,2,2033.8,5.5e-05,1.370393


## 4.1 Le taux de dépendance aux importations, 
défini en économie comme le rapport entre les importations et la disponibilité intérieure du pays ;

In [795]:
df_dépendance_importations = pd.read_csv('datas/FAOSTAT_data_volaiescsv.csv', header=0, sep=",", decimal=".")
df_dépendance_importations.head(3)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Bilans Alimentaires (2010-),2,Afghanistan,5511,Production,2734,Viande de Volailles,2018,2018,Milliers de tonnes,29,Im,Données de la FAO basées sur une méthodologie ...
1,FBS,Bilans Alimentaires (2010-),2,Afghanistan,5611,Importations - Quantité,2734,Viande de Volailles,2018,2018,Milliers de tonnes,25,Im,Données de la FAO basées sur une méthodologie ...
2,FBS,Bilans Alimentaires (2010-),2,Afghanistan,5911,Exportations - Quantité,2734,Viande de Volailles,2018,2018,Milliers de tonnes,0,Im,Données de la FAO basées sur une méthodologie ...


In [796]:
#df_dépendance_importations['Valeur'] = df_dépendance_importations['Valeur']*1000000

In [797]:
df_dépendance_importations = df_dépendance_importations.pivot_table(index=['Code zone', 'Zone', 'Année'],
                                columns=['Élément'],
                                values = 'Valeur',
                                aggfunc=sum).reset_index()
df_dépendance_importations.head()

Élément,Code zone,Zone,Année,Exportations - Quantité,Importations - Quantité,Production
0,1,Arménie,2018,0.0,33.0,12.0
1,2,Afghanistan,2018,0.0,25.0,29.0
2,3,Albanie,2018,,12.0,16.0
3,4,Algérie,2018,0.0,0.0,286.0
4,7,Angola,2018,0.0,335.0,41.0


In [798]:
df_dépendance_importations['poulet_import-export'] = df_dépendance_importations['Importations - Quantité'] / df_dépendance_importations['Exportations - Quantité']
df_dépendance_importations= df_dépendance_importations[['Code zone','poulet_import-export']]
df_dépendance_importations.head()
                                                                                

Élément,Code zone,poulet_import-export
0,1,inf
1,2,inf
2,3,
3,4,
4,7,inf


## 5.1 Construction et sauvegarde du dataframe principal


In [799]:
df_dispo_alimentaire_etendu = pd.merge(df_population, df_dispo_alimentaire, on="Code zone")
df_dispo_alimentaire_etendu


  obj = obj._drop_axis(labels, axis, level=level, errors=errors)


Unnamed: 0,Code zone,Zone,population(M),Evolution population,"(Zone, )","(Année, )","(Disponibilité alimentaire (Kcal/personne/jour), Produits Animaux)","(Disponibilité alimentaire (Kcal/personne/jour), Total General)","(Disponibilité de protéines en quantité (g/personne/jour), Produits Animaux)","(Disponibilité de protéines en quantité (g/personne/jour), Total General)","(ratio_proteines_animales, )"
0,1,Arménie,2.951745,1.015,Arménie,2018,832.0,3074.0,47.75,97.38,0.490
1,2,Afghanistan,37.171921,1.341,Afghanistan,2018,189.0,2270.0,10.69,57.62,0.186
2,3,Albanie,2.882740,0.960,Albanie,2018,1001.0,3296.0,60.86,112.89,0.539
3,4,Algérie,42.228408,1.216,Algérie,2018,382.0,3382.0,24.30,90.29,0.269
4,7,Angola,30.809787,1.420,Angola,2018,219.0,2451.0,16.67,53.80,0.310
...,...,...,...,...,...,...,...,...,...,...,...
175,256,Luxembourg,0.604245,1.245,Luxembourg,2018,1179.0,3477.0,66.37,108.37,0.612
176,272,Serbie,8.802754,0.972,Serbie,2018,785.0,2829.0,41.71,84.03,0.496
177,273,Monténégro,0.627809,1.010,Monténégro,2018,1229.0,3501.0,68.90,113.49,0.607
178,276,Soudan,41.801533,,Soudan,2018,360.0,2599.0,20.36,75.13,0.271


In [800]:
df_dispo_alimentaire_etendu = df_dispo_alimentaire_etendu[["Code zone","Zone", 'population(M)','Evolution population ',
                                             ('Disponibilité alimentaire (Kcal/personne/jour)', 'Total General'),
                                             ('Disponibilité de protéines en quantité (g/personne/jour)', 'Total General'),
                                            ('ratio_proteines_animales', '')
]]
df_dispo_alimentaire_etendu.rename(columns={('Année', ''):'Année', 
                              ('Disponibilité alimentaire (Kcal/personne/jour)', 'Total General'):'dispo_calories',
                              ('Disponibilité de protéines en quantité (g/personne/jour)', 'Total General'):'dispo_proteines',  ('ratio_proteines_animales', ''):'ratio_proteines_animales'},
                     inplace=True)
df_dispo_alimentaire_etendu.head()


  return array(a, dtype, copy=False, order=order)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().rename(


Unnamed: 0,Code zone,Zone,population(M),Evolution population,dispo_calories,dispo_proteines,ratio_proteines_animales
0,1,Arménie,2.951745,1.015,3074.0,97.38,0.49
1,2,Afghanistan,37.171921,1.341,2270.0,57.62,0.186
2,3,Albanie,2.88274,0.96,3296.0,112.89,0.539
3,4,Algérie,42.228408,1.216,3382.0,90.29,0.269
4,7,Angola,30.809787,1.42,2451.0,53.8,0.31


In [801]:
df = pd.merge(df_dispo_alimentaire_etendu, df_indicateurs_macro, on="Code zone")


  obj = obj._drop_axis(labels, axis, level=level, errors=errors)


In [802]:
df = pd.merge(df, df_dépendance_importations, on="Code zone")
df.head(2)

Unnamed: 0,Code zone,Zone,population(M),Evolution population,dispo_calories,dispo_proteines,ratio_proteines_animales,"(pib, )","(ppa, )","(pib_croissance, )",poulet_import-export
0,1,Arménie,2.951745,1.015,3074.0,97.38,0.49,12715.1,0.004308,1.214722,inf
1,2,Afghanistan,37.171921,1.341,2270.0,57.62,0.186,2033.8,5.5e-05,1.370393,inf


In [803]:
df= df.drop('Code zone' ,axis=1)


In [804]:

df.rename(columns={'(pib, )':'pib', '(ppa, )':'ppa','(pib_croissance, )':'pib_croissance'}, inplace=True)
df.head()

Unnamed: 0,Zone,population(M),Evolution population,dispo_calories,dispo_proteines,ratio_proteines_animales,"(pib, )","(ppa, )","(pib_croissance, )",poulet_import-export
0,Arménie,2.951745,1.015,3074.0,97.38,0.49,12715.1,0.004308,1.214722,inf
1,Afghanistan,37.171921,1.341,2270.0,57.62,0.186,2033.8,5.5e-05,1.370393,inf
2,Albanie,2.88274,0.96,3296.0,112.89,0.539,13323.8,0.004622,1.344128,
3,Algérie,42.228408,1.216,3382.0,90.29,0.269,11642.2,0.000276,1.078291,
4,Angola,30.809787,1.42,2451.0,53.8,0.31,6933.5,0.000225,0.881631,inf


In [None]:
0	Afghanistan	2040.0	55.52	0.194344	37.171921	1.340868	2190.2	0.000059	1.379393	155.279221
1	Albania	3360.0	115.74	0.533523	2.882740	0.960056	13601.3	0.004718	1.344122	NaN