# Projet 5: Etude de marché

## Les données 

### Origine des données

Pour cette étude nous avons utilisé des données issues du site de l'Organisation des Nations Unies pour l'alimentation et l'agriculture.

Nous avons choisi de prendre plusieurs données sur les pays :

- Disponibilité alimentaire (Kcal/personne/jour)
- Disponibilité de protéines en quantité (g/personne/jour)
- populations
- Pib par habitant
- Proportion proteine animale (%)
- Evolution de la population par rapport a l'an passée (en %)
- Variation du pib avec l'année precedente (en %)

Nous avons choisi ces données pour avoir des informations sur les pays pour pouvoir déterminer les pays les plus adapter pour l'implantation de l'entreprise dans ces derniers.

Les informations sont la plus récente disponible sur le site de la Fao au moment de la rédaction de ces lignes à savoir 2012 - 2013.

In [1]:
# Import des librairies
import matplotlib.pyplot as plt
import pandas as pd

plt.style.use('seaborn-deep')
%matplotlib inline

## Sommaire

- Nettoyage des données
    - [Preparation](#Nettoyage-des-données)
    - [Nettoyage](#Nettoyage)
- [Le dataframe final](#Le-dataframe-final)
- [Analyse](#Analyse)
    - [Pca](#Acp)
    - [Clustering](#Clustering)
- [Etude des clusters](#Etude-des-clusters)
- [Liste des pays retenus](#)




### Nettoyage des données

#### Préparation des dataframes

In [2]:
# Import des données des bilans alimentaires
set_nourritureTt = pd.read_csv("Data/set_nourritureTotale.csv")
set_nourritureVd = pd.read_csv("Data/set_nourritureViande.csv")
set_pop = pd.read_csv("Data/set_pop.csv")
set_pib = pd.read_csv("Data/set_pib.csv")

Nous mettons en chaque set de données sous la même architecture pour plus de simplicité.

In [3]:
temp = set_nourritureTt.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_NourritureTotale = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_NourritureTotale = df_NourritureTotale.reset_index()

df_NourritureTotale.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 'Disponibilité alimentaire (Kcal/personne/jour)',
                 'Disponibilité de protéines en quantité (g/personne/jour)',
                 'Disponibilité intérieure',
                 'Nourriture']


In [4]:
temp = set_nourritureVd.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_NourritureViande = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_NourritureViande = df_NourritureViande.reset_index()

df_NourritureViande.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 'Disponibilité alimentaire (Kcal/personne/jour)',
                 'Disponibilité de protéines en quantité (g/personne/jour)',
                 'Disponibilité intérieure',
                 'Nourriture']


In [5]:
temp = set_pop.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_Population = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_Population = df_Population.reset_index()

df_Population.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 'population']


In [6]:
temp = set_pib.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_pib = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_pib = df_pib.reset_index()

df_pib.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 "Pib par habitant"]



#### Nettoyage


In [7]:
df_NourritureTotale.isna().sum()

country_code                                                   0
country                                                        0
item_code                                                      0
item                                                           0
year                                                           0
Disponibilité alimentaire (Kcal/personne/jour)              2738
Disponibilité de protéines en quantité (g/personne/jour)    8122
Disponibilité intérieure                                     448
Nourriture                                                  3190
dtype: int64

Ici les variable avec des valeurs Nan sont toute des variable numerique. En partant de ce principe si il n'y a pas de valeur pour celle si les remplacer par zero reviendrai au même.

In [8]:
df_NourritureTotale['Disponibilité alimentaire (Kcal/personne/jour)'] = df_NourritureTotale['Disponibilité alimentaire (Kcal/personne/jour)'].fillna(df_NourritureTotale['Disponibilité alimentaire (Kcal/personne/jour)'].mean())
df_NourritureTotale['Disponibilité de protéines en quantité (g/personne/jour)'] = df_NourritureTotale['Disponibilité de protéines en quantité (g/personne/jour)'].fillna(df_NourritureTotale['Disponibilité de protéines en quantité (g/personne/jour)'].mean())
df_NourritureTotale['Disponibilité intérieure'] = df_NourritureTotale['Disponibilité intérieure'].fillna(df_NourritureTotale['Disponibilité intérieure'].mean())
df_NourritureTotale['Nourriture'] = df_NourritureTotale['Nourriture'].fillna(df_NourritureTotale['Nourriture'].mean())


In [9]:
df_NourritureViande.isna().sum()


country_code                                                 0
country                                                      0
item_code                                                    0
item                                                         0
year                                                         0
Disponibilité alimentaire (Kcal/personne/jour)               5
Disponibilité de protéines en quantité (g/personne/jour)    34
Disponibilité intérieure                                     0
Nourriture                                                   5
dtype: int64

La même observation peut etre fait sur ce jeu de données.

In [10]:
df_NourritureViande['Disponibilité alimentaire (Kcal/personne/jour)'] = df_NourritureViande['Disponibilité alimentaire (Kcal/personne/jour)'].fillna(df_NourritureViande['Disponibilité alimentaire (Kcal/personne/jour)'].mean())
df_NourritureViande['Disponibilité de protéines en quantité (g/personne/jour)'] = df_NourritureViande['Disponibilité de protéines en quantité (g/personne/jour)'].fillna(df_NourritureViande['Disponibilité de protéines en quantité (g/personne/jour)'].mean())
df_NourritureViande['Nourriture'] = df_NourritureViande['Nourriture'].fillna(df_NourritureViande['Nourriture'].mean())

In [11]:
df_Population.isna().sum()


country_code    0
country         0
item_code       0
item            0
year            0
population      0
dtype: int64

Nous avons donc nos 3 dataframe, nous allons regarder rapidement comment ils ce construisent.

In [12]:
df_NourritureTotale.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31404 entries, 0 to 31403
Data columns (total 9 columns):
 #   Column                                                    Non-Null Count  Dtype  
---  ------                                                    --------------  -----  
 0   country_code                                              31404 non-null  int64  
 1   country                                                   31404 non-null  object 
 2   item_code                                                 31404 non-null  int64  
 3   item                                                      31404 non-null  object 
 4   year                                                      31404 non-null  int64  
 5   Disponibilité alimentaire (Kcal/personne/jour)            31404 non-null  float64
 6   Disponibilité de protéines en quantité (g/personne/jour)  31404 non-null  float64
 7   Disponibilité intérieure                                  31404 non-null  float64
 8   Nourriture       

Cette sources contient les informations sur les disponibilités de chaque pays en nourriture

In [13]:
df_NourritureTotale.shape

(31404, 9)

In [14]:
df_NourritureViande.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3731 entries, 0 to 3730
Data columns (total 9 columns):
 #   Column                                                    Non-Null Count  Dtype  
---  ------                                                    --------------  -----  
 0   country_code                                              3731 non-null   int64  
 1   country                                                   3731 non-null   object 
 2   item_code                                                 3731 non-null   int64  
 3   item                                                      3731 non-null   object 
 4   year                                                      3731 non-null   int64  
 5   Disponibilité alimentaire (Kcal/personne/jour)            3731 non-null   float64
 6   Disponibilité de protéines en quantité (g/personne/jour)  3731 non-null   float64
 7   Disponibilité intérieure                                  3731 non-null   float64
 8   Nourriture         

Ce dataframe est constituer comme le precedent sauf qu'il n'est composer que des données sur la viandes des pays.

In [15]:
df_NourritureViande.shape

(3731, 9)

In [16]:
df_Population.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 350 entries, 0 to 349
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   country_code  350 non-null    int64 
 1   country       350 non-null    object
 2   item_code     350 non-null    int64 
 3   item          350 non-null    object
 4   year          350 non-null    int64 
 5   population    350 non-null    int64 
dtypes: int64(4), object(2)
memory usage: 16.5+ KB


Ici nous avons les informations des population de chaque pays.

In [17]:
df_Population.shape

(350, 6)

In [18]:
df_pib.isna().sum()

country_code        0
country             0
item_code           0
item                0
year                0
Pib par habitant    0
dtype: int64

In [19]:
df_pib.shape

(376, 6)

Nous pouvons remarquer que le dataframe pib est composer de plus de pays que le dataframe population, nous devrons faire attention a cela

#### Le dataframe final

Dans ce dataframe nous regrouperont les informations pertinante determiner au début.

In [20]:
df_final = pd.DataFrame()

##### Population, total et variation

Nous nous interessons au disponibiliter generale du pays, nous regroupons donc pour chaque pays tout ce qu'il possede.

In [21]:
df_Totale = pd.pivot_table(df_NourritureTotale, index=['country_code','country','year'], aggfunc=sum)
df_Totale = df_Totale.reset_index()
df_Totale = df_Totale.drop(columns='item_code')

df_Totale2012 = pd.DataFrame(df_Totale[df_Totale['year']==2012])
df_Totale2012 = df_Totale2012.reset_index()
df_Totale2012 = df_Totale2012.drop(columns=['index'])

df_Totale2013 = pd.DataFrame(df_Totale[df_Totale['year']==2013])
df_Totale2013 = df_Totale2013.reset_index()
df_Totale2013 = df_Totale2013.drop(columns=['index'])

df_final = df_Totale2013.copy()

##### Viande, proportion

Nous ne voulons encore que les informations generale du pays.

In [22]:
df_TotaleViande = pd.pivot_table(df_NourritureViande, index=['country_code','country','year'], aggfunc=sum)
df_TotaleViande = df_TotaleViande.reset_index()
df_TotaleViande = df_TotaleViande.drop(columns='item_code')

In [23]:
d = df_TotaleViande['Disponibilité de protéines en quantité (g/personne/jour)']
e = df_final['Disponibilité de protéines en quantité (g/personne/jour)']
f = ((d * 100) / (e)).round(3)


In [24]:
df_final['Proportion proteine animale (%)'] = f

#### Population, totale et variation

Nous gardons la populations la plus recente, a savoir 2013, et nous regardons les variations avec 2012

In [25]:
df_pop2012 = pd.DataFrame(df_Population[df_Population['year']==2012])
df_pop2013 = pd.DataFrame(df_Population[df_Population['year']==2013])
df_pop2012 = df_pop2012.reset_index()
df_pop2013 = df_pop2013.reset_index()
df_pop2012 = df_pop2012.drop(columns=['index','item_code','item'])
df_pop2013 = df_pop2013.drop(columns=['index','item_code','item'])


In [26]:
#Calcule de l'évolution de la population entre 2012 et 2013 en pourcentage
a = df_pop2013['population']
b = df_pop2012['population']

c = (( (a*100) / (b) ) - 100).round(3)

In [27]:
df_final['populations'] = a
df_final["Evolution de la population par rapport a l'an passée (en %)"] = c

#### Pib

Ici nous allons crée un dataframe intermediaire, comme vue plus haut il n'y a pas le meme nombre de pays que dans les autres sources de données.

In [28]:
df_pib2012 = pd.DataFrame(df_pib[df_pib['year']==2012])
df_pib2013 = pd.DataFrame(df_pib[df_pib['year']==2013])
df_pib2012 = df_pib2012.reset_index()
df_pib2013 = df_pib2013.reset_index()
df_pib2012 = df_pib2012.drop(columns=['index','item_code','item'])
df_pib2013 = df_pib2013.drop(columns=['index','item_code','item'])


Liste des pays non present dans notre dataframe principal

In [29]:
df_pib2013[~df_pib2013['country'].isin(df_final['country'])]

Unnamed: 0,country_code,country,year,Pib par habitant
10,13,Bahreïn,2013,42680.2
14,18,Bhoutan,2013,7070.8
23,29,Burundi,2013,790.7
33,45,Comores,2013,1437.0
46,61,Guinée équatoriale,2013,32736.1
91,124,Libye,2013,21570.3
93,127,Îles Marshall,2013,3721.0
107,145,Micronésie (États fédérés de),2013,3208.7
109,148,Nauru,2013,10078.4
122,168,Papouasie-Nouvelle-Guinée,2013,3282.5


In [30]:
#Calcule de l'évolution du pib par habitant entre 2012 et 2013 en pourcentage
a = df_pib2013['Pib par habitant']
b = df_pib2012['Pib par habitant']

c = (( (a*100) / (b) ) - 100).round(3)

In [31]:
#Nous ajoutons une colone variation de pib
df_pib2013["Variation du pib avec l'année precedente (en %)"] = c

Pour ajouter ces variable à notre dataframe principale nous allons utiliser une unions sur df_final, comme ca nous ne garderons de df_pib que les pays present dans df_final

In [32]:
df_final = df_final.merge(df_pib2013, 'left')
df_final = df_final.drop(columns='year')


Nous avons donc notre dataframe final.

In [33]:
df_final.head()

Unnamed: 0,country_code,country,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Nourriture,Proportion proteine animale (%),populations,Evolution de la population par rapport a l'an passée (en %),Pib par habitant,Variation du pib avec l'année precedente (en %)
0,1,Arménie,3305.726017,122.980308,5148.952998,8119.525271,35.16,2977,0.269,7727.9,2.886
1,2,Afghanistan,2260.511826,80.206872,14275.952998,13330.262636,15.223,30552,2.438,1848.7,0.511
2,3,Albanie,3639.130747,145.509579,5518.952998,9531.612816,40.829,3173,0.348,10492.8,1.186
3,4,Algérie,3605.321287,122.401767,43390.952998,36486.981499,20.408,39208,1.887,13253.6,0.696
4,7,Angola,2647.511826,84.093955,32789.952998,17654.262636,21.88,21472,3.127,6188.0,3.135


In [34]:
df_final.isna().sum()

country_code                                                   0
country                                                        0
Disponibilité alimentaire (Kcal/personne/jour)                 0
Disponibilité de protéines en quantité (g/personne/jour)       0
Disponibilité intérieure                                       0
Nourriture                                                     0
Proportion proteine animale (%)                                0
populations                                                    0
Evolution de la population par rapport a l'an passée (en %)    0
Pib par habitant                                               7
Variation du pib avec l'année precedente (en %)                7
dtype: int64

In [35]:
df_final['Pib par habitant'] = df_final['Pib par habitant'].fillna(df_final['Pib par habitant'].mean())
df_final["Variation du pib avec l'année precedente (en %)"] = df_final["Variation du pib avec l'année precedente (en %)"].fillna(df_final["Variation du pib avec l'année precedente (en %)"].mean())

Lorsque nous avons regardez notre dataframe nous avons remarquer qu'il y avait "plusieurs" Chine 

In [36]:
df_final['country'].sort_values()[33:38]

174                        Chine
63      Chine - RAS de Hong-Kong
91          Chine - RAS de Macao
147    Chine, Taiwan Province de
28           Chine, continentale
Name: country, dtype: object

Après quelques recherches nous avons trouvé que la chine et le regroupement des 4 autres nations citent ci-dessus, en bref si nous gardons les 5 nations précédentes nous aurons la chine qui comptera en deux fois car 

Chine = ( Chine - RAS de Hong-Kong + Chine - RAS de Macao + Chine, Taiwan Province de + Chine, continentale)

Comme nous souhaitons avoir des données precise nous retirerons la Chine.

In [37]:
df_final = df_final.drop(index=174)

df_final = df_final.reset_index()
df_final = df_final.drop(columns="index")

In [38]:
df_final.columns


Index(['country_code', 'country',
       'Disponibilité alimentaire (Kcal/personne/jour)',
       'Disponibilité de protéines en quantité (g/personne/jour)',
       'Disponibilité intérieure', 'Nourriture',
       'Proportion proteine animale (%)', 'populations',
       'Evolution de la population par rapport a l'an passée (en %)',
       'Pib par habitant', 'Variation du pib avec l'année precedente (en %)'],
      dtype='object')

In [39]:
df_final = df_final.drop(columns=['Nourriture','Disponibilité intérieure'])

In [40]:
df_final.isna().sum()

country_code                                                   0
country                                                        0
Disponibilité alimentaire (Kcal/personne/jour)                 0
Disponibilité de protéines en quantité (g/personne/jour)       0
Proportion proteine animale (%)                                0
populations                                                    0
Evolution de la population par rapport a l'an passée (en %)    0
Pib par habitant                                               0
Variation du pib avec l'année precedente (en %)                0
dtype: int64

Il n'y a plus de valuer nulle, nous pouvons donc exporter cette sources, puis nous lancerons l'anayse


In [41]:
df_final.to_csv('Data/set_etudeFinal.csv',index=False)