# Nettoyage, projet 5: Etude de marché


### Origine des données

Pour cette étude, nous avons utilisé des données issues du site de l'Organisation des Nations unies pour l'alimentation et l'agriculture.

Nous avons choisi de prendre plusieurs données sur les pays :

- Disponibilité alimentaire (Kcal/personne/jour)
- Disponibilité de protéines en quantité (g/personne/jour)
- populations
- PIB par habitant
- La proportion protéine animale. (%)
- Évolution de la population par rapport a l'an passée. (en %)
- Variation du PIB avec l'année precedente (en %)

Nous avons choisi ces données pour avoir des informations sur les pays pour pouvoir déterminer les pays les plus adaptés pour l'implantation de l'entreprise dans ces derniers.

Les informations sont les plus récentes disponible sur le site de la FAO au moment de la rédaction de ce projet (2012 - 2013).


In [1]:

# Import des librairies
import matplotlib.pyplot as plt
import pandas as pd

plt.style.use('seaborn-deep')
%matplotlib inline


## Sommaire

- Nettoyage des données
    - [Préparation](#Nettoyage-des-données)
    - [Nettoyage](#Nettoyage)
- [Le dataframe final](#Le-dataframe-final)


## Nettoyage des données

In [2]:

# Import des données des bilans alimentaires
set_nourritureTt = pd.read_csv("Data/set_nourritureTotale.csv")
set_nourritureVd = pd.read_csv("Data/set_nourritureViande.csv")
set_pop = pd.read_csv("Data/set_pop.csv")
set_pib = pd.read_csv("Data/set_pib.csv")



Nous allons formater les différents tableaux sous une même architecture pour plus de simplicité.


In [3]:

temp = set_nourritureTt.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_NourritureTotale = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_NourritureTotale = df_NourritureTotale.reset_index()

df_NourritureTotale.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 'Disponibilité alimentaire (Kcal/personne/jour)',
                 'Disponibilité de protéines en quantité (g/personne/jour)',
                 'Disponibilité intérieure',
                 'Nourriture']


In [4]:

temp = set_nourritureVd.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_NourritureViande = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_NourritureViande = df_NourritureViande.reset_index()

df_NourritureViande.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 'Disponibilité alimentaire (Kcal/personne/jour)',
                 'Disponibilité de protéines en quantité (g/personne/jour)',
                 'Disponibilité intérieure',
                 'Nourriture']


In [5]:

temp = set_pop.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_Population = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_Population = df_Population.reset_index()

df_Population.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 'population']


In [6]:

temp = set_pib.copy()

# On renomme les colonnes de temp
temp.columns = ["xx","xx2","country_code","country",'xx3','element'
    ,'item_code','item','xx4',"year","unit","value",'xx5','xx6']

# Transformation de temp en table pivot
df_pib = temp.pivot_table(
    index=["country_code","country","item_code","item","year"],
    columns = ["element"], values=["value"], aggfunc=sum)

df_pib = df_pib.reset_index()

df_pib.columns = ["country_code",
                "country",
                "item_code",
                "item",
                "year",
                 "Pib par habitant"]




Ici, nous n'avons pas automatisé le formatage, car malgré de grandes similitudes, chaque tableau a ces petites particularités.



## Nettoyage des données

Nous allons simplement regarder s'il manque des données ou si certaine sont aberrante.


In [7]:

df_NourritureTotale.isna().sum()


country_code                                                   0
country                                                        0
item_code                                                      0
item                                                           0
year                                                           0
Disponibilité alimentaire (Kcal/personne/jour)              2738
Disponibilité de protéines en quantité (g/personne/jour)    8122
Disponibilité intérieure                                     448
Nourriture                                                  3190
dtype: int64


Nous avons un grand nombre de valeurs nulles. Mais en y regardant de plus prêt toutes ces dernières sont des valeur numérique, donc si nous les remplaçons par des zéros cela reviendra au même, que le pays n'est pas de productions ou qu'il est une production de zéro revient au même dans notre cas.


In [8]:

#Remplace les valeurs manquante par la moyenne des valeurs des colonnes
df_NourritureTotale['Disponibilité alimentaire (Kcal/personne/jour)'] = df_NourritureTotale['Disponibilité alimentaire (Kcal/personne/jour)'].fillna(df_NourritureTotale['Disponibilité alimentaire (Kcal/personne/jour)'].mean())
df_NourritureTotale['Disponibilité de protéines en quantité (g/personne/jour)'] = df_NourritureTotale['Disponibilité de protéines en quantité (g/personne/jour)'].fillna(df_NourritureTotale['Disponibilité de protéines en quantité (g/personne/jour)'].mean())
df_NourritureTotale['Disponibilité intérieure'] = df_NourritureTotale['Disponibilité intérieure'].fillna(df_NourritureTotale['Disponibilité intérieure'].mean())
df_NourritureTotale['Nourriture'] = df_NourritureTotale['Nourriture'].fillna(df_NourritureTotale['Nourriture'].mean())


In [9]:

df_NourritureViande.isna().sum()


country_code                                                 0
country                                                      0
item_code                                                    0
item                                                         0
year                                                         0
Disponibilité alimentaire (Kcal/personne/jour)               5
Disponibilité de protéines en quantité (g/personne/jour)    34
Disponibilité intérieure                                     0
Nourriture                                                   5
dtype: int64


Nous observons la même choses sur ce jeu de données.


In [10]:

#Remplace les valeurs manquante par la moyenne des valeurs des colonnes en question
df_NourritureViande['Disponibilité alimentaire (Kcal/personne/jour)'] = df_NourritureViande['Disponibilité alimentaire (Kcal/personne/jour)'].fillna(df_NourritureViande['Disponibilité alimentaire (Kcal/personne/jour)'].mean())
df_NourritureViande['Disponibilité de protéines en quantité (g/personne/jour)'] = df_NourritureViande['Disponibilité de protéines en quantité (g/personne/jour)'].fillna(df_NourritureViande['Disponibilité de protéines en quantité (g/personne/jour)'].mean())
df_NourritureViande['Nourriture'] = df_NourritureViande['Nourriture'].fillna(df_NourritureViande['Nourriture'].mean())


In [11]:

df_Population.isna().sum()


country_code    0
country         0
item_code       0
item            0
year            0
population      0
dtype: int64


Nous avons donc nos 3 dataframes, nous allons regarder rapidement comment ils ce construisent.


In [12]:

df_NourritureTotale.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31404 entries, 0 to 31403
Data columns (total 9 columns):
 #   Column                                                    Non-Null Count  Dtype  
---  ------                                                    --------------  -----  
 0   country_code                                              31404 non-null  int64  
 1   country                                                   31404 non-null  object 
 2   item_code                                                 31404 non-null  int64  
 3   item                                                      31404 non-null  object 
 4   year                                                      31404 non-null  int64  
 5   Disponibilité alimentaire (Kcal/personne/jour)            31404 non-null  float64
 6   Disponibilité de protéines en quantité (g/personne/jour)  31404 non-null  float64
 7   Disponibilité intérieure                                  31404 non-null  float64
 8   Nourriture       


Cette source contient les informations sur les disponibilités de chaque pays en nourriture


In [13]:

df_NourritureViande.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3731 entries, 0 to 3730
Data columns (total 9 columns):
 #   Column                                                    Non-Null Count  Dtype  
---  ------                                                    --------------  -----  
 0   country_code                                              3731 non-null   int64  
 1   country                                                   3731 non-null   object 
 2   item_code                                                 3731 non-null   int64  
 3   item                                                      3731 non-null   object 
 4   year                                                      3731 non-null   int64  
 5   Disponibilité alimentaire (Kcal/personne/jour)            3731 non-null   float64
 6   Disponibilité de protéines en quantité (g/personne/jour)  3731 non-null   float64
 7   Disponibilité intérieure                                  3731 non-null   float64
 8   Nourriture         


Ce dataframe est constituer comme le precedent sauf qu'il n'est composer que des données sur la viandes des pays.


In [14]:

df_Population.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 350 entries, 0 to 349
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   country_code  350 non-null    int64 
 1   country       350 non-null    object
 2   item_code     350 non-null    int64 
 3   item          350 non-null    object
 4   year          350 non-null    int64 
 5   population    350 non-null    int64 
dtypes: int64(4), object(2)
memory usage: 16.5+ KB



Ici nous avons les informations des populations de chaque pays.



## Le dataframe final

Nous allons construire un tableau qui nous servira de support pour notre analyse.


In [15]:

df_final = pd.DataFrame()



Dans un premier temps nous allons regrouper toute les informations pour chaque pays sur les deux années que nous avons.


In [16]:

df_Totale = pd.pivot_table(df_NourritureTotale, index=['country_code','country','year'], aggfunc=sum)
df_Totale = df_Totale.reset_index()
df_Totale = df_Totale.drop(columns='item_code')

df_Totale2012 = pd.DataFrame(df_Totale[df_Totale['year']==2012])
df_Totale2012 = df_Totale2012.reset_index()
df_Totale2012 = df_Totale2012.drop(columns=['index'])

df_Totale2013 = pd.DataFrame(df_Totale[df_Totale['year']==2013])
df_Totale2013 = df_Totale2013.reset_index()
df_Totale2013 = df_Totale2013.drop(columns=['index'])

df_final = df_Totale2013.copy()


In [17]:

df_final


Unnamed: 0,country_code,country,year,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Nourriture
0,1,Arménie,2013,3305.726017,122.980308,5.148953e+03,8.119525e+03
1,2,Afghanistan,2013,2260.511826,80.206872,1.427595e+04,1.333026e+04
2,3,Albanie,2013,3639.130747,145.509579,5.518953e+03,9.531613e+03
3,4,Algérie,2013,3605.321287,122.401767,4.339095e+04,3.648698e+04
4,7,Angola,2013,2647.511826,84.093955,3.278995e+04,1.765426e+04
...,...,...,...,...,...,...,...
170,256,Luxembourg,2013,4129.940208,150.218120,1.562953e+03,8.392788e+03
171,272,Serbie,2013,3176.130747,113.911038,1.891695e+04,1.317361e+04
172,273,Monténégro,2013,3767.618921,150.916662,4.055812e+03,5.942525e+03
173,276,Soudan,2013,2647.321287,106.048850,3.180495e+04,2.582444e+04



Nous ajoutons maintenant la proportion de protéine dans les protéines disponible dans le pays.


In [18]:

df_TotaleViande = pd.pivot_table(df_NourritureViande, index=['country_code','country','year'], aggfunc=sum)
df_TotaleViande = df_TotaleViande.reset_index()
df_TotaleViande = df_TotaleViande.drop(columns='item_code')


In [19]:

d = df_TotaleViande['Disponibilité de protéines en quantité (g/personne/jour)']
e = df_final['Disponibilité de protéines en quantité (g/personne/jour)']
f = ((d * 100) / (e)).round(3)


In [20]:

df_final['Proportion proteine animale (%)'] = f


In [21]:

df_final


Unnamed: 0,country_code,country,year,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Nourriture,Proportion proteine animale (%)
0,1,Arménie,2013,3305.726017,122.980308,5.148953e+03,8.119525e+03,35.160
1,2,Afghanistan,2013,2260.511826,80.206872,1.427595e+04,1.333026e+04,15.223
2,3,Albanie,2013,3639.130747,145.509579,5.518953e+03,9.531613e+03,40.829
3,4,Algérie,2013,3605.321287,122.401767,4.339095e+04,3.648698e+04,20.408
4,7,Angola,2013,2647.511826,84.093955,3.278995e+04,1.765426e+04,21.880
...,...,...,...,...,...,...,...,...
170,256,Luxembourg,2013,4129.940208,150.218120,1.562953e+03,8.392788e+03,48.010
171,272,Serbie,2013,3176.130747,113.911038,1.891695e+04,1.317361e+04,35.054
172,273,Monténégro,2013,3767.618921,150.916662,4.055812e+03,5.942525e+03,41.818
173,276,Soudan,2013,2647.321287,106.048850,3.180495e+04,2.582444e+04,30.842



Maintenant nous ajoutons l'évolution des populations par rapport à l'an passer, pour avoir une meilleure appréhension de la croissance démographique du pays. (en pourcentage)


In [22]:

df_pop2012 = pd.DataFrame(df_Population[df_Population['year']==2012])
df_pop2013 = pd.DataFrame(df_Population[df_Population['year']==2013])

df_pop2012 = df_pop2012.reset_index()
df_pop2013 = df_pop2013.reset_index()

df_pop2012 = df_pop2012.drop(columns=['index','item_code','item'])
df_pop2013 = df_pop2013.drop(columns=['index','item_code','item'])


In [23]:

#Calcule de l'évolution de la population entre 2012 et 2013 en pourcentage
a = df_pop2013['population']
b = df_pop2012['population']

c = (( (a*100) / (b) ) - 100).round(3)


In [24]:

df_final['populations'] = a
df_final["Evolution de la population par rapport a l'an passée (en %)"] = c


In [25]:

df_final


Unnamed: 0,country_code,country,year,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Nourriture,Proportion proteine animale (%),populations,Evolution de la population par rapport a l'an passée (en %)
0,1,Arménie,2013,3305.726017,122.980308,5.148953e+03,8.119525e+03,35.160,2977,0.269
1,2,Afghanistan,2013,2260.511826,80.206872,1.427595e+04,1.333026e+04,15.223,30552,2.438
2,3,Albanie,2013,3639.130747,145.509579,5.518953e+03,9.531613e+03,40.829,3173,0.348
3,4,Algérie,2013,3605.321287,122.401767,4.339095e+04,3.648698e+04,20.408,39208,1.887
4,7,Angola,2013,2647.511826,84.093955,3.278995e+04,1.765426e+04,21.880,21472,3.127
...,...,...,...,...,...,...,...,...,...,...
170,256,Luxembourg,2013,4129.940208,150.218120,1.562953e+03,8.392788e+03,48.010,530,1.145
171,272,Serbie,2013,3176.130747,113.911038,1.891695e+04,1.317361e+04,35.054,9511,-0.440
172,273,Monténégro,2013,3767.618921,150.916662,4.055812e+03,5.942525e+03,41.818,621,0.000
173,276,Soudan,2013,2647.321287,106.048850,3.180495e+04,2.582444e+04,30.842,37964,2.067



Ajout des variations de PIB pour chaque pays entre les deux années.


In [26]:

df_pib2012 = pd.DataFrame(df_pib[df_pib['year']==2012])
df_pib2013 = pd.DataFrame(df_pib[df_pib['year']==2013])

df_pib2012 = df_pib2012.reset_index()
df_pib2013 = df_pib2013.reset_index()

df_pib2012 = df_pib2012.drop(columns=['index','item_code','item'])
df_pib2013 = df_pib2013.drop(columns=['index','item_code','item'])


In [27]:

#Liste des pays non present dans notre dataframe principal

df_pib2013[~df_pib2013['country'].isin(df_final['country'])]


Unnamed: 0,country_code,country,year,Pib par habitant
10,13,Bahreïn,2013,42680.2
14,18,Bhoutan,2013,7070.8
23,29,Burundi,2013,790.7
33,45,Comores,2013,1437.0
46,61,Guinée équatoriale,2013,32736.1
91,124,Libye,2013,21570.3
93,127,Îles Marshall,2013,3721.0
107,145,Micronésie (États fédérés de),2013,3208.7
109,148,Nauru,2013,10078.4
122,168,Papouasie-Nouvelle-Guinée,2013,3282.5


In [28]:

#Calcule de l'évolution du pib par habitant entre 2012 et 2013 en pourcentage
a = df_pib2013['Pib par habitant']
b = df_pib2012['Pib par habitant']

c = (( (a*100) / (b) ) - 100).round(3)


In [29]:

#Nous ajoutons une colone variation de pib
df_pib2013["Variation du pib avec l'année precedente (en %)"] = c


In [30]:

df_final = df_final.merge(df_pib2013, 'left')
df_final = df_final.drop(columns='year')



Nous avons finalement notre dataframe final, celui que nous utiliserons pour l'étude de marché.


In [31]:

df_final.head()


Unnamed: 0,country_code,country,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Nourriture,Proportion proteine animale (%),populations,Evolution de la population par rapport a l'an passée (en %),Pib par habitant,Variation du pib avec l'année precedente (en %)
0,1,Arménie,3305.726017,122.980308,5148.952998,8119.525271,35.16,2977,0.269,7727.9,2.886
1,2,Afghanistan,2260.511826,80.206872,14275.952998,13330.262636,15.223,30552,2.438,1848.7,0.511
2,3,Albanie,3639.130747,145.509579,5518.952998,9531.612816,40.829,3173,0.348,10492.8,1.186
3,4,Algérie,3605.321287,122.401767,43390.952998,36486.981499,20.408,39208,1.887,13253.6,0.696
4,7,Angola,2647.511826,84.093955,32789.952998,17654.262636,21.88,21472,3.127,6188.0,3.135


In [32]:

df_final.isna().sum()


country_code                                                   0
country                                                        0
Disponibilité alimentaire (Kcal/personne/jour)                 0
Disponibilité de protéines en quantité (g/personne/jour)       0
Disponibilité intérieure                                       0
Nourriture                                                     0
Proportion proteine animale (%)                                0
populations                                                    0
Evolution de la population par rapport a l'an passée (en %)    0
Pib par habitant                                               7
Variation du pib avec l'année precedente (en %)                7
dtype: int64

In [33]:

df_final['Pib par habitant'] = df_final['Pib par habitant'].fillna(df_final['Pib par habitant'].mean())
df_final["Variation du pib avec l'année precedente (en %)"] = df_final["Variation du pib avec l'année precedente (en %)"].fillna(df_final["Variation du pib avec l'année precedente (en %)"].mean())



La FAO considère plusieurs "Chine" dans ces données.


In [34]:

df_final[df_final.country.str.contains("Chine")]


Unnamed: 0,country_code,country,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Nourriture,Proportion proteine animale (%),populations,Evolution de la population par rapport a l'an passée (en %),Pib par habitant,Variation du pib avec l'année precedente (en %)
28,41,"Chine, continentale",3389.618921,123.654684,2037487.0,1253518.0,31.758,1385567,0.617,11951.2,7.226
63,96,Chine - RAS de Hong-Kong,3633.023652,155.893955,7945.906,10535.98,60.554,7204,0.783,51732.4,2.688
91,128,Chine - RAS de Macao,3019.107096,121.573955,2665.859,2963.263,50.257,566,1.616,135319.0,8.63
147,214,"Chine, Taiwan Province de",3171.511826,110.457602,26881.95,17703.26,39.364,23330,0.249,17816.230357,2.010179
174,351,Chine,3285.511826,118.777602,2070422.0,1273057.0,33.365,1416667,0.613,12206.8,7.138



Après quelques recherches, nous avons trouvé que la chine et le regroupement des 4 autres nations cite ci-dessus, en bref si nous gardons les 5 nations précédentes nous aurons la chine qui comptera deux fois dans notre tableau.

    Chine = ( Chine - RAS de Hong-Kong + Chine - RAS de Macao + Chine, Taiwan Province de + Chine, continentale)

Comme nous souhaitons avoir des données précise nous retirerons la Chine.


In [35]:

df_final = df_final.drop(index=174)

df_final = df_final.reset_index()
df_final = df_final.drop(columns="index")


_Les suppressions suivantes sont propres au sujet du projet proposer dans le cadre de ma formation_

In [36]:

df_final = df_final.drop(columns=['Nourriture','Disponibilité intérieure'])


In [37]:

df_final.isna().sum()


country_code                                                   0
country                                                        0
Disponibilité alimentaire (Kcal/personne/jour)                 0
Disponibilité de protéines en quantité (g/personne/jour)       0
Proportion proteine animale (%)                                0
populations                                                    0
Evolution de la population par rapport a l'an passée (en %)    0
Pib par habitant                                               0
Variation du pib avec l'année precedente (en %)                0
dtype: int64

In [38]:

df_final.to_csv('Data/set_etudeFinal.csv',index=False)
