# Produisez une étude de marché avec Python

In [1]:
# Import des librairies

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import scipy.stats as st

## Disponibilité alimentaire

In [2]:
# Import du fichier disponibilité alimentaire

dispo_alim = pd.read_csv("DisponibiliteAlimentaire_2017.csv")
dispo_alim

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Blé et produits,2017,2017,Milliers de tonnes,4281.00,S,Données standardisées
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,2302.00,S,Données standardisées
2,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2511,Blé et produits,2017,2017,Milliers de tonnes,-119.00,S,Données standardisées
3,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5911,Exportations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,0.00,S,Données standardisées
4,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5301,Disponibilité intérieure,2511,Blé et produits,2017,2017,Milliers de tonnes,6701.00,S,Données standardisées
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
176595,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,5142,Nourriture,2899,Miscellanees,2017,2017,Milliers de tonnes,19.00,S,Données standardisées
176596,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,645,Disponibilité alimentaire en quantité (kg/pers...,2899,Miscellanees,2017,2017,kg,1.33,Fc,Donnée calculée
176597,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,664,Disponibilité alimentaire (Kcal/personne/jour),2899,Miscellanees,2017,2017,Kcal/personne/jour,1.00,Fc,Donnée calculée
176598,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,674,Disponibilité de protéines en quantité (g/pers...,2899,Miscellanees,2017,2017,g/personne/jour,0.04,Fc,Donnée calculée


In [3]:
# Voir la composition de dispo_alim

dispo_alim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176600 entries, 0 to 176599
Data columns (total 14 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   Code Domaine            176600 non-null  object 
 1   Domaine                 176600 non-null  object 
 2   Code zone               176600 non-null  int64  
 3   Zone                    176600 non-null  object 
 4   Code Élément            176600 non-null  int64  
 5   Élément                 176600 non-null  object 
 6   Code Produit            176600 non-null  int64  
 7   Produit                 176600 non-null  object 
 8   Code année              176600 non-null  int64  
 9   Année                   176600 non-null  int64  
 10  Unité                   176600 non-null  object 
 11  Valeur                  176600 non-null  float64
 12  Symbole                 176600 non-null  object 
 13  Description du Symbole  176600 non-null  object 
dtypes: float64(1), int64

Il n'y a aucune valeur manquante, les valeurs ont le bon type

In [4]:
# Voir si les valeurs sont uniques

dispo_alim.nunique()

Code Domaine                 1
Domaine                      1
Code zone                  174
Zone                       174
Code Élément                17
Élément                     17
Code Produit                98
Produit                     98
Code année                   1
Année                        1
Unité                        4
Valeur                    7250
Symbole                      2
Description du Symbole       2
dtype: int64

In [5]:
# Voir s'il y a des NaN

dispo_alim.isna().sum()

Code Domaine              0
Domaine                   0
Code zone                 0
Zone                      0
Code Élément              0
Élément                   0
Code Produit              0
Produit                   0
Code année                0
Année                     0
Unité                     0
Valeur                    0
Symbole                   0
Description du Symbole    0
dtype: int64

Il n'y a pas de NaN

In [6]:
# Voir s'il y a des données dupliquées

dispo_alim.duplicated().sum()

0

Il n'y pas de données dupliquées

In [7]:
dispo_alim.isnull().sum()

Code Domaine              0
Domaine                   0
Code zone                 0
Zone                      0
Code Élément              0
Élément                   0
Code Produit              0
Produit                   0
Code année                0
Année                     0
Unité                     0
Valeur                    0
Symbole                   0
Description du Symbole    0
dtype: int64

In [8]:
# On supprime les colonnes inutiles
dispo_alim= dispo_alim.drop(['Code zone','Code Domaine','Domaine','Code année','Symbole','Description du Symbole'], axis=1)

In [9]:
dispo_alim.count()

Zone            176600
Code Élément    176600
Élément         176600
Code Produit    176600
Produit         176600
Année           176600
Unité           176600
Valeur          176600
dtype: int64

In [10]:
#Restrictions uniquement sur les produits Volailles qui nous interesse

dispo_alim = dispo_alim[dispo_alim.Produit == 'Viande de Volailles']
dispo_alim.head()

Unnamed: 0,Zone,Code Élément,Élément,Code Produit,Produit,Année,Unité,Valeur
651,Afghanistan,5511,Production,2734,Viande de Volailles,2017,Milliers de tonnes,28.0
652,Afghanistan,5611,Importations - Quantité,2734,Viande de Volailles,2017,Milliers de tonnes,29.0
653,Afghanistan,5072,Variation de stock,2734,Viande de Volailles,2017,Milliers de tonnes,0.0
654,Afghanistan,5301,Disponibilité intérieure,2734,Viande de Volailles,2017,Milliers de tonnes,57.0
655,Afghanistan,5123,Pertes,2734,Viande de Volailles,2017,Milliers de tonnes,2.0


In [11]:
dispo_alim.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2061 entries, 651 to 176400
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Zone          2061 non-null   object 
 1   Code Élément  2061 non-null   int64  
 2   Élément       2061 non-null   object 
 3   Code Produit  2061 non-null   int64  
 4   Produit       2061 non-null   object 
 5   Année         2061 non-null   int64  
 6   Unité         2061 non-null   object 
 7   Valeur        2061 non-null   float64
dtypes: float64(1), int64(3), object(4)
memory usage: 144.9+ KB


In [12]:
# On supprime les colonnes non pertinentes et inutiles pour notre analyse 

dispo_alim = dispo_alim [~dispo_alim['Élément'].isin(('Production','Résidus','Variation de stock','Pertes', 'Nourriture',
       'Disponibilité alimentaire en quantité (kg/personne/an)','Disponibilité de protéines en quantité (g/personne/jour)',
       'Disponibilité de matière grasse en quantité (g/personne/jour)','Traitement', 'Autres utilisations (non alimentaire)',
       'Aliments pour animaux', 'Semences'))]
                                                              
dispo_alim['Élément'].unique()

array(['Importations - Quantité', 'Disponibilité intérieure',
       'Disponibilité alimentaire (Kcal/personne/jour)',
       'Exportations - Quantité', 'Alimentation pour touristes'],
      dtype=object)

In [13]:
# Pivot de la table pour avoir les lignes de la colonne Element en colonnes

dispo_alim= dispo_alim.pivot(index = 'Zone', columns= 'Élément', values= 'Valeur').reset_index()
dispo_alim

Élément,Zone,Alimentation pour touristes,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité
0,Afghanistan,,5.0,57.0,,29.0
1,Afrique du Sud,0.0,143.0,2118.0,63.0,514.0
2,Albanie,,85.0,47.0,0.0,38.0
3,Algérie,0.0,22.0,277.0,0.0,2.0
4,Allemagne,,71.0,1739.0,646.0,842.0
...,...,...,...,...,...,...
167,Émirats arabes unis,,147.0,412.0,94.0,433.0
168,Équateur,0.0,83.0,341.0,0.0,0.0
169,États-Unis d'Amérique,,219.0,18266.0,3692.0,123.0
170,Éthiopie,0.0,0.0,14.0,,1.0


In [14]:
#Remplacement des NaN

dispo_alim.fillna(0, inplace = True)

In [15]:
#Verification qu'il n'y a plus de NaN

dispo_alim.isna().sum()

Élément
Zone                                              0
Alimentation pour touristes                       0
Disponibilité alimentaire (Kcal/personne/jour)    0
Disponibilité intérieure                          0
Exportations - Quantité                           0
Importations - Quantité                           0
dtype: int64

In [16]:
# On supprime Alimentation pour touristes puisqu'il n'y a que des valeurs nulles, mais elle aurait pu être un indicateur de stabilité politique
dispo_alim= dispo_alim.drop(['Alimentation pour touristes'], axis=1)

In [17]:
dispo_alim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 172 entries, 0 to 171
Data columns (total 5 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Zone                                            172 non-null    object 
 1   Disponibilité alimentaire (Kcal/personne/jour)  172 non-null    float64
 2   Disponibilité intérieure                        172 non-null    float64
 3   Exportations - Quantité                         172 non-null    float64
 4   Importations - Quantité                         172 non-null    float64
dtypes: float64(4), object(1)
memory usage: 6.8+ KB


In [18]:
# On retire la France de l'echantillon puisque l'entreprise est en France, elle n'est pas necessaire à notre analyse
 
dispo_alim = dispo_alim[dispo_alim.Zone!='France']

In [19]:
# On verifie l'unicite de Zone 

dispo_alim["Zone"].nunique()

171

## Population

In [20]:
#Import du csv Population
#Affichage du type de donnée contenue dans le dataframe

pop = pd.read_csv('Population_2000_2018.csv')
display(pop.head(10))
pop.dtypes

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales sûres,
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales sûres,
2,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2002,2002,1000 personnes,22600.77,X,Sources internationales sûres,
3,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2003,2003,1000 personnes,23680.871,X,Sources internationales sûres,
4,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2004,2004,1000 personnes,24726.684,X,Sources internationales sûres,
5,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2005,2005,1000 personnes,25654.277,X,Sources internationales sûres,
6,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2006,2006,1000 personnes,26433.049,X,Sources internationales sûres,
7,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2007,2007,1000 personnes,27100.536,X,Sources internationales sûres,
8,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2008,2008,1000 personnes,27722.276,X,Sources internationales sûres,
9,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2009,2009,1000 personnes,28394.813,X,Sources internationales sûres,


Code Domaine               object
Domaine                    object
Code zone                   int64
Zone                       object
Code Élément                int64
Élément                    object
Code Produit                int64
Produit                    object
Code année                  int64
Année                       int64
Unité                      object
Valeur                    float64
Symbole                    object
Description du Symbole     object
Note                       object
dtype: object

Les données ont les types attendus 

In [21]:
# Voir la composition de pop

pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4411 entries, 0 to 4410
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            4411 non-null   object 
 1   Domaine                 4411 non-null   object 
 2   Code zone               4411 non-null   int64  
 3   Zone                    4411 non-null   object 
 4   Code Élément            4411 non-null   int64  
 5   Élément                 4411 non-null   object 
 6   Code Produit            4411 non-null   int64  
 7   Produit                 4411 non-null   object 
 8   Code année              4411 non-null   int64  
 9   Année                   4411 non-null   int64  
 10  Unité                   4411 non-null   object 
 11  Valeur                  4411 non-null   float64
 12  Symbole                 4411 non-null   object 
 13  Description du Symbole  4411 non-null   object 
 14  Note                    258 non-null    

Il n'y a pas de valeur manquante sauf la colonne note, il faut creuser

In [22]:
# Voir s'il y a des NaN

pop.isna().sum()

Code Domaine                 0
Domaine                      0
Code zone                    0
Zone                         0
Code Élément                 0
Élément                      0
Code Produit                 0
Produit                      0
Code année                   0
Année                        0
Unité                        0
Valeur                       0
Symbole                      0
Description du Symbole       0
Note                      4153
dtype: int64

Il y a des NaN dans la colonne Note, il faut les traiter.

In [23]:
# Remplacement des NaN

pop.fillna(0, inplace=True)
pop.head(10)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales sûres,0
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales sûres,0
2,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2002,2002,1000 personnes,22600.77,X,Sources internationales sûres,0
3,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2003,2003,1000 personnes,23680.871,X,Sources internationales sûres,0
4,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2004,2004,1000 personnes,24726.684,X,Sources internationales sûres,0
5,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2005,2005,1000 personnes,25654.277,X,Sources internationales sûres,0
6,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2006,2006,1000 personnes,26433.049,X,Sources internationales sûres,0
7,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2007,2007,1000 personnes,27100.536,X,Sources internationales sûres,0
8,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2008,2008,1000 personnes,27722.276,X,Sources internationales sûres,0
9,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2009,2009,1000 personnes,28394.813,X,Sources internationales sûres,0


In [24]:
# Verification s'il reste des NaN

pop.isna().sum()

Code Domaine              0
Domaine                   0
Code zone                 0
Zone                      0
Code Élément              0
Élément                   0
Code Produit              0
Produit                   0
Code année                0
Année                     0
Unité                     0
Valeur                    0
Symbole                   0
Description du Symbole    0
Note                      0
dtype: int64

Il n'y a plus de NaN 

In [25]:
# Voir s'il y a des données dupliquées

pop.duplicated().sum()

0

Il n'y a pas de données en double

In [26]:
pop.isnull().sum()

Code Domaine              0
Domaine                   0
Code zone                 0
Zone                      0
Code Élément              0
Élément                   0
Code Produit              0
Produit                   0
Code année                0
Année                     0
Unité                     0
Valeur                    0
Symbole                   0
Description du Symbole    0
Note                      0
dtype: int64

 Il n'y a pas de valeurs manquantes 

In [27]:
# On supprime les colonnes dupliquées puisqu'elles ne sont pas utiles

pop = pop.drop(['Code zone','Code Domaine','Domaine','Code Élément','Élément','Code Produit','Produit','Code année','Unité','Symbole','Description du Symbole','Note'], axis=1)


In [28]:
#Pivot de la table pour avoir les années en colonnes
# Filtre des années , puisque dispo_alim n'est que sur 2017

pop = pd.pivot_table(pop, columns=["Année"], index=["Zone"]).reset_index()  #On met les années en colonnes
pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   (Zone, )        238 non-null    object 
 1   (Valeur, 2000)  229 non-null    float64
 2   (Valeur, 2001)  229 non-null    float64
 3   (Valeur, 2002)  229 non-null    float64
 4   (Valeur, 2003)  229 non-null    float64
 5   (Valeur, 2004)  229 non-null    float64
 6   (Valeur, 2005)  229 non-null    float64
 7   (Valeur, 2006)  230 non-null    float64
 8   (Valeur, 2007)  230 non-null    float64
 9   (Valeur, 2008)  230 non-null    float64
 10  (Valeur, 2009)  230 non-null    float64
 11  (Valeur, 2010)  230 non-null    float64
 12  (Valeur, 2011)  235 non-null    float64
 13  (Valeur, 2012)  236 non-null    float64
 14  (Valeur, 2013)  236 non-null    float64
 15  (Valeur, 2014)  236 non-null    float64
 16  (Valeur, 2015)  236 non-null    float64
 17  (Valeur, 2016)  236 non-null    flo

In [29]:
pop = pop.drop(pop.columns[[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19]],axis=1)  #On supprime celles qui ne serviront pas
pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 2 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   (Zone, )        238 non-null    object 
 1   (Valeur, 2017)  236 non-null    float64
dtypes: float64(1), object(1)
memory usage: 3.8+ KB


In [30]:
#Renomme les colonnes 

pop.columns = ['Zone','Pop 2017']
pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Zone      238 non-null    object 
 1   Pop 2017  236 non-null    float64
dtypes: float64(1), object(1)
memory usage: 3.8+ KB


On remarque qu'il y a des données manquantes, il faut les traiter

In [31]:
pop.isnull().sum()

Zone        0
Pop 2017    2
dtype: int64

In [32]:
#Affichage des valeurs manquantes

print (pop.index[pop.isnull().any(axis=1)])

Int64Index([182, 191], dtype='int64')


In [33]:
# On regarde en details les valeurs manquantes

pop.loc[pop['Pop 2017'].isnull(),:]

Unnamed: 0,Zone,Pop 2017
182,Serbie-et-Monténégro,
191,Soudan (ex),


In [34]:
#Suppressions des NaN

pop.dropna(inplace = True)

In [35]:
# Verfication que tout les NaN ont été traité
print(pop.index[pop.isna().any(axis=1)])

Int64Index([], dtype='int64')


Rien n'est présent dans l'index, les valeurs ont bien été traitées

In [36]:
# On change l'unité pour avoir l'estimation réelle (et non en miliers d'habitants)

pop['Pop 2017'] = pop ['Pop 2017'] * 1000

In [37]:
# On retire la France de l'echantillon puisque l'entreprise est en France, elle n'est pas necessaire à notre analyse
 
pop = pop[pop.Zone!='France']

In [38]:
pop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 235 entries, 0 to 237
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Zone      235 non-null    object 
 1   Pop 2017  235 non-null    float64
dtypes: float64(1), object(1)
memory usage: 5.5+ KB


In [39]:
# On verifie l'unicite de Zone 

pop["Zone"].nunique()

235

In [40]:
# Création nouveau df avec dispo_alim et pop
# Merge du df dispo_alim et pop

pop_alim = pop.merge(dispo_alim, on = 'Zone', how = 'outer') 
pop_alim

Unnamed: 0,Zone,Pop 2017,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité
0,Afghanistan,36296113.0,5.0,57.0,0.0,29.0
1,Afrique du Sud,57009756.0,143.0,2118.0,63.0,514.0
2,Albanie,2884169.0,85.0,47.0,0.0,38.0
3,Algérie,41389189.0,22.0,277.0,0.0,2.0
4,Allemagne,82658409.0,71.0,1739.0,646.0,842.0
...,...,...,...,...,...,...
230,Îles Salomon,636039.0,18.0,3.0,0.0,6.0
231,Îles Turques-et-Caïques,37115.0,,,,
232,Îles Vierges américaines,104751.0,,,,
233,Îles Vierges britanniques,29577.0,,,,


In [41]:
pop_alim.isna().sum()

Zone                                               0
Pop 2017                                           0
Disponibilité alimentaire (Kcal/personne/jour)    64
Disponibilité intérieure                          64
Exportations - Quantité                           64
Importations - Quantité                           64
dtype: int64

In [42]:
#Affichage des valeurs manquantes

print (pop_alim.index[pop_alim.isna().any(axis=1)])

Int64Index([  5,   7,   9,  13,  18,  23,  24,  26,  29,  33,  47,  52,  67,
             69,  71,  72,  75,  78, 102, 104, 115, 118, 120, 121, 123, 128,
            132, 141, 142, 144, 150, 153, 157, 162, 166, 167, 168, 170, 171,
            172, 173, 175, 178, 181, 183, 184, 187, 189, 201, 202, 207, 219,
            222, 223, 224, 225, 226, 227, 228, 229, 231, 232, 233, 234],
           dtype='int64')


On a la confirmation des NaN aperçu lors de l'affichage du merge, on n'a pas de données mis à part le code zone et la population du pays. Certains sont rattachés à des grandes puissances tel que la france ou les pays bas.

On va supprimer ces données puisqu'elles nous sont d'aucune utilité pour les analyses futures.

In [43]:
pop_alim.dropna(inplace = True)

In [44]:
# Verfication que tout les NaN ont été traité

print(pop_alim.index[pop_alim.isnull().any(axis=1)])

Int64Index([], dtype='int64')


In [45]:
pop_alim.tail()

Unnamed: 0,Zone,Pop 2017,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité
217,Émirats arabes unis,9487203.0,147.0,412.0,94.0,433.0
218,Équateur,16785361.0,83.0,341.0,0.0,0.0
220,États-Unis d'Amérique,325084756.0,219.0,18266.0,3692.0,123.0
221,Éthiopie,106399924.0,0.0,14.0,0.0,1.0
230,Îles Salomon,636039.0,18.0,3.0,0.0,6.0


In [46]:
pop_alim.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 171 entries, 0 to 230
Data columns (total 6 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Zone                                            171 non-null    object 
 1   Pop 2017                                        171 non-null    float64
 2   Disponibilité alimentaire (Kcal/personne/jour)  171 non-null    float64
 3   Disponibilité intérieure                        171 non-null    float64
 4   Exportations - Quantité                         171 non-null    float64
 5   Importations - Quantité                         171 non-null    float64
dtypes: float64(5), object(1)
memory usage: 9.4+ KB


In [47]:
#Import du csv des données de la FAO
#Affichage du type de donnée contenue dans le dataframe

fao = pd.read_csv('FAOSTAT.csv')
display(fao.head(10))
fao.dtypes

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,4,Afghanistan,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2018,2018,I$,2033.8,X,Ciffre de sources internationales,
1,FS,Données de la sécurité alimentaire,4,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2018,2018,indice,-2.76,X,Ciffre de sources internationales,
2,FS,Données de la sécurité alimentaire,710,Afrique du Sud,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2018,2018,I$,13875.9,X,Ciffre de sources internationales,
3,FS,Données de la sécurité alimentaire,710,Afrique du Sud,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2018,2018,indice,-0.23,X,Ciffre de sources internationales,
4,FS,Données de la sécurité alimentaire,8,Albanie,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2018,2018,I$,13317.1,X,Ciffre de sources internationales,
5,FS,Données de la sécurité alimentaire,8,Albanie,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2018,2018,indice,0.37,X,Ciffre de sources internationales,
6,FS,Données de la sécurité alimentaire,12,Algérie,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2018,2018,I$,11630.7,X,Ciffre de sources internationales,
7,FS,Données de la sécurité alimentaire,12,Algérie,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2018,2018,indice,-0.84,X,Ciffre de sources internationales,
8,FS,Données de la sécurité alimentaire,276,Allemagne,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2018,2018,I$,53486.8,X,Ciffre de sources internationales,
9,FS,Données de la sécurité alimentaire,276,Allemagne,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2018,2018,indice,0.59,X,Ciffre de sources internationales,


Code Domaine               object
Domaine                    object
Code zone (M49)             int64
Zone                       object
Code Élément                int64
Élément                    object
Code Produit                int64
Produit                    object
Code année                  int64
Année                       int64
Unité                      object
Valeur                    float64
Symbole                    object
Description du Symbole     object
Note                      float64
dtype: object

In [48]:
fao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 386 entries, 0 to 385
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            386 non-null    object 
 1   Domaine                 386 non-null    object 
 2   Code zone (M49)         386 non-null    int64  
 3   Zone                    386 non-null    object 
 4   Code Élément            386 non-null    int64  
 5   Élément                 386 non-null    object 
 6   Code Produit            386 non-null    int64  
 7   Produit                 386 non-null    object 
 8   Code année              386 non-null    int64  
 9   Année                   386 non-null    int64  
 10  Unité                   386 non-null    object 
 11  Valeur                  386 non-null    float64
 12  Symbole                 386 non-null    object 
 13  Description du Symbole  386 non-null    object 
 14  Note                    0 non-null      fl

In [49]:
fao.isnull().sum()

Code Domaine                0
Domaine                     0
Code zone (M49)             0
Zone                        0
Code Élément                0
Élément                     0
Code Produit                0
Produit                     0
Code année                  0
Année                       0
Unité                       0
Valeur                      0
Symbole                     0
Description du Symbole      0
Note                      386
dtype: int64

La colonne Note est remplie de valeurs nulles, il faut les traiter

In [50]:
fao.isna().sum()

Code Domaine                0
Domaine                     0
Code zone (M49)             0
Zone                        0
Code Élément                0
Élément                     0
Code Produit                0
Produit                     0
Code année                  0
Année                       0
Unité                       0
Valeur                      0
Symbole                     0
Description du Symbole      0
Note                      386
dtype: int64

In [51]:
fao.fillna(0, inplace=True)

In [52]:
fao.duplicated().sum()

0

Aucunes valeurs en double

In [53]:
# On supprime les colonnes inutiles
fao= fao.drop(['Code zone (M49)','Code Domaine','Domaine','Code année','Symbole','Description du Symbole','Code Élément','Élément','Code Produit','Code année','Unité','Note'], axis=1)

In [54]:
fao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 386 entries, 0 to 385
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Zone     386 non-null    object 
 1   Produit  386 non-null    object 
 2   Année    386 non-null    int64  
 3   Valeur   386 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 12.2+ KB


In [55]:
fao = pd.pivot_table(fao, columns=["Produit"], index=["Zone"], values=['Valeur']).reset_index() 
fao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 3 columns):
 #   Column                                                                    Non-Null Count  Dtype  
---  ------                                                                    --------------  -----  
 0   (Zone, )                                                                  200 non-null    object 
 1   (Valeur, PIB par habitant, ($ PPA internationaux constants de 2017))      187 non-null    float64
 2   (Valeur, Stabilité politique et absence de violence/terrorisme (indice))  199 non-null    float64
dtypes: float64(2), object(1)
memory usage: 4.8+ KB


In [56]:
fao.isnull().sum()

        Produit                                                       
Zone                                                                       0
Valeur  PIB par habitant, ($ PPA internationaux constants de 2017)        13
        Stabilité politique et absence de violence/terrorisme (indice)     1
dtype: int64

In [57]:
fao.index[fao.isna().any(axis=1)]

Int64Index([5, 37, 40, 47, 64, 119, 142, 149, 155, 165, 186, 188, 194, 197], dtype='int64')

In [58]:
fao.head(6)

Unnamed: 0_level_0,Zone,Valeur,Valeur
Produit,Unnamed: 1_level_1,"PIB par habitant, ($ PPA internationaux constants de 2017)",Stabilité politique et absence de violence/terrorisme (indice)
0,Afghanistan,2033.8,-2.76
1,Afrique du Sud,13875.9,-0.23
2,Albanie,13317.1,0.37
3,Algérie,11630.7,-0.84
4,Allemagne,53486.8,0.59
5,Andorre,,1.42


In [59]:
fao.tail(6)

Unnamed: 0_level_0,Zone,Valeur,Valeur
Produit,Unnamed: 1_level_1,"PIB par habitant, ($ PPA internationaux constants de 2017)",Stabilité politique et absence de violence/terrorisme (indice)
194,Érythrée,,-0.61
195,États-Unis d'Amérique,61339.8,0.42
196,Éthiopie,2103.5,-1.28
197,Îles Cook,,0.86
198,Îles Marshall,3820.5,0.73
199,Îles Salomon,2697.2,0.36


In [60]:
fao.fillna(0, inplace=True)

In [61]:
fao.isna().sum()

        Produit                                                       
Zone                                                                      0
Valeur  PIB par habitant, ($ PPA internationaux constants de 2017)        0
        Stabilité politique et absence de violence/terrorisme (indice)    0
dtype: int64

In [62]:
fao.columns= ['Zone','PIB par habitant','Stabilité politique et absence de violence/terrorisme']
fao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 3 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   Zone                                                   200 non-null    object 
 1   PIB par habitant                                       200 non-null    float64
 2   Stabilité politique et absence de violence/terrorisme  200 non-null    float64
dtypes: float64(2), object(1)
memory usage: 4.8+ KB


In [63]:
fao['Zone'].nunique()

200

Les valeurs de Zone sont bien uniques, elles peuvent servir pour faire la jointure des deux tableaux

In [64]:
fao

Unnamed: 0,Zone,PIB par habitant,Stabilité politique et absence de violence/terrorisme
0,Afghanistan,2033.8,-2.76
1,Afrique du Sud,13875.9,-0.23
2,Albanie,13317.1,0.37
3,Algérie,11630.7,-0.84
4,Allemagne,53486.8,0.59
...,...,...,...
195,États-Unis d'Amérique,61339.8,0.42
196,Éthiopie,2103.5,-1.28
197,Îles Cook,0.0,0.86
198,Îles Marshall,3820.5,0.73


In [65]:
pop_alim = pop_alim.merge(fao, on = 'Zone')
pop_alim

Unnamed: 0,Zone,Pop 2017,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,PIB par habitant,Stabilité politique et absence de violence/terrorisme
0,Afghanistan,36296113.0,5.0,57.0,0.0,29.0,2033.8,-2.76
1,Afrique du Sud,57009756.0,143.0,2118.0,63.0,514.0,13875.9,-0.23
2,Albanie,2884169.0,85.0,47.0,0.0,38.0,13317.1,0.37
3,Algérie,41389189.0,22.0,277.0,0.0,2.0,11630.7,-0.84
4,Allemagne,82658409.0,71.0,1739.0,646.0,842.0,53486.8,0.59
...,...,...,...,...,...,...,...,...
162,Émirats arabes unis,9487203.0,147.0,412.0,94.0,433.0,66968.2,0.70
163,Équateur,16785361.0,83.0,341.0,0.0,0.0,11561.7,-0.09
164,États-Unis d'Amérique,325084756.0,219.0,18266.0,3692.0,123.0,61339.8,0.42
165,Éthiopie,106399924.0,0.0,14.0,0.0,1.0,2103.5,-1.28


In [66]:
# Export du nouveau df pour traitement futur

pop_alim.to_csv('pop_alim.csv',          index = False,          header=True)