In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sk
import scipy as sp


# Importation des données

In [2]:
dispo_alim = pd.read_csv("DisponibiliteAlimentaire_2017.csv")
population = pd.read_csv("Population_2000_2018.csv")
pib = pd.read_csv("pib_2017.csv")
stabilité = pd.read_csv("donnee_secu_alim.csv")

# Nettoyage des données

## Fichier disponibilité alimentaire

In [3]:
dispo_alim.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Blé et produits,2017,2017,Milliers de tonnes,4281.0,S,Données standardisées
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,2302.0,S,Données standardisées
2,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2511,Blé et produits,2017,2017,Milliers de tonnes,-119.0,S,Données standardisées
3,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5911,Exportations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,0.0,S,Données standardisées
4,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5301,Disponibilité intérieure,2511,Blé et produits,2017,2017,Milliers de tonnes,6701.0,S,Données standardisées


In [4]:
dispo_alim.describe()

Unnamed: 0,Code zone,Code Élément,Code Produit,Code année,Année,Valeur
count,176600.0,176600.0,176600.0,176600.0,176600.0,176600.0
mean,125.47474,3810.052894,2628.778545,2017.0,2017.0,210.554918
std,72.941699,2211.790089,91.993247,0.0,0.0,4762.047787
min,1.0,645.0,2511.0,2017.0,2017.0,-10388.0
25%,63.0,684.0,2556.0,2017.0,2017.0,0.0
50%,120.0,5142.0,2612.0,2017.0,2017.0,0.12
75%,188.0,5301.0,2732.0,2017.0,2017.0,8.4625
max,276.0,5911.0,2899.0,2017.0,2017.0,758548.0


In [5]:
dispo_alim.isnull().sum()

Code Domaine              0
Domaine                   0
Code zone                 0
Zone                      0
Code Élément              0
Élément                   0
Code Produit              0
Produit                   0
Code année                0
Année                     0
Unité                     0
Valeur                    0
Symbole                   0
Description du Symbole    0
dtype: int64

In [6]:
dispo_alim.duplicated().sum()

0

In [7]:
dispo_alim['Produit'].unique()

array(['Blé et produits', 'Riz et produits', 'Orge et produits',
       'Maïs et produits', 'Seigle et produits', 'Avoine',
       'Millet et produits', 'Sorgho et produits', 'Céréales, Autres',
       'Pommes de Terre et produits', 'Ignames', 'Racines nda',
       'Sucre, canne', 'Sucre, betterave', 'Sucre Eq Brut',
       'Edulcorants Autres', 'Miel', 'Haricots', 'Pois',
       'Légumineuses Autres et produits', 'Noix et produits', 'Soja',
       'Arachides Decortiquees', 'Graines de tournesol',
       'Graines Colza/Moutarde', 'Graines de coton', 'Coco (Incl Coprah)',
       'Sésame', 'Olives', 'Plantes Oleiferes, Autre', 'Huile de Soja',
       "Huile d'Arachide", 'Huile de Tournesol',
       'Huile de Colza&Moutarde', 'Huile Graines de Coton',
       'Huile de Palmistes', 'Huile de Palme', 'Huile de Coco',
       'Huile de Sésame', "Huile d'Olive", 'Huile de Son de Riz',
       'Huile de Germe de Maïs', 'Huil Plantes Oleif Autr',
       'Tomates et produits', 'Oignons', 'Légumes, 

In [8]:
dispo_alim_poulet = dispo_alim.loc[dispo_alim['Produit'] == 'Viande de Volailles']

In [9]:
dispo_alim_poulet.head(3)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
651,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2734,Viande de Volailles,2017,2017,Milliers de tonnes,28.0,S,Données standardisées
652,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2734,Viande de Volailles,2017,2017,Milliers de tonnes,29.0,S,Données standardisées
653,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2734,Viande de Volailles,2017,2017,Milliers de tonnes,0.0,S,Données standardisées


In [10]:
dispo_alim_poulet['Unité'].unique()

array(['Milliers de tonnes', 'kg', 'Kcal/personne/jour',
       'g/personne/jour'], dtype=object)

In [11]:
#Pivot table

In [12]:
#Table pour la catégorie viande de volailles
pivot_dispo = pd.pivot_table(dispo_alim_poulet,values='Valeur', 
                             index=['Zone'],columns=['Élément'], aggfunc=np.sum).reset_index()
pivot_dispo.head()

Élément,Zone,Alimentation pour touristes,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Résidus,Semences,Traitement,Variation de stock
0,Afghanistan,,,,5.0,1.53,0.33,0.54,57.0,,29.0,55.0,2.0,28.0,0.0,,,0.0
1,Afrique du Sud,0.0,,,143.0,35.69,9.25,14.11,2118.0,63.0,514.0,2035.0,83.0,1667.0,0.0,,,0.0
2,Albanie,,,,85.0,16.36,6.45,6.26,47.0,0.0,38.0,47.0,,13.0,0.0,,,4.0
3,Algérie,0.0,,,22.0,6.38,1.5,1.97,277.0,0.0,2.0,264.0,13.0,275.0,0.0,,,0.0
4,Allemagne,,,,71.0,19.47,4.16,7.96,1739.0,646.0,842.0,1609.0,,1514.0,-38.0,,167.0,-29.0


In [13]:
pivot_dispo.drop(['Aliments pour animaux','Autres utilisations (non alimentaire)','Résidus','Semences',
                 'Traitement','Variation de stock','Disponibilité de matière grasse en quantité (g/personne/jour)',
                 'Pertes','Disponibilité alimentaire en quantité (kg/personne/an)','Alimentation pour touristes'
                 ],axis = 1, inplace = True) 

In [14]:
pivot_dispo.head()

Élément,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production
0,Afghanistan,5.0,0.54,57.0,,29.0,55.0,28.0
1,Afrique du Sud,143.0,14.11,2118.0,63.0,514.0,2035.0,1667.0
2,Albanie,85.0,6.26,47.0,0.0,38.0,47.0,13.0
3,Algérie,22.0,1.97,277.0,0.0,2.0,264.0,275.0
4,Allemagne,71.0,7.96,1739.0,646.0,842.0,1609.0,1514.0


In [15]:
pivot_dispo.head()

Élément,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production
0,Afghanistan,5.0,0.54,57.0,,29.0,55.0,28.0
1,Afrique du Sud,143.0,14.11,2118.0,63.0,514.0,2035.0,1667.0
2,Albanie,85.0,6.26,47.0,0.0,38.0,47.0,13.0
3,Algérie,22.0,1.97,277.0,0.0,2.0,264.0,275.0
4,Allemagne,71.0,7.96,1739.0,646.0,842.0,1609.0,1514.0


In [16]:
pivot_dispo.isnull().sum()

Élément
Zone                                                         0
Disponibilité alimentaire (Kcal/personne/jour)               0
Disponibilité de protéines en quantité (g/personne/jour)     0
Disponibilité intérieure                                     2
Exportations - Quantité                                     37
Importations - Quantité                                      2
Nourriture                                                   2
Production                                                   4
dtype: int64

In [17]:
pivot_dispo.loc[pivot_dispo['Exportations - Quantité'].isnull()]

Élément,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production
0,Afghanistan,5.0,0.54,57.0,,29.0,55.0,28.0
13,Bahamas,182.0,14.61,26.0,,24.0,16.0,6.0
14,Bangladesh,7.0,0.47,250.0,,0.0,240.0,249.0
23,Burkina Faso,8.0,0.77,46.0,,0.0,44.0,46.0
26,Cabo Verde,62.0,6.52,10.0,,12.0,9.0,1.0
27,Cambodge,11.0,0.74,38.0,,10.0,37.0,28.0
40,Cuba,82.0,7.12,342.0,,312.0,269.0,29.0
43,Djibouti,9.0,0.92,3.0,,3.0,3.0,
54,Gambie,12.0,1.24,8.0,,16.0,8.0,2.0
56,Grenade,192.0,15.5,8.0,,7.0,5.0,1.0


In [18]:
pivot_dispo.dropna(subset=['Importations - Quantité','Production'],inplace = True)

In [19]:
pivot_dispo.fillna(0,inplace = True)

In [20]:
pivot_dispo['auto_suffisance'] = round((pivot_dispo['Production'] -
                                  pivot_dispo['Exportations - Quantité'])/ pivot_dispo['Nourriture'] * 100,2)

In [21]:
pivot_dispo.head()

Élément,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production,auto_suffisance
0,Afghanistan,5.0,0.54,57.0,0.0,29.0,55.0,28.0,50.91
1,Afrique du Sud,143.0,14.11,2118.0,63.0,514.0,2035.0,1667.0,78.82
2,Albanie,85.0,6.26,47.0,0.0,38.0,47.0,13.0,27.66
3,Algérie,22.0,1.97,277.0,0.0,2.0,264.0,275.0,104.17
4,Allemagne,71.0,7.96,1739.0,646.0,842.0,1609.0,1514.0,53.95


## Fichiers Population 

In [22]:
population.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales sûres,
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales sûres,
2,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2002,2002,1000 personnes,22600.77,X,Sources internationales sûres,
3,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2003,2003,1000 personnes,23680.871,X,Sources internationales sûres,
4,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2004,2004,1000 personnes,24726.684,X,Sources internationales sûres,


In [23]:
population['Unité'].unique()

array(['1000 personnes'], dtype=object)

In [24]:
population.describe()

Unnamed: 0,Code zone,Code Élément,Code Produit,Code année,Année,Valeur
count,4411.0,4411.0,4411.0,4411.0,4411.0,4411.0
mean,132.202902,511.0,3010.0,2009.068238,2009.068238,29630.04
std,75.85484,0.0,0.0,5.481539,5.481539,123802.9
min,1.0,511.0,3010.0,2000.0,2000.0,0.785
25%,68.0,511.0,3010.0,2004.0,2004.0,392.189
50%,132.0,511.0,3010.0,2009.0,2009.0,4764.741
75%,195.0,511.0,3010.0,2014.0,2014.0,18215.48
max,299.0,511.0,3010.0,2018.0,2018.0,1427648.0


In [25]:
population_2017 = population.loc[population['Année'] == 2017]

In [26]:
population_2017.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
17,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,36296.113,X,Sources internationales sûres,
36,OA,Séries temporelles annuelles,202,Afrique du Sud,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,57009.756,X,Sources internationales sûres,
55,OA,Séries temporelles annuelles,3,Albanie,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,2884.169,X,Sources internationales sûres,
74,OA,Séries temporelles annuelles,4,Algérie,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,41389.189,X,Sources internationales sûres,
93,OA,Séries temporelles annuelles,79,Allemagne,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,82658.409,X,Sources internationales sûres,


In [27]:
population_2017['Année'].unique()

array([2017], dtype=int64)

In [28]:
population_2017.isnull().sum()

Code Domaine                0
Domaine                     0
Code zone                   0
Zone                        0
Code Élément                0
Élément                     0
Code Produit                0
Produit                     0
Code année                  0
Année                       0
Unité                       0
Valeur                      0
Symbole                     0
Description du Symbole      0
Note                      235
dtype: int64

In [29]:
population_2017.duplicated().sum()

0

In [30]:
pivot_population = pd.pivot_table(population_2017,values='Valeur', 
                                  index=['Zone'],columns=['Élément'], aggfunc=np.sum).reset_index()
pivot_population.head()

Élément,Zone,Population totale
0,Afghanistan,36296.113
1,Afrique du Sud,57009.756
2,Albanie,2884.169
3,Algérie,41389.189
4,Allemagne,82658.409


## PIB 

In [31]:
pib.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,MK,Indicateurs macro,4,Afghanistan,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,18896.35,X,Ciffre de sources internationales,
1,MK,Indicateurs macro,710,Afrique du Sud,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,380851.4,X,Ciffre de sources internationales,
2,MK,Indicateurs macro,8,Albanie,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,13019.73,X,Ciffre de sources internationales,
3,MK,Indicateurs macro,12,Algérie,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,170097.0,X,Ciffre de sources internationales,
4,MK,Indicateurs macro,276,Allemagne,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,3690849.0,X,Ciffre de sources internationales,


In [32]:
# Mettre les unités en millards
pib['Valeur'] = round(pib['Valeur']/1000,2)

In [33]:
pib.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,MK,Indicateurs macro,4,Afghanistan,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,18.9,X,Ciffre de sources internationales,
1,MK,Indicateurs macro,710,Afrique du Sud,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,380.85,X,Ciffre de sources internationales,
2,MK,Indicateurs macro,8,Albanie,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,13.02,X,Ciffre de sources internationales,
3,MK,Indicateurs macro,12,Algérie,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,170.1,X,Ciffre de sources internationales,
4,MK,Indicateurs macro,276,Allemagne,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,millions,3690.85,X,Ciffre de sources internationales,


In [34]:
pib['Unité'] = 'Milliard'

In [35]:
pib.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,MK,Indicateurs macro,4,Afghanistan,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Milliard,18.9,X,Ciffre de sources internationales,
1,MK,Indicateurs macro,710,Afrique du Sud,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Milliard,380.85,X,Ciffre de sources internationales,
2,MK,Indicateurs macro,8,Albanie,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Milliard,13.02,X,Ciffre de sources internationales,
3,MK,Indicateurs macro,12,Algérie,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Milliard,170.1,X,Ciffre de sources internationales,
4,MK,Indicateurs macro,276,Allemagne,6110,Valeur US $,22008,Produit Intérieur Brut,2017,2017,Milliard,3690.85,X,Ciffre de sources internationales,


In [36]:
pib.duplicated().sum()

0

In [37]:
pib.isnull().sum()

Code Domaine                0
Domaine                     0
Code zone (M49)             0
Zone                        0
Code Élément                0
Élément                     0
Code Produit                0
Produit                     0
Code année                  0
Année                       0
Unité                       0
Valeur                      0
Symbole                     0
Description du Symbole      0
Note                      211
dtype: int64

In [38]:
#En milliards
pivot_pib = pd.pivot_table(pib,values='Valeur', index=['Zone'],columns=['Produit'], aggfunc=np.sum).reset_index()
pivot_pib.head()

Produit,Zone,Produit Intérieur Brut
0,Afghanistan,18.9
1,Afrique du Sud,380.85
2,Albanie,13.02
3,Algérie,170.1
4,Allemagne,3690.85


## Stabilité 

In [39]:
stabilité.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,4,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-2.8,X,Ciffre de sources internationales,
1,FS,Données de la sécurité alimentaire,4,Afghanistan,6127,Valeur,21030,Variabilité de la production alimentaire par h...,2017,2017,1000 I$,6.8,E,Valeur estimée,
2,FS,Données de la sécurité alimentaire,4,Afghanistan,6128,Valeur,21031,Variabilité des disponibilités alimentaires pa...,2017,2017,Kcal/personne/jour,27.0,E,Valeur estimée,
3,FS,Données de la sécurité alimentaire,710,Afrique du Sud,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-0.28,X,Ciffre de sources internationales,
4,FS,Données de la sécurité alimentaire,710,Afrique du Sud,6127,Valeur,21030,Variabilité de la production alimentaire par h...,2017,2017,1000 I$,15.7,E,Valeur estimée,


In [40]:
stabilité.duplicated().sum()

0

In [41]:
stabilite_piv = pd.pivot_table(stabilité,values='Valeur', index=['Zone'],columns=['Produit'], aggfunc=np.sum).reset_index()
stabilite_piv.head()

Produit,Zone,Stabilité politique et absence de violence/terrorisme (indice),Variabilité de la production alimentaire par habitant ($I par personne constant 2014-16),Variabilité des disponibilités alimentaires par habitant (Kcal/personne/jour)
0,Afghanistan,-2.8,6.8,27.0
1,Afrique du Sud,-0.28,15.7,21.0
2,Albanie,0.38,9.2,42.0
3,Algérie,-0.92,10.3,27.0
4,Allemagne,0.59,16.4,14.0


In [42]:
stabilite_piv.drop(['Variabilité de la production alimentaire par habitant ($I par personne constant 2014-16)',
                    'Variabilité des disponibilités alimentaires par habitant (Kcal/personne/jour)'],axis=1,inplace = True)

In [43]:
stabilite_piv.head()

Produit,Zone,Stabilité politique et absence de violence/terrorisme (indice)
0,Afghanistan,-2.8
1,Afrique du Sud,-0.28
2,Albanie,0.38
3,Algérie,-0.92
4,Allemagne,0.59


In [44]:
stabilite_piv.isnull().sum()

Produit
Zone                                                              0
Stabilité politique et absence de violence/terrorisme (indice)    7
dtype: int64

In [45]:
stabilite_piv.loc[stabilite_piv['Stabilité politique et absence de violence/terrorisme (indice)'].isnull()]

Produit,Zone,Stabilité politique et absence de violence/terrorisme (indice)
37,Chine,
41,"Chine, continentale",
120,Nioué,
122,Nouvelle-Calédonie,
137,Polynésie française,
180,Tokélaou,
201,Îles Cook,


In [46]:
#data.fillna(0.8, inplace = True)

# Join table

In [47]:
data = pivot_dispo.merge(pivot_population, how='inner', on='Zone')

In [48]:
data = data.merge(pivot_pib, how='inner', on='Zone')

In [49]:
data = data.merge(stabilite_piv, how='inner', on='Zone')

In [50]:
data.head()

Unnamed: 0,Zone,Disponibilité alimentaire (Kcal/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production,auto_suffisance,Population totale,Produit Intérieur Brut,Stabilité politique et absence de violence/terrorisme (indice)
0,Afghanistan,5.0,0.54,57.0,0.0,29.0,55.0,28.0,50.91,36296.113,18.9,-2.8
1,Afrique du Sud,143.0,14.11,2118.0,63.0,514.0,2035.0,1667.0,78.82,57009.756,380.85,-0.28
2,Albanie,85.0,6.26,47.0,0.0,38.0,47.0,13.0,27.66,2884.169,13.02,0.38
3,Algérie,22.0,1.97,277.0,0.0,2.0,264.0,275.0,104.17,41389.189,170.1,-0.92
4,Allemagne,71.0,7.96,1739.0,646.0,842.0,1609.0,1514.0,53.95,82658.409,3690.85,0.59


In [51]:
data.rename(columns = {'Zone': 'Zone', 'Disponibilité alimentaire (Kcal/personne/jour)': 'Dispo alim Kcal/per/j',
                      'Disponibilité de protéines en quantité (g/personne/jour)' : 'Dispo prot g/per/j',
                       'Disponibilité intérieure' : 'Disponibilité intérieure','Exportations - Quantité' : 
                       'Exportations - Quantité','Nourriture' : 'Nourriture', 'Production' : 'Production',
                       'auto_suffisance' : 'auto_suffisance', 'Population totale' : 'Population totale',
                       'Produit Intérieur Brut' : 'PIB', 'Stabilité politique et absence de violence/terrorisme (indice)'
                       : 'Stabilité politique'},inplace = True)

In [52]:
#data.set_index('Zone',inplace = True)

In [53]:
data.head()

Unnamed: 0,Zone,Dispo alim Kcal/per/j,Dispo prot g/per/j,Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production,auto_suffisance,Population totale,PIB,Stabilité politique
0,Afghanistan,5.0,0.54,57.0,0.0,29.0,55.0,28.0,50.91,36296.113,18.9,-2.8
1,Afrique du Sud,143.0,14.11,2118.0,63.0,514.0,2035.0,1667.0,78.82,57009.756,380.85,-0.28
2,Albanie,85.0,6.26,47.0,0.0,38.0,47.0,13.0,27.66,2884.169,13.02,0.38
3,Algérie,22.0,1.97,277.0,0.0,2.0,264.0,275.0,104.17,41389.189,170.1,-0.92
4,Allemagne,71.0,7.96,1739.0,646.0,842.0,1609.0,1514.0,53.95,82658.409,3690.85,0.59


In [54]:
data.isnull().sum()

Zone                        0
Dispo alim Kcal/per/j       0
Dispo prot g/per/j          0
Disponibilité intérieure    0
Exportations - Quantité     0
Importations - Quantité     0
Nourriture                  0
Production                  0
auto_suffisance             0
Population totale           0
PIB                         0
Stabilité politique         3
dtype: int64

In [55]:
data.loc[data['Stabilité politique'].isnull()]

Unnamed: 0,Zone,Dispo alim Kcal/per/j,Dispo prot g/per/j,Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production,auto_suffisance,Population totale,PIB,Stabilité politique
33,"Chine, continentale",59.0,3.96,18161.0,576.0,452.0,17518.0,18236.0,100.81,1421021.791,12310.49,
105,Nouvelle-Calédonie,136.0,14.05,11.0,0.0,9.0,11.0,1.0,9.09,277.15,9.17,
115,Polynésie française,167.0,16.2,15.0,0.0,15.0,13.0,1.0,7.69,276.102,5.83,


In [56]:
data['Population totale'].describe()

count    1.660000e+02
mean     4.390200e+04
std      1.557017e+05
min      5.204500e+01
25%      2.893339e+03
50%      9.757833e+03
75%      3.078268e+04
max      1.421022e+06
Name: Population totale, dtype: float64

In [57]:
data.sort_values(by='Population totale', ascending=False)

Unnamed: 0,Zone,Dispo alim Kcal/per/j,Dispo prot g/per/j,Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production,auto_suffisance,Population totale,PIB,Stabilité politique
33,"Chine, continentale",59.0,3.96,18161.0,576.0,452.0,17518.0,18236.0,100.81,1421021.791,12310.49,
64,Inde,7.0,0.75,3661.0,4.0,0.0,2965.0,3545.0,119.43,1338676.785,2624.33,-0.76
163,États-Unis d'Amérique,219.0,19.93,18266.0,3692.0,123.0,18100.0,21914.0,100.67,325084.756,19477.34,0.29
65,Indonésie,25.0,2.42,2323.0,0.0,1.0,1904.0,2301.0,120.85,264650.963,1015.62,-0.50
110,Pakistan,20.0,1.97,1282.0,4.0,2.0,1218.0,1281.0,104.84,207906.209,337.14,-2.41
...,...,...,...,...,...,...,...,...,...,...,...,...
54,Grenade,192.0,15.50,8.0,0.0,7.0,5.0,1.0,20.00,110.874,1.13,1.01
128,Saint-Vincent-et-les Grenadines,243.0,25.10,8.0,0.0,9.0,8.0,0.0,0.00,109.827,0.85,0.89
6,Antigua-et-Barbuda,233.0,17.77,7.0,0.0,7.0,5.0,0.0,0.00,95.426,1.47,0.75
42,Dominique,150.0,11.52,4.0,0.0,4.0,3.0,0.0,0.00,71.458,0.52,1.20


In [58]:
data['dependance_import'] = round(data['Importations - Quantité']/data['Nourriture'],2)

In [59]:
import math

data['Population totale'] = round(np.log2(data['Population totale']),2)
data['PIB'] = round(np.log2(data['PIB']),2)

In [60]:
data.sort_values(by='Population totale').head()

Unnamed: 0,Zone,Dispo alim Kcal/per/j,Dispo prot g/per/j,Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production,auto_suffisance,Population totale,PIB,Stabilité politique,dependance_import
127,Saint-Kitts-et-Nevis,190.0,19.22,4.0,0.0,4.0,3.0,0.0,0.0,5.7,0.08,0.65,1.33
42,Dominique,150.0,11.52,4.0,0.0,4.0,3.0,0.0,0.0,6.16,-0.94,1.2,1.33
6,Antigua-et-Barbuda,233.0,17.77,7.0,0.0,7.0,5.0,0.0,0.0,6.58,0.56,0.75,1.4
128,Saint-Vincent-et-les Grenadines,243.0,25.1,8.0,0.0,9.0,8.0,0.0,0.0,6.78,-0.23,0.89,1.12
54,Grenade,192.0,15.5,8.0,0.0,7.0,5.0,1.0,20.0,6.79,0.18,1.01,1.4


In [61]:
data.drop(['Dispo alim Kcal/per/j','Dispo prot g/per/j'], 
          axis = 1,inplace = True)

In [62]:
data.head(50)

Unnamed: 0,Zone,Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Production,auto_suffisance,Population totale,PIB,Stabilité politique,dependance_import
0,Afghanistan,57.0,0.0,29.0,55.0,28.0,50.91,15.15,4.24,-2.8,0.53
1,Afrique du Sud,2118.0,63.0,514.0,2035.0,1667.0,78.82,15.8,8.57,-0.28,0.25
2,Albanie,47.0,0.0,38.0,47.0,13.0,27.66,11.49,3.7,0.38,0.81
3,Algérie,277.0,0.0,2.0,264.0,275.0,104.17,15.34,7.41,-0.92,0.01
4,Allemagne,1739.0,646.0,842.0,1609.0,1514.0,53.95,16.33,11.85,0.59,0.52
5,Angola,319.0,0.0,277.0,315.0,42.0,13.33,14.86,6.93,-0.38,0.88
6,Antigua-et-Barbuda,7.0,0.0,7.0,5.0,0.0,0.0,6.58,0.56,0.75,1.4
7,Arabie saoudite,1435.0,10.0,722.0,1435.0,616.0,42.23,15.01,9.43,-0.64,0.5
8,Argentine,1962.0,207.0,8.0,1856.0,2161.0,105.28,15.42,9.33,0.17,0.0
9,Arménie,47.0,0.0,35.0,47.0,11.0,23.4,11.52,3.53,-0.62,0.74


In [63]:
data.loc[data['Zone'] == 'Nouvelle-Calédonie', 'Stabilité politique'] = 0.9
data.loc[data['Zone'] == 'Polynésie française', 'Stabilité politique'] = 0.28
data.loc[data['Zone'] == 'Chine, continentale', 'Stabilité politique'] = -0.47

In [64]:
data.to_csv('data.csv')