# 🐔 Étude de marché - Partie 1

Une entreprise française d'agroalimentaire spécialisée dans le poulet souhaite se développer à l'international. Sa stratégie mise sur l'exportation, préférable dans un premier temps à une production sur place. Il faudra donc cibler les pays les plus enclins à importer du poulet.

Pour identifier ce groupe de pays, on pourra étudier leurs indicateurs de démographies et régimes alimentaires grâce aux données mises à disposition par la [FAO](http://www.fao.org/home/fr/).

# Preparation, nettoyage et analyse exploratoire

## Sommaire :

 - <a href = "#C1" >  Importation des données </a>
 - <a href = "#C2" >  Nettoyer le jeu de données </a>
   - <a href = "#C3" > - Disponibilté Alimentaire </a>
   - <a href = "#C4" > - Population </a>
   - <a href = "#C5" > - PIB </a>
   - <a href = "#C6" > - Securite Alimentaire 2017 </a>
   - <a href = "#C7" > - Codes </a>
   - <a href = "#C8" > - Merge 1 </a>
   - <a href = "#C9" > - Merge 2 </a>
   - <a href = "#C10" > - Merge 3 </a>


## <a name="C1" > Importation des données </a>

In [1]:
# Importer des librairies necessaires
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt
import matplotlib.pyplot as plt
import scipy as sp

# Importer les données
DispAlim   =     pd.read_csv('DisponibiliteAlimentaire_2017.csv')
Pop        =     pd.read_csv('Population_2000_2018.csv')
PIB        =     pd.read_csv('PIB_2017.csv')
SecuAlim   =     pd.read_csv('SécuritéAlimentaire2017.csv')
Codes =     pd.read_csv('codes_pays.csv')

In [2]:
Codes.head()

Unnamed: 0,ISO3,ISO2,code_pays_fao,pays
0,AFG,AF,2,Afghanistan
1,AGO,AO,7,Angola
2,ALB,AL,3,Albanie
3,ARE,AE,225,Émirats arabes unis
4,ARG,AR,9,Argentine


## <a name="C2" > Nettoyer le jeu de données </a>  

### <a name="C3" > Disponibilté Alimentaire </a> 

In [3]:
DispAlim.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Blé et produits,2017,2017,Milliers de tonnes,4281.0,S,Données standardisées
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,2302.0,S,Données standardisées
2,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2511,Blé et produits,2017,2017,Milliers de tonnes,-119.0,S,Données standardisées
3,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5911,Exportations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,0.0,S,Données standardisées
4,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5301,Disponibilité intérieure,2511,Blé et produits,2017,2017,Milliers de tonnes,6701.0,S,Données standardisées


In [4]:
# Exemple: afficher les éléments de colonne d'Elément pour un seul pays et uniquement pour "Viande de Volailles" 
DispAlim[(DispAlim["Zone"]=="Afghanistan") & (DispAlim["Produit"]=="Viande de Volailles")]
DispAlim.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Blé et produits,2017,2017,Milliers de tonnes,4281.0,S,Données standardisées
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,2302.0,S,Données standardisées
2,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2511,Blé et produits,2017,2017,Milliers de tonnes,-119.0,S,Données standardisées
3,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5911,Exportations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,0.0,S,Données standardisées
4,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5301,Disponibilité intérieure,2511,Blé et produits,2017,2017,Milliers de tonnes,6701.0,S,Données standardisées


#### DispAlim2

In [5]:
# Supprimer des colonnes 
colonnes_a_supprimer = ['Code Domaine', 'Domaine','Code zone','Code Élément','Code Produit','Code année','Année','Symbole','Description du Symbole', 'Unité']
DispAlim2 = DispAlim.drop(columns = colonnes_a_supprimer)
DispAlim2['Valeur'] = DispAlim2['Valeur']

DispAlim2.head()

Unnamed: 0,Zone,Élément,Produit,Valeur
0,Afghanistan,Production,Blé et produits,4281.0
1,Afghanistan,Importations - Quantité,Blé et produits,2302.0
2,Afghanistan,Variation de stock,Blé et produits,-119.0
3,Afghanistan,Exportations - Quantité,Blé et produits,0.0
4,Afghanistan,Disponibilité intérieure,Blé et produits,6701.0


In [6]:
DispAlim2.Zone.nunique()

174

#### Volaille

In [7]:
# les pays contenant 'Viande de Volaille'
Volaille = DispAlim2[DispAlim2.Produit.str.contains('Viande de Volaille')]
Volaille.head()

Unnamed: 0,Zone,Élément,Produit,Valeur
651,Afghanistan,Production,Viande de Volailles,28.0
652,Afghanistan,Importations - Quantité,Viande de Volailles,29.0
653,Afghanistan,Variation de stock,Viande de Volailles,0.0
654,Afghanistan,Disponibilité intérieure,Viande de Volailles,57.0
655,Afghanistan,Pertes,Viande de Volailles,2.0


#### Volaille2

In [8]:
# Volaille.drop(["Produit"],axis=1, inplace=True)  
Volaille2 = Volaille.pivot(index='Zone', columns ='Élément', values ='Valeur')
Volaille2.head()

Élément,Alimentation pour touristes,Aliments pour animaux,Autres utilisations (non alimentaire),Disponibilité alimentaire (Kcal/personne/jour),Disponibilité alimentaire en quantité (kg/personne/an),Disponibilité de matière grasse en quantité (g/personne/jour),Disponibilité de protéines en quantité (g/personne/jour),Disponibilité intérieure,Exportations - Quantité,Importations - Quantité,Nourriture,Pertes,Production,Résidus,Semences,Traitement,Variation de stock
Zone,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
Afghanistan,,,,5.0,1.53,0.33,0.54,57.0,,29.0,55.0,2.0,28.0,0.0,,,0.0
Afrique du Sud,0.0,,,143.0,35.69,9.25,14.11,2118.0,63.0,514.0,2035.0,83.0,1667.0,0.0,,,-0.0
Albanie,,,,85.0,16.36,6.45,6.26,47.0,0.0,38.0,47.0,,13.0,0.0,,,4.0
Algérie,0.0,,,22.0,6.38,1.5,1.97,277.0,0.0,2.0,264.0,13.0,275.0,0.0,,,0.0
Allemagne,,,,71.0,19.47,4.16,7.96,1739.0,646.0,842.0,1609.0,,1514.0,-38.0,,167.0,-29.0


In [9]:
Volaille2.index.nunique()

172

#### Volaille3

In [10]:
# Supprimer certains colonnes qui ne me servent pas

colonnes_a_supprimer=[
    "Alimentation pour touristes",
    "Aliments pour animaux",
    "Autres utilisations (non alimentaire)",
    "Disponibilité de matière grasse en quantité (g/personne/jour)",
    "Disponibilité intérieure",
    "Nourriture",
    "Pertes",
    "Résidus",
    "Semences",
    "Traitement",
    "Disponibilité de protéines en quantité (g/personne/jour)",
    "Variation de stock",
    "Disponibilité alimentaire (Kcal/personne/jour)"]

Volaille3 = Volaille2.drop(columns = colonnes_a_supprimer)
Volaille3.head()

Élément,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production
Zone,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Afghanistan,1.53,,29.0,28.0
Afrique du Sud,35.69,63.0,514.0,1667.0
Albanie,16.36,0.0,38.0,13.0
Algérie,6.38,0.0,2.0,275.0
Allemagne,19.47,646.0,842.0,1514.0


In [11]:
Volaille3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 172 entries, Afghanistan to Îles Salomon
Data columns (total 4 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   Disponibilité alimentaire en quantité (kg/personne/an)  172 non-null    float64
 1   Exportations - Quantité                                 135 non-null    float64
 2   Importations - Quantité                                 170 non-null    float64
 3   Production                                              168 non-null    float64
dtypes: float64(4)
memory usage: 10.8+ KB


In [12]:
# Remplacer les valeurs null par 0
Volaille3.fillna(value = 0,inplace = True)
Volaille3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 172 entries, Afghanistan to Îles Salomon
Data columns (total 4 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   Disponibilité alimentaire en quantité (kg/personne/an)  172 non-null    float64
 1   Exportations - Quantité                                 172 non-null    float64
 2   Importations - Quantité                                 172 non-null    float64
 3   Production                                              172 non-null    float64
dtypes: float64(4)
memory usage: 10.8+ KB


In [13]:
Volaille3.head()

Élément,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production
Zone,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Afghanistan,1.53,0.0,29.0,28.0
Afrique du Sud,35.69,63.0,514.0,1667.0
Albanie,16.36,0.0,38.0,13.0
Algérie,6.38,0.0,2.0,275.0
Allemagne,19.47,646.0,842.0,1514.0


In [14]:
Volaille3.reset_index(inplace = True)
Volaille3.head()

Élément,Zone,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production
0,Afghanistan,1.53,0.0,29.0,28.0
1,Afrique du Sud,35.69,63.0,514.0,1667.0
2,Albanie,16.36,0.0,38.0,13.0
3,Algérie,6.38,0.0,2.0,275.0
4,Allemagne,19.47,646.0,842.0,1514.0


In [15]:
Volaille3.Zone.nunique()

172

### <a name="C4" > Population </a> 

In [16]:
Pop.head(5)

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales sûres,
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales sûres,
2,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2002,2002,1000 personnes,22600.77,X,Sources internationales sûres,
3,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2003,2003,1000 personnes,23680.871,X,Sources internationales sûres,
4,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2004,2004,1000 personnes,24726.684,X,Sources internationales sûres,


#### Pop2

In [17]:
# Filtrer par année 2017)
Pop2 = Pop.loc[Pop["Année"] == 2017]
Pop2.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
17,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,36296.113,X,Sources internationales sûres,
36,OA,Séries temporelles annuelles,202,Afrique du Sud,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,57009.756,X,Sources internationales sûres,
55,OA,Séries temporelles annuelles,3,Albanie,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,2884.169,X,Sources internationales sûres,
74,OA,Séries temporelles annuelles,4,Algérie,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,41389.189,X,Sources internationales sûres,
93,OA,Séries temporelles annuelles,79,Allemagne,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,82658.409,X,Sources internationales sûres,


In [18]:
# Population totale du monde
Total = round(Pop2["Valeur"].sum()*1000, 2)
print("Population totale du monde:", Total)

Population totale du monde: 7548134111.0


#### Pop3

In [19]:
# supprimer certains colonnes

colonnes_a_supprimer = ['Code Domaine', 'Domaine','Code zone','Code Élément','Élément','Code Produit','Produit','Code année','Symbole','Description du Symbole','Note','Année','Unité']
Pop3 = Pop2.drop(columns = colonnes_a_supprimer)

Pop3.rename(columns = {'Valeur':'Population'}, inplace = True)
Pop3['Population'] = Pop3['Population']*1000
Pop3.head()

Unnamed: 0,Zone,Population
17,Afghanistan,36296113.0
36,Afrique du Sud,57009756.0
55,Albanie,2884169.0
74,Algérie,41389189.0
93,Allemagne,82658409.0


In [20]:
Pop3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 236 entries, 17 to 4409
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Zone        236 non-null    object 
 1   Population  236 non-null    float64
dtypes: float64(1), object(1)
memory usage: 5.5+ KB


### <a name="C9" > PIB par habitant </a> 

In [21]:
PIB.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,MK,Indicateurs macro,528,Pays-Bas (Royaume des),6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,48460.512961,X,Ciffre de sources internationales,
1,MK,Indicateurs macro,4,Afghanistan,6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,530.149831,X,Ciffre de sources internationales,
2,MK,Indicateurs macro,710,Afrique du Sud,6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,6723.928582,X,Ciffre de sources internationales,
3,MK,Indicateurs macro,8,Albanie,6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,4521.752219,X,Ciffre de sources internationales,
4,MK,Indicateurs macro,12,Algérie,6119,Valeur US $ par habitant,22008,Produit Intérieur Brut,2017,2017,US$,4134.936054,X,Ciffre de sources internationales,


#### PIB2

In [22]:
# Supprimer les colonnes
colonnes_a_supprimer = ['Code Domaine', 'Domaine','Code Élément','Code Produit','Code année','Année','Symbole','Note','Code zone (M49)','Description du Symbole','Élément','Produit','Unité']
PIB2 = PIB.drop(columns = colonnes_a_supprimer)
PIB2.rename(columns = {'Valeur':'PIB'}, inplace = True)
PIB2.head()

Unnamed: 0,Zone,PIB
0,Pays-Bas (Royaume des),48460.512961
1,Afghanistan,530.149831
2,Afrique du Sud,6723.928582
3,Albanie,4521.752219
4,Algérie,4134.936054


In [23]:
# Chine - PIB2
PIB2[PIB2.Zone.str.contains("Chine")]

Unnamed: 0,Zone,PIB
40,Chine,8808.489506
41,Chine - RAS de Hong-Kong,45737.483212
42,Chine - RAS de Macao,78985.632288
43,"Chine, continentale",8729.136932


#### PIB3

In [24]:
# Renommer le colonne de "Pays-Bas (Royaume des)" à "Pays-Bas")
PIB3 = PIB2.copy()
PIB3.Zone = PIB3["Zone"].replace("Pays-Bas (Royaume des)","Pays-Bas")
PIB3.head()

Unnamed: 0,Zone,PIB
0,Pays-Bas,48460.512961
1,Afghanistan,530.149831
2,Afrique du Sud,6723.928582
3,Albanie,4521.752219
4,Algérie,4134.936054


In [25]:
PIB3.Zone.nunique()

211

### <a name="C5" > Securite Alimentaire 2017 </a>  

In [26]:
# Afficher la table de SecuriteAlim
SecuAlim.head()

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,528,Pays-Bas (Royaume des),6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20162018,2016-2018,millions No,,Q,Valeur manquante; supprimée,
1,FS,Données de la sécurité alimentaire,4,Afghanistan,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20162018,2016-2018,millions No,8.1,E,Valeur estimée,
2,FS,Données de la sécurité alimentaire,710,Afrique du Sud,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20162018,2016-2018,millions No,3.2,E,Valeur estimée,
3,FS,Données de la sécurité alimentaire,8,Albanie,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20162018,2016-2018,millions No,0.1,E,Valeur estimée,
4,FS,Données de la sécurité alimentaire,12,Algérie,6132,Valeur,210011,Nombre de personnes sous-alimentées (millions)...,20162018,2016-2018,millions No,1.1,E,Valeur estimée,


In [27]:
SecuAlim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            204 non-null    object 
 1   Domaine                 204 non-null    object 
 2   Code zone (M49)         204 non-null    int64  
 3   Zone                    204 non-null    object 
 4   Code Élément            204 non-null    int64  
 5   Élément                 204 non-null    object 
 6   Code Produit            204 non-null    int64  
 7   Produit                 204 non-null    object 
 8   Code année              204 non-null    int64  
 9   Année                   204 non-null    object 
 10  Unité                   204 non-null    object 
 11  Valeur                  117 non-null    object 
 12  Symbole                 204 non-null    object 
 13  Description du Symbole  204 non-null    object 
 14  Note                    0 non-null      fl

#### SecuAlim2

In [28]:
# Supprimer certains de colonnes
colonnes_a_supprimer = [
    'Code Domaine', 
    'Domaine','Code Élément',
    'Code Produit','Code année',
    'Année','Symbole',
    'Note',
    'Code zone (M49)',
    'Description du Symbole',
    'Élément',
    'Produit',
    'Unité']
SecuAlim2 = SecuAlim.drop(columns = colonnes_a_supprimer)
SecuAlim2.rename(columns = {'Valeur':'Sous-alimenté'}, inplace = True)
SecuAlim2.Zone = SecuAlim2["Zone"].replace("Pays-Bas (Royaume des)","Pays-Bas")
SecuAlim2.head()

Unnamed: 0,Zone,Sous-alimenté
0,Pays-Bas,
1,Afghanistan,8.1
2,Afrique du Sud,3.2
3,Albanie,0.1
4,Algérie,1.1


In [29]:
SecuAlim2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Zone           204 non-null    object
 1   Sous-alimenté  117 non-null    object
dtypes: object(2)
memory usage: 3.3+ KB


In [30]:
# Les pays sans sous-alimenté
SecuAlim2[SecuAlim2["Sous-alimenté"].isna()]

Unnamed: 0,Zone,Sous-alimenté
0,Pays-Bas,
5,Allemagne,
6,Andorre,
8,Antigua-et-Barbuda,
11,Arménie,
...,...,...
190,Tonga,
194,Turquie,
195,Tuvalu,
196,Ukraine,


In [31]:
# Remplacer les valeurs null par 0
SecuAlim2.fillna(value = 0,inplace = True)
SecuAlim2.info()
SecuAlim2

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Zone           204 non-null    object
 1   Sous-alimenté  204 non-null    object
dtypes: object(2)
memory usage: 3.3+ KB


Unnamed: 0,Zone,Sous-alimenté
0,Pays-Bas,0
1,Afghanistan,8.1
2,Afrique du Sud,3.2
3,Albanie,0.1
4,Algérie,1.1
...,...,...
199,Venezuela (République bolivarienne du),7
200,Viet Nam,6
201,Yémen,12.9
202,Zambie,5.1


In [32]:
# Changer le type de Sous-alimenté d'object à int
SecuAlim2['Sous-alimenté'] = pd.to_numeric(SecuAlim2['Sous-alimenté'],errors='coerce')*1000000

SecuAlim2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Zone           204 non-null    object 
 1   Sous-alimenté  187 non-null    float64
dtypes: float64(1), object(1)
memory usage: 3.3+ KB


In [33]:
SecuAlim2.head()

Unnamed: 0,Zone,Sous-alimenté
0,Pays-Bas,0.0
1,Afghanistan,8100000.0
2,Afrique du Sud,3200000.0
3,Albanie,100000.0
4,Algérie,1100000.0


In [34]:
# Afficher les pays avec les valeurs null de sous-alimenté
SecuAlim2[SecuAlim2['Sous-alimenté'].isna()]

Unnamed: 0,Zone,Sous-alimenté
18,Barbade,
21,Belize,
40,Chine - RAS de Macao,
53,Dominique,
65,Fidji,
79,Guyana,
100,Kiribati,
109,Macédoine du Nord,
117,Maurice,
133,Nouvelle-Calédonie,


In [35]:
# Eliminer des 17 pays avec valeurs null de sous-alimenté
SecuAlim2.drop(SecuAlim2[SecuAlim2['Sous-alimenté'].isna()].index, axis=0, inplace=True)
SecuAlim2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 187 entries, 0 to 203
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Zone           187 non-null    object 
 1   Sous-alimenté  187 non-null    float64
dtypes: float64(1), object(1)
memory usage: 4.4+ KB


### <a name="C5" > Codes_pays </a>  

In [36]:
Codes

Unnamed: 0,ISO3,ISO2,code_pays_fao,pays
0,AFG,AF,2,Afghanistan
1,AGO,AO,7,Angola
2,ALB,AL,3,Albanie
3,ARE,AE,225,Émirats arabes unis
4,ARG,AR,9,Argentine
...,...,...,...,...
170,YEM,YE,249,Yémen
171,ZAF,ZA,202,Afrique du Sud
172,ZMB,ZM,251,Zambie
173,ZWE,ZW,181,Zimbabwe


In [37]:
Codes.rename(columns = {'pays':'Zone'}, inplace = True)
colonnes_a_supprimer = ['ISO2','code_pays_fao']
Codes = Codes.drop(columns = colonnes_a_supprimer)
Codes.Zone = Codes["Zone"].replace("Royaume-Uni de Grande-Bretagne et d'Irlande du Nord","Royaume-Uni")

Codes.Zone = Codes["Zone"].replace("Tchéquie (la)","Tchéquie")

Codes

Unnamed: 0,ISO3,Zone
0,AFG,Afghanistan
1,AGO,Angola
2,ALB,Albanie
3,ARE,Émirats arabes unis
4,ARG,Argentine
...,...,...
170,YEM,Yémen
171,ZAF,Afrique du Sud
172,ZMB,Zambie
173,ZWE,Zimbabwe


## <a name="C6" > Merge1 </a>  

In [38]:
# Fusioner Volaille3 avec Pop3
Merge1 = pd.merge(Volaille3,Pop3, right_on = 'Zone', left_on = 'Zone',how = 'outer', indicator = True)
Merge1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 236 entries, 0 to 235
Data columns (total 7 columns):
 #   Column                                                  Non-Null Count  Dtype   
---  ------                                                  --------------  -----   
 0   Zone                                                    236 non-null    object  
 1   Disponibilité alimentaire en quantité (kg/personne/an)  172 non-null    float64 
 2   Exportations - Quantité                                 172 non-null    float64 
 3   Importations - Quantité                                 172 non-null    float64 
 4   Production                                              172 non-null    float64 
 5   Population                                              236 non-null    float64 
 6   _merge                                                  236 non-null    category
dtypes: category(1), float64(5), object(1)
memory usage: 13.3+ KB


In [39]:
Merge1._merge.value_counts()

both          172
right_only     64
left_only       0
Name: _merge, dtype: int64

In [40]:
# Eliminer "right_only" en "_merge"
Merge1.drop(Merge1[Merge1['_merge'] == 'right_only'].index, axis = 0, inplace = True)
# Afficher le colonne de _merge
Merge1._merge.value_counts()

both          172
left_only       0
right_only      0
Name: _merge, dtype: int64

In [41]:
# Eliminer le colonne (-merge)
Merge1.drop('_merge', axis = 1, inplace = True)
Merge1.head()
Merge1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 172 entries, 0 to 171
Data columns (total 6 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   Zone                                                    172 non-null    object 
 1   Disponibilité alimentaire en quantité (kg/personne/an)  172 non-null    float64
 2   Exportations - Quantité                                 172 non-null    float64
 3   Importations - Quantité                                 172 non-null    float64
 4   Production                                              172 non-null    float64
 5   Population                                              172 non-null    float64
dtypes: float64(5), object(1)
memory usage: 9.4+ KB


## <a name="C7" > Merge2 </a> 

In [42]:
# Fusionner "Merge2" avec "PIB3"
Merge2 = pd.merge(Merge1,PIB3, on = 'Zone',how = 'outer', indicator = True)
Merge2.head()

Unnamed: 0,Zone,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production,Population,PIB,_merge
0,Afghanistan,1.53,0.0,29.0,28.0,36296113.0,530.149831,both
1,Afrique du Sud,35.69,63.0,514.0,1667.0,57009756.0,6723.928582,both
2,Albanie,16.36,0.0,38.0,13.0,2884169.0,4521.752219,both
3,Algérie,6.38,0.0,2.0,275.0,41389189.0,4134.936054,both
4,Allemagne,19.47,646.0,842.0,1514.0,82658409.0,44670.222288,both


In [43]:
# Afficher le colonne de "_merge"
Merge2._merge.value_counts()

both          171
right_only     40
left_only       1
Name: _merge, dtype: int64

In [44]:
# Afficher que "left_only" dans "_merge"
Merge2[Merge2["_merge"] == "left_only"]

Unnamed: 0,Zone,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production,Population,PIB,_merge
33,"Chine, Taiwan Province de",33.17,8.0,161.0,652.0,23674546.0,,left_only


In [45]:
# Garder que "both" dans "_merge"
Merge2 = Merge2[Merge2["_merge"] == "both"]
Merge2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 171 entries, 0 to 171
Data columns (total 8 columns):
 #   Column                                                  Non-Null Count  Dtype   
---  ------                                                  --------------  -----   
 0   Zone                                                    171 non-null    object  
 1   Disponibilité alimentaire en quantité (kg/personne/an)  171 non-null    float64 
 2   Exportations - Quantité                                 171 non-null    float64 
 3   Importations - Quantité                                 171 non-null    float64 
 4   Production                                              171 non-null    float64 
 5   Population                                              171 non-null    float64 
 6   PIB                                                     171 non-null    float64 
 7   _merge                                                  171 non-null    category
dtypes: category(1), float64(6), obj

In [46]:
# Elimimnier le colonne de _merge
Merge2.drop('_merge', axis = 1, inplace = True)
Merge2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 171 entries, 0 to 171
Data columns (total 7 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   Zone                                                    171 non-null    object 
 1   Disponibilité alimentaire en quantité (kg/personne/an)  171 non-null    float64
 2   Exportations - Quantité                                 171 non-null    float64
 3   Importations - Quantité                                 171 non-null    float64
 4   Production                                              171 non-null    float64
 5   Population                                              171 non-null    float64
 6   PIB                                                     171 non-null    float64
dtypes: float64(6), object(1)
memory usage: 10.7+ KB


In [47]:
# Afficher que des ligne qui contiennent la "Chine"
Merge2[Merge2["Zone"].str.contains("Chine")]

Unnamed: 0,Zone,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production,Population,PIB
31,Chine - RAS de Hong-Kong,53.51,663.0,907.0,24.0,7306322.0,45737.483212
32,Chine - RAS de Macao,34.47,0.0,23.0,3.0,622585.0,78985.632288
34,"Chine, continentale",12.33,576.0,452.0,18236.0,1421022000.0,8729.136932


In [48]:
Merge2.Zone.nunique()

171

## <a name="C8" > Merge3 </a> 

In [49]:
# Fusionner "Merge2" avec "SecuAlim2"
Merge3 = pd.merge(Merge2, SecuAlim2, how = "outer", indicator = True)
Merge3 = Merge3[Merge3["_merge"] == "both"]
Merge3.drop('_merge', axis = 1, inplace = True)
Merge3.Zone = Merge3["Zone"].replace("Royaume-Uni de Grande-Bretagne et d'Irlande du Nord","Royaume-Uni")
Merge3.info()
Merge3.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 155 entries, 0 to 170
Data columns (total 8 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   Zone                                                    155 non-null    object 
 1   Disponibilité alimentaire en quantité (kg/personne/an)  155 non-null    float64
 2   Exportations - Quantité                                 155 non-null    float64
 3   Importations - Quantité                                 155 non-null    float64
 4   Production                                              155 non-null    float64
 5   Population                                              155 non-null    float64
 6   PIB                                                     155 non-null    float64
 7   Sous-alimenté                                           155 non-null    float64
dtypes: float64(7), object(1)
memory usage: 10

Unnamed: 0,Zone,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production,Population,PIB,Sous-alimenté
0,Afghanistan,1.53,0.0,29.0,28.0,36296113.0,530.149831,8100000.0
1,Afrique du Sud,35.69,63.0,514.0,1667.0,57009756.0,6723.928582,3200000.0
2,Albanie,16.36,0.0,38.0,13.0,2884169.0,4521.752219,100000.0
3,Algérie,6.38,0.0,2.0,275.0,41389189.0,4134.936054,1100000.0
4,Allemagne,19.47,646.0,842.0,1514.0,82658409.0,44670.222288,0.0


In [50]:
# Créer le colonne de "% Sous-alimenté"
Merge3['% Sous-alimenté'] = round(Merge3['Sous-alimenté'] / Merge3['Population']*100,2)

# Supprimer le colonne de Sous-alimenté
colonnes_a_supprimer = ['Sous-alimenté']
Merge3 = Merge3.drop(columns = colonnes_a_supprimer)

Merge3.head()

Unnamed: 0,Zone,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production,Population,PIB,% Sous-alimenté
0,Afghanistan,1.53,0.0,29.0,28.0,36296113.0,530.149831,22.32
1,Afrique du Sud,35.69,63.0,514.0,1667.0,57009756.0,6723.928582,5.61
2,Albanie,16.36,0.0,38.0,13.0,2884169.0,4521.752219,3.47
3,Algérie,6.38,0.0,2.0,275.0,41389189.0,4134.936054,2.66
4,Allemagne,19.47,646.0,842.0,1514.0,82658409.0,44670.222288,0.0


In [51]:
# Population totale du monde
Total = round(Merge3["Population"].sum(), 2)
print("Population Merge3:", Total)

Population Merge3: 7336716353.0


## <a name="C9" > Merge4 </a> 

In [52]:
# Merger Merge3 avec Codes
Merge4 = pd.merge(Merge3,Codes, right_on = 'Zone', left_on = 'Zone',how = 'outer', indicator = True)
Merge4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 175 entries, 0 to 174
Data columns (total 10 columns):
 #   Column                                                  Non-Null Count  Dtype   
---  ------                                                  --------------  -----   
 0   Zone                                                    175 non-null    object  
 1   Disponibilité alimentaire en quantité (kg/personne/an)  155 non-null    float64 
 2   Exportations - Quantité                                 155 non-null    float64 
 3   Importations - Quantité                                 155 non-null    float64 
 4   Production                                              155 non-null    float64 
 5   Population                                              155 non-null    float64 
 6   PIB                                                     155 non-null    float64 
 7   % Sous-alimenté                                         155 non-null    float64 
 8   ISO3                          

In [58]:
# Afficher le colonne de _merge
Merge4._merge.value_counts()

AttributeError: 'DataFrame' object has no attribute '_merge'

In [56]:
# Supression de categorie "right_only"
Merge4.drop(Merge4[Merge4['_merge'] == 'right_only'].index, axis = 0, inplace = True)
# Supression de colonne "_merge"
Merge4.drop('_merge', axis=1, inplace=True)
Merge4

Unnamed: 0,Zone,Disponibilité alimentaire en quantité (kg/personne/an),Exportations - Quantité,Importations - Quantité,Production,Population,PIB,% Sous-alimenté,ISO3
0,Afghanistan,1.53,0.0,29.0,28.0,36296113.0,530.149831,22.32,AFG
1,Afrique du Sud,35.69,63.0,514.0,1667.0,57009756.0,6723.928582,5.61,ZAF
2,Albanie,16.36,0.0,38.0,13.0,2884169.0,4521.752219,3.47,ALB
3,Algérie,6.38,0.0,2.0,275.0,41389189.0,4134.936054,2.66,DZA
4,Allemagne,19.47,646.0,842.0,1514.0,82658409.0,44670.222288,0.00,DEU
...,...,...,...,...,...,...,...,...,...
150,Émirats arabes unis,43.47,94.0,433.0,48.0,9487203.0,42522.377622,4.22,ARE
151,Équateur,19.31,0.0,0.0,340.0,16785361.0,6246.404252,10.72,ECU
152,États-Unis d'Amérique,55.68,3692.0,123.0,21914.0,325084756.0,59059.596403,0.00,USA
153,Éthiopie,0.13,0.0,1.0,14.0,106399924.0,709.761008,15.79,ETH


In [57]:
# Export de Complet_df en pkl  :
Merge4.to_pickle("Complet_df.pkl" )