**1 PREPARATIONS DES FICHIERS**

**1.1 Importation des librairies**

In [3]:
#Importation de la librairie Pandas
import pandas as pd
from functools import reduce

#Importation de la librairie Numpy
import numpy as np

import pycountry
import unidecode
from fuzzywuzzy import process

**1.2 Importations des fichiers**

In [5]:
#Importation du fichier FAOSTAT_politique_2022.CSV
df_pol = pd.read_csv('FAOSTAT_politique_2022.csv')

#Importation du fichier FAOSTAT_pib_2022.CSV
df_pib = pd.read_csv('FAOSTAT_pib_2022.csv')

#Importation du fichier FAOSTAT_dispoalimentaire_2022.CSV
df_disp = pd.read_csv('FAOSTAT_dispoalimentaire_2022.csv')

#Importation du fichier Fibl_Organic_2023.CSV
df_org = pd.read_csv('Fibl_Organic_2023.csv',skiprows=7)

#Importation du fichier FAOSTAT_population_2018_2023.CSV
df_pop = pd.read_csv('FAOSTAT_population_2018_2023.csv')

#Importation du fichier FAOSTAT_investissement_2022.csv
df_inv = pd.read_csv('FAOSTAT_investissement_2022.csv')

**2.1 Analyse du fichier FAOSTAT_politique**

In [7]:
#Afficher les dimensions du fichier
print("Le tableau comporte {} observation(s) ou article(s)".format(df_pol.shape[0]))
print("Le tableau comporte {} colonne(s)".format(df_pol.shape[1]))

#La nature des données dans chacune des colonnes
print(df_pol.dtypes)

Le tableau comporte 196 observation(s) ou article(s)
Le tableau comporte 15 colonne(s)
Code Domaine               object
Domaine                    object
Code zone (M49)             int64
Zone                       object
Code Élément                int64
Élément                    object
Code Produit                int64
Produit                    object
Code année                  int64
Année                       int64
Unité                     float64
Valeur                    float64
Symbole                    object
Description du Symbole     object
Note                      float64
dtype: object


In [8]:
#Affichage les 5 premières lignes de la table
df_pol.head(5)

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,4,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2022,2022,,-2.55,X,Ciffre de sources internationales,
1,FS,Données de la sécurité alimentaire,710,Afrique du Sud,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2022,2022,,-0.72,X,Ciffre de sources internationales,
2,FS,Données de la sécurité alimentaire,8,Albanie,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2022,2022,,0.11,X,Ciffre de sources internationales,
3,FS,Données de la sécurité alimentaire,12,Algérie,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2022,2022,,-0.74,X,Ciffre de sources internationales,
4,FS,Données de la sécurité alimentaire,276,Allemagne,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2022,2022,,0.61,X,Ciffre de sources internationales,


In [9]:
#Suprression des colonnes inutiles
df_pol.drop(columns=['Code Domaine', 'Domaine', 'Code Élément', 'Élément','Code année','Unité', 'Symbole', 'Description du Symbole', 'Note','Produit', 'Code Produit', 'Année'], inplace=True)
df_pol.head(5)

Unnamed: 0,Code zone (M49),Zone,Valeur
0,4,Afghanistan,-2.55
1,710,Afrique du Sud,-0.72
2,8,Albanie,0.11
3,12,Algérie,-0.74
4,276,Allemagne,0.61


In [10]:
#Renomme la colonne Valeur
df_pol = df_pol.rename(columns={"Valeur": "Stabilité politique"})
df_pol.head(5)

Unnamed: 0,Code zone (M49),Zone,Stabilité politique
0,4,Afghanistan,-2.55
1,710,Afrique du Sud,-0.72
2,8,Albanie,0.11
3,12,Algérie,-0.74
4,276,Allemagne,0.61


**2.2 Analyse du fichier FAOSTAT_pib_2022**

In [12]:
#Afficher les dimensions du fichier
print("Le tableau comporte {} observation(s) ou article(s)".format(df_pib.shape[0]))
print("Le tableau comporte {} colonne(s)".format(df_pib.shape[1]))

#La nature des données dans chacune des colonnes
print(df_pib.dtypes)

Le tableau comporte 183 observation(s) ou article(s)
Le tableau comporte 15 colonne(s)
Code Domaine               object
Domaine                    object
Code zone (M49)             int64
Zone                       object
Code Élément                int64
Élément                    object
Code Produit                int64
Produit                    object
Code année                  int64
Année                       int64
Unité                      object
Valeur                    float64
Symbole                    object
Description du Symbole     object
Note                      float64
dtype: object


In [13]:
#Affichage les 5 premières lignes de la table
df_pib.head(5)

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,710,Afrique du Sud,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2022,2022,Int$/cap,14322.3,X,Ciffre de sources internationales,
1,FS,Données de la sécurité alimentaire,8,Albanie,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2022,2022,Int$/cap,17261.0,X,Ciffre de sources internationales,
2,FS,Données de la sécurité alimentaire,12,Algérie,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2022,2022,Int$/cap,13090.9,X,Ciffre de sources internationales,
3,FS,Données de la sécurité alimentaire,276,Allemagne,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2022,2022,Int$/cap,62605.5,X,Ciffre de sources internationales,
4,FS,Données de la sécurité alimentaire,20,Andorre,6126,Valeur,22013,"PIB par habitant, ($ PPA internationaux consta...",2022,2022,Int$/cap,63379.0,X,Ciffre de sources internationales,


In [14]:
#Suprression des colonnes inutiles
df_pib.drop(columns=['Code Domaine', 'Domaine', 'Code Élément', 'Élément','Code année', 'Symbole', 'Description du Symbole', 'Note','Produit', 'Code Produit', 'Unité','Année'], inplace=True)
df_pib.head(5)

Unnamed: 0,Code zone (M49),Zone,Valeur
0,710,Afrique du Sud,14322.3
1,8,Albanie,17261.0
2,12,Algérie,13090.9
3,276,Allemagne,62605.5
4,20,Andorre,63379.0


In [15]:
#Renomme la colonne Valeur
df_pib = df_pib.rename(columns={"Valeur": "PIB(Int$/cap)"})
df_pib.head(5)

Unnamed: 0,Code zone (M49),Zone,PIB(Int$/cap)
0,710,Afrique du Sud,14322.3
1,8,Albanie,17261.0
2,12,Algérie,13090.9
3,276,Allemagne,62605.5
4,20,Andorre,63379.0


**2.3 Analyse du fichier FAOSTAT_dispoalimentaire_2022.CSV**

In [17]:
#Afficher les dimensions du fichier
print("Le tableau comporte {} observation(s) ou article(s)".format(df_disp.shape[0]))
print("Le tableau comporte {} colonne(s)".format(df_disp.shape[1]))

#La nature des données dans chacune des colonnes
print(df_disp.dtypes)

Le tableau comporte 3178 observation(s) ou article(s)
Le tableau comporte 15 colonne(s)
Code Domaine               object
Domaine                    object
Code zone (M49)             int64
Zone                       object
Code Élément                int64
Élément                    object
Code Produit (FBS)         object
Produit                    object
Code année                  int64
Année                       int64
Unité                      object
Valeur                    float64
Symbole                    object
Description du Symbole     object
Note                      float64
dtype: object


In [18]:
#Affichage les 5 premières lignes de la table
df_disp.head(5)

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit (FBS),Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FBS,Bilans Alimentaires (2010-),4,Afghanistan,5611,Importations - quantité,S2520,"Céréales, autres",2022,2022,1000 t,30.0,I,Valeur imputée,
1,FBS,Bilans Alimentaires (2010-),4,Afghanistan,5301,Disponibilité intérieure,S2520,"Céréales, autres",2022,2022,1000 t,30.0,I,Valeur imputée,
2,FBS,Bilans Alimentaires (2010-),4,Afghanistan,5521,Aliments pour animaux,S2520,"Céréales, autres",2022,2022,1000 t,7.0,I,Valeur imputée,
3,FBS,Bilans Alimentaires (2010-),4,Afghanistan,5142,Nourriture,S2520,"Céréales, autres",2022,2022,1000 t,23.0,I,Valeur imputée,
4,FBS,Bilans Alimentaires (2010-),4,Afghanistan,645,Disponibilité alimentaire en quantité (kg/pers...,S2520,"Céréales, autres",2022,2022,kcal/personne,0.57,E,Valeur estimée,


In [19]:
#Suprression des colonnes inutiles
df_disp.drop(columns=['Code Domaine', 'Domaine', 'Code Élément','Code année', 'Symbole', 'Description du Symbole', 'Note', 'Code Produit (FBS)','Année'], inplace=True)
df_disp.head(5)

Unnamed: 0,Code zone (M49),Zone,Élément,Produit,Unité,Valeur
0,4,Afghanistan,Importations - quantité,"Céréales, autres",1000 t,30.0
1,4,Afghanistan,Disponibilité intérieure,"Céréales, autres",1000 t,30.0
2,4,Afghanistan,Aliments pour animaux,"Céréales, autres",1000 t,7.0
3,4,Afghanistan,Nourriture,"Céréales, autres",1000 t,23.0
4,4,Afghanistan,Disponibilité alimentaire en quantité (kg/pers...,"Céréales, autres",kcal/personne,0.57


In [20]:
#Valeur unique Produit
valeurs_uniques = df_disp['Produit'].unique()
print("Valeurs uniques dans la colonne 'Produit' :", valeurs_uniques)

Valeurs uniques dans la colonne 'Produit' : ['Céréales, autres' 'Viande de Volailles' 'Oeufs']


In [21]:
#Récupération information céréale
df_céréale = df_disp[df_disp['Produit'].str.contains('céréale', case=False, na=False)]
df_céréale.head(5)

Unnamed: 0,Code zone (M49),Zone,Élément,Produit,Unité,Valeur
0,4,Afghanistan,Importations - quantité,"Céréales, autres",1000 t,30.0
1,4,Afghanistan,Disponibilité intérieure,"Céréales, autres",1000 t,30.0
2,4,Afghanistan,Aliments pour animaux,"Céréales, autres",1000 t,7.0
3,4,Afghanistan,Nourriture,"Céréales, autres",1000 t,23.0
4,4,Afghanistan,Disponibilité alimentaire en quantité (kg/pers...,"Céréales, autres",kcal/personne,0.57


In [22]:
#Valeur unique Élément
valeurs_uniques = df_céréale['Élément'].unique()
print("Valeurs uniques dans la colonne 'Élément' :", valeurs_uniques)

Valeurs uniques dans la colonne 'Élément' : ['Importations - quantité' 'Disponibilité intérieure'
 'Aliments pour animaux' 'Nourriture'
 'Disponibilité alimentaire en quantité (kg/personne/an)' 'Production'
 'Semences']


In [23]:
#Filtre Élément
df_céréale= df_céréale[df_céréale['Élément'] == 'Aliments pour animaux']
df_céréale.head(5)

Unnamed: 0,Code zone (M49),Zone,Élément,Produit,Unité,Valeur
2,4,Afghanistan,Aliments pour animaux,"Céréales, autres",1000 t,7.0
19,710,Afrique du Sud,Aliments pour animaux,"Céréales, autres",1000 t,105.0
36,8,Albanie,Aliments pour animaux,"Céréales, autres",1000 t,0.0
53,12,Algérie,Aliments pour animaux,"Céréales, autres",1000 t,9.0
70,276,Allemagne,Aliments pour animaux,"Céréales, autres",1000 t,1565.0


In [24]:
#Renomme la colonne Valeur
df_céréale = df_céréale.rename(columns={"Valeur": "Céréales_pour_animaux(1000t)"})
df_céréale.head(5)

Unnamed: 0,Code zone (M49),Zone,Élément,Produit,Unité,Céréales_pour_animaux(1000t)
2,4,Afghanistan,Aliments pour animaux,"Céréales, autres",1000 t,7.0
19,710,Afrique du Sud,Aliments pour animaux,"Céréales, autres",1000 t,105.0
36,8,Albanie,Aliments pour animaux,"Céréales, autres",1000 t,0.0
53,12,Algérie,Aliments pour animaux,"Céréales, autres",1000 t,9.0
70,276,Allemagne,Aliments pour animaux,"Céréales, autres",1000 t,1565.0


In [25]:
#Suprression des colonnes inutiles
df_céréale.drop(columns=['Élément', 'Produit','Unité'], inplace=True)
df_céréale.head(5)

Unnamed: 0,Code zone (M49),Zone,Céréales_pour_animaux(1000t)
2,4,Afghanistan,7.0
19,710,Afrique du Sud,105.0
36,8,Albanie,0.0
53,12,Algérie,9.0
70,276,Allemagne,1565.0


In [26]:
#Récupération information Viande de Volailles
df_volailles = df_disp[df_disp['Produit'].str.contains('Viande de Volailles', case=False, na=False)]
df_volailles.head(5)

Unnamed: 0,Code zone (M49),Zone,Élément,Produit,Unité,Valeur
5,4,Afghanistan,Production,Viande de Volailles,1000 t,29.0
6,4,Afghanistan,Importations - quantité,Viande de Volailles,1000 t,7.0
7,4,Afghanistan,Disponibilité intérieure,Viande de Volailles,1000 t,36.0
8,4,Afghanistan,Nourriture,Viande de Volailles,1000 t,36.0
9,4,Afghanistan,Disponibilité alimentaire en quantité (kg/pers...,Viande de Volailles,kcal/personne,0.87


In [27]:
#Valeur unique Élément
valeurs_uniques = df_volailles['Élément'].unique()
print("Valeurs uniques dans la colonne 'Élément' :", valeurs_uniques)

Valeurs uniques dans la colonne 'Élément' : ['Production' 'Importations - quantité' 'Disponibilité intérieure'
 'Nourriture' 'Disponibilité alimentaire en quantité (kg/personne/an)']


In [28]:
#Filtre d'Element
df_volailles = df_volailles[df_volailles['Élément'].isin(['Production', 'Importations - quantité'])]
df_volailles.head(5)

Unnamed: 0,Code zone (M49),Zone,Élément,Produit,Unité,Valeur
5,4,Afghanistan,Production,Viande de Volailles,1000 t,29.0
6,4,Afghanistan,Importations - quantité,Viande de Volailles,1000 t,7.0
23,710,Afrique du Sud,Production,Viande de Volailles,1000 t,1958.0
24,710,Afrique du Sud,Importations - quantité,Viande de Volailles,1000 t,304.0
39,8,Albanie,Production,Viande de Volailles,1000 t,18.0


In [29]:
df_volailles = df_volailles.pivot(index=[col for col in df_volailles.columns if col not in ['Élément', 'Valeur']], 
                                  columns='Élément', 
                                  values='Valeur').reset_index()
df_volailles.head(5)

Élément,Code zone (M49),Zone,Produit,Unité,Importations - quantité,Production
0,4,Afghanistan,Viande de Volailles,1000 t,7.0,29.0
1,8,Albanie,Viande de Volailles,1000 t,47.0,18.0
2,12,Algérie,Viande de Volailles,1000 t,0.0,275.0
3,24,Angola,Viande de Volailles,1000 t,316.0,59.0
4,28,Antigua-et-Barbuda,Viande de Volailles,1000 t,7.0,0.0


In [30]:
#Renomme les colonnes
df_volailles = df_volailles.rename(columns={"Importations - quantité": "Import_volailles(1000t)"})
df_volailles = df_volailles.rename(columns={"Production": "Prod_volailles(1000t)"})
df_volailles.head(5)

Élément,Code zone (M49),Zone,Produit,Unité,Import_volailles(1000t),Prod_volailles(1000t)
0,4,Afghanistan,Viande de Volailles,1000 t,7.0,29.0
1,8,Albanie,Viande de Volailles,1000 t,47.0,18.0
2,12,Algérie,Viande de Volailles,1000 t,0.0,275.0
3,24,Angola,Viande de Volailles,1000 t,316.0,59.0
4,28,Antigua-et-Barbuda,Viande de Volailles,1000 t,7.0,0.0


In [31]:
#Suprression des colonnes inutiles
df_volailles.drop(columns=['Produit', 'Unité'], inplace=True)
df_volailles.head(5)

Élément,Code zone (M49),Zone,Import_volailles(1000t),Prod_volailles(1000t)
0,4,Afghanistan,7.0,29.0
1,8,Albanie,47.0,18.0
2,12,Algérie,0.0,275.0
3,24,Angola,316.0,59.0
4,28,Antigua-et-Barbuda,7.0,0.0


**2.4 Analyse du fichier Fibl_Organic_2023.CSV**

In [33]:
df_org.head(5)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Item,No details,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,Country,Year,Element,Organic area (farmland) [ha],Organic area share of total farmland [%],Organic producers,Organic retail sales [Million €]
1,Afghanistan,2023,,28,,,
2,Albanie,2023,,73638,006,150,
3,Algérie,2023,,33495,001,6,
4,Andorre,2023,,211,001,,


In [34]:
# Définir la première ligne comme nouvelle en-tête
df_org.columns = df_org.iloc[0] 
df_org = df_org.drop(index=0).reset_index(drop=True)
df_org.head()

Unnamed: 0,Country,Year,Element,Organic area (farmland) [ha],Organic area share of total farmland [%],Organic producers,Organic retail sales [Million €]
0,Afghanistan,2023,,28,,,
1,Albanie,2023,,73638,6.0,150.0,
2,Algérie,2023,,33495,1.0,6.0,
3,Andorre,2023,,211,1.0,,
4,Argentine,2023,,4048'202.80,343.0,1368.0,


In [35]:
#Renommer les colonnes
df_org.rename(columns={df_org.columns[0]: "Zone"}, inplace=True)
df_org.head()

Unnamed: 0,Zone,Year,Element,Organic area (farmland) [ha],Organic area share of total farmland [%],Organic producers,Organic retail sales [Million €]
0,Afghanistan,2023,,28,,,
1,Albanie,2023,,73638,6.0,150.0,
2,Algérie,2023,,33495,1.0,6.0,
3,Andorre,2023,,211,1.0,,
4,Argentine,2023,,4048'202.80,343.0,1368.0,


In [36]:
#Suprression des colonnes inutiles
df_org.drop(columns=['Year','Element', 'Organic area (farmland) [ha]','Organic producers', 'Organic retail sales [Million €]'], inplace=True)
df_org.head(5)

Unnamed: 0,Zone,Organic area share of total farmland [%]
0,Afghanistan,
1,Albanie,6.0
2,Algérie,1.0
3,Andorre,1.0
4,Argentine,343.0


In [37]:
#Le nombre de valeurs présentes dans chacune des colonnes
print("Nombre de Valeurs présentes dans chacune des colonnes")
print(df_org.count())

Nombre de Valeurs présentes dans chacune des colonnes
0
Zone                                        171
Organic area share of total farmland [%]    159
dtype: int64


In [38]:
#modification type
df_org['Organic area share of total farmland [%]'] = df_org['Organic area share of total farmland [%]'].str.replace(',', '.').astype(float)
df_org['Organic area share of total farmland [%]'] = df_org['Organic area share of total farmland [%]'].astype(float)
print(df_org.dtypes)

0
Zone                                         object
Organic area share of total farmland [%]    float64
dtype: object


**2.5 Analyse du fichier FAOSTAT_population_2023**

In [40]:
#Afficher les dimensions du fichier
print("Le tableau comporte {} observation(s) ou article(s)".format(df_pop.shape[0]))
print("Le tableau comporte {} colonne(s)".format(df_pop.shape[1]))

#La nature des données dans chacune des colonnes
print(df_pop.dtypes)

Le tableau comporte 468 observation(s) ou article(s)
Le tableau comporte 15 colonne(s)
Code Domaine               object
Domaine                    object
Code zone (M49)             int64
Zone                       object
Code Élément                int64
Élément                    object
Code Produit                int64
Produit                    object
Code année                  int64
Année                       int64
Unité                      object
Valeur                    float64
Symbole                    object
Description du Symbole     object
Note                      float64
dtype: object


In [41]:
##Affichage les 5 premières lignes de la table
df_pop.head(5)

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,4,Afghanistan,511,Population totale,3010,Population-Estimations,2018,2018,1000 No,36743.039,X,Ciffre de sources internationales,
1,OA,Séries temporelles annuelles,4,Afghanistan,511,Population totale,3010,Population-Estimations,2023,2023,1000 No,41454.761,X,Ciffre de sources internationales,
2,OA,Séries temporelles annuelles,710,Afrique du Sud,511,Population totale,3010,Population-Estimations,2018,2018,1000 No,58613.0,X,Ciffre de sources internationales,
3,OA,Séries temporelles annuelles,710,Afrique du Sud,511,Population totale,3010,Population-Estimations,2023,2023,1000 No,63212.384,X,Ciffre de sources internationales,
4,OA,Séries temporelles annuelles,8,Albanie,511,Population totale,3010,Population-Estimations,2018,2018,1000 No,2894.231,X,Ciffre de sources internationales,


In [42]:
# Garder uniquement les colonnes spécifiées
df_pop = df_pop[['Code zone (M49)','Zone', 'Année', 'Valeur']]

# Afficher le résultat
df_pop.head()

Unnamed: 0,Code zone (M49),Zone,Année,Valeur
0,4,Afghanistan,2018,36743.039
1,4,Afghanistan,2023,41454.761
2,710,Afrique du Sud,2018,58613.0
3,710,Afrique du Sud,2023,63212.384
4,8,Albanie,2018,2894.231


In [43]:
# Calcul de la croissance de la population par pays
df_pivot = df_pop.pivot(index='Zone', columns='Année', values='Valeur')

# Calcul de la croissance de la population (croissance = (2023 - 2018) / 2018 * 100)
df_pivot['Croissance_population(2018-2023)'] = ((df_pivot[2023] - df_pivot[2018]) / df_pivot[2018]) * 100

# Affichage du résultat avec la croissance
print("\nRésultats avec la croissance par pays:")
df_pivot[['Croissance_population(2018-2023)']]


Résultats avec la croissance par pays:


Année,Croissance_population(2018-2023)
Zone,Unnamed: 1_level_1
Afghanistan,12.823441
Afrique du Sud,7.847037
Albanie,-2.853124
Algérie,8.608825
Allemagne,1.415074
...,...
Îles Salomon,12.819612
Îles Turques-et-Caïques,11.162444
Îles Vierges américaines,-7.151524
Îles Vierges britanniques,12.488098


In [44]:
#Recuperation de la colonne Croissance
df_pop = pd.merge(df_pop, df_pivot[['Croissance_population(2018-2023)']], on='Zone', how='left')
df_pop.head()

Unnamed: 0,Code zone (M49),Zone,Année,Valeur,Croissance_population(2018-2023)
0,4,Afghanistan,2018,36743.039,12.823441
1,4,Afghanistan,2023,41454.761,12.823441
2,710,Afrique du Sud,2018,58613.0,7.847037
3,710,Afrique du Sud,2023,63212.384,7.847037
4,8,Albanie,2018,2894.231,-2.853124


In [45]:
# Filtrer uniquement les données pour l'année 2023
df_pop = df_pop[df_pop['Année'] == 2023]
df_pop.head()

Unnamed: 0,Code zone (M49),Zone,Année,Valeur,Croissance_population(2018-2023)
1,4,Afghanistan,2023,41454.761,12.823441
3,710,Afrique du Sud,2023,63212.384,7.847037
5,8,Albanie,2023,2811.655,-2.853124
7,12,Algérie,2023,46164.219,8.608825
9,276,Allemagne,2023,84548.231,1.415074


In [46]:
#Renommer les colonnes et supression
df_pop.rename(columns={df_pop.columns[3]: "Population(1000)"}, inplace=True)
df_pop.drop(columns=['Année'], inplace=True)
df_pop.head()

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023)
1,4,Afghanistan,41454.761,12.823441
3,710,Afrique du Sud,63212.384,7.847037
5,8,Albanie,2811.655,-2.853124
7,12,Algérie,46164.219,8.608825
9,276,Allemagne,84548.231,1.415074


**2.6 Analyse du fichier FAOSTAT_investissement_2022**

In [48]:
#Afficher les dimensions du fichier
print("Le tableau comporte {} observation(s) ou article(s)".format(df_inv.shape[0]))
print("Le tableau comporte {} colonne(s)".format(df_inv.shape[1]))

#La nature des données dans chacune des colonnes
print(df_inv.dtypes)

Le tableau comporte 193 observation(s) ou article(s)
Le tableau comporte 15 colonne(s)
Code Domaine               object
Domaine                    object
Code zone (M49)             int64
Zone                       object
Code Élément                int64
Élément                    object
Code Produit                int64
Produit                    object
Code année                  int64
Année                       int64
Unité                      object
Valeur                    float64
Symbole                    object
Description du Symbole     object
Note                      float64
dtype: object


In [49]:
#Affichage les 5 premières lignes de la table
df_inv.head(5)

Unnamed: 0,Code Domaine,Domaine,Code zone (M49),Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,CISP,Profil statistique national sur l’investissement,4,Afghanistan,6129,Croissance annuelle US$,22030,"Formation brute de capital fixe (Agriculture, ...",2022,2022,%,-1.509673,E,Valeur estimée,
1,CISP,Profil statistique national sur l’investissement,710,Afrique du Sud,6129,Croissance annuelle US$,22030,"Formation brute de capital fixe (Agriculture, ...",2022,2022,%,3.300204,E,Valeur estimée,
2,CISP,Profil statistique national sur l’investissement,8,Albanie,6129,Croissance annuelle US$,22030,"Formation brute de capital fixe (Agriculture, ...",2022,2022,%,-3.049017,E,Valeur estimée,
3,CISP,Profil statistique national sur l’investissement,12,Algérie,6129,Croissance annuelle US$,22030,"Formation brute de capital fixe (Agriculture, ...",2022,2022,%,9.106992,E,Valeur estimée,
4,CISP,Profil statistique national sur l’investissement,276,Allemagne,6129,Croissance annuelle US$,22030,"Formation brute de capital fixe (Agriculture, ...",2022,2022,%,0.532028,E,Valeur estimée,


In [50]:
# Garder uniquement les colonnes spécifiées
df_inv = df_inv[['Code zone (M49)',	'Zone', 'Valeur']]

# Afficher le résultat
df_inv.head()

Unnamed: 0,Code zone (M49),Zone,Valeur
0,4,Afghanistan,-1.509673
1,710,Afrique du Sud,3.300204
2,8,Albanie,-3.049017
3,12,Algérie,9.106992
4,276,Allemagne,0.532028


In [51]:
#Renommer les colonnes 
df_inv = df_inv.rename(columns={"Valeur": "Croissance_Investissement(%)"})
df_inv.head()

Unnamed: 0,Code zone (M49),Zone,Croissance_Investissement(%)
0,4,Afghanistan,-1.509673
1,710,Afrique du Sud,3.300204
2,8,Albanie,-3.049017
3,12,Algérie,9.106992
4,276,Allemagne,0.532028


**3 jointure des dataframe**

In [53]:
# Liste de tes DataFrames FAO
dfs = [df_pop,df_pol,df_pib,df_inv,df_céréale,df_volailles]  

# Fusion progressive sur 'code Zone' des df_FAO
df_merge = reduce(lambda left, right: pd.merge(left, right, on='Code zone (M49)', how='outer', suffixes=('', '_dup')), dfs)

# Supprimer les colonnes doublons qui finissent par "_dup"
df_merge = df_merge.loc[:, ~df_merge.columns.str.endswith('_dup')]

df_merge.head(5)

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023),Stabilité politique,PIB(Int$/cap),Croissance_Investissement(%),Céréales_pour_animaux(1000t),Import_volailles(1000t),Prod_volailles(1000t)
0,4,Afghanistan,41454.761,12.823441,-2.55,,-1.509673,7.0,7.0,29.0
1,8,Albanie,2811.655,-2.853124,0.11,17261.0,-3.049017,0.0,47.0,18.0
2,12,Algérie,46164.219,8.608825,-0.74,13090.9,9.106992,9.0,0.0,275.0
3,16,Samoa américaines,47.521,-6.653178,1.13,,,,,
4,20,Andorre,80.856,7.575637,1.59,63379.0,-5.745133,,,


In [54]:
#Le nombre de valeurs présentes dans chacune des colonnes
print("Nombre de Valeurs présentes dans chacune des colonnes")
print(df_merge.count())

Nombre de Valeurs présentes dans chacune des colonnes
Code zone (M49)                     234
Zone                                234
Population(1000)                    234
Croissance_population(2018-2023)    234
Stabilité politique                 196
PIB(Int$/cap)                       183
Croissance_Investissement(%)        193
Céréales_pour_animaux(1000t)        178
Import_volailles(1000t)             189
Prod_volailles(1000t)               186
dtype: int64


In [55]:
# Liste unique des pays
pays_unique = list(set(df_merge["Zone"]).union(set(df_org["Zone"])))

# Créer un dictionnaire de correspondance automatique
correspondance = {p: process.extractOne(p, pays_unique)[0] for p in pays_unique}

# Appliquer cette correspondance
df_merge['Zone'] = df_merge['Zone'].replace(correspondance)
df_org['Zone'] = df_org['Zone'].replace(correspondance)

In [56]:
# Convertir en sets
zones_df_merge = set(df_merge['Zone'].dropna().unique())
zones_df_org = set(df_org['Zone'].dropna().unique())

# Valeurs communes
zones_communes = zones_df_merge.intersection(zones_df_org)
print(f"Zones communes ({len(zones_communes)}):\n", zones_communes)

# Valeurs uniques à df1
zones_uniques_df_merge = zones_df_merge - zones_df_org
print(f"\nzones_uniques_df_merge ({len(zones_uniques_df_merge)}):\n", zones_uniques_df_merge)

# Valeurs uniques à df2
zones_uniques_df_org = zones_df_org - zones_df_merge
print(f"\nzones_uniques_df_org ({len(zones_uniques_df_org)}):\n", zones_uniques_df_org)


Zones communes (147):
 {'Bosnie-Herzégovine', 'Bangladesh', 'Népal', 'Islande', 'Soudan', 'Afghanistan', 'Slovénie', 'Croatie', 'Bénin', 'Espagne', 'Zambie', 'Cameroun', 'Seychelles', 'Lituanie', 'Rwanda', 'Namibie', 'Philippines', 'Thaïlande', 'Émirats arabes unis', 'Koweït', 'Mayotte', 'Suisse', 'Arménie', 'Kazakhstan', 'Canada', 'Bahreïn', 'Italie', 'Afrique du Sud', 'Congo', 'Finlande', 'Madagascar', 'Malawi', 'Turquie', 'Équateur', 'Danemark', 'Eswatini', 'Géorgie', 'Îles Salomon', 'République démocratique du Congo', 'Tadjikistan', 'Sierra Leone', 'Chili', 'Kenya', 'Israël', 'Allemagne', 'Brésil', 'Niger', 'Guadeloupe', 'Nouvelle-Zélande', 'Sri Lanka', 'Îles Cook', 'Samoa', 'Bahamas', 'Maroc', 'Indonésie', 'Égypte', 'Autriche', 'Dominique', 'Grèce', 'Ukraine', 'Zimbabwe', 'Suède', 'Guatemala', 'Pérou', 'Australie', 'Chine', 'Costa Rica', 'Andorre', 'Jordanie', 'Vanuatu', 'Uruguay', 'Mongolie', 'Serbie', 'Suriname', 'Sénégal', 'Myanmar', 'Fidji', 'Comores', "Côte d'Ivoire", 'Ghana'

In [57]:
correspondance_pays = {
    "République démocratique populaire lao": "Laos",
    "Iran (République islamique d')": "Iran'",
    "États-Unis d'Amérique": "États-Unis",
    "République-Unie de Tanzanie": "Tanzanie",
    "Bélarus": "Biélorussie",
    "Royaume-Uni de Grande-Bretagne et d'Irlande du Nord": "Royaume-Uni",
    "Pays-Bas (Royaume des)": "Pays-Bas",
    "Tchéquie" : "République tchèque",
    "El Salvador" : "Salvador",
    "Venezuela (République bolivarienne du)" : "Venezuela",
    "Réunion" : "La Réunion",
    "Bolivie (État plurinational de)" : "Bolivie",
    "République de Corée" : "Corée du Sud",
    "Maurice" : "Île Maurice",
    "Fédération de Russie" : "Russie",
    "Viet Nam" : "Viêt Nam",
    "Chine, Taiwan Province de'" : "Taïwan",
    "Iraq" : "Irak",
    "Timor-Leste" : "Timor oriental",
    "Nigéria" : "Nigeria",
    "République de Moldova" : "Moldavie"
}

# Appliquer la correspondance
df_merge['Zone'] = df_merge['Zone'].replace(correspondance_pays)
df_org['Zone'] = df_org['Zone'].replace(correspondance_pays)

# Fusionner
df_merge = pd.merge(df_merge, df_org, on="Zone", how="inner")

print(df_merge.count())

Code zone (M49)                             166
Zone                                        166
Population(1000)                            166
Croissance_population(2018-2023)            166
Stabilité politique                         156
PIB(Int$/cap)                               151
Croissance_Investissement(%)                154
Céréales_pour_animaux(1000t)                150
Import_volailles(1000t)                     155
Prod_volailles(1000t)                       155
Organic area share of total farmland [%]    154
dtype: int64


In [58]:
#Filtre Nan sur céréales
céréale_nan = df_merge[df_merge["Céréales_pour_animaux(1000t)"].isna()]
céréale_nan

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023),Stabilité politique,PIB(Int$/cap),Croissance_Investissement(%),Céréales_pour_animaux(1000t),Import_volailles(1000t),Prod_volailles(1000t),Organic area share of total farmland [%]
3,20,Andorre,80.856,7.575637,1.59,63379.0,-5.745133,,,,0.01
32,175,Mayotte,316.015,17.177129,,,,,,,0.85
35,184,Îles Cook,14.222,-14.304652,,,,,,,0.48
49,234,Îles Féroé,54.714,7.210879,,,,,,,8.37
53,254,Guyane française,303.402,7.986845,,,,,,,12.96
56,275,Palestine,5409.202,11.516326,-1.82,5744.8,2.57191,,,,1.32
61,312,Guadeloupe,376.517,-9.312346,,,,,,,2.62
87,438,Liechtenstein,39.598,3.852711,,,,,,,44.58
95,474,Martinique,346.002,-4.967741,,,,,,,3.02
107,548,Vanuatu,320.409,12.322135,0.95,3074.1,5.105996,,5.0,1.0,3.44


In [59]:
#Remplacement des valeurs céréales par 0
df_merge["Céréales_pour_animaux(1000t)"] = df_merge["Céréales_pour_animaux(1000t)"].fillna(0)
print(df_merge.count())

Code zone (M49)                             166
Zone                                        166
Population(1000)                            166
Croissance_population(2018-2023)            166
Stabilité politique                         156
PIB(Int$/cap)                               151
Croissance_Investissement(%)                154
Céréales_pour_animaux(1000t)                166
Import_volailles(1000t)                     155
Prod_volailles(1000t)                       155
Organic area share of total farmland [%]    154
dtype: int64


In [60]:
#Filtre Nan sur Stabilité politique 
politique_nan = df_merge[df_merge["Stabilité politique"].isna()]
politique_nan

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023),Stabilité politique,PIB(Int$/cap),Croissance_Investissement(%),Céréales_pour_animaux(1000t),Import_volailles(1000t),Prod_volailles(1000t),Organic area share of total farmland [%]
29,159,Chine,1454058.724,0.224738,,21262.3,2.303339,3381.0,1871.0,24194.0,0.66
32,175,Mayotte,316.015,17.177129,,,,0.0,,,0.85
35,184,Îles Cook,14.222,-14.304652,,,,0.0,,,0.48
49,234,Îles Féroé,54.714,7.210879,,,,0.0,,,8.37
53,254,Guyane française,303.402,7.986845,,,,0.0,,,12.96
54,258,Polynésie française,281.118,0.465665,,,-4.82317,1.0,18.0,1.0,9.01
61,312,Guadeloupe,376.517,-9.312346,,,,0.0,,,2.62
87,438,Liechtenstein,39.598,3.852711,,,,0.0,,,44.58
95,474,Martinique,346.002,-4.967741,,,,0.0,,,3.02
122,638,La Réunion,874.883,2.093607,,,,0.0,,,5.03


In [61]:
# Remplacement de la valeur de la Chine
df_merge.loc[df_merge["Zone"] == "Chine", "Stabilité politique"] = -1

# Suppression des lignes où la colonne 'politique' est NaN, sauf celles où 'Zone' est "Chine"
df_merge = df_merge[~((df_merge["Stabilité politique"].isna()) & (df_merge["Zone"] != "Chine"))]

# Affichage du comptage des lignes après modifications
print(df_merge.count())


Code zone (M49)                             157
Zone                                        157
Population(1000)                            157
Croissance_population(2018-2023)            157
Stabilité politique                         157
PIB(Int$/cap)                               151
Croissance_Investissement(%)                153
Céréales_pour_animaux(1000t)                157
Import_volailles(1000t)                     154
Prod_volailles(1000t)                       154
Organic area share of total farmland [%]    145
dtype: int64


In [62]:
#Filtre Nan sur PIB(Int$/cap)
pib_nan = df_merge[df_merge["PIB(Int$/cap)"].isna()]
pib_nan

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023),Stabilité politique,PIB(Int$/cap),Croissance_Investissement(%),Céréales_pour_animaux(1000t),Import_volailles(1000t),Prod_volailles(1000t),Organic area share of total farmland [%]
0,4,Afghanistan,41454.761,12.823441,-2.55,,-1.509673,7.0,7.0,29.0,
13,64,Bhoutan,786.385,3.504532,0.86,,4.81053,0.0,3.0,1.0,0.72
38,192,Cuba,11019.931,-1.845416,0.5,,5.926995,0.0,317.0,19.0,0.08
83,422,Liban,5773.493,-3.51975,-1.47,,28.952468,6.0,12.0,120.0,0.21
149,776,Tonga,104.597,-0.918848,1.11,,3.635366,0.0,9.0,0.0,
163,862,Venezuela,28300.854,-5.05488,-1.26,,,0.0,23.0,426.0,0.01


In [63]:
# Récupération des valeurs PIB précedent 2021
df_merge.loc[df_merge["Zone"] == "Afghanistan", "PIB(Int$/cap)"] =  2138.9
df_merge.loc[df_merge["Zone"] == "Bhoutan", "PIB(Int$/cap)"] = 13423.4
df_merge.loc[df_merge["Zone"] == "Cuba", "PIB(Int$/cap)"] = 12000 #Estimation chatgpt
df_merge.loc[df_merge["Zone"] == "Liban", "PIB(Int$/cap)"] = 11860.1
df_merge.loc[df_merge["Zone"] == "Tonga", "PIB(Int$/cap)"] = 6778.5
# Suppression des lignes où la colonne 'PIB ' est NaN, 
df_merge = df_merge[df_merge["Zone"] != "Venezuela"]
print(df_merge.count())

Code zone (M49)                             156
Zone                                        156
Population(1000)                            156
Croissance_population(2018-2023)            156
Stabilité politique                         156
PIB(Int$/cap)                               156
Croissance_Investissement(%)                153
Céréales_pour_animaux(1000t)                156
Import_volailles(1000t)                     153
Prod_volailles(1000t)                       153
Organic area share of total farmland [%]    144
dtype: int64


In [64]:
#Filtre Nan sur Organic area share of total farmland [%]
org_nan = df_merge[df_merge["Organic area share of total farmland [%]"].isna()]
org_nan

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023),Stabilité politique,PIB(Int$/cap),Croissance_Investissement(%),Céréales_pour_animaux(1000t),Import_volailles(1000t),Prod_volailles(1000t),Organic area share of total farmland [%]
0,4,Afghanistan,41454.761,12.823441,-2.55,2138.9,-1.509673,7.0,7.0,29.0,
21,108,Burundi,13689.45,15.430771,-1.19,857.2,11.373277,7.0,0.0,8.0,
27,148,Tchad,19319.064,19.574332,-1.48,1748.5,-6.832992,17.0,3.0,7.0,
30,170,Colombie,52321.152,6.724575,-0.64,18732.7,1.116099,12.0,81.0,1820.0,
60,308,Grenade,117.081,1.201476,1.04,15136.3,4.450409,0.0,8.0,0.0,
74,388,Jamaïque,2839.786,0.698167,0.38,10114.0,3.949839,0.0,21.0,140.0,
106,528,Pays-Bas,18092.524,3.853012,0.72,69953.7,1.648044,207.0,897.0,876.0,
110,562,Niger,26159.867,17.900602,-1.47,1652.7,-19.088605,105.0,2.0,20.0,
131,690,Seychelles,127.951,11.223053,0.76,23409.6,13.0978,0.0,4.0,2.0,
134,703,Slovaquie,5518.055,1.374606,0.44,38566.3,3.318049,31.0,86.0,51.0,


In [65]:
#Vérification des valeurs Organic area share of total farmland [%]
print(df_merge['Organic area share of total farmland [%]'].min())
print(df_merge['Organic area share of total farmland [%]'].max())

0.0
27.34


In [66]:
# Estimation des valeurs
df_merge.loc[df_merge["Organic area share of total farmland [%]"] == "Pays-Bas", "Organic area share of total farmland [%]"] =  4.41 #Valeur 2022 
#Remplacement des valeurs Organic area share of total farmland [%] par 0
df_merge["Organic area share of total farmland [%]"] = df_merge["Organic area share of total farmland [%]"].fillna(0)
print(df_merge.count())

Code zone (M49)                             156
Zone                                        156
Population(1000)                            156
Croissance_population(2018-2023)            156
Stabilité politique                         156
PIB(Int$/cap)                               156
Croissance_Investissement(%)                153
Céréales_pour_animaux(1000t)                156
Import_volailles(1000t)                     153
Prod_volailles(1000t)                       153
Organic area share of total farmland [%]    156
dtype: int64


In [67]:
#Filtre Nan sur #Filtre Nan sur Croissance_Investissement(%)
inv_nan = df_merge[df_merge["Croissance_Investissement(%)"].isna()]
inv_nan

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023),Stabilité politique,PIB(Int$/cap),Croissance_Investissement(%),Céréales_pour_animaux(1000t),Import_volailles(1000t),Prod_volailles(1000t),Organic area share of total farmland [%]
99,498,Moldavie,3067.07,-2.749183,-0.67,15229.5,,1.0,23.0,46.0,1.82
141,729,Soudan,50042.791,13.140666,-2.0,3299.9,,0.0,1.0,85.0,0.04
164,882,Samoa,216.663,4.374657,1.08,5689.0,,0.0,17.0,0.0,14.6


In [68]:
#Remplacement des valeurs Croissance_Investissement(%) par 0
df_merge["Croissance_Investissement(%)"] = df_merge["Croissance_Investissement(%)"].fillna(0)
print(df_merge.count())

Code zone (M49)                             156
Zone                                        156
Population(1000)                            156
Croissance_population(2018-2023)            156
Stabilité politique                         156
PIB(Int$/cap)                               156
Croissance_Investissement(%)                156
Céréales_pour_animaux(1000t)                156
Import_volailles(1000t)                     153
Prod_volailles(1000t)                       153
Organic area share of total farmland [%]    156
dtype: int64


In [69]:
#Filtre Nan sur Import_volailles(1000t)
vol_nan = df_merge[df_merge["Import_volailles(1000t)"].isna()]
vol_nan

Unnamed: 0,Code zone (M49),Zone,Population(1000),Croissance_population(2018-2023),Stabilité politique,PIB(Int$/cap),Croissance_Investissement(%),Céréales_pour_animaux(1000t),Import_volailles(1000t),Prod_volailles(1000t),Organic area share of total farmland [%]
3,20,Andorre,80.856,7.575637,1.59,63379.0,-5.745133,0.0,,,0.01
56,275,Palestine,5409.202,11.516326,-1.82,5744.8,2.57191,0.0,,,1.32
133,702,Singapour,5789.09,2.746022,1.46,129084.0,4.654887,0.0,,,2.21


In [70]:
#Remplacement des valeurs Import_volailles(1000t) par 0
df_merge["Import_volailles(1000t)"] = df_merge["Import_volailles(1000t)"].fillna(0)
df_merge["Prod_volailles(1000t)"] = df_merge["Prod_volailles(1000t)"].fillna(0)
print(df_merge.count())

Code zone (M49)                             156
Zone                                        156
Population(1000)                            156
Croissance_population(2018-2023)            156
Stabilité politique                         156
PIB(Int$/cap)                               156
Croissance_Investissement(%)                156
Céréales_pour_animaux(1000t)                156
Import_volailles(1000t)                     156
Prod_volailles(1000t)                       156
Organic area share of total farmland [%]    156
dtype: int64


In [76]:
#Calcul de la population cibler
pop_total_df_pop = df_pop['Population(1000)'].sum()
pop_total_df_merge = df_merge['Population(1000)'].sum()
# Calcul du pourcentage
pourcentage = (pop_total_df_merge / pop_total_df_pop) * 100
# Affichage
print(f"Population totale df_pop : {pop_total_df_pop:,.0f}")
print(f"Population totale df_merge : {pop_total_df_merge:,.0f}")
print(f"Pourcentage représenté par df_merge : {pourcentage:.2f}%")

Population totale df_pop : 9,543,925
Population totale df_merge : 7,762,129
Pourcentage représenté par df_merge : 81.33%


Analyse sur 156 pays et 81.33% de la population

**4 Création du fichier pour analyse**

In [80]:
df_merge.to_csv("df_merge_export.csv", index=False)