<div style=" background-color: RGB(0,114,200);" >
<h1 style="margin: auto; padding: 20px 0; color:#fff; text-align: center">PROJET DATA ANALYST</h1>
<h2 style="margin: auto; padding: 20px 0; color:#fff; text-align: center">Produisez une étude de marché avec  Python (partie data)
</h2>
</div>


# OBJECTIF DE CE NOTEBOOK

Objectif du premier notebook : Préparation et nettoyage des données

Le premier notebook a pour objectif principal de collecter, préparer, et nettoyer les données nécessaires à l’analyse des groupements de pays pour l’exportation de poulets de la poule qui chante. Cette étape est essentielle pour garantir des données cohérentes, fiables et prêtes à être utilisées dans les analyses exploratoires et avancées (ACP, clustering).
Détails de l’objectif :

    Collecte des données :
        Importer les données issues des différentes sources, notamment la FAO et la Banque mondiale, en s’assurant de leur cohérence.
        Intégrer au moins huit variables pertinentes couvrant les aspects PESTEL pour chaque pays.

    Préparation des données :
        Uniformiser les formats des données (ex. : types de données, unités, échelles) pour permettre leur utilisation dans un cadre analytique.
        Combiner les sources dans un fichier consolidé couvrant au moins 100 pays.

    Nettoyage des données :
        Identifier et traiter les données manquantes (suppression ou imputation selon la situation).
        Supprimer les doublons et les valeurs aberrantes afin d’obtenir un jeu de données homogène.
        Renommer et organiser les colonnes pour plus de clarté.

    Validation des données :
        Vérifier la cohérence des informations (ex. : distribution des valeurs, corrélations initiales).
        Sauvegarder le jeu de données final dans un format utilisable par le second notebook (CSV ou autre).

# Variables sélectionnées

Dans le cadre de l'analyse des groupements de pays pour l'exportation de poulets, les variables suivantes ont été sélectionnées selon la méthode PESTEL pour leur pertinence stratégique :

    Stabilité politique (POLITIQUE) :
    Indique les risques d’instabilité pouvant affecter la sécurité des échanges commerciaux.

    PIB par habitant (ÉCONOMIQUE) :
    Évalue le pouvoir d’achat moyen des consommateurs et leur capacité à acheter des produits premium.

    Quantité Importations agroalimentaires (volaille) (ÉCONOMIQUE) :
    Permet d'identifier les pays dépendants des importations pour détecter des opportunités.

    Quantité Production locale de volaille (ÉCONOMIQUE) :
    Met en lumière les marchés où la production est faible et pourrait être complétée par des importations.

    Quantité de volaille utilisée dans l’année (SOCIOCULTUREL) :
    Reflète la demande interne pour la volaille, essentielle pour estimer l’appétence des consommateurs.

    Population totale (SOCIOCULTUREL) :
    Indique la taille potentielle du marché pour évaluer les opportunités.

    Indice logistique de performance (LPI) (TECHNOLOGIQUE) :
    Mesure la qualité des infrastructures de transport et leur adéquation aux échanges internationaux.

    Valeur des émissions imputables à l’élevage de volaille (CH4 et N2O) (ENVIRONNEMENT) :
    Donne des indications sur l'impact environnemental lié à l'élevage de volaille dans chaque pays.

    Pays partenaires pour les échanges (LÉGAL) :
    Identifie les principaux pays partenaires pour les exportations françaises de volaille, indiquant les marchés actifs.

Chaque variable a été alignée sur l’année 2017, et les données ont été harmonisées à partir de sources fiables comme la FAO et la Banque mondiale.

<div style="background-color: RGB(0,150,250);" >
<h2 style="margin: auto; padding: 20px; color:#fff; ">Etape 1 - Importation des Bibliothèques et Fichiers</h2>
</div>
Dans cette section, nous allons importer les bibliothèques Python nécessaires (pandas, numpy, matplotlib, seaborn, etc.) et charger les fichiers de données contenant les informations sur les ventes et les clients.

In [1]:
# Import des librairies 
import pandas as pd


In [2]:
# Chargement des fichiers CSV dans des DataFrames pandas

# Définir le chemin d'accès au dossier des fichiers CSV
chemin_dossier = 'D:/Mes doc/Formation openclassroom/Projet 11/DAN-P9-data/csv Etude/'

# Importer les fichiers CSV
disponi_alim = pd.read_csv(chemin_dossier + 'DisponiAlim.csv', sep=';')
emissions = pd.read_csv(chemin_dossier + 'Emissions.csv', sep=';')
indice_logistique = pd.read_csv(chemin_dossier + 'indice logistique.csv', sep=';')
pays_partenaire = pd.read_csv(chemin_dossier + 'pays partenaire.csv', sep=';')
pib_habitant = pd.read_csv(chemin_dossier + 'pib habitant.csv', sep=';')
population = pd.read_csv(chemin_dossier + 'Population.csv', sep=';')
stab_politique = pd.read_csv(chemin_dossier + 'stab politique.csv', sep=';')


<div style="background-color: RGB(0,150,250);" >
<h2 style="margin: auto; padding: 20px; color:#fff; ">Etape 2 - Exploration Initiale et Vérification des Données</h2>
</div>
Aperçu des premières lignes des fichiers importés.
Vérification des types de données.

<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    1: affichage des dataframes
  </h3>
  <p></p>
</div>



In [3]:

# Afficher un aperçu des données importées pour vérifier
print("Disponibilité alimentaire :")
display(disponi_alim.head())

print("Émissions :")
display(emissions.head())

print("Indice logistique :")
display(indice_logistique.head())

print("Pays partenaire :")
display(pays_partenaire.head())

print("PIB par habitant :")
display(pib_habitant.head())

print("Population :")
display(population.head())

print("Stabilité politique :")
display(stab_politique.head())


Disponibilité alimentaire :


Unnamed: 0,Zone,Élément,Produit,Année,Unité,Valeur
0,Afghanistan,Production,Viande de Volailles,2017,Milliers de tonnes,28.0
1,Afghanistan,Importations - Quantité,Viande de Volailles,2017,Milliers de tonnes,29.0
2,Afghanistan,Variation de stock,Viande de Volailles,2017,Milliers de tonnes,0.0
3,Afghanistan,Disponibilité intérieure,Viande de Volailles,2017,Milliers de tonnes,57.0
4,Afghanistan,Pertes,Viande de Volailles,2017,Milliers de tonnes,2.0


Émissions :


Unnamed: 0,Domaine,Zone,Élément,Produit,Année,Unité,Valeur
0,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1961,kilotonnes,0.0085
1,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1961,kilotonnes,0.007
2,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1962,kilotonnes,0.006
3,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1962,kilotonnes,0.005
4,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1963,kilotonnes,0.0048


Indice logistique :


Unnamed: 0,Country Name,Indicator Name,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Aruba,Indice de performance logistique : performance...,,,,,,,,,,,,,,,,
1,Afghanistan,Indice de performance logistique : performance...,1.21,,,2.24,,2.3,,2.069573,,2.141282,,1.95,,,,1.9
2,Angola,Indice de performance logistique : performance...,2.48,,,2.25,,2.28,,2.54298,,2.241183,,2.05,,,,2.1
3,Albanie,Indice de performance logistique : performance...,2.08,,,2.46,,2.77,,,,2.412498,,2.66,,,,2.5
4,Andorre,Indice de performance logistique : performance...,,,,,,,,,,,,,,,,


Pays partenaire :


Unnamed: 0,Pays déclarants,Pays partenaires,Élément,Produit,Année,Unité,Valeur
0,France,Afrique du Sud,Exportations - Quantité,Poulets,1987,1000 têtes,2.0
1,France,Afrique du Sud,Exportations - Quantité,Poulets,1989,1000 têtes,1.0
2,France,Afrique du Sud,Exportations - Quantité,Poulets,1990,1000 têtes,1.0
3,France,Afrique du Sud,Exportations - Quantité,Poulets,1993,1000 têtes,0.0
4,France,Afrique du Sud,Exportations - Quantité,Poulets,1995,1000 têtes,7.0


PIB par habitant :


Unnamed: 0,Country Name,Indicator Name,1960,1961,1962,1963,1964,1965,1966,1967,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,Aruba,PIB par habitant ($ US courants),,,,,,,,,...,26940.264114,28419.264534,28449.712946,29329.081747,30918.483584,31902.809818,24008.127822,29127.759384,33300.838819,
1,Afghanistan,PIB par habitant ($ US courants),,,,,,,,,...,626.512929,566.88113,523.053012,526.140801,492.090631,497.741431,512.055098,355.777826,352.603733,
2,Angola,PIB par habitant ($ US courants),,,,,,,,,...,5011.984427,3217.33924,1809.709377,2439.374439,2540.508879,2191.347764,1450.905111,1927.474078,2933.484644,2309.52162
3,Albanie,PIB par habitant ($ US courants),,,,,,,,,...,4578.633208,3952.803574,4124.05539,4531.032207,5287.660801,5396.214243,5343.037704,6377.203096,6810.114041,8367.775731
4,Andorre,PIB par habitant ($ US courants),,,,,,,,,...,45680.534992,38885.530322,39931.21698,40632.231552,42904.828456,41328.600498,37207.221999,42066.490518,42350.697069,46544.72072


Population :


Unnamed: 0,Zone,Produit,Année,Unité,Valeur
0,Afghanistan,Population-Estimations,2000,1000 personnes,20779.953
1,Afghanistan,Population-Estimations,2001,1000 personnes,21606.988
2,Afghanistan,Population-Estimations,2002,1000 personnes,22600.77
3,Afghanistan,Population-Estimations,2003,1000 personnes,23680.871
4,Afghanistan,Population-Estimations,2004,1000 personnes,24726.684


Stabilité politique :


Unnamed: 0,Zone,Produit,Année,Valeur
0,Afghanistan,Stabilité politique et absence de violence/ter...,2000,-2.44
1,Afghanistan,Stabilité politique et absence de violence/ter...,2002,-2.04
2,Afghanistan,Stabilité politique et absence de violence/ter...,2003,-2.2
3,Afghanistan,Stabilité politique et absence de violence/ter...,2004,-2.3
4,Afghanistan,Stabilité politique et absence de violence/ter...,2005,-2.07


<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    2: Verification du types de données
  </h3>
  <p></p>
</div>


In [4]:
# Vérification des types de données pour chaque DataFrame
print("Types de données - Disponibilité Alimentaire:")
print(disponi_alim.dtypes)
print("\n")

print("Types de données - Emissions:")
print(emissions.dtypes)
print("\n")

print("Types de données - Indice Logistique:")
print(indice_logistique.dtypes)
print("\n")

print("Types de données - Pays Partenaire:")
print(pays_partenaire.dtypes)
print("\n")

print("Types de données - PIB par Habitant:")
print(pib_habitant.dtypes)
print("\n")

print("Types de données - Population:")
print(population.dtypes)
print("\n")

print("Types de données - Stabilité Politique:")
print(stab_politique.dtypes)
print("\n")


Types de données - Disponibilité Alimentaire:
Zone        object
Élément     object
Produit     object
Année        int64
Unité       object
Valeur     float64
dtype: object


Types de données - Emissions:
Domaine     object
Zone        object
Élément     object
Produit     object
Année        int64
Unité       object
Valeur     float64
dtype: object


Types de données - Indice Logistique:
Country Name       object
Indicator Name     object
2007              float64
2008              float64
2009              float64
2010              float64
2011              float64
2012              float64
2013              float64
2014              float64
2015              float64
2016              float64
2017              float64
2018              float64
2019              float64
2020              float64
2021              float64
2022              float64
dtype: object


Types de données - Pays Partenaire:
Pays déclarants      object
Pays partenaires     object
Élément              object
Pro

<div style="background-color: RGB(0,150,250);" >
<h2 style="margin: auto; padding: 20px; color:#fff; ">Etape 3 - Nettoyage des Données</h2>
</div>
Traitement des valeurs manquantes : suppression ou imputation selon le contexte.
Conversion des types de données si nécessaire.
Détection et gestion des doublons.
Nettoyage des colonnes non pertinentes pour l'analyse.

<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    A: dataframe disponi_alim  </h3>
  <p></p>
</div>


In [5]:
# Aperçu des premières lignes de 'disponi_alim'
disponi_alim.head(10)

Unnamed: 0,Zone,Élément,Produit,Année,Unité,Valeur
0,Afghanistan,Production,Viande de Volailles,2017,Milliers de tonnes,28.0
1,Afghanistan,Importations - Quantité,Viande de Volailles,2017,Milliers de tonnes,29.0
2,Afghanistan,Variation de stock,Viande de Volailles,2017,Milliers de tonnes,0.0
3,Afghanistan,Disponibilité intérieure,Viande de Volailles,2017,Milliers de tonnes,57.0
4,Afghanistan,Pertes,Viande de Volailles,2017,Milliers de tonnes,2.0
5,Afghanistan,Résidus,Viande de Volailles,2017,Milliers de tonnes,0.0
6,Afghanistan,Nourriture,Viande de Volailles,2017,Milliers de tonnes,55.0
7,Afghanistan,Disponibilité alimentaire en quantité (kg/pers...,Viande de Volailles,2017,kg,1.53
8,Afghanistan,Disponibilité alimentaire (Kcal/personne/jour),Viande de Volailles,2017,Kcal/personne/jour,5.0
9,Afghanistan,Disponibilité de protéines en quantité (g/pers...,Viande de Volailles,2017,g/personne/jour,0.54


In [6]:
# Vérification des types de données
disponi_alim.dtypes

Zone        object
Élément     object
Produit     object
Année        int64
Unité       object
Valeur     float64
dtype: object

In [7]:
# Vérification des valeurs manquantes dans toutes les colonnes (même celles avec 0 NaN)
valeurs_manquantes = disponi_alim.isna().sum()
print("Nombre total de valeurs manquantes par colonne :")
print(valeurs_manquantes)


Nombre total de valeurs manquantes par colonne :
Zone       0
Élément    0
Produit    0
Année      0
Unité      0
Valeur     0
dtype: int64


In [8]:
# Vérification des doublons
doublons = disponi_alim.duplicated().sum()
print(f"Nombre de doublons : {doublons}")

Nombre de doublons : 0


In [9]:
display (disponi_alim)

Unnamed: 0,Zone,Élément,Produit,Année,Unité,Valeur
0,Afghanistan,Production,Viande de Volailles,2017,Milliers de tonnes,28.00
1,Afghanistan,Importations - Quantité,Viande de Volailles,2017,Milliers de tonnes,29.00
2,Afghanistan,Variation de stock,Viande de Volailles,2017,Milliers de tonnes,0.00
3,Afghanistan,Disponibilité intérieure,Viande de Volailles,2017,Milliers de tonnes,57.00
4,Afghanistan,Pertes,Viande de Volailles,2017,Milliers de tonnes,2.00
...,...,...,...,...,...,...
2056,Zimbabwe,Nourriture,Viande de Volailles,2017,Milliers de tonnes,67.00
2057,Zimbabwe,Disponibilité alimentaire en quantité (kg/pers...,Viande de Volailles,2017,kg,4.68
2058,Zimbabwe,Disponibilité alimentaire (Kcal/personne/jour),Viande de Volailles,2017,Kcal/personne/jour,16.00
2059,Zimbabwe,Disponibilité de protéines en quantité (g/pers...,Viande de Volailles,2017,g/personne/jour,1.59


In [10]:
#  Filtrer pour conserver uniquement les valeurs désirées dans "Élément"
filtre_elements = ['Production', 'Importations - Quantité', 'Nourriture']
disponi_alim_filtered = disponi_alim[disponi_alim['Élément'].isin(filtre_elements)].copy()  # Utilisation de .copy()

#  Ajouter une colonne "Quantité en kilos"
disponi_alim_filtered['Quantité en kilos'] = disponi_alim_filtered['Valeur'] * 1000000

# Supprimer les colonnes inutiles
disponi_alim_filtered = disponi_alim_filtered.drop(columns=['Produit', 'Valeur', 'Unité'])

#  Réorganiser les données (pivot) pour que les valeurs de "Élément" deviennent des colonnes
disponi_alim_pivot = disponi_alim_filtered.pivot_table(
    index=['Zone', 'Année'], 
    columns='Élément', 
    values='Quantité en kilos',
    aggfunc='sum'
).reset_index()

# Renommer les colonnes pour une meilleure lisibilité
disponi_alim_pivot = disponi_alim_pivot.rename(
    columns={
        'Production': 'Quantité Production (kg)',
        'Importations - Quantité': 'Quantité Importations (kg)',
        'Nourriture': 'Quantité Nourriture (kg)'
    }
)

# Afficher le résultat final
display(disponi_alim_pivot)

Élément,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg)
0,Afghanistan,2017,29000000.0,5.500000e+07,2.800000e+07
1,Afrique du Sud,2017,514000000.0,2.035000e+09,1.667000e+09
2,Albanie,2017,38000000.0,4.700000e+07,1.300000e+07
3,Algérie,2017,2000000.0,2.640000e+08,2.750000e+08
4,Allemagne,2017,842000000.0,1.609000e+09,1.514000e+09
...,...,...,...,...,...
165,Émirats arabes unis,2017,433000000.0,4.120000e+08,4.800000e+07
166,Équateur,2017,0.0,3.240000e+08,3.400000e+08
167,États-Unis d'Amérique,2017,123000000.0,1.810000e+10,2.191400e+10
168,Éthiopie,2017,1000000.0,1.400000e+07,1.400000e+07


In [11]:
# Vérifier les NaN dans le DataFrame
print("Nombre de NaN par colonne :")
print(disponi_alim_pivot.isnull().sum())

# Vérifier s'il existe des lignes entièrement nulles
print("\nNombre de lignes entièrement nulles :")
print(disponi_alim_pivot.isnull().all(axis=1).sum())

# Vérifier les doublons dans le DataFrame
print("\nNombre de doublons dans le DataFrame :")
print(disponi_alim_pivot.duplicated().sum())


Nombre de NaN par colonne :
Élément
Zone                          0
Année                         0
Quantité Importations (kg)    0
Quantité Nourriture (kg)      0
Quantité Production (kg)      2
dtype: int64

Nombre de lignes entièrement nulles :
0

Nombre de doublons dans le DataFrame :
0


In [12]:
# Afficher les lignes où la colonne "Quantité Production (kg)" contient des NaN
lignes_nan_production = disponi_alim_pivot[disponi_alim_pivot['Quantité Production (kg)'].isnull()]

# Afficher ces lignes
display(lignes_nan_production)


Élément,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg)
43,Djibouti,2017,3000000.0,3000000.0,
92,Maldives,2017,12000000.0,7000000.0,


exceptionellement, pour notre analyse sur les export, les maldives tant une iles on peut les suprimer (point de vue logistique)
et les maldives n'ont pas de données de productions, mais étant un seul pays concerné, il joueras peut sur l'analyse globale.

In [13]:
# Supprimer les lignes contenant des NaN dans "Quantité Production (kg)"
disponi_alim_pivot_cleaned = disponi_alim_pivot.dropna(subset=['Quantité Production (kg)'])

# Renommer le DataFrame final en "ind_log"
disponibilitealimentaire = disponi_alim_pivot_cleaned

# Afficher le DataFrame final nettoyé
display(disponibilitealimentaire)


Élément,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg)
0,Afghanistan,2017,29000000.0,5.500000e+07,2.800000e+07
1,Afrique du Sud,2017,514000000.0,2.035000e+09,1.667000e+09
2,Albanie,2017,38000000.0,4.700000e+07,1.300000e+07
3,Algérie,2017,2000000.0,2.640000e+08,2.750000e+08
4,Allemagne,2017,842000000.0,1.609000e+09,1.514000e+09
...,...,...,...,...,...
165,Émirats arabes unis,2017,433000000.0,4.120000e+08,4.800000e+07
166,Équateur,2017,0.0,3.240000e+08,3.400000e+08
167,États-Unis d'Amérique,2017,123000000.0,1.810000e+10,2.191400e+10
168,Éthiopie,2017,1000000.0,1.400000e+07,1.400000e+07


<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    B: dataframe EMISSIONS
  </h3>
  <p></p>
</div>

In [14]:
# Aperçu des premières lignes de 'emissions'
display (emissions.head(10))

Unnamed: 0,Domaine,Zone,Élément,Produit,Année,Unité,Valeur
0,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1961,kilotonnes,0.0085
1,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1961,kilotonnes,0.007
2,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1962,kilotonnes,0.006
3,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1962,kilotonnes,0.005
4,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1963,kilotonnes,0.0048
5,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1963,kilotonnes,0.004
6,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1964,kilotonnes,0.006
7,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1964,kilotonnes,0.005
8,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1965,kilotonnes,0.0036
9,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1965,kilotonnes,0.003


In [15]:
# Vérification des types de données
print(emissions.dtypes)

Domaine     object
Zone        object
Élément     object
Produit     object
Année        int64
Unité       object
Valeur     float64
dtype: object


In [16]:
# Vérification des valeurs manquantes dans toutes les colonnes (même celles avec 0 NaN)
valeurs_manquantes_emissions = emissions.isna().sum()
print("Nombre total de valeurs manquantes par colonne dans 'emissions' :")
print(valeurs_manquantes_emissions)

Nombre total de valeurs manquantes par colonne dans 'emissions' :
Domaine      0
Zone         0
Élément      0
Produit      0
Année        0
Unité        0
Valeur     540
dtype: int64


In [17]:
# Afficher les lignes où la colonne 'Valeur' a des valeurs manquantes
lignes_manquantes = emissions[emissions['Valeur'].isna()]
display(lignes_manquantes)


Unnamed: 0,Domaine,Zone,Élément,Produit,Année,Unité,Valeur
1182,Émissions imputables à l'élevage,Aruba,Total imputable à l'élevage (émissions N2O),Poulets à viande,1993,kilotonnes,
1183,Émissions imputables à l'élevage,Aruba,Total imputable à l'élevage (émissions CH4),Poulets à viande,1993,kilotonnes,
1184,Émissions imputables à l'élevage,Aruba,Total imputable à l'élevage (émissions N2O),Poulets à viande,1994,kilotonnes,
1185,Émissions imputables à l'élevage,Aruba,Total imputable à l'élevage (émissions CH4),Poulets à viande,1994,kilotonnes,
1186,Émissions imputables à l'élevage,Aruba,Total imputable à l'élevage (émissions N2O),Poulets à viande,1995,kilotonnes,
...,...,...,...,...,...,...,...
21083,Émissions imputables à l'élevage,Suède,Total imputable à l'élevage (émissions CH4),Poulets à viande,1965,kilotonnes,
21084,Émissions imputables à l'élevage,Suède,Total imputable à l'élevage (émissions N2O),Poulets à viande,1966,kilotonnes,
21085,Émissions imputables à l'élevage,Suède,Total imputable à l'élevage (émissions CH4),Poulets à viande,1966,kilotonnes,
21086,Émissions imputables à l'élevage,Suède,Total imputable à l'élevage (émissions N2O),Poulets à viande,1967,kilotonnes,


Il s'agit d'années pour lesquels on as pas de donnée sur les emissions de gaz, je peut donc les suprimer

In [18]:
# Supprimer les lignes où 'Valeur' est manquante
emissions = emissions.dropna(subset=['Valeur'])

# Vérification des valeurs manquantes après suppression
print(emissions.isna().sum())

Domaine    0
Zone       0
Élément    0
Produit    0
Année      0
Unité      0
Valeur     0
dtype: int64


In [19]:
# Vérification des doublons
doublons_emissions = emissions.duplicated().sum()
print(f"Nombre de doublons dans 'emissions' : {doublons_emissions}")


Nombre de doublons dans 'emissions' : 0


In [20]:
display(emissions)

Unnamed: 0,Domaine,Zone,Élément,Produit,Année,Unité,Valeur
0,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1961,kilotonnes,0.0085
1,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1961,kilotonnes,0.0070
2,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1962,kilotonnes,0.0060
3,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions CH4),Poulets à viande,1962,kilotonnes,0.0050
4,Émissions imputables à l'élevage,Afghanistan,Total imputable à l'élevage (émissions N2O),Poulets à viande,1963,kilotonnes,0.0048
...,...,...,...,...,...,...,...
23921,Émissions imputables à l'élevage,Zimbabwe,Total imputable à l'élevage (émissions CH4),Poulets à viande,2020,kilotonnes,0.2341
23922,Émissions imputables à l'élevage,Zimbabwe,Total imputable à l'élevage (émissions N2O),Poulets à viande,2021,kilotonnes,0.1422
23923,Émissions imputables à l'élevage,Zimbabwe,Total imputable à l'élevage (émissions CH4),Poulets à viande,2021,kilotonnes,0.2150
23924,Émissions imputables à l'élevage,Zimbabwe,Total imputable à l'élevage (émissions N2O),Poulets à viande,2022,kilotonnes,0.1554


In [21]:
# Supprimer la colonne "Domaine"
emissions = emissions.drop(columns=['Domaine'])

# Filtrer les données pour les émissions N2O et CH4
# Créer deux nouvelles colonnes en fonction de l'élément
n2o_emissions = emissions[emissions['Élément'].str.contains('N2O', na=False)].groupby(['Zone', 'Produit', 'Année'])['Valeur'].sum().reset_index()
ch4_emissions = emissions[emissions['Élément'].str.contains('CH4', na=False)].groupby(['Zone', 'Produit', 'Année'])['Valeur'].sum().reset_index()

# Renommer les colonnes pour les rendre plus claires
n2o_emissions.rename(columns={'Valeur': 'Valeur emissions N2O en kilotonnes'}, inplace=True)
ch4_emissions.rename(columns={'Valeur': 'Valeur emissions CH4 en kilotonnes'}, inplace=True)

# Fusionner les deux DataFrames en un seul sur les colonnes Zone, Produit et Année
emissions_aggregated = pd.merge(n2o_emissions, ch4_emissions, on=['Zone', 'Produit', 'Année'], how='outer')

# Afficher les 5 premières lignes pour vérifier
display(emissions_aggregated.head())



Unnamed: 0,Zone,Produit,Année,Valeur emissions N2O en kilotonnes,Valeur emissions CH4 en kilotonnes
0,Afghanistan,Poulets à viande,1961,0.0085,0.007
1,Afghanistan,Poulets à viande,1962,0.006,0.005
2,Afghanistan,Poulets à viande,1963,0.0048,0.004
3,Afghanistan,Poulets à viande,1964,0.006,0.005
4,Afghanistan,Poulets à viande,1965,0.0036,0.003


In [22]:
# Créer une copie du DataFrame emissions_aggregated
emissions_aggregated_cleaned = emissions_aggregated.copy()

# Supprimer la colonne "Produit"
emissions_aggregated_cleaned = emissions_aggregated_cleaned.drop(columns=['Produit'])

# Afficher le DataFrame nettoyé
display(emissions_aggregated_cleaned)

Unnamed: 0,Zone,Année,Valeur emissions N2O en kilotonnes,Valeur emissions CH4 en kilotonnes
0,Afghanistan,1961,0.0085,0.0070
1,Afghanistan,1962,0.0060,0.0050
2,Afghanistan,1963,0.0048,0.0040
3,Afghanistan,1964,0.0060,0.0050
4,Afghanistan,1965,0.0036,0.0030
...,...,...,...,...
11688,Îles Wallis-et-Futuna,2018,0.0006,0.0011
11689,Îles Wallis-et-Futuna,2019,0.0006,0.0011
11690,Îles Wallis-et-Futuna,2020,0.0006,0.0011
11691,Îles Wallis-et-Futuna,2021,0.0006,0.0011


<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    C: dataframe INDICE_LOGISTIQUE</h3>
  <p></p>
</div>

In [23]:
# Aperçu des premières lignes
display (indice_logistique)

# Vérification des types de données
print(indice_logistique.dtypes)

Unnamed: 0,Country Name,Indicator Name,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Aruba,Indice de performance logistique : performance...,,,,,,,,,,,,,,,,
1,Afghanistan,Indice de performance logistique : performance...,1.21,,,2.24,,2.30,,2.069573,,2.141282,,1.95,,,,1.9
2,Angola,Indice de performance logistique : performance...,2.48,,,2.25,,2.28,,2.542980,,2.241183,,2.05,,,,2.1
3,Albanie,Indice de performance logistique : performance...,2.08,,,2.46,,2.77,,,,2.412498,,2.66,,,,2.5
4,Andorre,Indice de performance logistique : performance...,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
220,Samoa,Indice de performance logistique : performance...,,,,,,,,,,,,,,,,
221,Kosovo,Indice de performance logistique : performance...,,,,,,,,,,,,,,,,
222,Afrique du Sud,Indice de performance logistique : performance...,3.53,,,3.46,,3.67,,3.431244,,3.775321,,3.38,,,,3.7
223,Zambie,Indice de performance logistique : performance...,2.37,,,2.28,,,,2.462674,,2.429813,,2.53,,,,


Country Name       object
Indicator Name     object
2007              float64
2008              float64
2009              float64
2010              float64
2011              float64
2012              float64
2013              float64
2014              float64
2015              float64
2016              float64
2017              float64
2018              float64
2019              float64
2020              float64
2021              float64
2022              float64
dtype: object


In [24]:
# Vérification des valeurs manquantes
print(indice_logistique.isna().sum())

Country Name        0
Indicator Name      0
2007               64
2008              225
2009              225
2010               61
2011              225
2012               62
2013              225
2014               55
2015              225
2016               55
2017              225
2018               56
2019              225
2020              225
2021              225
2022               77
dtype: int64


In [25]:
# Utilisation de pd.melt pour transformer le DataFrame
indice_logistique_melted = pd.melt(indice_logistique, id_vars=['Country Name', 'Indicator Name'], 
                                   var_name='Année', value_name='Valeur')

# Vérification du résultat
display (indice_logistique_melted)


Unnamed: 0,Country Name,Indicator Name,Année,Valeur
0,Aruba,Indice de performance logistique : performance...,2007,
1,Afghanistan,Indice de performance logistique : performance...,2007,1.21
2,Angola,Indice de performance logistique : performance...,2007,2.48
3,Albanie,Indice de performance logistique : performance...,2007,2.08
4,Andorre,Indice de performance logistique : performance...,2007,
...,...,...,...,...
3595,Samoa,Indice de performance logistique : performance...,2022,
3596,Kosovo,Indice de performance logistique : performance...,2022,
3597,Afrique du Sud,Indice de performance logistique : performance...,2022,3.70
3598,Zambie,Indice de performance logistique : performance...,2022,


In [26]:
# Vérification des valeurs manquantes
print(indice_logistique_melted.isna().sum())

Country Name         0
Indicator Name       0
Année                0
Valeur            2455
dtype: int64


In [27]:
# Afficher les lignes avec des valeurs manquantes dans la colonne "Valeur"
lignes_manquantes = indice_logistique_melted[indice_logistique_melted['Valeur'].isna()]
print(lignes_manquantes)


            Country Name                                     Indicator Name  \
0                  Aruba  Indice de performance logistique : performance...   
4                Andorre  Indice de performance logistique : performance...   
9      Samoa américaines  Indice de performance logistique : performance...   
10    Antigua-et-Barbuda  Indice de performance logistique : performance...   
21               Bahamas  Indice de performance logistique : performance...   
...                  ...                                                ...   
3592   Îles Vierges (EU)  Indice de performance logistique : performance...   
3594             Vanuatu  Indice de performance logistique : performance...   
3595               Samoa  Indice de performance logistique : performance...   
3596              Kosovo  Indice de performance logistique : performance...   
3598              Zambie  Indice de performance logistique : performance...   

     Année  Valeur  
0     2007     NaN  
4     200

In [28]:
# Supprimer les lignes où "Valeur" est manquant
indice_logistique_melted_cleaned = indice_logistique_melted.dropna(subset=['Valeur'])

# Vérification après suppression
print(indice_logistique_melted_cleaned.isna().sum())


Country Name      0
Indicator Name    0
Année             0
Valeur            0
dtype: int64


In [29]:
# Créer une copie explicite de ton DataFrame pour éviter les problèmes de vue/copie
indice_logistique_melted_cleaned = indice_logistique_melted_cleaned.copy()

# Convertir la colonne "Année" en int64
indice_logistique_melted_cleaned['Année'] = indice_logistique_melted_cleaned['Année'].astype('int64')

# Vérifier les types après la conversion
display(indice_logistique_melted_cleaned.dtypes)


Country Name       object
Indicator Name     object
Année               int64
Valeur            float64
dtype: object

In [30]:
# Renommer le DataFrame pour simplification
ind_log = indice_logistique_melted_cleaned
# Renommer la colonne "Country Name" en "Zone"
ind_log = ind_log.rename(columns={'Country Name': 'Zone'})
# Renommer la colonne "Valeur" en "Indice perfo logistique / 5"
ind_log = ind_log.rename(columns={'Valeur': 'Indice perfo logistique / 5'})
# Supprimer la colonne "Indicator Name"
ind_log = ind_log.drop(columns=['Indicator Name'])

# Vérification du changement
display(ind_log)


Unnamed: 0,Zone,Année,Indice perfo logistique / 5
1,Afghanistan,2007,1.210000
2,Angola,2007,2.480000
3,Albanie,2007,2.080000
5,Le monde arabe,2007,2.627368
6,Émirats arabes unis,2007,3.730000
...,...,...,...
3588,Ouzbékistan,2022,2.600000
3590,Venezuela,2022,2.300000
3593,Viet Nam,2022,3.300000
3597,Afrique du Sud,2022,3.700000


n'ayant pas de data pour 2017, qui est l'année de disponibilitée alimentaire pour notre étude, il serait avisé de le calculer
pour le coup, je fait la moyenne entre 2016 et 2018

In [31]:
# Filtrer le DataFrame pour obtenir les données des années 2016 et 2018
ind_log_filtered = ind_log[ind_log['Année'].isin([2016, 2018])].copy()

# Calculer la moyenne de l'Indice de performance logistique entre 2016 et 2018 par Zone
ind_log_2017 = ind_log_filtered.groupby('Zone')['Indice perfo logistique / 5'].mean().reset_index()

# Ajouter une colonne 'Année' avec la valeur 2017
ind_log_2017['Année'] = 2017

# Réorganiser les colonnes pour correspondre à l'ordre souhaité
ind_log_2017 = ind_log_2017[['Zone', 'Année', 'Indice perfo logistique / 5']]

# Vérifier le nombre de NaN dans chaque colonne
nan_count = ind_log_2017.isna().sum()

# Vérifier s'il y a des doublons dans le DataFrame
duplicates_count = ind_log_2017.duplicated().sum()

# Résultat de l'analyse des NaN, des valeurs nulles et des doublons
print("Nombre de NaN par colonne :")
print(nan_count)
print("\nNombre de doublons :")
print(duplicates_count)


# Afficher le DataFrame résultant
display(ind_log_2017)

Nombre de NaN par colonne :
Zone                           0
Année                          0
Indice perfo logistique / 5    0
dtype: int64

Nombre de doublons :
0


Unnamed: 0,Zone,Année,Indice perfo logistique / 5
0,Afghanistan,2017,2.045641
1,Afrique du Sud,2017,3.577660
2,Afrique subsaharienne,2017,2.459880
3,Afrique subsaharienne (BIRD et IDA),2017,2.459880
4,Afrique subsaharienne (hors revenu élevé),2017,2.459880
...,...,...,...
170,Équateur,2017,2.829541
171,Érythrée,2017,2.130921
172,États-Unis,2017,3.941086
173,Éthiopie,2017,2.376767


<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    D: dataframe PAYS_PARTENAIRE
  </h3>
  <p></p>
</div>

In [32]:
# Aperçu des premières lignes du DataFrame
display(pays_partenaire)

Unnamed: 0,Pays déclarants,Pays partenaires,Élément,Produit,Année,Unité,Valeur
0,France,Afrique du Sud,Exportations - Quantité,Poulets,1987,1000 têtes,2.0
1,France,Afrique du Sud,Exportations - Quantité,Poulets,1989,1000 têtes,1.0
2,France,Afrique du Sud,Exportations - Quantité,Poulets,1990,1000 têtes,1.0
3,France,Afrique du Sud,Exportations - Quantité,Poulets,1993,1000 têtes,0.0
4,France,Afrique du Sud,Exportations - Quantité,Poulets,1995,1000 têtes,7.0
...,...,...,...,...,...,...,...
8302,France,Zimbabwe,Exportations - Valeur,Poulets,2013,1000 US$,12.0
8303,France,Zimbabwe,Exportations - Valeur,Poulets,2014,1000 US$,67.0
8304,France,Zimbabwe,Exportations - Valeur,Poulets,2020,1000 US$,32.0
8305,France,Zimbabwe,Exportations - Valeur,Poulets,2021,1000 US$,228.0


In [33]:
# Supprimer les lignes où l'unité est "tonnes"
pays_partenaire = pays_partenaire[~pays_partenaire['Unité'].str.contains('tonnes', case=False, na=False)]

In [34]:
# Créer la colonne 'Quantité' pour les quantités de poulets (multiplication par 1000)
pays_partenaire['Quantité'] = pays_partenaire['Valeur'].where(
    pays_partenaire['Élément'].str.contains('Quantité', case=False, na=False), None
) * 1000

# Créer la colonne 'Valeur en $' pour les valeurs en $ (multiplication par 1000)
pays_partenaire['Valeur en $'] = pays_partenaire['Valeur'].where(
    pays_partenaire['Élément'].str.contains('Valeur', case=False, na=False), None
) * 1000


In [35]:
# Séparation de la colonne 'Élément' en deux nouvelles colonnes : 'Type' et 'Mesure'
pays_partenaire['Type'] = pays_partenaire['Élément'].str.extract(r'^(Exportations|Importations)')[0]
pays_partenaire['Mesure'] = pays_partenaire['Élément'].str.extract(r'(Quantité|Valeur)')[0]


In [36]:
# Pivot des données : Création du DataFrame nettoyé avec un nom plus explicite
pays_partenaire_cleaned = pays_partenaire.pivot_table(
    index=['Pays déclarants', 'Pays partenaires', 'Année', 'Produit'],
    columns=['Type', 'Mesure'], 
    values=['Valeur', 'Quantité', 'Valeur en $'],
    aggfunc='first'  # Nous utilisons 'first' pour conserver la première valeur non NaN dans chaque groupe
)

# Aplatir le DataFrame pivoté : le résultat sera un multi-index, donc on doit aplatir les colonnes
pays_partenaire_cleaned.columns = ['_'.join(col).strip() for col in pays_partenaire_cleaned.columns.values]

# Réinitialisation de l'index pour un DataFrame plus propre
pays_partenaire_cleaned.reset_index(inplace=True)

# Affichage du résultat
display(pays_partenaire_cleaned)

Unnamed: 0,Pays déclarants,Pays partenaires,Année,Produit,Quantité_Exportations_Quantité,Quantité_Importations_Quantité,Valeur_Exportations_Quantité,Valeur_Exportations_Valeur,Valeur_Importations_Quantité,Valeur_Importations_Valeur,Valeur en $_Exportations_Valeur,Valeur en $_Importations_Valeur
0,France,Afrique du Sud,1987,Poulets,2000.0,,2.0,53.0,,,53000.0,
1,France,Afrique du Sud,1989,Poulets,1000.0,,1.0,34.0,,,34000.0,
2,France,Afrique du Sud,1990,Poulets,1000.0,,1.0,93.0,,,93000.0,
3,France,Afrique du Sud,1993,Poulets,0.0,,0.0,2.0,,,2000.0,
4,France,Afrique du Sud,1995,Poulets,7000.0,,7.0,13.0,,,13000.0,
...,...,...,...,...,...,...,...,...,...,...,...,...
3363,France,Éthiopie,2019,Poulets,66000.0,,66.0,354.0,,,354000.0,
3364,France,Éthiopie,2020,Poulets,70000.0,,70.0,388.0,,,388000.0,
3365,France,Éthiopie,2021,Poulets,5000.0,,5.0,22.0,,,22000.0,
3366,France,Éthiopie RDP,1988,Poulets,48000.0,,48.0,32.0,,,32000.0,


In [37]:
# Vérification des valeurs manquantes dans le DataFrame nettoyé
nan_values_cleaned = pays_partenaire_cleaned.isna().sum()
print("Nombre de valeurs manquantes dans 'pays_partenaire_cleaned' :")
print(nan_values_cleaned)

# Vérification des doublons dans le DataFrame nettoyé
duplicates_cleaned = pays_partenaire_cleaned.duplicated().sum()
print(f"Nombre de doublons dans 'pays_partenaire_cleaned' : {duplicates_cleaned}")


Nombre de valeurs manquantes dans 'pays_partenaire_cleaned' :
Pays déclarants                       0
Pays partenaires                      0
Année                                 0
Produit                               0
Quantité_Exportations_Quantité       50
Quantité_Importations_Quantité     2947
Valeur_Exportations_Quantité         50
Valeur_Exportations_Valeur           50
Valeur_Importations_Quantité       2947
Valeur_Importations_Valeur         2947
Valeur en $_Exportations_Valeur      50
Valeur en $_Importations_Valeur    2947
dtype: int64
Nombre de doublons dans 'pays_partenaire_cleaned' : 0


In [38]:
# Liste des colonnes à remplir avec la moyenne par pays
colonnes_a_remplir = [
    'Quantité_Exportations_Quantité',
    'Quantité_Importations_Quantité',
    'Valeur_Exportations_Valeur',
    'Valeur_Importations_Valeur',
    'Valeur en $_Exportations_Valeur',
    'Valeur en $_Importations_Valeur'
]

# Remplir les valeurs manquantes par la moyenne par pays pour chaque colonne
for col in colonnes_a_remplir:
    pays_partenaire_cleaned[col] = pays_partenaire_cleaned.groupby('Pays partenaires')[col].transform(
        lambda x: x.fillna(x.mean() if not x.isna().all() else 0)
    )

# Remplir les valeurs NaN restantes avec 0
pays_partenaire_cleaned.fillna(0, inplace=True)

# Vérification des valeurs manquantes après remplissage
nan_values_after_fill = pays_partenaire_cleaned.isna().sum()
print("Nombre de valeurs manquantes après remplissage avec la moyenne par pays :")
print(nan_values_after_fill)

# Vérification des doublons après traitement
duplicates_after_fill = pays_partenaire_cleaned.duplicated().sum()
print(f"Nombre de doublons après remplissage : {duplicates_after_fill}")


Nombre de valeurs manquantes après remplissage avec la moyenne par pays :
Pays déclarants                    0
Pays partenaires                   0
Année                              0
Produit                            0
Quantité_Exportations_Quantité     0
Quantité_Importations_Quantité     0
Valeur_Exportations_Quantité       0
Valeur_Exportations_Valeur         0
Valeur_Importations_Quantité       0
Valeur_Importations_Valeur         0
Valeur en $_Exportations_Valeur    0
Valeur en $_Importations_Valeur    0
dtype: int64
Nombre de doublons après remplissage : 0


In [39]:
display (pays_partenaire_cleaned)

Unnamed: 0,Pays déclarants,Pays partenaires,Année,Produit,Quantité_Exportations_Quantité,Quantité_Importations_Quantité,Valeur_Exportations_Quantité,Valeur_Exportations_Valeur,Valeur_Importations_Quantité,Valeur_Importations_Valeur,Valeur en $_Exportations_Valeur,Valeur en $_Importations_Valeur
0,France,Afrique du Sud,1987,Poulets,2000.0,0.0,2.0,53.0,0.0,0.0,53000.0,0.0
1,France,Afrique du Sud,1989,Poulets,1000.0,0.0,1.0,34.0,0.0,0.0,34000.0,0.0
2,France,Afrique du Sud,1990,Poulets,1000.0,0.0,1.0,93.0,0.0,0.0,93000.0,0.0
3,France,Afrique du Sud,1993,Poulets,0.0,0.0,0.0,2.0,0.0,0.0,2000.0,0.0
4,France,Afrique du Sud,1995,Poulets,7000.0,0.0,7.0,13.0,0.0,0.0,13000.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...
3363,France,Éthiopie,2019,Poulets,66000.0,0.0,66.0,354.0,0.0,0.0,354000.0,0.0
3364,France,Éthiopie,2020,Poulets,70000.0,0.0,70.0,388.0,0.0,0.0,388000.0,0.0
3365,France,Éthiopie,2021,Poulets,5000.0,0.0,5.0,22.0,0.0,0.0,22000.0,0.0
3366,France,Éthiopie RDP,1988,Poulets,48000.0,0.0,48.0,32.0,0.0,0.0,32000.0,0.0


In [40]:
# Renommer les colonnes pour plus de clarté
pays_partenaire_cleaned.rename(columns={
    'Quantité_Exportations_Quantité': 'Quantité Exportations',
    'Quantité_Importations_Quantité': 'Quantité Importations',
    'Valeur_Exportations_Valeur': 'Valeur Exportations',
    'Valeur_Importations_Valeur': 'Valeur Importations',
    'Valeur en $_Exportations_Valeur': '$ Exportations',
    'Valeur en $_Importations_Valeur': '$ Importations'
}, inplace=True)

# Affichage du DataFrame après renommage
display(pays_partenaire_cleaned.head())


Unnamed: 0,Pays déclarants,Pays partenaires,Année,Produit,Quantité Exportations,Quantité Importations,Valeur_Exportations_Quantité,Valeur Exportations,Valeur_Importations_Quantité,Valeur Importations,$ Exportations,$ Importations
0,France,Afrique du Sud,1987,Poulets,2000.0,0.0,2.0,53.0,0.0,0.0,53000.0,0.0
1,France,Afrique du Sud,1989,Poulets,1000.0,0.0,1.0,34.0,0.0,0.0,34000.0,0.0
2,France,Afrique du Sud,1990,Poulets,1000.0,0.0,1.0,93.0,0.0,0.0,93000.0,0.0
3,France,Afrique du Sud,1993,Poulets,0.0,0.0,0.0,2.0,0.0,0.0,2000.0,0.0
4,France,Afrique du Sud,1995,Poulets,7000.0,0.0,7.0,13.0,0.0,0.0,13000.0,0.0


In [41]:
# Renommer la colonne 'Pays partenaires' en 'Zone'
pays_partenaire_cleaned.rename(columns={'Pays partenaires': 'Zone'}, inplace=True)

# Supprimer la colonne 'Pays déclarants'
pays_partenaire_cleaned.drop(columns=['Pays déclarants'], inplace=True)

# Sélectionner les colonnes d'intérêt
colonnes_a_garder = ['Zone', 'Année', 'Quantité Exportations', 'Quantité Importations', '$ Exportations', '$ Importations']
pays_partenaire_final = pays_partenaire_cleaned[colonnes_a_garder]

In [42]:
# Afficher les types de données pour chaque colonne du DataFrame
print(pays_partenaire_final.dtypes)

Zone                      object
Année                      int64
Quantité Exportations    float64
Quantité Importations    float64
$ Exportations           float64
$ Importations           float64
dtype: object


In [43]:
# Créer une copie explicite pour éviter le SettingWithCopyWarning
pays_partenaire_final = pays_partenaire_final.copy()

# Remplir les valeurs manquantes par 0
pays_partenaire_final[['Quantité Exportations', 'Quantité Importations', '$ Exportations', '$ Importations']] = \
    pays_partenaire_final[['Quantité Exportations', 'Quantité Importations', '$ Exportations', '$ Importations']].fillna(0)

# Arrondir les valeurs à l'entier le plus proche
arrondi = pays_partenaire_final[['Quantité Exportations', 'Quantité Importations', '$ Exportations', '$ Importations']].round(0)

# Convertir en entier
pays_partenaire_final[['Quantité Exportations', 'Quantité Importations', '$ Exportations', '$ Importations']] = arrondi.astype('int64')

# Vérifier les types après conversion
print(pays_partenaire_final.dtypes)


Zone                     object
Année                     int64
Quantité Exportations     int64
Quantité Importations     int64
$ Exportations            int64
$ Importations            int64
dtype: object


In [44]:
display (pays_partenaire_final)

Unnamed: 0,Zone,Année,Quantité Exportations,Quantité Importations,$ Exportations,$ Importations
0,Afrique du Sud,1987,2000,0,53000,0
1,Afrique du Sud,1989,1000,0,34000,0
2,Afrique du Sud,1990,1000,0,93000,0
3,Afrique du Sud,1993,0,0,2000,0
4,Afrique du Sud,1995,7000,0,13000,0
...,...,...,...,...,...,...
3363,Éthiopie,2019,66000,0,354000,0
3364,Éthiopie,2020,70000,0,388000,0
3365,Éthiopie,2021,5000,0,22000,0
3366,Éthiopie RDP,1988,48000,0,32000,0


In [45]:
# Filtrer pour garder uniquement les données de l'année 2017
pays_partenaire_2017 = pays_partenaire_final[pays_partenaire_final['Année'] == 2017].copy()

# Renommer les colonnes
pays_partenaire_2017 = pays_partenaire_2017.rename(columns={
    'Quantité Exportations': 'Quantité poulet Exportations partenaire',
    'Quantité Importations': 'Quantité poulet Importations partenaire',
    '$ Exportations': '$ Exportations partenaire',
    '$ Importations': '$ Importations partenaire'
})

# Afficher le résultat final
display(pays_partenaire_2017)

Unnamed: 0,Zone,Année,Quantité poulet Exportations partenaire,Quantité poulet Importations partenaire,$ Exportations partenaire,$ Importations partenaire
15,Albanie,2017,10000,0,60000,0
52,Algérie,2017,1176000,0,4905000,0
84,Allemagne,2017,1536000,190000,2596000,1417000
193,Autriche,2017,83000,0,510000,0
204,Azerbaïdjan,2017,80000,0,258000,0
...,...,...,...,...,...,...
3085,Turquie,2017,257000,7000,1257000,31667
3113,Ukraine,2017,14000,0,44000,0
3191,Viet Nam,2017,1091000,0,4633000,0
3222,Zambie,2017,3000,0,14000,0


<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    E: dataframe PIB_HABITANT  </h3>
  <p></p>
</div>

In [46]:
# Aperçu des premières lignes du DataFrame
display(pib_habitant.head())

# Affichage des dimensions (nombre de lignes et colonnes)
print(f"Dimensions : {pib_habitant.shape}")


Unnamed: 0,Country Name,Indicator Name,1960,1961,1962,1963,1964,1965,1966,1967,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,Aruba,PIB par habitant ($ US courants),,,,,,,,,...,26940.264114,28419.264534,28449.712946,29329.081747,30918.483584,31902.809818,24008.127822,29127.759384,33300.838819,
1,Afghanistan,PIB par habitant ($ US courants),,,,,,,,,...,626.512929,566.88113,523.053012,526.140801,492.090631,497.741431,512.055098,355.777826,352.603733,
2,Angola,PIB par habitant ($ US courants),,,,,,,,,...,5011.984427,3217.33924,1809.709377,2439.374439,2540.508879,2191.347764,1450.905111,1927.474078,2933.484644,2309.52162
3,Albanie,PIB par habitant ($ US courants),,,,,,,,,...,4578.633208,3952.803574,4124.05539,4531.032207,5287.660801,5396.214243,5343.037704,6377.203096,6810.114041,8367.775731
4,Andorre,PIB par habitant ($ US courants),,,,,,,,,...,45680.534992,38885.530322,39931.21698,40632.231552,42904.828456,41328.600498,37207.221999,42066.490518,42350.697069,46544.72072


Dimensions : (218, 66)


In [47]:
# Afficher les types de colonnes
print(pib_habitant.dtypes)

# Plus de détails avec des statistiques générales
print(pib_habitant.info())


Country Name       object
Indicator Name     object
1960              float64
1961              float64
1962              float64
                   ...   
2019              float64
2020              float64
2021              float64
2022              float64
2023              float64
Length: 66, dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 218 entries, 0 to 217
Data columns (total 66 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Country Name    218 non-null    object 
 1   Indicator Name  218 non-null    object 
 2   1960            109 non-null    float64
 3   1961            111 non-null    float64
 4   1962            113 non-null    float64
 5   1963            113 non-null    float64
 6   1964            113 non-null    float64
 7   1965            121 non-null    float64
 8   1966            122 non-null    float64
 9   1967            125 non-null    float64
 10  1968            126 non-null    float6

In [48]:
# Conversion en format long
pib_habitant_long = pib_habitant.melt(
    id_vars=["Country Name", "Indicator Name"],  # Colonnes qui restent identiques
    var_name="Year",  # Nom de la nouvelle colonne pour les années
    value_name="Value"  # Nom de la nouvelle colonne pour les valeurs
)

# Vérifier le résultat
print(pib_habitant_long.head())

# Types après transformation
print(pib_habitant_long.dtypes)


  Country Name                    Indicator Name  Year  Value
0        Aruba  PIB par habitant ($ US courants)  1960    NaN
1  Afghanistan  PIB par habitant ($ US courants)  1960    NaN
2       Angola  PIB par habitant ($ US courants)  1960    NaN
3      Albanie  PIB par habitant ($ US courants)  1960    NaN
4      Andorre  PIB par habitant ($ US courants)  1960    NaN
Country Name       object
Indicator Name     object
Year               object
Value             float64
dtype: object


In [49]:
pib_habitant_long["Year"] = pib_habitant_long["Year"].astype('int64')


In [50]:
print(pib_habitant_long.isna().sum())


Country Name         0
Indicator Name       0
Year                 0
Value             2587
dtype: int64


In [51]:
display (pib_habitant_long)

Unnamed: 0,Country Name,Indicator Name,Year,Value
0,Aruba,PIB par habitant ($ US courants),1960,
1,Afghanistan,PIB par habitant ($ US courants),1960,
2,Angola,PIB par habitant ($ US courants),1960,
3,Albanie,PIB par habitant ($ US courants),1960,
4,Andorre,PIB par habitant ($ US courants),1960,
...,...,...,...,...
13947,Samoa,PIB par habitant ($ US courants),2023,4139.029587
13948,Kosovo,PIB par habitant ($ US courants),2023,5943.125714
13949,Afrique du Sud,PIB par habitant ($ US courants),2023,6253.161613
13950,Zambie,PIB par habitant ($ US courants),2023,1369.129365


Les lignes avec des nan correspondent a des années sans données, je peut donc les supprimer 

In [52]:
# Renommer la colonne 'Value' en 'Pib en $ par habitant'
pib_habitant_long.rename(columns={"Value": "Pib en $ par habitant"}, inplace=True)

# Supprimer les lignes avec des NaN dans la colonne 'Pib en $ par habitant'
pib_habitant_long.dropna(subset=["Pib en $ par habitant"], inplace=True)

# Supprimer la colonne 'Indicator Name'
pib_habitant_long.drop(columns=["Indicator Name"], inplace=True)

# Renommer la colonne 'Country Name' en 'Zone'
pib_habitant_long.rename(columns={"Country Name": "Zone"}, inplace=True)

# Renommer la colonne 'Year' en 'Année'
pib_habitant_long.rename(columns={"Year": "Année"}, inplace=True)

# Afficher les premières lignes pour vérifier les changements
print(pib_habitant_long.head())

# Afficher les types des colonnes après modifications
print(pib_habitant_long.dtypes)


         Zone  Année  Pib en $ par habitant
11  Australie   1960            1810.597443
12   Autriche   1960             943.610800
14    Burundi   1960              71.360224
15   Belgique   1960            1290.286072
16      Bénin   1960              90.035831
Zone                      object
Année                      int64
Pib en $ par habitant    float64
dtype: object


In [53]:
# Chercher les doublons dans le DataFrame
doublons = pib_habitant_long[pib_habitant_long.duplicated()]

# Afficher les doublons trouvés
print(doublons)

Empty DataFrame
Columns: [Zone, Année, Pib en $ par habitant]
Index: []


In [54]:
display (pib_habitant_long)

Unnamed: 0,Zone,Année,Pib en $ par habitant
11,Australie,1960,1810.597443
12,Autriche,1960,943.610800
14,Burundi,1960,71.360224
15,Belgique,1960,1290.286072
16,Bénin,1960,90.035831
...,...,...,...
13947,Samoa,2023,4139.029587
13948,Kosovo,2023,5943.125714
13949,Afrique du Sud,2023,6253.161613
13950,Zambie,2023,1369.129365


<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    F: dataframe POPULATION  </h3>
  <p></p>
</div>

In [55]:
# Afficher les premières lignes du DataFrame 'population'
print(population.head())

# Afficher les informations sur les types de données
print(population.dtypes)

# Vérifier les valeurs manquantes (NaN) pour chaque colonne
print(population.isnull().sum())

# Vérifier les doublons
print(population.duplicated().sum())


          Zone                 Produit  Année           Unité     Valeur
0  Afghanistan  Population-Estimations   2000  1000 personnes  20779.953
1  Afghanistan  Population-Estimations   2001  1000 personnes  21606.988
2  Afghanistan  Population-Estimations   2002  1000 personnes  22600.770
3  Afghanistan  Population-Estimations   2003  1000 personnes  23680.871
4  Afghanistan  Population-Estimations   2004  1000 personnes  24726.684
Zone        object
Produit     object
Année        int64
Unité       object
Valeur     float64
dtype: object
Zone       0
Produit    0
Année      0
Unité      0
Valeur     0
dtype: int64
0


In [56]:
# Créer la nouvelle colonne "Population" en multipliant "Valeur" par 1000 et en convertissant en entier
population['Population'] = (population['Valeur'] * 1000).astype('int64')

# Supprimer les colonnes "Unité" et "Valeur"
population = population.drop(columns=['Unité', 'Valeur','Produit'])

# Afficher les 5 premières lignes pour vérifier
display(population.head())



Unnamed: 0,Zone,Année,Population
0,Afghanistan,2000,20779953
1,Afghanistan,2001,21606988
2,Afghanistan,2002,22600770
3,Afghanistan,2003,23680871
4,Afghanistan,2004,24726684


<div style="border: 1px solid RGB(0,150,250);" >
  <h3 style="margin: auto; padding: 20px; color: RGB(0,150,250); ">
    G: dataframe STAB_POLITIQUE  </h3>
  <p></p>
</div>

In [57]:
# Aperçu des 5 premières lignes du DataFrame
display(stab_politique.head())

# Afficher les types de données pour chaque colonne
print(stab_politique.dtypes)

# Vérification des valeurs manquantes
print(stab_politique.isnull().sum())


Unnamed: 0,Zone,Produit,Année,Valeur
0,Afghanistan,Stabilité politique et absence de violence/ter...,2000,-2.44
1,Afghanistan,Stabilité politique et absence de violence/ter...,2002,-2.04
2,Afghanistan,Stabilité politique et absence de violence/ter...,2003,-2.2
3,Afghanistan,Stabilité politique et absence de violence/ter...,2004,-2.3
4,Afghanistan,Stabilité politique et absence de violence/ter...,2005,-2.07


Zone        object
Produit     object
Année        int64
Valeur     float64
dtype: object
Zone       0
Produit    0
Année      0
Valeur     0
dtype: int64


In [58]:
# Supprimer la colonne "Produit"
stab_politique = stab_politique.drop(columns=['Produit'])

# Renommer la colonne "Valeur" en "Stabilité politique"
stab_politique = stab_politique.rename(columns={'Valeur': 'Stabilité politique'})

# Afficher les 5 premières lignes pour vérifier
display(stab_politique.head())


Unnamed: 0,Zone,Année,Stabilité politique
0,Afghanistan,2000,-2.44
1,Afghanistan,2002,-2.04
2,Afghanistan,2003,-2.2
3,Afghanistan,2004,-2.3
4,Afghanistan,2005,-2.07


<div style="background-color: RGB(0,150,250);" >
<h2 style="margin: auto; padding: 20px; color:#fff; ">Etape 4 - Jointure</h2>
</div>

In [59]:
# Copier les DataFrames avec des noms simples

# Disponibilité alimentaire
disponibilite_alimentaire = disponibilitealimentaire.copy()

# Emissions agrégées
emissions = emissions_aggregated_cleaned.copy()

# Indice logistique
indice_logistique = ind_log_2017.copy()

# Commerçant partenaire
commercant_partenaire = pays_partenaire_2017.copy()

# PIB par habitant
pib_habitant = pib_habitant_long.copy()

# Population
population = population.copy()

# Stabilité politique
stabilite_politique = stab_politique.copy()

# Afficher les premières lignes pour vérifier 
display(disponibilite_alimentaire.head())
display(emissions.head())
display(indice_logistique.head())
display(commercant_partenaire.head())
display(pib_habitant.head())
display(population.head())
display(stabilite_politique.head())

# Vérifier les types de données (dtypes) pour chaque DataFrame
print("Disponibilité alimentaire types de données :")
print(disponibilite_alimentaire.dtypes)
print("\nEmissions types de données :")
print(emissions.dtypes)
print("\nIndice logistique types de données :")
print(indice_logistique.dtypes)
print("\nCommerçant partenaire types de données :")
print(commercant_partenaire.dtypes)
print("\nPIB par habitant types de données :")
print(pib_habitant.dtypes)
print("\nPopulation types de données :")
print(population.dtypes)
print("\nStabilité politique types de données :")
print(stabilite_politique.dtypes)


Élément,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg)
0,Afghanistan,2017,29000000.0,55000000.0,28000000.0
1,Afrique du Sud,2017,514000000.0,2035000000.0,1667000000.0
2,Albanie,2017,38000000.0,47000000.0,13000000.0
3,Algérie,2017,2000000.0,264000000.0,275000000.0
4,Allemagne,2017,842000000.0,1609000000.0,1514000000.0


Unnamed: 0,Zone,Année,Valeur emissions N2O en kilotonnes,Valeur emissions CH4 en kilotonnes
0,Afghanistan,1961,0.0085,0.007
1,Afghanistan,1962,0.006,0.005
2,Afghanistan,1963,0.0048,0.004
3,Afghanistan,1964,0.006,0.005
4,Afghanistan,1965,0.0036,0.003


Unnamed: 0,Zone,Année,Indice perfo logistique / 5
0,Afghanistan,2017,2.045641
1,Afrique du Sud,2017,3.57766
2,Afrique subsaharienne,2017,2.45988
3,Afrique subsaharienne (BIRD et IDA),2017,2.45988
4,Afrique subsaharienne (hors revenu élevé),2017,2.45988


Unnamed: 0,Zone,Année,Quantité poulet Exportations partenaire,Quantité poulet Importations partenaire,$ Exportations partenaire,$ Importations partenaire
15,Albanie,2017,10000,0,60000,0
52,Algérie,2017,1176000,0,4905000,0
84,Allemagne,2017,1536000,190000,2596000,1417000
193,Autriche,2017,83000,0,510000,0
204,Azerbaïdjan,2017,80000,0,258000,0


Unnamed: 0,Zone,Année,Pib en $ par habitant
11,Australie,1960,1810.597443
12,Autriche,1960,943.6108
14,Burundi,1960,71.360224
15,Belgique,1960,1290.286072
16,Bénin,1960,90.035831


Unnamed: 0,Zone,Année,Population
0,Afghanistan,2000,20779953
1,Afghanistan,2001,21606988
2,Afghanistan,2002,22600770
3,Afghanistan,2003,23680871
4,Afghanistan,2004,24726684


Unnamed: 0,Zone,Année,Stabilité politique
0,Afghanistan,2000,-2.44
1,Afghanistan,2002,-2.04
2,Afghanistan,2003,-2.2
3,Afghanistan,2004,-2.3
4,Afghanistan,2005,-2.07


Disponibilité alimentaire types de données :
Élément
Zone                           object
Année                           int64
Quantité Importations (kg)    float64
Quantité Nourriture (kg)      float64
Quantité Production (kg)      float64
dtype: object

Emissions types de données :
Zone                                   object
Année                                   int64
Valeur emissions N2O en kilotonnes    float64
Valeur emissions CH4 en kilotonnes    float64
dtype: object

Indice logistique types de données :
Zone                            object
Année                            int64
Indice perfo logistique / 5    float64
dtype: object

Commerçant partenaire types de données :
Zone                                       object
Année                                       int64
Quantité poulet Exportations partenaire     int64
Quantité poulet Importations partenaire     int64
$ Exportations partenaire                   int64
$ Importations partenaire                   int64
dtyp

In [60]:
# Jointure à gauche entre 'disponibilite_alimentaire' et 'emissions'
df_merged = disponibilite_alimentaire.merge(emissions, on=['Zone', 'Année'], how='inner')

# Jointure à gauche avec 'indice_logistique'
df_merged = df_merged.merge(indice_logistique, on=['Zone', 'Année'], how='inner')

# Jointure à gauche avec 'commercant_partenaire'
df_merged = df_merged.merge(commercant_partenaire, on=['Zone', 'Année'], how='left')

# Jointure à gauche avec 'pib_habitant'
df_merged = df_merged.merge(pib_habitant, on=['Zone', 'Année'], how='inner')

# Jointure à gauche avec 'population'
df_merged = df_merged.merge(population, on=['Zone', 'Année'], how='inner')

# Jointure à gauche avec 'stabilite_politique'
df_merged = df_merged.merge(stabilite_politique, on=['Zone', 'Année'], how='inner')

# Afficher le résultat des jointures
display(df_merged)


Unnamed: 0,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg),Valeur emissions N2O en kilotonnes,Valeur emissions CH4 en kilotonnes,Indice perfo logistique / 5,Quantité poulet Exportations partenaire,Quantité poulet Importations partenaire,$ Exportations partenaire,$ Importations partenaire,Pib en $ par habitant,Population,Stabilité politique
0,Afghanistan,2017,29000000.0,5.500000e+07,2.800000e+07,0.0348,0.0289,2.045641,,,,,526.140801,36296113,-2.79
1,Afrique du Sud,2017,514000000.0,2.035000e+09,1.667000e+09,1.7072,2.5807,3.577660,,,,,6734.475153,57009756,-0.28
2,Albanie,2017,38000000.0,4.700000e+07,1.300000e+07,0.0332,0.0603,2.536249,10000.0,0.0,60000.0,0.0,4531.032207,2884169,0.37
3,Algérie,2017,2000000.0,2.640000e+08,2.750000e+08,1.4795,2.2365,2.609841,1176000.0,0.0,4905000.0,0.0,4615.868744,41389189,-0.92
4,Allemagne,2017,842000000.0,1.609000e+09,1.514000e+09,1.3163,2.3886,4.212983,1536000.0,190000.0,2596000.0,1417000.0,44652.589172,82658409,0.57
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125,Zimbabwe,2017,6000000.0,6.700000e+07,6.900000e+07,0.1409,0.2130,2.101204,,,,,1192.107012,14236595,-0.71
126,Émirats arabes unis,2017,433000000.0,4.120000e+08,4.800000e+07,0.2465,0.3808,3.950883,,,,,43063.967479,9487203,0.60
127,Équateur,2017,0.0,3.240000e+08,3.400000e+08,1.8452,3.0440,2.829541,,,,,6256.683019,16785361,-0.08
128,Éthiopie,2017,1000000.0,1.400000e+07,1.400000e+07,0.5961,0.9011,2.376767,,,,,755.752644,106399924,-1.68


In [61]:
# Afficher le nombre de doublons dans le DataFrame
print("Nombre de doublons dans le DataFrame:")
display(df_merged.duplicated().sum())  # Nombre de doublons

# Afficher le nombre de valeurs NaN par colonne
print("\nNombre de NaN par colonne:")
display(df_merged.isna().sum())  # Nombre de NaN par colonne

# Afficher le nombre de lignes entièrement nulles
print("\nNombre de lignes entièrement nulles:")
display(df_merged.isna().all(axis=1).sum())  # Nombre de lignes entièrement nulles

# Afficher les premières lignes pour vérifier les données
display(df_merged.head())


Nombre de doublons dans le DataFrame:


0


Nombre de NaN par colonne:


Zone                                        0
Année                                       0
Quantité Importations (kg)                  0
Quantité Nourriture (kg)                    0
Quantité Production (kg)                    0
Valeur emissions N2O en kilotonnes          0
Valeur emissions CH4 en kilotonnes          0
Indice perfo logistique / 5                 0
Quantité poulet Exportations partenaire    75
Quantité poulet Importations partenaire    75
$ Exportations partenaire                  75
$ Importations partenaire                  75
Pib en $ par habitant                       0
Population                                  0
Stabilité politique                         0
dtype: int64


Nombre de lignes entièrement nulles:


0

Unnamed: 0,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg),Valeur emissions N2O en kilotonnes,Valeur emissions CH4 en kilotonnes,Indice perfo logistique / 5,Quantité poulet Exportations partenaire,Quantité poulet Importations partenaire,$ Exportations partenaire,$ Importations partenaire,Pib en $ par habitant,Population,Stabilité politique
0,Afghanistan,2017,29000000.0,55000000.0,28000000.0,0.0348,0.0289,2.045641,,,,,526.140801,36296113,-2.79
1,Afrique du Sud,2017,514000000.0,2035000000.0,1667000000.0,1.7072,2.5807,3.57766,,,,,6734.475153,57009756,-0.28
2,Albanie,2017,38000000.0,47000000.0,13000000.0,0.0332,0.0603,2.536249,10000.0,0.0,60000.0,0.0,4531.032207,2884169,0.37
3,Algérie,2017,2000000.0,264000000.0,275000000.0,1.4795,2.2365,2.609841,1176000.0,0.0,4905000.0,0.0,4615.868744,41389189,-0.92
4,Allemagne,2017,842000000.0,1609000000.0,1514000000.0,1.3163,2.3886,4.212983,1536000.0,190000.0,2596000.0,1417000.0,44652.589172,82658409,0.57


### Traitement des valeurs manquantes (NaN) pour certaines colonnes

#### Objectif
Les colonnes suivantes dans le DataFrame `df_merged` contiennent des valeurs manquantes (`NaN`) que nous souhaitons remplacer par `0`, car elles concernent des pays non partenaires commerciaux :
- `Quantité poulet Exportations partenaire`
- `Quantité poulet Importations partenaire`
- `$ Exportations partenaire`
- `$ Importations partenaire`

#### Démarche
1. Identifier les colonnes spécifiques à traiter.
2. Remplacer les valeurs `NaN` par `0`.
3. Vérifier les autres valeurs manquantes pour un traitement ultérieur


In [62]:
# Sélectionner les colonnes concernées par les NaN
colonnes_a_remplir = [
    'Quantité poulet Exportations partenaire', 
    'Quantité poulet Importations partenaire', 
    '$ Exportations partenaire', 
    '$ Importations partenaire'
]

# Remplacer les NaN par 0 dans ces colonnes
df_merged[colonnes_a_remplir] = df_merged[colonnes_a_remplir].fillna(0)

# Afficher les premières lignes pour vérifier
display(df_merged)

Unnamed: 0,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg),Valeur emissions N2O en kilotonnes,Valeur emissions CH4 en kilotonnes,Indice perfo logistique / 5,Quantité poulet Exportations partenaire,Quantité poulet Importations partenaire,$ Exportations partenaire,$ Importations partenaire,Pib en $ par habitant,Population,Stabilité politique
0,Afghanistan,2017,29000000.0,5.500000e+07,2.800000e+07,0.0348,0.0289,2.045641,0.0,0.0,0.0,0.0,526.140801,36296113,-2.79
1,Afrique du Sud,2017,514000000.0,2.035000e+09,1.667000e+09,1.7072,2.5807,3.577660,0.0,0.0,0.0,0.0,6734.475153,57009756,-0.28
2,Albanie,2017,38000000.0,4.700000e+07,1.300000e+07,0.0332,0.0603,2.536249,10000.0,0.0,60000.0,0.0,4531.032207,2884169,0.37
3,Algérie,2017,2000000.0,2.640000e+08,2.750000e+08,1.4795,2.2365,2.609841,1176000.0,0.0,4905000.0,0.0,4615.868744,41389189,-0.92
4,Allemagne,2017,842000000.0,1.609000e+09,1.514000e+09,1.3163,2.3886,4.212983,1536000.0,190000.0,2596000.0,1417000.0,44652.589172,82658409,0.57
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125,Zimbabwe,2017,6000000.0,6.700000e+07,6.900000e+07,0.1409,0.2130,2.101204,0.0,0.0,0.0,0.0,1192.107012,14236595,-0.71
126,Émirats arabes unis,2017,433000000.0,4.120000e+08,4.800000e+07,0.2465,0.3808,3.950883,0.0,0.0,0.0,0.0,43063.967479,9487203,0.60
127,Équateur,2017,0.0,3.240000e+08,3.400000e+08,1.8452,3.0440,2.829541,0.0,0.0,0.0,0.0,6256.683019,16785361,-0.08
128,Éthiopie,2017,1000000.0,1.400000e+07,1.400000e+07,0.5961,0.9011,2.376767,0.0,0.0,0.0,0.0,755.752644,106399924,-1.68


In [63]:
#  Vérifier le nombre de NaN par colonne
nan_counts = df_merged.isna().sum()

#  Vérifier le nombre de doublons
duplicate_rows = df_merged.duplicated().sum()

#  Vérifier le nombre de lignes entièrement nulles
null_rows = df_merged.isnull().all(axis=1).sum()

# Afficher les résultats
print("Nombre de NaN par colonne :")
display(nan_counts)

print("\nNombre de doublons dans le DataFrame :")
print(duplicate_rows)

print("\nNombre de lignes entièrement nulles :")
print(null_rows)


Nombre de NaN par colonne :


Zone                                       0
Année                                      0
Quantité Importations (kg)                 0
Quantité Nourriture (kg)                   0
Quantité Production (kg)                   0
Valeur emissions N2O en kilotonnes         0
Valeur emissions CH4 en kilotonnes         0
Indice perfo logistique / 5                0
Quantité poulet Exportations partenaire    0
Quantité poulet Importations partenaire    0
$ Exportations partenaire                  0
$ Importations partenaire                  0
Pib en $ par habitant                      0
Population                                 0
Stabilité politique                        0
dtype: int64


Nombre de doublons dans le DataFrame :
0

Nombre de lignes entièrement nulles :
0


In [64]:
# Compter le nombre de pays uniques dans la colonne "Zone"
nombre_de_pays = df_merged['Zone'].nunique()

# Afficher le résultat
print(f"Le nombre de pays différents dans la colonne 'Zone' est : {nombre_de_pays}")


Le nombre de pays différents dans la colonne 'Zone' est : 130


In [65]:
# Afficher le DataFrame final
display(df_merged)

Unnamed: 0,Zone,Année,Quantité Importations (kg),Quantité Nourriture (kg),Quantité Production (kg),Valeur emissions N2O en kilotonnes,Valeur emissions CH4 en kilotonnes,Indice perfo logistique / 5,Quantité poulet Exportations partenaire,Quantité poulet Importations partenaire,$ Exportations partenaire,$ Importations partenaire,Pib en $ par habitant,Population,Stabilité politique
0,Afghanistan,2017,29000000.0,5.500000e+07,2.800000e+07,0.0348,0.0289,2.045641,0.0,0.0,0.0,0.0,526.140801,36296113,-2.79
1,Afrique du Sud,2017,514000000.0,2.035000e+09,1.667000e+09,1.7072,2.5807,3.577660,0.0,0.0,0.0,0.0,6734.475153,57009756,-0.28
2,Albanie,2017,38000000.0,4.700000e+07,1.300000e+07,0.0332,0.0603,2.536249,10000.0,0.0,60000.0,0.0,4531.032207,2884169,0.37
3,Algérie,2017,2000000.0,2.640000e+08,2.750000e+08,1.4795,2.2365,2.609841,1176000.0,0.0,4905000.0,0.0,4615.868744,41389189,-0.92
4,Allemagne,2017,842000000.0,1.609000e+09,1.514000e+09,1.3163,2.3886,4.212983,1536000.0,190000.0,2596000.0,1417000.0,44652.589172,82658409,0.57
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125,Zimbabwe,2017,6000000.0,6.700000e+07,6.900000e+07,0.1409,0.2130,2.101204,0.0,0.0,0.0,0.0,1192.107012,14236595,-0.71
126,Émirats arabes unis,2017,433000000.0,4.120000e+08,4.800000e+07,0.2465,0.3808,3.950883,0.0,0.0,0.0,0.0,43063.967479,9487203,0.60
127,Équateur,2017,0.0,3.240000e+08,3.400000e+08,1.8452,3.0440,2.829541,0.0,0.0,0.0,0.0,6256.683019,16785361,-0.08
128,Éthiopie,2017,1000000.0,1.400000e+07,1.400000e+07,0.5961,0.9011,2.376767,0.0,0.0,0.0,0.0,755.752644,106399924,-1.68


In [66]:
# Exporter le DataFrame en CSV avec un nom approprié
df_merged.to_csv("export_poulet_etude_poule_qui_chante.csv", index=False)
