# üìä Projet 11 ‚Äì √âtude de march√© internationale pour *La Poule qui Chante*

## üêî Contexte
*La Poule qui Chante* est une entreprise fran√ßaise sp√©cialis√©e dans l‚Äô√©levage et la vente de poulets bio, sous le label ‚ÄúPoulet Agriculture Biologique‚Äù.

Actuellement active uniquement en France, elle souhaite √©valuer les **opportunit√©s d‚Äôexpansion √† l‚Äôinternational**.

## üéØ Objectif de l‚Äôanalyse
Identifier, √† l‚Äôaide d‚Äôune analyse de donn√©es multi-sources :
- des **groupes de pays** aux profils similaires,
- afin de recommander les **zones g√©ographiques prioritaires** pour l‚Äôexportation.

L‚Äôapproche inclura :
- la **collecte de donn√©es agro-√©conomiques et sociales**,
- une **r√©duction de dimensions par ACP**,
- une **segmentation via clustering (CAH et K-means)**.

## üßë‚Äçüíª Ce notebook
Ce document correspond √† la **premi√®re phase** du projet :
> **Pr√©paration et exploration des donn√©es**  
> (avant l‚Äôanalyse ACP + clustering dans un second notebook)

In [2]:
# üì¶ Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### 1. üìÅ Importation des donn√©es

Nous commen√ßons par charger les deux fichiers fournis :
- `DisponibiliteAlimentaire_2017.csv` : disponibilit√© des aliments par pays (source : FAO)
- `Population_2000_2018.csv` : population totale par pays sur plusieurs ann√©es

In [4]:
# üìÅ Chargement des fichiers CSV
df_dispo = pd.read_csv("DisponibiliteAlimentaire_2017.csv", encoding='utf-8')
df_pop = pd.read_csv("Population_2000_2018.csv", encoding='utf-8')

# Aper√ßu rapide
df_dispo.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code √âl√©ment,√âl√©ment,Code Produit,Produit,Code ann√©e,Ann√©e,Unit√©,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Bl√© et produits,2017,2017,Milliers de tonnes,4281.0,S,Donn√©es standardis√©es
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantit√©,2511,Bl√© et produits,2017,2017,Milliers de tonnes,2302.0,S,Donn√©es standardis√©es
2,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2511,Bl√© et produits,2017,2017,Milliers de tonnes,-119.0,S,Donn√©es standardis√©es
3,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5911,Exportations - Quantit√©,2511,Bl√© et produits,2017,2017,Milliers de tonnes,0.0,S,Donn√©es standardis√©es
4,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5301,Disponibilit√© int√©rieure,2511,Bl√© et produits,2017,2017,Milliers de tonnes,6701.0,S,Donn√©es standardis√©es


### 2. üîç Exploration de la disponibilit√© alimentaire

Nous explorons le fichier pour identifier les √©l√©ments et produits pertinents √† extraire, notamment la viande de volaille.

In [6]:
# Quels sont les produits disponibles ?
df_dispo['Produit'].unique()

array(['Bl√© et produits', 'Riz et produits', 'Orge et produits',
       'Ma√Øs et produits', 'Seigle et produits', 'Avoine',
       'Millet et produits', 'Sorgho et produits', 'C√©r√©ales, Autres',
       'Pommes de Terre et produits', 'Ignames', 'Racines nda',
       'Sucre, canne', 'Sucre, betterave', 'Sucre Eq Brut',
       'Edulcorants Autres', 'Miel', 'Haricots', 'Pois',
       'L√©gumineuses Autres et produits', 'Noix et produits', 'Soja',
       'Arachides Decortiquees', 'Graines de tournesol',
       'Graines Colza/Moutarde', 'Graines de coton', 'Coco (Incl Coprah)',
       'S√©same', 'Olives', 'Plantes Oleiferes, Autre', 'Huile de Soja',
       "Huile d'Arachide", 'Huile de Tournesol',
       'Huile de Colza&Moutarde', 'Huile Graines de Coton',
       'Huile de Palmistes', 'Huile de Palme', 'Huile de Coco',
       'Huile de S√©same', "Huile d'Olive", 'Huile de Son de Riz',
       'Huile de Germe de Ma√Øs', 'Huil Plantes Oleif Autr',
       'Tomates et produits', 'Oignons', 'L

Le libell√© qui nous int√©resse s'√©crit 'Viande de Volailles'

In [8]:
df_dispo['√âl√©ment'].unique()

array(['Production', 'Importations - Quantit√©', 'Variation de stock',
       'Exportations - Quantit√©', 'Disponibilit√© int√©rieure',
       'Aliments pour animaux', 'Semences', 'Pertes', 'R√©sidus',
       'Nourriture',
       'Disponibilit√© alimentaire en quantit√© (kg/personne/an)',
       'Disponibilit√© alimentaire (Kcal/personne/jour)',
       'Disponibilit√© de prot√©ines en quantit√© (g/personne/jour)',
       'Disponibilit√© de mati√®re grasse en quantit√© (g/personne/jour)',
       'Traitement', 'Autres utilisations (non alimentaire)',
       'Alimentation pour touristes'], dtype=object)

### 2.1 üêì Extraction des variables FAO ‚Äì Produit "Viande de Volailles"

Nous extrayons ici les 5 variables disponibles dans le fichier `DisponibiliteAlimentaire_2017.csv`, pour l‚Äôann√©e 2017 et le produit **Viande de Volailles** :

- Production totale (en tonnes)
- Importations (en tonnes)
- Exportations (en tonnes)
- Disponibilit√© int√©rieure (en tonnes)
- Consommation par habitant (kg/hab/an)

Cela permettra d‚Äôanalyser √† la fois la **demande** (consommation), l‚Äô**offre locale** (production), et la **balance commerciale** (import/export) pour chaque pays.

In [10]:
# Filtrer par ann√©e et produit
annee = 2017
produit = "Viande de Volailles"

# Consommation par habitant (kg/personne/an) ‚Üí kg/hab
conso = df_dispo[
    (df_dispo["Ann√©e"] == annee) &
    (df_dispo["Produit"] == produit) &
    (df_dispo["√âl√©ment"] == "Disponibilit√© alimentaire en quantit√© (kg/personne/an)")
][["Zone", "Valeur"]].rename(columns={"Valeur": "conso_volaille_kg_hab"})

# Production (milliers de tonnes)
prod = df_dispo[
    (df_dispo["Ann√©e"] == annee) &
    (df_dispo["Produit"] == produit) &
    (df_dispo["√âl√©ment"] == "Production")
][["Zone", "Valeur"]].rename(columns={"Valeur": "prod_volaille_milliers_tonnes"})

# Importations (milliers de tonnes)
imp = df_dispo[
    (df_dispo["Ann√©e"] == annee) &
    (df_dispo["Produit"] == produit) &
    (df_dispo["√âl√©ment"] == "Importations - Quantit√©")
][["Zone", "Valeur"]].rename(columns={"Valeur": "import_volaille_milliers_tonnes"})

# Exportations (milliers de tonnes)
exp = df_dispo[
    (df_dispo["Ann√©e"] == annee) &
    (df_dispo["Produit"] == produit) &
    (df_dispo["√âl√©ment"] == "Exportations - Quantit√©")
][["Zone", "Valeur"]].rename(columns={"Valeur": "export_volaille_milliers_tonnes"})

# Disponibilit√© int√©rieure (milliers de tonnes)
dispo = df_dispo[
    (df_dispo["Ann√©e"] == annee) &
    (df_dispo["Produit"] == produit) &
    (df_dispo["√âl√©ment"] == "Disponibilit√© int√©rieure")
][["Zone", "Valeur"]].rename(columns={"Valeur": "dispo_volaille_milliers_tonnes"})

# Variation de stock (milliers de tonnes)
var_stock = df_dispo[
    (df_dispo["Ann√©e"] == annee) &
    (df_dispo["Produit"] == produit) &
    (df_dispo["√âl√©ment"] == "Variation de stock")
][["Zone", "Valeur"]].rename(columns={"Valeur": "variation_stock_milliers_tonnes"})

# Fusion progressive
df_volaille = conso.merge(prod, on="Zone", how="outer") \
                   .merge(imp, on="Zone", how="outer") \
                   .merge(exp, on="Zone", how="outer") \
                   .merge(dispo, on="Zone", how="outer") \
                   .merge(var_stock, on="Zone", how="outer") \
                   .rename(columns={"Zone": "Pays"})

# Aper√ßu
df_volaille.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes
0,Afghanistan,1.53,28.0,29.0,,57.0,0.0
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0


### 3. üë• Extraction de la population totale par pays (2017)

Nous allons extraire la population totale pour chaque pays √† une date proche de 2017, afin de pouvoir estimer la consommation globale de volaille par pays.

In [12]:
# üîç Exploration du fichier population
df_pop.head()

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code √âl√©ment,√âl√©ment,Code Produit,Produit,Code ann√©e,Ann√©e,Unit√©,Valeur,Symbole,Description du Symbole,Note
0,OA,S√©ries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales s√ªres,
1,OA,S√©ries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales s√ªres,
2,OA,S√©ries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2002,2002,1000 personnes,22600.77,X,Sources internationales s√ªres,
3,OA,S√©ries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2003,2003,1000 personnes,23680.871,X,Sources internationales s√ªres,
4,OA,S√©ries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2004,2004,1000 personnes,24726.684,X,Sources internationales s√ªres,


In [13]:
# Renommer la colonne "Zone" en "Pays" dans df_volaille
df_volaille.rename(columns={"Zone": "Pays"}, inplace=True)

### 3.1 üåç Filtrage de la population en 2017

Nous extrayons ici la population totale pour chaque pays pour l'ann√©e 2017.  
Les donn√©es sont exprim√©es en milliers de personnes et seront ensuite utilis√©es pour estimer la consommation globale de volaille par pays.

In [15]:
# Filtrage de la population pour l‚Äôann√©e 2017
df_pop_2017 = df_pop[df_pop['Ann√©e'] == 2017]

# Garde seulement les colonnes utiles
df_pop_2017 = df_pop_2017[['Zone', 'Valeur']]
df_pop_2017 = df_pop_2017.rename(columns={
    'Zone': 'Pays',
    'Valeur': 'Population_milliers'
})

# Aper√ßu
df_pop_2017.head()

Unnamed: 0,Pays,Population_milliers
17,Afghanistan,36296.113
36,Afrique du Sud,57009.756
55,Albanie,2884.169
74,Alg√©rie,41389.189
93,Allemagne,82658.409


### 4. üîó Fusion des donn√©es consommation & population

Nous fusionnons les deux sources pour obtenir un tableau complet par pays.  
Nous en profitons pour estimer la consommation totale de viande de volaille par pays (en tonnes), en multipliant la consommation par habitant par la population.

In [17]:
# Jointure OUTER avec indicateur
df_check_pop = pd.merge(df_volaille, df_pop_2017, on='Pays', how='outer', indicator='source_jointure')

# Aper√ßu du r√©sultat
df_check_pop['source_jointure'].value_counts()

source_jointure
both          172
right_only     64
left_only       0
Name: count, dtype: int64

In [18]:
# Afficher les pays qui n'ont pas match√©
df_check_pop[df_check_pop['source_jointure'] != 'both'][['Pays', 'source_jointure']].sort_values(by='source_jointure')

Unnamed: 0,Pays,source_jointure
172,Andorre,right_only
206,Mayotte,right_only
207,Micron√©sie (√âtats f√©d√©r√©s de),right_only
208,Monaco,right_only
209,Montserrat,right_only
...,...,...
199,√éles Turques-et-Ca√Øques,right_only
200,√éles Vierges am√©ricaines,right_only
201,√éles Vierges britanniques,right_only
234,Tonga,right_only


### Fusion entre donn√©es FAO volaille et population

Nous r√©alisons ici une jointure entre les donn√©es de volaille (issues de la FAO) et les donn√©es de population (issues de la Banque mondiale).

Nous utilisons `how="left"` car nous choisissons de **conserver uniquement les pays pour lesquels nous avons des donn√©es sur la volaille**, notre base d‚Äôanalyse principale.  
Les pays pr√©sents dans les autres fichiers (ex. population) mais absents des donn√©es volaille sont consid√©r√©s comme **hors p√©rim√®tre** et ne sont donc pas int√©gr√©s √† l‚Äôanalyse.

In [20]:
# Jointure finale avec la population
df_final = pd.merge(df_volaille, df_pop_2017, on='Pays', how='left')

# Aper√ßu
df_final.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers
0,Afghanistan,1.53,28.0,29.0,,57.0,0.0,36296.113
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0,57009.756
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0,2884.169
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0,41389.189
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0,82658.409


## üî¢ Variables s√©lectionn√©es pour l'√©tude de march√©

| Nom de la variable             | Description                                                    | Source / M√©thode d‚Äôextraction                                                            | Dimension PESTEL       |
|-------------------------------|----------------------------------------------------------------|-------------------------------------------------------------------------------------------|------------------------|
| `conso_volaille_kg_hab`       | Consommation de volaille en kg par habitant                    | FAO ‚Äì Disponibilit√© alimentaire (`√âl√©ment = Disponibilit√© alimentaire (Kcal/hab/jour)`)  | √âconomique             |
| `prod_volaille_milliers_tonnes`        | Production de volaille en tonnes                               | FAO ‚Äì Disponibilit√© alimentaire (`√âl√©ment = Production`)                                 | √âconomique             |
| `import_volaille_milliers_tonnes`      | Importations de volaille en tonnes                             | FAO ‚Äì Disponibilit√© alimentaire (`√âl√©ment = Importations - Quantit√©`)                   | √âconomique             |
| `export_volaille_milliers_tonnes`      | Exportations de volaille en tonnes                             | FAO ‚Äì Disponibilit√© alimentaire (`√âl√©ment = Exportations - Quantit√©`)                   | √âconomique             |
| `dispo_volaille_milliers_tonnes`       | Volaille disponible pour consommation (en tonnes)              | FAO ‚Äì Disponibilit√© alimentaire (`√âl√©ment = Disponibilit√© alimentaire`)                 | √âconomique             |
| `Population_milliers`         | Population totale en milliers                                  | Banque Mondiale ‚Äì fichier population                                                     | D√©mographique          |
| `PIB_hab_USD`                 | PIB par habitant en $US courants                               | Banque Mondiale ‚Äì `PIB par habitant ($ US courants)`                                     | √âconomique             |
| `Population_urbaine_%`        | Pourcentage de la population vivant en zone urbaine            | Banque Mondiale ‚Äì `Population urbaine (% du total)`                                     | D√©mographique          |
| `Stabilite_politique`         | Indice de stabilit√© politique (-2.5 √† +2.5)                     | Banque Mondiale ‚Äì `Indice de stabilit√© politique et d‚Äôabsence de violence`              | Politique / S√©curit√©   |

### 5. PIB par habitant (Banque mondiale)

In [23]:


# Lecture du fichier PIB avec saut des lignes d‚Äôen-t√™te
df_pib = pd.read_csv("PIB_par_habitant.csv", skiprows=4)

# Aper√ßu des donn√©es
df_pib.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2016,2017,2018,2019,2020,2021,2022,2023,2024,Unnamed: 69
0,Aruba,ABW,PIB par habitant ($¬†US courants),NY.GDP.PCAP.CD,,,,,,,...,27441.529662,28440.051964,30082.127645,31096.205074,22855.93232,27200.061079,30559.533535,33984.79062,,
1,,AFE,PIB par habitant ($¬†US courants),NY.GDP.PCAP.CD,186.121835,186.941781,197.402402,225.440494,208.999748,226.876513,...,1329.807285,1520.212231,1538.901679,1493.817938,1344.10321,1522.393346,1628.318944,1568.159891,1673.841139,
2,Afghanistan,AFG,PIB par habitant ($¬†US courants),NY.GDP.PCAP.CD,,,,,,,...,522.082216,525.469771,491.337221,496.602504,510.787063,356.496214,357.261153,413.757895,,
3,,AFW,PIB par habitant ($¬†US courants),NY.GDP.PCAP.CD,121.939925,127.454189,133.827044,139.008291,148.549379,155.565216,...,1630.039447,1574.23056,1720.14028,1798.340685,1680.039332,1765.954788,1796.668633,1599.392983,1284.154441,
4,Angola,AGO,PIB par habitant ($¬†US courants),NY.GDP.PCAP.CD,,,,,,,...,1807.952941,2437.259712,2538.591391,2189.855714,1449.922867,1925.874661,2929.694455,2309.53413,2122.08369,


In [24]:
# J'ai remarqu√© au fur et √† mesure de mes jointures qui suivent que les noms de pays ne correspondent pas tous entre les fichiers de la FAO et de la banque mondiale.
# Je vais donc cr√©er une table de correspondance pour les faire matcher car il y a des pays importants dans la liste.

# Liste des noms de pays utilis√©s dans le DataFrame principal
noms_pays_df = df_final['Pays'].unique()

# Liste des noms de pays pr√©sents dans le fichier PIB
noms_pays_pib = df_pib['Country Name'].unique()

# Identifier ceux qui ne matchent pas (pays dans df_final mais pas dans df_pib)
pays_non_trouves = sorted(set(noms_pays_df) - set(noms_pays_pib))

print("Pays sans correspondance dans le CSV PIB :", pays_non_trouves)

Pays sans correspondance dans le CSV PIB : ['Bolivie (√âtat plurinational de)', 'Chine - RAS de Hong-Kong', 'Chine - RAS de Macao', 'Chine, Taiwan Province de', 'Chine, continentale', 'Congo', "Iran (R√©publique islamique d')", 'Kirghizistan', "Royaume-Uni de Grande-Bretagne et d'Irlande du Nord", 'R√©publique de Cor√©e', 'R√©publique de Moldova', 'R√©publique populaire d√©mocratique de Cor√©e', 'R√©publique-Unie de Tanzanie', 'Slovaquie', 'Tch√©quie', 'Venezuela (R√©publique bolivarienne du)', 'Y√©men', '√âgypte', "√âtats-Unis d'Am√©rique"]


In [25]:
# on compare les noms de ces pays dans le df_final

sorted(df_final["Pays"].unique())

['Afghanistan',
 'Afrique du Sud',
 'Albanie',
 'Alg√©rie',
 'Allemagne',
 'Angola',
 'Antigua-et-Barbuda',
 'Arabie saoudite',
 'Argentine',
 'Arm√©nie',
 'Australie',
 'Autriche',
 'Azerba√Ødjan',
 'Bahamas',
 'Bangladesh',
 'Barbade',
 'Belgique',
 'Belize',
 'Bolivie (√âtat plurinational de)',
 'Bosnie-Herz√©govine',
 'Botswana',
 'Br√©sil',
 'Bulgarie',
 'Burkina Faso',
 'B√©larus',
 'B√©nin',
 'Cabo Verde',
 'Cambodge',
 'Cameroun',
 'Canada',
 'Chili',
 'Chine - RAS de Hong-Kong',
 'Chine - RAS de Macao',
 'Chine, Taiwan Province de',
 'Chine, continentale',
 'Chypre',
 'Colombie',
 'Congo',
 'Costa Rica',
 'Croatie',
 'Cuba',
 "C√¥te d'Ivoire",
 'Danemark',
 'Djibouti',
 'Dominique',
 'El Salvador',
 'Espagne',
 'Estonie',
 'Eswatini',
 'Fidji',
 'Finlande',
 'France',
 'F√©d√©ration de Russie',
 'Gabon',
 'Gambie',
 'Ghana',
 'Grenade',
 'Gr√®ce',
 'Guatemala',
 'Guin√©e',
 'Guin√©e-Bissau',
 'Guyana',
 'G√©orgie',
 'Ha√Øti',
 'Honduras',
 'Hongrie',
 'Inde',
 'Indon√©sie',
 "

In [26]:
# Dictionnaire de correspondance entre les noms de pays dans df_final et ceux du fichier PIB
correspondance_pays_pib = {
    "Bolivie (√âtat plurinational de)": "Bolivie",
    "Chine - RAS de Hong-Kong": "Chine, RAS de Hong Kong",
    "Chine - RAS de Macao": "R√©gion administrative sp√©ciale de Macao, Chine",
    "Chine, Taiwan Province de": "Ta√Øwan",  
    "Chine, continentale": "Chine",
    "Congo": "Congo, R√©publique du",
    "Iran (R√©publique islamique d')": "Iran, R√©publique islamique d‚Äô",
    "Kirghizistan": "R√©publique kirghize",
    "Royaume-Uni de Grande-Bretagne et d'Irlande du Nord": "Royaume-Uni",
    "R√©publique de Cor√©e": "Cor√©e, R√©publique de",
    "R√©publique de Moldova": "Moldova",
    "R√©publique populaire d√©mocratique de Cor√©e": "Cor√©e, R√©publique d√©mocratique de",
    "R√©publique-Unie de Tanzanie": "Tanzanie",
    "Slovaquie": "R√©publique slovaque",
    "Tch√©quie": "R√©publique tch√®que",
    "Venezuela (R√©publique bolivarienne du)": "Venezuela",
    "Y√©men": "Y√©men, R√©p. du",
    "√âgypte": "√âgypte, R√©publique arabe d‚Äô",
    "√âtats-Unis d'Am√©rique": "√âtats-Unis"
}

In [27]:
# On applique la correction des noms de pays avant de faire la jointure avec les donn√©es du PIB
df_final["Pays"] = df_final["Pays"].replace(correspondance_pays_pib)

In [28]:
# v√©rification des correspondances :
pays_pib = set(df_pib["Country Name"].unique())
pays_df = set(df_final["Pays"].unique())
pays_sans_correspondance = pays_df - pays_pib

print("Pays encore sans correspondance dans le fichier PIB :", pays_sans_correspondance)

Pays encore sans correspondance dans le fichier PIB : {'Ta√Øwan'}


In [29]:
# Liste des pays restants sans correspondance
pays_sans_correspondance = set(df_final["Pays"].unique()) - set(df_pib["Country Name"].unique())
print("‚úÖ Pays encore sans correspondance dans le CSV PIB :", pays_sans_correspondance)

‚úÖ Pays encore sans correspondance dans le CSV PIB : {'Ta√Øwan'}


In [30]:
# üîé On v√©rifie si tous les pays de df_final sont bien pr√©sents dans le fichier PIB


pays_df_final = set(df_final["Pays"].unique())
pays_df_pib = set(df_pib["Country Name"].unique())

pays_non_match = sorted(pays_df_final - pays_df_pib)

print("‚úÖ Pays encore sans correspondance dans le CSV PIB :", pays_non_match)

‚úÖ Pays encore sans correspondance dans le CSV PIB : ['Ta√Øwan']


In [31]:
df_final.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers
0,Afghanistan,1.53,28.0,29.0,,57.0,0.0,36296.113
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0,57009.756
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0,2884.169
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0,41389.189
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0,82658.409


In [32]:
# Ne garder que les colonnes Pays et 2017
df_pib_2017 = df_pib[['Country Name', '2017']].copy()

# Renommer les colonnes pour correspondre √† df_merge
df_pib_2017.rename(columns={'Country Name': 'Pays', '2017': 'PIB_hab_USD'}, inplace=True)

# Suppression des pays avec valeurs manquantes
df_pib_2017.dropna(subset=['PIB_hab_USD'], inplace=True)

# verif
df_pib_2017.head()

Unnamed: 0,Pays,PIB_hab_USD
0,Aruba,28440.051964
1,,1520.212231
2,Afghanistan,525.469771
3,,1574.23056
4,Angola,2437.259712


In [33]:
# Suppression des lignes sans nom de pays
df_pib_2017 = df_pib_2017[df_pib_2017['Pays'].notna()].reset_index(drop=True)

# V√©rification
df_pib_2017.head()

Unnamed: 0,Pays,PIB_hab_USD
0,Aruba,28440.051964
1,Afghanistan,525.469771
2,Angola,2437.259712
3,Albanie,4614.047969
4,Andorre,40672.994335


In [34]:
df_pib_2017.describe()

Unnamed: 0,PIB_hab_USD
count,256.0
mean,16719.816027
std,24505.206102
min,236.694473
25%,2188.606539
50%,6446.312069
75%,20866.94117
max,170663.375248


### 5.1 ‚Äì Fusion avec le PIB par habitant

Nous joignons les donn√©es de PIB par habitant √† notre DataFrame principal, en effectuant une jointure `left` pour ne conserver que les pays d√©j√† s√©lectionn√©s dans notre base consolid√©e.  
Cela permet de ne pas r√©introduire des pays hors p√©rim√®tre que nous n'avons pas retenus dans les √©tapes pr√©c√©dentes.

In [36]:
# On merge en utilisant les noms corrig√©s
df_final = df_final.merge(df_pib_2017, how="left", left_on="Pays", right_on="Pays")

df_final.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD
0,Afghanistan,1.53,28.0,29.0,,57.0,0.0,36296.113,525.469771
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0,57009.756,6618.335083
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0,2884.169,4614.047969
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0,41389.189,4554.66754
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0,82658.409,45526.599958


### 6. Population urbaine (% du total)

In [38]:
# Lecture du fichier en ignorant les 2 premi√®res lignes inutiles
df_urbain = pd.read_csv("population_urbaine.csv", sep=',', skiprows=4)

df_urbain.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2016,2017,2018,2019,2020,2021,2022,2023,2024,Unnamed: 69
0,Aruba,ABW,Population urbaine (%¬†du total),SP.URB.TOTL.IN.ZS,50.776,50.761,50.746,50.73,50.715,50.7,...,43.192,43.293,43.411,43.546,43.697,43.866,44.052,44.254,44.474,
1,,AFE,Population urbaine (%¬†du total),SP.URB.TOTL.IN.ZS,14.577252,14.825175,15.083802,15.363045,15.655383,15.955912,...,34.919544,35.396289,35.893398,36.384272,36.884034,37.393633,37.909012,38.424898,38.949114,
2,Afghanistan,AFG,Population urbaine (%¬†du total),SP.URB.TOTL.IN.ZS,8.401,8.684,8.976,9.276,9.586,9.904,...,25.02,25.25,25.495,25.754,26.026,26.314,26.616,26.933,27.265,
3,,AFW,Population urbaine (%¬†du total),SP.URB.TOTL.IN.ZS,14.710006,15.094445,15.487932,15.900682,16.331319,16.779793,...,45.47385,46.094137,46.709753,47.322617,47.931021,48.531971,49.129808,49.711184,50.280934,
4,Angola,AGO,Population urbaine (%¬†du total),SP.URB.TOTL.IN.ZS,10.435,10.798,11.204,11.624,12.058,12.504,...,64.149,64.839,65.514,66.177,66.825,67.46,68.081,68.688,69.281,


In [39]:
# On isole les colonnes utiles
df_urbain_2017 = df_urbain[['Country Name', '2017']].copy()

# On renomme pour harmoniser avec les autres DataFrames
df_urbain_2017.columns = ['Pays', 'Population_urbaine_%']

df_urbain_2017.head()

Unnamed: 0,Pays,Population_urbaine_%
0,Aruba,43.293
1,,35.396289
2,Afghanistan,25.25
3,,46.094137
4,Angola,64.839


In [40]:
# On enl√®ve les lignes sans pays (ex : AFE, AFW...)
df_urbain_2017 = df_urbain_2017.dropna(subset=['Pays'])

In [41]:
# Jointure externe avec indicateur de correspondance
df_final = pd.merge(df_final, df_urbain_2017, on='Pays', how='left', indicator='source_jointure_urbain')

# Affichage des correspondances
print(df_final['source_jointure_urbain'].value_counts())

source_jointure_urbain
both          171
left_only       1
right_only      0
Name: count, dtype: int64


In [42]:
df_final.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,source_jointure_urbain
0,Afghanistan,1.53,28.0,29.0,,57.0,0.0,36296.113,525.469771,25.25,both
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0,57009.756,6618.335083,65.85,both
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0,2884.169,4614.047969,59.383,both
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0,41389.189,4554.66754,72.052,both
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0,82658.409,45526.599958,77.261,both


### 7. Stabilit√© politique (Banque mondiale)

In [44]:
# 1. Lecture du fichier avec skiprows pour ignorer les lignes d‚Äôen-t√™te inutiles
df_stab = pd.read_csv("stabilite_politique.csv", skiprows=3)

# 2. S√©lection de la colonne 2017
df_stab_2017 = df_stab[["Country Name", "2017"]].copy()

# 3. Renommage des colonnes
df_stab_2017.columns = ["Pays", "Stabilite_politique"]

# 4. Suppression des lignes sans nom de pays
df_stab_2017 = df_stab_2017.dropna(subset=["Pays"])

df_stab_2017.head()

Unnamed: 0,Pays,Stabilite_politique
0,Aruba,1.313846
2,Afghanistan,-2.794976
4,Angola,-0.387895
5,Albanie,0.373771
6,Andorre,1.39289


In [45]:
# Jointure avec indicateur
df_merged = pd.merge(df_final, df_stab_2017, on="Pays", how="left", indicator="source_jointure_stab")

# Affichage du r√©sultat
print(df_merged["source_jointure_stab"].value_counts())

source_jointure_stab
both          171
left_only       1
right_only      0
Name: count, dtype: int64


### 8. Finalisation du dataframe

In [47]:
# On garde la version propre
df_final = df_merged.drop(columns=["source_jointure_stab","source_jointure_urbain"])

df_final.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique
0,Afghanistan,1.53,28.0,29.0,,57.0,0.0,36296.113,525.469771,25.25,-2.794976
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0,57009.756,6618.335083,65.85,-0.284804
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0,2884.169,4614.047969,59.383,0.373771
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0,41389.189,4554.66754,72.052,-0.919614
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0,82658.409,45526.599958,77.261,0.574381


In [48]:
df_final.describe()


Unnamed: 0,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique
count,172.0,168.0,170.0,135.0,170.0,169.0,172.0,169.0,171.0,169.0
mean,20.213372,725.190476,89.529412,132.185185,687.594118,13.668639,42841.75,14214.053306,58.801737,-0.076988
std,15.860311,2501.457125,186.669983,513.78444,2187.184747,75.364884,153063.7,19310.30847,22.072448,0.891267
min,0.13,0.0,0.0,0.0,2.0,-119.0,52.045,432.324026,16.35,-2.934317
25%,6.44,13.75,3.0,0.0,30.5,0.0,2874.48,2012.286626,41.367,-0.629498
50%,18.09,70.0,16.0,3.0,100.0,0.0,9757.833,6049.521286,59.383,-0.039427
75%,30.0375,409.75,81.25,32.0,368.25,7.0,30138.74,17645.529872,77.119,0.62855
max,72.31,21914.0,1069.0,4223.0,18266.0,859.0,1421022.0,110193.213797,100.0,1.561946


In [49]:
df_final.isna().sum()

Pays                                0
conso_volaille_kg_hab               0
prod_volaille_milliers_tonnes       4
import_volaille_milliers_tonnes     2
export_volaille_milliers_tonnes    37
dispo_volaille_milliers_tonnes      2
variation_stock_milliers_tonnes     3
Population_milliers                 0
PIB_hab_USD                         3
Population_urbaine_%                1
Stabilite_politique                 3
dtype: int64

In [50]:
# Afficher les pays pour lesquels les exportations de volaille sont manquantes
# Version avec plus d'infos pour mieux analyser les cas
df_final[df_final['export_volaille_milliers_tonnes'].isna()][[
    'Pays',
    'prod_volaille_milliers_tonnes',
    'import_volaille_milliers_tonnes',
    'variation_stock_milliers_tonnes',
    'dispo_volaille_milliers_tonnes'
]]

Unnamed: 0,Pays,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,variation_stock_milliers_tonnes,dispo_volaille_milliers_tonnes
0,Afghanistan,28.0,29.0,0.0,57.0
13,Bahamas,6.0,24.0,4.0,26.0
14,Bangladesh,249.0,0.0,-0.0,250.0
25,Burkina Faso,46.0,0.0,-0.0,46.0
26,Cabo Verde,1.0,12.0,4.0,10.0
27,Cambodge,28.0,10.0,-0.0,38.0
41,Cuba,29.0,312.0,-1.0,342.0
43,Djibouti,,3.0,0.0,3.0
53,√âthiopie,14.0,1.0,0.0,14.0
59,Gambie,2.0,16.0,10.0,8.0


## Estimation des exportations manquantes (formule simplifi√©e)

Pour certains pays, les donn√©es d‚Äôexportation de viande de volaille sont manquantes dans le fichier d‚Äôorigine.

Nous allons proposer une **formule comptable simplifi√©e** pour estimer les exportations manquantes :

\[
\Export estim√©e = Production + Importations + Variation de stock - Disponibilit√© int√©rieure
\]

üìå **Attention :** cette formule ne permet pas de retrouver avec pr√©cision les valeurs d‚Äôexportation r√©elles pour de nombreux pays. Nous l'utilisons uniquement √† des fins de **remplissage ponctuel** l√† o√π la donn√©e officielle est absente (`NaN`).

In [69]:
# √âtape 1 ‚Äì Calcul de l'export estim√©e avec la formule simplifi√©e
# (on calcule pour tous les pays, pas seulement ceux avec valeur manquante, pour pouvoir v√©rifier ensuite)

df_final['export_calculee_simplifiee'] = (
    df_final['prod_volaille_milliers_tonnes']
    + df_final['import_volaille_milliers_tonnes']
    + df_final['variation_stock_milliers_tonnes']
    - df_final['dispo_volaille_milliers_tonnes']
)

# √âtape 2 ‚Äì Comparaison avec les valeurs r√©elles (quand elles existent)
# Cela nous permettra de voir si la formule colle bien ou non aux donn√©es FAO

df_final['ecart_export'] = df_final['export_volaille_milliers_tonnes'] - df_final['export_calculee_simplifiee']

# √âtape 3 ‚Äì Liste des pays o√π l'√©cart est sup√©rieur √† 100 milliers de tonnes
# (cette v√©rification montre que la formule est tr√®s impr√©cise)

grands_ecarts = df_final[df_final['ecart_export'].abs() > 100][[
    'Pays',
    'export_volaille_milliers_tonnes',
    'export_calculee_simplifiee',
    'ecart_export',
    'prod_volaille_milliers_tonnes',
    'import_volaille_milliers_tonnes',
    'variation_stock_milliers_tonnes',
    'dispo_volaille_milliers_tonnes'
]].sort_values(by='ecart_export', key=abs, ascending=False)

# Affichage des plus gros √©carts entre la valeur officielle et la valeur estim√©e
grands_ecarts.head(150)

Unnamed: 0,Pays,export_volaille_milliers_tonnes,export_calculee_simplifiee,ecart_export,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,variation_stock_milliers_tonnes,dispo_volaille_milliers_tonnes
81,Japon,10.0,1728.0,-1718.0,2215.0,1069.0,859.0,2415.0
126,Pologne,1025.0,1475.0,-450.0,2351.0,55.0,225.0,1156.0
57,France,501.0,866.0,-365.0,1750.0,506.0,183.0,1573.0
96,Malaisie,44.0,299.0,-255.0,1724.0,68.0,128.0,1621.0
72,Inde,4.0,-235.0,239.0,3545.0,0.0,-119.0,3661.0
62,Gr√®ce,29.0,265.0,-236.0,246.0,79.0,118.0,178.0
130,"Cor√©e, R√©publique de",6.0,236.0,-230.0,838.0,137.0,115.0,854.0
7,Arabie saoudite,10.0,-205.0,215.0,616.0,722.0,-108.0,1435.0
20,Bolivie,1.0,208.0,-207.0,533.0,1.0,103.0,429.0
163,Turquie,429.0,613.0,-184.0,2192.0,3.0,92.0,1674.0


Certains pays ont des √©carts importants par rapport aux exports calcul√©s, cela d√©montre que la formule n'est pas parfaite. N√©anmoins cela ne concerne que quelques pays sur l'√©chantillon et cela semble acceptable pour conserver un ensemble de donn√©es le plus large possible.

In [53]:
# √âtape 4 ‚Äì Utilisation de la formule uniquement pour combler les valeurs manquantes

df_final['export_volaille_milliers_tonnes'] = df_final.apply(
    lambda x: x['export_calculee_simplifiee'] if pd.isnull(x['export_volaille_milliers_tonnes']) else x['export_volaille_milliers_tonnes'],
    axis=1
)

df_final.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
0,Afghanistan,1.53,28.0,29.0,0.0,57.0,0.0,36296.113,525.469771,25.25,-2.794976,0.0,
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0,57009.756,6618.335083,65.85,-0.284804,63.0,0.0
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0,2884.169,4614.047969,59.383,0.373771,8.0,-8.0
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0,41389.189,4554.66754,72.052,-0.919614,0.0,0.0
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0,82658.409,45526.599958,77.261,0.574381,588.0,58.0


In [54]:
df_final['export_volaille_milliers_tonnes'].describe()

count     168.000000
mean      107.000000
std       463.087969
min        -7.000000
25%         0.000000
50%         1.500000
75%        17.750000
max      4223.000000
Name: export_volaille_milliers_tonnes, dtype: float64

In [55]:
df_final[df_final['export_volaille_milliers_tonnes'] < 0]

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
14,Bangladesh,1.5,249.0,0.0,-1.0,250.0,-0.0,159685.424,1811.082217,35.858,-1.253627,-1.0,
41,Cuba,23.72,29.0,312.0,-2.0,342.0,-1.0,11339.254,8610.608295,76.977,0.638511,-2.0,
95,Madagascar,2.87,81.0,0.0,-1.0,82.0,-0.0,25570.512,491.866849,36.522,-0.302837,-1.0,
99,Mali,2.83,48.0,1.0,-7.0,52.0,-4.0,18512.43,924.057532,41.572,-1.903492,-7.0,
107,Mozambique,3.59,92.0,24.0,-1.0,116.0,-1.0,28649.018,470.938563,35.455,-0.918099,-1.0,
115,Nouvelle-Cal√©donie,38.71,1.0,9.0,-2.0,11.0,-1.0,277.15,32354.710283,70.256,,-2.0,
135,Tanzanie,1.88,105.0,2.0,-1.0,108.0,-0.0,54660.339,986.674011,33.053,-0.570162,-1.0,
171,Zimbabwe,4.68,69.0,6.0,-1.0,76.0,-0.0,14236.595,3448.086991,32.237,-0.710431,-1.0,


In [56]:
# Certaines exportations n√©gatives sont probablement des valeurs manquantes mal cod√©es.
# On les remplace ici par 0 car il est √©conomiquement peu probable qu'un pays exporte une quantit√© n√©gative.
df_final.loc[df_final['export_volaille_milliers_tonnes'] < 0, 'export_volaille_milliers_tonnes'] = 0

In [57]:
df_final['export_volaille_milliers_tonnes'].describe()

count     168.000000
mean      107.095238
std       463.065421
min         0.000000
25%         0.000000
50%         1.500000
75%        17.750000
max      4223.000000
Name: export_volaille_milliers_tonnes, dtype: float64

In [58]:
df_final.describe()

Unnamed: 0,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
count,172.0,168.0,170.0,168.0,170.0,169.0,172.0,169.0,171.0,169.0,167.0,134.0
mean,20.213372,725.190476,89.529412,107.095238,687.594118,13.668639,42841.75,14214.053306,58.801737,-0.076988,134.54491,-33.537313
std,15.860311,2501.457125,186.669983,463.065421,2187.184747,75.364884,153063.7,19310.30847,22.072448,0.891267,496.492052,168.724746
min,0.13,0.0,0.0,0.0,2.0,-119.0,52.045,432.324026,16.35,-2.934317,-235.0,-1718.0
25%,6.44,13.75,3.0,0.0,30.5,0.0,2874.48,2012.286626,41.367,-0.629498,0.0,-22.0
50%,18.09,70.0,16.0,1.5,100.0,0.0,9757.833,6049.521286,59.383,-0.039427,3.0,-1.0
75%,30.0375,409.75,81.25,17.75,368.25,7.0,30138.74,17645.529872,77.119,0.62855,51.0,1.0
max,72.31,21914.0,1069.0,4223.0,18266.0,859.0,1421022.0,110193.213797,100.0,1.561946,4222.0,239.0


In [59]:
df_final.isna().sum().sort_values(ascending=False)

ecart_export                       38
export_calculee_simplifiee          5
prod_volaille_milliers_tonnes       4
export_volaille_milliers_tonnes     4
variation_stock_milliers_tonnes     3
PIB_hab_USD                         3
Stabilite_politique                 3
import_volaille_milliers_tonnes     2
dispo_volaille_milliers_tonnes      2
Population_urbaine_%                1
Pays                                0
conso_volaille_kg_hab               0
Population_milliers                 0
dtype: int64

In [60]:
colonnes_critiques = [
     'prod_volaille_milliers_tonnes',
    'import_volaille_milliers_tonnes',
    'dispo_volaille_milliers_tonnes',
    'PIB_hab_USD',
    'Population_urbaine_%',
    'Stabilite_politique'
]

df_nan_critiques = df_final[df_final[colonnes_critiques].isna().any(axis=1)]
print(f"Nombre de pays avec NaN sur les colonnes critiques : {df_nan_critiques.shape[0]}")

df_nan_critiques.head(25)

Nombre de pays avec NaN sur les colonnes critiques : 9


Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
34,Ta√Øwan,33.17,652.0,161.0,8.0,785.0,20.0,23674.546,,,,48.0,-40.0
43,Djibouti,2.68,,3.0,,3.0,0.0,944.099,2618.955211,77.648,-0.733945,,
98,Maldives,13.5,,12.0,,12.0,0.0,496.402,10509.628806,39.38,0.224532,,
115,Nouvelle-Cal√©donie,38.71,1.0,9.0,0.0,11.0,-1.0,277.15,32354.710283,70.256,,-2.0,
119,Ouzb√©kistan,1.96,,,,,,31959.785,2190.604116,50.55,-0.244979,,
127,Polyn√©sie fran√ßaise,47.4,1.0,15.0,0.0,15.0,0.0,276.102,20826.931249,61.784,,1.0,-1.0
132,R√©publique d√©mocratique populaire lao,10.91,,,,,,6953.035,2432.430595,34.368,0.394013,,
134,"Cor√©e, R√©publique d√©mocratique de",1.62,43.0,0.0,0.0,43.0,-0.0,25429.825,,61.678,-0.500023,0.0,0.0
167,Venezuela,20.28,600.0,25.0,0.0,626.0,-1.0,29402.484,,88.183,-1.252241,-2.0,2.0


In [62]:
# Suppression des pays dont les donn√©es critiques (production, importation, disponibilit√©) sont manquantes
colonnes_critiques = [
    'prod_volaille_milliers_tonnes',
    'import_volaille_milliers_tonnes',
    'dispo_volaille_milliers_tonnes',
    'PIB_hab_USD',
    'Population_urbaine_%',
    'Stabilite_politique'



]

df_final = df_final[~df_final[colonnes_critiques].isna().any(axis=1)]

df_final.head()

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
0,Afghanistan,1.53,28.0,29.0,0.0,57.0,0.0,36296.113,525.469771,25.25,-2.794976,0.0,
1,Afrique du Sud,35.69,1667.0,514.0,63.0,2118.0,-0.0,57009.756,6618.335083,65.85,-0.284804,63.0,0.0
2,Albanie,16.36,13.0,38.0,0.0,47.0,4.0,2884.169,4614.047969,59.383,0.373771,8.0,-8.0
3,Alg√©rie,6.38,275.0,2.0,0.0,277.0,0.0,41389.189,4554.66754,72.052,-0.919614,0.0,0.0
4,Allemagne,19.47,1514.0,842.0,646.0,1739.0,-29.0,82658.409,45526.599958,77.261,0.574381,588.0,58.0


In [63]:
df_final.isna().sum().sort_values(ascending=False)

ecart_export                       33
variation_stock_milliers_tonnes     1
export_calculee_simplifiee          1
Pays                                0
conso_volaille_kg_hab               0
prod_volaille_milliers_tonnes       0
import_volaille_milliers_tonnes     0
export_volaille_milliers_tonnes     0
dispo_volaille_milliers_tonnes      0
Population_milliers                 0
PIB_hab_USD                         0
Population_urbaine_%                0
Stabilite_politique                 0
dtype: int64

In [79]:
# Affichage des pays avec une valeur manquante dans "variation_stock_milliers_tonnes"
df_final[df_final["variation_stock_milliers_tonnes"].isna()]

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
124,P√©rou,13.47,1465.0,60.0,1.0,1523.0,,31444.298,6736.166937,77.72,-0.26351,,


In [83]:
# Affichage des pays avec une valeur manquante dans "export_calculee_simplifiee"
df_final[df_final["export_calculee_simplifiee"].isna()]

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
124,P√©rou,13.47,1465.0,60.0,1.0,1523.0,,31444.298,6736.166937,77.72,-0.26351,,


In [85]:
# Affichage des pays ayant une valeur manquante dans les deux colonnes
df_final[df_final["variation_stock_milliers_tonnes"].isna() & df_final["export_calculee_simplifiee"].isna()]

Unnamed: 0,Pays,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
124,P√©rou,13.47,1465.0,60.0,1.0,1523.0,,31444.298,6736.166937,77.72,-0.26351,,


In [87]:
# Remplacement manuel de la valeur manquante pour le P√©rou
df_final.loc[df_final["Pays"] == "P√©rou", "variation_stock_milliers_tonnes"] = 0.0

# Recalcul de la colonne "export_calculee_simplifiee"
df_final["export_calculee_simplifiee"] = (
    df_final["prod_volaille_milliers_tonnes"]
    + df_final["import_volaille_milliers_tonnes"]
    - df_final["dispo_volaille_milliers_tonnes"]
    - df_final["variation_stock_milliers_tonnes"]
)

In [93]:
# V√©rification des valeurs manquantes dans la colonne export_calculee_simplifiee
df_final[df_final["export_calculee_simplifiee"].isna()]

df_final.describe()

Unnamed: 0,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,export_calculee_simplifiee,ecart_export
count,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,162.0
mean,20.285092,739.478528,91.993865,110.331288,707.95092,14.06135,44474.65,14302.096616,58.719325,-0.066861,109.460123,-27.41358
std,15.840069,2537.859578,189.949717,469.780196,2230.715358,76.70536,157064.3,19537.802878,22.279453,0.899597,469.846918,153.907193
min,0.13,0.0,0.0,0.0,2.0,-119.0,52.045,432.324026,16.35,-2.934317,-1.0,-1718.0
25%,6.76,14.5,3.0,0.0,32.5,-0.0,2932.82,1957.201993,41.367,-0.627854,0.0,-12.25
50%,18.2,71.0,16.0,2.0,108.0,0.0,9785.843,6049.521286,58.299,-0.002855,1.0,0.0
75%,29.64,376.5,83.0,20.0,364.5,7.5,31274.47,17612.085824,77.119,0.640441,17.5,0.75
max,72.31,21914.0,1069.0,4223.0,18266.0,859.0,1421022.0,110193.213797,100.0,1.561946,4222.0,239.0


Nous n'avons plus de NaN dans les pays conserv√©s. Il nous reste 163 pays !

In [96]:
# Suppression des colonnes intuiles pour all√©ger le dataframe.

df_final.drop(columns=[
    'export_calculee_simplifiee',
    'ecart_export'      
], inplace=True)

df_final.info()
df_final.isna().sum()

<class 'pandas.core.frame.DataFrame'>
Index: 163 entries, 0 to 171
Data columns (total 11 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Pays                             163 non-null    object 
 1   conso_volaille_kg_hab            163 non-null    float64
 2   prod_volaille_milliers_tonnes    163 non-null    float64
 3   import_volaille_milliers_tonnes  163 non-null    float64
 4   export_volaille_milliers_tonnes  163 non-null    float64
 5   dispo_volaille_milliers_tonnes   163 non-null    float64
 6   variation_stock_milliers_tonnes  163 non-null    float64
 7   Population_milliers              163 non-null    float64
 8   PIB_hab_USD                      163 non-null    float64
 9   Population_urbaine_%             163 non-null    float64
 10  Stabilite_politique              163 non-null    float64
dtypes: float64(10), object(1)
memory usage: 15.3+ KB


Pays                               0
conso_volaille_kg_hab              0
prod_volaille_milliers_tonnes      0
import_volaille_milliers_tonnes    0
export_volaille_milliers_tonnes    0
dispo_volaille_milliers_tonnes     0
variation_stock_milliers_tonnes    0
Population_milliers                0
PIB_hab_USD                        0
Population_urbaine_%               0
Stabilite_politique                0
dtype: int64

## üßÆ Variables construites √† partir des donn√©es disponibles

Pour enrichir l‚Äôanalyse et anticiper les √©tapes de r√©duction de dimension (ACP), trois variables suppl√©mentaires ont √©t√© calcul√©es :

1. **PIB_total_milliards_USD** : estimation du PIB total d‚Äôun pays  
   *Formule* : `(PIB par habitant √ó Population) / 1 000 000`

2. **autosuffisance_volaille** : indicateur de d√©pendance ou d‚Äôind√©pendance alimentaire sur la volaille  
   *Formule* : `Production de volaille / Disponibilit√© totale`

3. **Population_urbaine_millions** : estimation du nombre d‚Äôhabitants en milieu urbain  
   *Formule* : `(Population √ó % urbaine) / 100 000`

Ces variables permettent d‚Äôajouter des perspectives √©conomiques, alimentaires et d√©mographiques √† l‚Äôanalyse multivari√©e.

In [100]:
# Cr√©ation de variables construites √† partir des colonnes existantes

# 1. PIB total en milliards de dollars
df_final['PIB_total_milliards_USD'] = (df_final['PIB_hab_USD'] * df_final['Population_milliers']) / 1_000_000

# 2. Taux d'autosuffisance en volaille (production / consommation estim√©e)
df_final['autosuffisance_volaille'] = df_final['prod_volaille_milliers_tonnes'] / df_final['dispo_volaille_milliers_tonnes']

# 3. Population urbaine en millions
df_final['Population_urbaine_millions'] = (df_final['Population_milliers'] * df_final['Population_urbaine_%']) / 100_000

In [102]:
df_final.describe()

Unnamed: 0,conso_volaille_kg_hab,prod_volaille_milliers_tonnes,import_volaille_milliers_tonnes,export_volaille_milliers_tonnes,dispo_volaille_milliers_tonnes,variation_stock_milliers_tonnes,Population_milliers,PIB_hab_USD,Population_urbaine_%,Stabilite_politique,PIB_total_milliards_USD,autosuffisance_volaille,Population_urbaine_millions
count,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0,163.0
mean,20.285092,739.478528,91.993865,110.331288,707.95092,14.06135,44474.65,14302.096616,58.719325,-0.066861,490.982627,0.786071,24.389437
std,15.840069,2537.859578,189.949717,469.780196,2230.715358,76.70536,157064.3,19537.802878,22.279453,0.899597,1912.55292,0.491137,78.830563
min,0.13,0.0,0.0,0.0,2.0,-119.0,52.045,432.324026,16.35,-2.934317,0.211541,0.0,0.016016
25%,6.76,14.5,3.0,0.0,32.5,-0.0,2932.82,1957.201993,41.367,-0.627854,12.488096,0.4,1.782438
50%,18.2,71.0,16.0,2.0,108.0,0.0,9785.843,6049.521286,58.299,-0.002855,48.377919,0.882353,5.303324
75%,29.64,376.5,83.0,20.0,364.5,7.5,31274.47,17612.085824,77.119,0.640441,277.244179,1.0,16.147559
max,72.31,21914.0,1069.0,4223.0,18266.0,859.0,1421022.0,110193.213797,100.0,1.561946,19520.598103,3.046053,823.62423


## üîÑ R√©sum√© des √©tapes de pr√©paration des donn√©es

- Importation et nettoyage des diff√©rentes sources de donn√©es (volaille, PIB, population, stabilit√© politique...).
- Harmonisation des noms de pays entre les diff√©rentes sources (jointures manuelles pour les cas ambigus).
- Gestion des valeurs manquantes :
  - Remplissage des valeurs manquantes pour l‚Äôexportation de volaille via une formule simplifi√©e.
  - Suppression des pays avec des donn√©es critiques manquantes si non r√©cup√©rables.
- Finalisation d‚Äôun DataFrame propre comprenant **163 pays** avec **0 valeur manquante** sur les colonnes cl√©s.

In [108]:
# Export du DataFrame final nettoy√© pour l'utiliser dans le notebook d'exploration
df_final.to_csv("df_final.csv", index=False)

---

## ‚úÖ Conclusion ‚Äì Notebook de pr√©paration

Dans ce notebook, nous avons :

- Import√© et fusionn√© plusieurs sources de donn√©es
- Harmonis√© les noms de pays pour garantir des jointures correctes
- Nettoy√© les valeurs manquantes et incoh√©rentes
- Corrig√© les donn√©es d'exportation de volaille √† l'aide d'une formule de calcul
- Cr√©√© trois variables suppl√©mentaires utiles √† l‚Äôanalyse
- Construit un DataFrame propre, coh√©rent et pr√™t √† √™tre explor√©

‚û°Ô∏è Le fichier `df_final.csv` est maintenant export√© et servira de base pour le second notebook consacr√© √† l'exploration des donn√©es et √† l'analyse multivari√©e (ACP, clustering).

---