In [None]:
# ================================
# Tâche 1 - Collecte & Préparation
# ANIP Challenge : Bénin
# ================================

import wbdata
import pandas as pd
import datetime
import os

# 📂 Créer dossiers si nécessaires
os.makedirs("datasets/raw", exist_ok=True)
os.makedirs("datasets/final", exist_ok=True)

# ================================
# 1. Définir indicateurs Banque Mondiale
# ================================
indicators = {
    "SP.POP.TOTL": "population",     # Population totale
    "NY.GDP.MKTP.CD": "gdp_usd"      # PIB en USD courants
}

# ================================
# 2. Télécharger les données (2000-2023)
# ================================
data = wbdata.get_dataframe(
    indicators,
    country="BJ",  # Code ISO du Bénin
    data_date=(datetime.datetime(2000, 1, 1), datetime.datetime(2023, 1, 1)),
    convert_date=True
)

# Réinitialiser l’index
data.reset_index(inplace=True)

# Sauvegarde brute
data.to_csv("datasets/raw/benin_population_gdp_raw.csv", index=False)
print("✅ Données brutes sauvegardées : datasets/raw/benin_population_gdp_raw.csv")

# ================================
# 3. Nettoyage des données
# ================================
df = data.copy()
df.rename(columns={"date": "year"}, inplace=True)

# Année en entier
df["year"] = pd.to_datetime(df["year"]).dt.year

# Supprimer les lignes vides
df = df.dropna()

# Calcul du PIB par habitant
df["gdp_per_capita"] = df["gdp_usd"] / df["population"]

# Tri par année
df = df.sort_values("year").reset_index(drop=True)

# Sauvegarde finale
df.to_csv("datasets/final/benin_population_gdp.csv", index=False)
print("✅ Données nettoyées sauvegardées : datasets/final/benin_population_gdp.csv")

# Aperçu
df.head()