# 01. Acquisition et Consolidation des Donn√©es

## üìù Note M√©thodologique : Objectifs et Strat√©gie d'Acquisition

### 0. Objectif du Projet (D√©finition du besoin)
Pour r√©pondre aux exigences du devoir, nous avons besoin d'un jeu de donn√©es structur√© en "Panel" (Pays x Ann√©es) permettant deux analyses distinctes :
1.  **Analyse Transversale (Cross-Section) :** Comparer les pays √† une date fixe pour tester l'hypoth√®se de Kuznets (Relation PIB/CO2).
2.  **Analyse Temporelle (Time Series) :** Mod√©liser et pr√©voir l'√©volution des √©missions d'un pays sp√©cifique (ex: USA) √† travers le temps.

### 1. Tentative Initiale (API WB Banque Mondiale)
J'ai initialement tent√© une extraction automatis√©e via `wbgapi` sur les indicateurs standards (`EN.ATM.CO2E.PC` et `NY.GDP.PCAP.PP.KD`).
*   **R√©sultat :** √âchecs techniques r√©p√©t√©s (Timeouts / JSON decoding errors) dus √† une instabilit√© des serveurs de l'API.

### 2. V√©rification Manuelle
Une recherche sur le portail [World Bank Data360](https://data360.worldbank.org/) a confirm√© l'existence des s√©ries, validant la pertinence √©conomique du sujet malgr√© l'accessibilit√© technique difficile.

### 3. Solution Technique Retenue (OWID)
Pour contourner le blocage sans sacrifier la qualit√©, j'utilise le **repository officiel de "Our World in Data" (OWID)**.
*   **Avantage :** Ce dataset unique agr√®ge exactement les m√™mes sources (Global Carbon Project + Banque Mondiale) et offre la double profondeur historique et g√©ographique n√©cessaire.

In [None]:
import pandas as pd
import os

# =============================================================================
# ‚öôÔ∏è CONFIGURATION DU PROJET ‚Äî PERSONNALISABLE & REPRODUCTIBLE
# =============================================================================
RAW_DATA_DIR = os.path.join("..", "data", "01_raw")                              # Dossier de destination (respecte la structure projet)
OUTPUT_FILENAME = "kuznets_data_final.csv"                                       # Nom du fichier export√©
url = "https://raw.githubusercontent.com/owid/co2-data/master/owid-co2-data.csv" # URL du dataset consolid√© OWID

# =============================================================================
# √âTAPE 1 : G√âN√âRATION DU FICHIER SOURCE (SOURCE : OUR WORLD IN DATA)
# =============================================================================
print("üåç T√âL√âCHARGEMENT DU DATASET VIA OWID (CONTOURNEMENT API)...")

try:
    # Lecture du flux de donn√©es
    df_raw = pd.read_csv(url)
    
    # S√©lection des colonnes pour mon projet Kuznets
    # 'co2_per_capita' = √âmissions CO2 (tonnes/hab)
    # 'gdp' = PIB par habitant (ajust√© inflation/PPA)
    df = df_raw[['country', 'year', 'iso_code', 'co2_per_capita', 'gdp']].copy()

    # Nettoyage (On garde seulement les pays, pas les continents)
    df = df.dropna(subset=['iso_code', 'co2_per_capita', 'gdp'])
    
    # Restriction temporelle (1990-2020) pour avoir une base coh√©rente et dense
    df = df[(df['year'] >= 1990) & (df['year'] <= 2020)]

    # --- SAUVEGARDE ROBUSTE ---
    
    # 1. Cr√©er le dossier s'il n'existe pas (√©vite l'erreur FileNotFoundError)
    os.makedirs(RAW_DATA_DIR, exist_ok=True)
    
    # 2. Construire le chemin complet (compatible Windows/Linux/Mac)
    full_path = os.path.join(RAW_DATA_DIR, OUTPUT_FILENAME)
    
    # 3. Sauvegarde
    df.to_csv(full_path, index=False)
    
    print("‚úÖ SUCC√àS !")
    print(f"üìÅ Le fichier a √©t√© sauvegard√© ici : {full_path}")
    print("üëâ Tu peux maintenant le retrouver dans ton dossier 'data/01_raw/'")

except Exception as e:
    print(f"‚ùå Erreur : {e}")

üåç T√âL√âCHARGEMENT DU DATASET VIA OWID (CONTOURNEMENT API)...
‚úÖ SUCC√àS !
üìÅ Le fichier a √©t√© sauvegard√© ici : ../data/01_raw/kuznets_data_final.csv
üëâ Tu peux maintenant le retrouver dans ton dossier 'data/01_raw/'


In [4]:
# Petit contr√¥le qualit√© imm√©diat
if os.path.exists(full_path):
    df_check = pd.read_csv(full_path)
    print("Aper√ßu des donn√©es :")
    display(df_check.head())
    print("\nStats descriptives :")
    display(df_check[['co2_per_capita', 'gdp']].describe().round(2))

Aper√ßu des donn√©es :


Unnamed: 0,country,year,iso_code,co2_per_capita,gdp
0,Afghanistan,1990,AFG,0.168,13065980000.0
1,Afghanistan,1991,AFG,0.156,12047360000.0
2,Afghanistan,1992,AFG,0.112,12677540000.0
3,Afghanistan,1993,AFG,0.1,9834582000.0
4,Afghanistan,1994,AFG,0.089,7919856000.0



Stats descriptives :


Unnamed: 0,co2_per_capita,gdp
count,5081.0,5081.0
mean,4.98,470626200000.0
std,8.46,1615135000000.0
min,0.02,257172000.0
25%,0.6,18278670000.0
50%,2.58,58288500000.0
75%,6.85,281488700000.0
max,364.79,24151840000000.0
