# Explorer la base de donn√©es de sc√©narios AR6 du GIEC
2026-02-05 A. Danneaux

*cod√© avec pas mal de Claude Opus 4.5*

## Qu'est-ce que la base de donn√©es AR6 ?

La **base de donn√©es AR6** est une collection compl√®te de sc√©narios d'att√©nuation du changement climatique compil√©e pour le Sixi√®me Rapport d'√âvaluation (AR6) du GIEC. Elle contient des donn√©es provenant de divers **Mod√®les d'√âvaluation Int√©gr√©e (IAM)** qui simulent les trajectoires futures des syst√®mes √©nerg√©tiques, des √©missions et des r√©sultats climatiques.

### Composants cl√©s de la base de donn√©es :

| Composant | Description |
|-----------|-------------|
| **Mod√®les** | Diff√©rents IAMs (ex: IMAGE, REMIND, MESSAGE) qui simulent les syst√®mes √©nergie-√©conomie-climat |
| **Sc√©narios** | Diff√©rentes hypoth√®ses sur les politiques, technologies et d√©veloppement socio-√©conomique |
| **Variables** | Indicateurs comme les √©missions de CO2, la consommation d'√©nergie, les investissements, les capacit√©s |
| **R√©gions** | Zones g√©ographiques (Monde, r√©gions R10, pays individuels) |
| **P√©riodes** | G√©n√©ralement 2020-2100 par pas de 5 ou 10 ans |

### Cat√©gories de sc√©narios (C1-C8) :

Les sc√©narios sont class√©s selon leurs r√©sultats en termes de temp√©rature :

| Cat√©gorie | Description | Objectif de temp√©rature |
|----------|-------------|-------------------|
| **C1** | Limiter le r√©chauffement √† 1,5¬∞C avec d√©passement nul/limit√© | <1,5¬∞C |
| **C2** | Limiter le r√©chauffement √† 1,5¬∞C avec d√©passement important | <1,5¬∞C (d√©passement) |
| **C3** | Limiter probablement le r√©chauffement √† 2¬∞C | <2¬∞C (>67% de probabilit√©) |
| **C4** | Limiter le r√©chauffement √† 2¬∞C | <2¬∞C (>50% de probabilit√©) |
| **C5** | Limiter le r√©chauffement √† 2,5¬∞C | <2,5¬∞C |
| **C6** | Limiter le r√©chauffement √† 3¬∞C | <3¬∞C |
| **C7** | Limiter le r√©chauffement √† 4¬∞C | <4¬∞C |
| **C8** | D√©passer 4¬∞C | >4¬∞C |

### Trajectoires Illustratives d'Att√©nuation (IMPs) :

Le GIEC met en avant des sc√©narios sp√©cifiques comme **Trajectoires Illustratives d'Att√©nuation** pour repr√©senter diff√©rentes strat√©gies :

| IMP | Nom | Description | Mod√®le | Sc√©nario dans la base |
|-----|------|-------------|--------|----------------------|
| **CurPol** | Politiques Actuelles | Continuation des politiques actuelles | GCAM 5.3 | NGFS2_Current Policies |
| **ModAct** | Action Mod√©r√©e | Ambition mod√©r√©e type CDN | IMAGE 3.0 | EN_INDCi2030_3000f |
| **Neg** | √âmissions N√©gatives | Forte d√©pendance au retrait de carbone | COFFEE 1.1 | EN_NPi2020_400f_lowBECCS |
| **Ren** | Fort Renouvelable | D√©ploiement rapide des √©nergies renouvelables | REMIND-MAgPIE | DeepElec_SSP2_ HighRE_Budg900 |
| **LD** | Faible Demande | R√©duction de la demande par l'efficacit√© | MESSAGEix-GLOBIOM | LowEnergyDemand_1.3_IPCC |
| **GS** | Renforcement Graduel | Renforcement progressif des politiques | WITCH 5.0 | CO_Bridge |
| **SP** | Trajectoires Durables | Trajectoire de d√©veloppement durable | REMIND-MAgPIE | SusDev_SDP-PkBudg1000 |



## Partie A : Chargement et Exploration des Donn√©es

### √âtape 1 : Importer les biblioth√®ques n√©cessaires

Nous avons besoin des biblioth√®ques Python suivantes :
- `pandas` : Pour la manipulation de donn√©es
- `numpy` : Pour les op√©rations num√©riques  
- `matplotlib` : Pour cr√©er des visualisations
- `pyam` : Une biblioth√®que sp√©cialis√©e pour travailler avec les donn√©es de sc√©narios IAM

In [None]:
# Importer les biblioth√®ques n√©cessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pyam
from ar6_plotting_tools import plot_database_composition

# Param√®tres d'affichage pour une meilleure visualisation
pd.set_option('display.max_columns', 30)
plt.style.use('seaborn-v0_8-whitegrid')

print("Biblioth√®ques import√©es avec succ√®s !")

### √âtape 2 : Charger les donn√©es depuis la base IIASA

Nous utilisons `pyam.read_iiasa()` pour t√©l√©charger les donn√©es directement depuis la base IIASA.

**Param√®tres :**
- `'ar6-public'` : Le nom de la base AR6 publique
- `region` : La ou les r√©gion(s) g√©ographique(s) √† charger
- `variable` : La ou les variable(s) √† t√©l√©charger

‚ö†Ô∏è **Note :** La premi√®re ex√©cution peut prendre quelques minutes pour t√©l√©charger les donn√©es.

In [None]:
import os

# D√©finir les variables √† t√©l√©charger
Variables = [
    'Emissions|CO2|Energy and Industrial Processes',  # √âmissions de CO2 de l'√©nergie et l'industrie
    'Primary Energy|Coal',                             # √ânergie primaire du charbon
    'Primary Energy|Oil',                              # √ânergie primaire du p√©trole
    'Primary Energy|Gas',                              # √ânergie primaire du gaz
    'Primary Energy|Solar',                            # √ânergie primaire solaire
    'Primary Energy|Wind',                             # √ânergie primaire √©olienne
    "Primary Energy|Biomass",
    "Primary Energy|Nuclear",
    'Investment|Energy Supply|Electricity|Solar',      # Investissement dans l'√©lectricit√© solaire
    'Investment|Energy Supply|Electricity|Wind',       # Investissement dans l'√©lectricit√© √©olienne
    "Investment|Energy Supply|Extraction|Fossil",
    "Investment|Energy Supply|Electricity|Transmission and Distribution",
    'AR6 climate diagnostics|Surface Temperature (GSAT)|FaIRv1.6.2|50.0th Percentile',
    "Secondary Energy|Electricity",
    "Capacity|Electricity|Gas",
    "Capacity|Electricity|Solar",
    # Variables de l'√©quation de Kaya (pour la section bonus)
    'GDP|PPP',                                         # PIB en parit√© de pouvoir d'achat
    'Population',                                       # Population
    'Primary Energy',                                   # √ânergie primaire totale

]

# D√©finir la ou les r√©gion(s) √† t√©l√©charger
Regions = ['World']

# V√©rifier si le fichier existe d√©j√†
if os.path.exists('ar6_scenarios_data.xlsx'):
    print("Fichier 'ar6_scenarios_data.xlsx' trouv√©, chargement des donn√©es locales...")
    df_pyam = pyam.IamDataFrame('ar6_scenarios_data.xlsx')
    print("Donn√©es charg√©es avec succ√®s !")
else:

    # T√©l√©charger les donn√©es depuis la base IIASA
    print("T√©l√©chargement des donn√©es depuis IIASA... Cela peut prendre quelques minutes.")
    df_pyam = pyam.read_iiasa('ar6-public', region=Regions, variable=Variables)
    print("Donn√©es t√©l√©charg√©es avec succ√®s !")

### √âtape 3 : Afficher et explorer le DataFrame

Comprenons la structure de nos donn√©es. La biblioth√®que `pyam` fournit un objet sp√©cial `IamDataFrame` avec des m√©thodes utiles pour travailler avec les donn√©es de sc√©narios.

In [None]:
# Afficher les informations de base sur les donn√©es
print("="*60)
print("üìä APER√áU DES DONN√âES")
print("="*60)
print(f"\nNombre de mod√®les : {len(df_pyam.model)}")
print(f"Nombre de sc√©narios : {len(df_pyam.scenario)}")
print(f"Nombre de variables : {len(df_pyam.variable)}")
print(f"R√©gions : {df_pyam.region}")
print(f"P√©riode : {min(df_pyam.year)} - {max(df_pyam.year)}")

In [None]:
# Convertir en DataFrame pandas timeseries pour une manipulation plus facile
df = df_pyam.timeseries()

# Afficher les premi√®res lignes
print("üìä 10 premi√®res lignes des donn√©es de s√©ries temporelles :")
print("="*80)
df.head(10)

### Explication des valeurs NaN (Not a Number)

Les valeurs **NaN** dans les donn√©es de s√©ries temporelles sont normales et proviennent de plusieurs sources :

| Raison | Explication |
|--------|-------------|
| **Pas de temps diff√©rents** | Certains mod√®les rapportent des donn√©es tous les 5 ans (2020, 2025, 2030...), d'autres tous les 10 ans, cr√©ant des NaN pour les ann√©es interm√©diaires |
| **Horizons temporels variables** | Tous les sc√©narios ne couvrent pas la m√™me p√©riode (certains commencent en 2005, d'autres en 2020) |
| **Variables non simul√©es** | Certains mod√®les ne calculent pas toutes les variables (ex: capacit√©s √©lectriques, investissements) |
| **Donn√©es historiques manquantes** | Les ann√©es avant 2005-2010 peuvent √™tre absentes selon les mod√®les |


In [None]:
# V√©rifier la structure du multi-index
print("üìã Niveaux d'index (lignes) :")
print(df.index.names)
print("\nüìã Colonnes (ann√©es) :")
print(list(df.columns))

### √âtape 4 : Obtenir les cat√©gories de sc√©narios (M√©tadonn√©es)

Les cat√©gories de sc√©narios (C1-C8) sont stock√©es dans les **m√©tadonn√©es** de l'objet pyam. Extrayons-les.

In [None]:
# Obtenir les m√©tadonn√©es (inclut les cat√©gories de sc√©narios)
meta = df_pyam.meta

# Afficher les colonnes de m√©tadonn√©es
print("üìã Colonnes de m√©tadonn√©es disponibles :")
print(meta.columns.tolist())

# Afficher les premi√®res lignes des m√©tadonn√©es
print("\nüìä √âchantillon des m√©tadonn√©es :")
meta.head()

In [None]:
# Compter les sc√©narios par cat√©gorie
if 'Category' in meta.columns:
    category_col = 'Category'
elif 'category' in meta.columns:
    category_col = 'category'
else:
    # Trouver la colonne contenant l'information de cat√©gorie
    category_col = [col for col in meta.columns if 'categ' in col.lower()][0] if any('categ' in col.lower() for col in meta.columns) else None

if category_col:
    print(f"üìä Nombre de sc√©narios par cat√©gorie (colonne : '{category_col}') :")
    print(meta[category_col].value_counts().sort_index())
else:
    print("‚ö†Ô∏è Colonne de cat√©gorie non trouv√©e dans les m√©tadonn√©es")

In [None]:
# Importer les fonctions pour analyser la composition de la base
from ar6_plotting_tools import (
    assign_model_families,
    assign_assessment_status,
    assign_ssp_family,
    count_scenarios_by_group,
    plot_scenario_counts,
)

### √âtape 5 : Composition de la base - Familles de mod√®les et sc√©narios SSP

Visualisons **quels mod√®les et sc√©narios** sont repr√©sent√©s dans la base.


In [None]:
# Enrichir les m√©tadonn√©es
meta_enriched = assign_model_families(df_pyam.meta)
meta_enriched = assign_assessment_status(meta_enriched)
meta_enriched = assign_ssp_family(meta_enriched)

# Compter par famille de mod√®les et par famille SSP
model_counts = count_scenarios_by_group(meta_enriched, 'Model_Family', n_top=12)
ssp_counts = count_scenarios_by_group(meta_enriched, 'SSP_Family')

# Visualiser c√¥te √† c√¥te
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
plot_scenario_counts(model_counts, ax=axes[0], title='Par famille de mod√®les')
plot_scenario_counts(ssp_counts, ax=axes[1], title='Par famille SSP')
fig.tight_layout();

**Graph a) reproduced from source :** Peters, Glen P., Alaa Al Khourdajie, Ida Sognnaes, and Benjamin M. Sanderson. ‚ÄòAR6 Scenarios Database: An Assessment of Current Practices and Future Recommendations‚Äô. Npj Climate Action 2, no. 1 (2023): 1. https://doi.org/10.1038/s44168-023-00050-9.

---
## Partie B : Visualisation des Donn√©es

### D√©finir les couleurs et fonctions d'aide

Nous allons d√©finir un code couleur pour chaque cat√©gorie de sc√©nario afin de rendre nos graphiques visuellement coh√©rents et faciles √† interpr√©ter.

In [None]:
# Importer les outils de visualisation (fonctions dans un fichier s√©par√©)
from ar6_plotting_tools import (
    plot_timeseries_by_category, 
    plot_scatter_boxplot_by_category,
    plot_kaya_decomposition,
    plot_kaya_variable,
    plot_kaya_ratio,
    create_kaya_explorer,
    show_color_palette,
    show_imp_palette,
    CATEGORY_COLORS,
    ALL_CATEGORIES,
    IMP_SCENARIOS,
    IMP_DETAILS,
)

In [None]:
# V√©rifier quels IMPs sont disponibles dans nos donn√©es
# (Les IMPs doivent √™tre dans les donn√©es t√©l√©charg√©es pour les variables s√©lectionn√©es)
print("V√©rification des Trajectoires Illustratives d'Att√©nuation dans nos donn√©es :")
print("="*60)

df_ts = df_pyam.timeseries()
for imp_name, scenario_name in IMP_SCENARIOS.items():
    model_name = IMP_DETAILS[imp_name][0]
    
    # Rechercher cet IMP dans les donn√©es
    found = False
    for idx in df_ts.index:
        if idx[0] == model_name and idx[1] == scenario_name:
            found = True
            break
    
    status = "Trouv√©" if found else "Non trouv√©"
    print(f"{status}: {imp_name} ({model_name} / {scenario_name})")

### B.1) Graphique de s√©ries temporelles : Code couleur par cat√©gorie

Ce graphique montre des s√©ries temporelles o√π chaque ligne repr√©sente un sc√©nario, color√© selon sa cat√©gorie (C1-C8).

**Comment utiliser :**
- Modifiez le param√®tre `variable` pour explorer diff√©rentes m√©triques
- Utilisez `categories` pour s√©lectionner les cat√©gories √† afficher (ex: `categories=['C1', 'C2', 'C3']`)
- Utilisez `show_imps=True` pour mettre en √©vidence les **Trajectoires Illustratives d'Att√©nuation**
- Ajustez `alpha` (transparence) s'il y a beaucoup de lignes superpos√©es

#### üü† Essayez vous-m√™me ! 

Modifiez la variable dans la cellule ci-dessous pour explorer diff√©rentes m√©triques. 

**Variables disponibles :**
- `'Emissions|CO2|Energy and Industrial Processes'`
- `'Primary Energy|Coal'`
- `'Primary Energy|Oil'`
- `'Primary Energy|Gas'`
- `'Primary Energy|Solar'`
- `'Primary Energy|Wind'`
- `'Investment|Energy Supply|Electricity|Solar'`
- `'Investment|Energy Supply|Electricity|Wind'`

**Options :**
```python
# Afficher seulement certaines cat√©gories
plot_timeseries_by_category(df_pyam, variable, categories=['C1', 'C2', 'C3'])

# Mettre en √©vidence les Trajectoires Illustratives d'Att√©nuation (IMPs)
plot_timeseries_by_category(df_pyam, variable, show_imps=True)
```

In [None]:
variable = 'AR6 climate diagnostics|Surface Temperature (GSAT)|FaIRv1.6.2|50.0th Percentile'
plot_timeseries_by_category(df_pyam, variable, alpha=0.4, categories = ALL_CATEGORIES, show_imps=True);

In [None]:
# ============================================
# üü† MODIFIEZ LA VARIABLE ICI POUR EXPLORER !
# ============================================


variable = 'Emissions|CO2|Energy and Industrial Processes'  # <-- Essayez de changer !

# Tracer toutes les cat√©gories (par d√©faut)
plot_timeseries_by_category(df_pyam, variable, alpha=0.4, categories = ALL_CATEGORIES, show_imps=True);

In [None]:
# Tracer avec les Trajectoires Illustratives d'Att√©nuation (IMPs) mises en √©vidence
# Les IMPs sont affich√©es avec des lignes color√©es et un contour noir par-dessus tous les sc√©narios
plot_timeseries_by_category(df_pyam, 'Primary Energy|Coal', 
                            show_imps=True, alpha=0.3, categories=['C1','C7']);

---
### B.2) Nuage de points et Boxplot √† une date choisie

Cette visualisation montre la distribution des valeurs √† une **ann√©e sp√©cifique** selon les diff√©rentes cat√©gories de sc√©narios. 

- **Points** : Valeurs individuelles des sc√©narios
- **Boxplot** : Statistiques r√©sum√©es (m√©diane, quartiles, √©tendue)

**Comment utiliser :**
- Modifiez `variable` et `year` pour explorer diff√©rentes combinaisons
- Utilisez `categories` pour s√©lectionner les cat√©gories √† afficher

#### üü† Essayez vous-m√™me !

Modifiez les param√®tres `variable` et `year` pour explorer diff√©rentes combinaisons.

**Ann√©es sugg√©r√©es √† explorer :**
- `2030` : Court terme (ann√©e cible des CDN)
- `2050` : Mi-si√®cle (ann√©e cible de neutralit√© carbone pour de nombreux pays)
- `2100` : Fin de si√®cle

**Optionnel :** Utilisez `categories` pour filtrer :
```python
# Comparer seulement les sc√©narios extr√™mes
plot_scatter_boxplot_by_category(df_pyam, variable, year, categories=['C1', 'C8'])
```

In [None]:
# ============================================
# üü† MODIFIEZ LA VARIABLE ET L'ANN√âE ICI !
# ============================================

variable = 'Emissions|CO2|Energy and Industrial Processes'  # <-- Essayez de changer !
year = 2100  # <-- Essayez : 2030, 2050, ou 2100

# Tracer le nuage de points/boxplot
plot_scatter_boxplot_by_category(df_pyam, variable, year, show_imps =True);

In [None]:
# Exemple : Comparer les √©missions en 2030 vs 2100 (c√¥te √† c√¥te)
# Ici nous cr√©ons notre propre figure et passons les axes √† la fonction

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

variable = 'Emissions|CO2|Energy and Industrial Processes'

# Tracer sur le premier axe (2030)
plot_scatter_boxplot_by_category(df_pyam, variable, 2030, ax=axes[0])
axes[0].set_title(f'√âmissions de CO2 en 2030')

# Tracer sur le second axe (2100)
plot_scatter_boxplot_by_category(df_pyam, variable, 2100, ax=axes[1])
axes[1].set_title(f'√âmissions de CO2 en 2100')

[ax.set_ylim(
    [min([axs.get_ylim()[0] for axs in axes]), max([axs.get_ylim()[1] for axs in axes])]
) for ax in axes]


fig.tight_layout()


In [None]:
# Exemple : Regarder les investissements solaires en 2050 (seulement pour les sc√©narios ambitieux)
plot_scatter_boxplot_by_category(df_pyam, 'Investment|Energy Supply|Electricity|Solar', 2050,
                                  categories=['C1', 'C2', 'C3', 'C8']);

In [None]:

plot_scatter_boxplot_by_category(df_pyam, "Investment|Energy Supply|Extraction|Fossil", 2050,
                                  categories=['C1',  'C3','C5','C7','C8']);

---
## Bonus : L'identit√© de Kaya

### Comprendre les d√©terminants des √©missions de CO‚ÇÇ

L'**identit√© de Kaya** d√©compose les √©missions de CO‚ÇÇ en quatre facteurs cl√©s :

$$\text{CO}_2 = \underbrace{P}_{\text{Population}} \times \underbrace{\frac{PIB}{P}}_{\text{PIB par habitant}} \times \underbrace{\frac{E}{PIB}}_{\text{Intensit√© √©nerg√©tique}} \times \underbrace{\frac{CO_2}{E}}_{\text{Intensit√© carbone}}$$

O√π :
- **P** = Population (milliards d'habitants)
- **PIB/P** = PIB par habitant 
- **E/PIB** = Intensit√© √©nerg√©tique de l'√©conomie (combien d'√©nergie n√©cessaire par unit√© de PIB)
- **CO‚ÇÇ/E** = Intensit√© carbone de l'√©nergie (combien de CO‚ÇÇ √©mis par unit√© d'√©nergie)



### √âtapes 1 & 2 : Explorateur Interactif de Kaya (Trajectoire individuelle)

Les variables de Kaya (PIB, Population, √ânergie Primaire, √âmissions de CO‚ÇÇ) ont √©t√© charg√©es au d√©but du tutoriel.

**Utilisez l'outil interactif ci-dessous pour :**
1. **Explorer** une trajectoire : voir ses valeurs de variables de Kaya √† n'importe quelle ann√©e
2. **Calculer** des ratios personnalis√©s : construisez votre propre ratio en s√©lectionnant num√©rateur et d√©nominateur

In [None]:
# Lancer l'explorateur interactif de Kaya (√âtapes 1 & 2)
kaya_explorer = create_kaya_explorer(df_pyam)
display(kaya_explorer)

### üìä √âtape 3 : Comparer TOUTES les trajectoires - Graphique de d√©composition de Kaya

Maintenant, visualisons la **d√©composition compl√®te de Kaya** pour toutes les Trajectoires Illustratives d'Att√©nuation.

**Fonctions disponibles :**
- `plot_kaya_variable(df_pyam, variable, ...)` - Trace une variable (CO2, Population, etc.)
- `plot_kaya_ratio(df_pyam, numerator, denominator, ...)` - Trace un ratio (PIB/Pop, E/PIB, CO2/E)


#### üü† Essayez diff√©rents modes :
```python
# Tracer une seule variable
plot_kaya_variable(df_pyam, 'Emissions|CO2|Energy and Industrial Processes', mode='both')

# Tracer un ratio personnalis√©
plot_kaya_ratio(df_pyam, numerator='GDP|PPP', denominator='Population', mode='both')

```

In [None]:
# Cr√©er la figure compl√®te en utilisant les fonctions individuelles
fig, axs = plt.subplots(2, 3, figsize=(10, 7))

# Variables de Kaya
co2_var = 'Emissions|CO2|Energy and Industrial Processes'
pop_var = 'Population'
gdp_var = 'GDP|PPP'
energy_var = 'Primary Energy'

# Rang√©e 1 : CO2, Population, PIB/habitant
plot_kaya_variable(df_pyam, co2_var, ax=axs[0,0], title='CO2 Emissions', mode='both', categories=['C1','C2','C7'])
plot_kaya_variable(df_pyam, pop_var, ax=axs[0,1], title='Population', mode='both', categories=['C1','C2','C7'])
plot_kaya_ratio(df_pyam, gdp_var, pop_var, ax=axs[0,2], title='GDP per Capita', mode='both', categories=['C1','C2','C7'])

# Rang√©e 2 : L√©gende, Intensit√© √©nerg√©tique, Intensit√© carbone
axs[1,0].axis('off')  # Espace pour l√©gende
plot_kaya_ratio(df_pyam, energy_var, gdp_var, ax=axs[1,1], title='Energy Intensity (E/GDP)', mode='both', categories=['C1','C3','C7'])
plot_kaya_ratio(df_pyam, co2_var, energy_var, ax=axs[1,2], title='Carbon Intensity (CO2/E)', mode='both', categories=['C1','C2','C6','C8'])

fig.tight_layout();