<div style="
    font-family: 'Georgia', serif;
    color: #2c2c2c;
    text-align: center;
    padding: 20px 0 30px 0;
">

  <h2 style="
      font-size: 26px;
      color: #ad1457;
      font-weight: bold;
      letter-spacing: 0.5px;
      border-bottom: 2px solid #f48fb1;
      padding-bottom: 6px;
      margin: 0 auto 10px auto;
      width: fit-content;
      min-width: 300px;
  ">
    Bias Correction of Climate Projection Data
  </h2>

  <p style="font-size: 15px; margin: 8px 0 2px 0;">
    <strong>Hajar BADRAOUI</strong> — Data Analyst Intern, ARVALIS (2025)
  </p>

  <p style="font-size: 14px; margin: 2px 0;">
    M2 — Statistiques Appliquées & Analyse Décisionnelle,<br>
    Université de Caen Normandie, France
  </p>

  <p style="font-size: 14px; margin: 10px 0 0 0;">
    Projet : Correction de biais des modèles climatiques (SAFRAN / EURO-CORDEX)
  </p>

  <p style="font-size: 14px; margin-top: 10px;">
    📧 <a href="mailto:hajar.badraoui01@gmail.com" style="color: #ad1457; text-decoration: none;">
      hajar.badraoui01@gmail.com
    </a>
  </p>

  <p style="font-size: 14px; margin-top: 5px;">
    🔗 <a href="https://github.com/badraouihajar" target="_blank" style="color: #ad1457; text-decoration: none;">
      github.com/badraouihajar
    </a>
  </p>

</div>


<div style="
    background-color: #fff;
    padding: 26px 30px 18px 30px;
    border-radius: 12px;
    box-shadow: 2px 2px 8px rgba(0,0,0,0.06);
    font-family: 'Georgia', serif;
    color: #2c2c2c;
    margin: 12px 0 20px 0;
">

<h3 style="margin-top:0; margin-bottom:18px; color:#d81b60;">
  Introduction – Données & Modèles climatiques
</h3>
<p>
Tout d'abord, on commence par télécharger et prétraiter les données des modèles climatiques dans le but de corriger les biais.
</p>

<p>
Pour appliquer une méthode de correction de biais, il est nécessaire de disposer de <b>trois ensembles de données</b> :
<ul style="margin-top:8px;">
  <li><b>Données d'observation ou de réanalyse</b></li>
  <li><b>Données historiques issues des modèles climatiques</b> (même période que les observations)</li>
  <li><b>Données des modèles climatiques pour une période future</b></li>
</ul>
</p>

<p>
Dans cette étude, nous allons travailler avec des <b>modèles climatiques EURO-CORDEX</b> afin d'analyser les évolutions climatiques passées et futures selon le scénario <b>RCP 4.5</b>.
</p>

<p style="margin-bottom:4px;"><b>Modèles climatiques utilisés</b> :</p>
<ul>
  <li>Modèle global <b>CNRM-CERFACS-CM5</b> (France) / modèle régional <b>CNRM-ALADIN63</b> (France)</li>
  <li>Modèle global <b>CNRM-CERFACS-CM5</b> (France) / modèle régional <b>KNMI-RACMO22E</b> (Pays-Bas)</li>
  <li>Modèle global <b>ICHEC-EC-EARTH</b> (Irlande) / modèle régional <b>KNMI-RACMO22E</b> (Pays-Bas)</li>
</ul>

<p style="margin-bottom:4px;"><b>Périodes et scénarios étudiés</b> :</p>
<ul>
  <li><b>Période historique</b> : 1976 – 2005</li>
  <li><b>Scénario RCP 4.5</b> : 2006 – 2100 (scénario modéré d’émissions)</li>
</ul>

<p style="margin-bottom:4px;"><b>Données de réanalyse</b> :</p>
<ul>
  <li><b>SAFRAN</b> : données de réanalyse utilisées comme référence pour valider les simulations climatiques.</li>
</ul>
</div>

le package Iris est un outil Python spécialisé pour la lecture, manipulation et analyse des données climatologiques et météorologiques au format NetCDF.

In [None]:
!pip install scitools-iris   

In [2]:
import os
import urllib
import iris
import xarray
import numpy as np

<h2 style="font-family: 'Alice', serif; color: #2471A3; font-size: 2em; font-weight: 700;">
  Étape 01 : Collecte des données
</h2>

#### <span style="color:#2980b9;;">1.1 Téléchargement des données du modèle climatique</span>

Pour demander des données climatiques à partir du Climate Data Store (CDS), nous utiliserons l’API CDS.

In [None]:
!pip install cdsapi

Dans l’ensemble des scripts présentés, le traitement est illustré avec le modèle régional ALADIN (CNRM-ALADIN63), mais la même démarche peut être appliquée aux autres modèles climatiques utilisés dans cette étude (ex : KNMI-RACMO22E, ICHEC-EC-EARTH)

#### <span style="color:#6A5ACD;">a. Téléchargement des données du modèle climatique historique</span>

In [1]:
import cdsapi
import urllib3
urllib3.disable_warnings()

Le code ci-dessous permet de télécharger les fichiers `.zip` directement depuis le site [Copernicus CDS](https://cds.climate.copernicus.eu/datasets/projections-cordex-domains-single-levels?tab=download) pour le jeu de données EURO-CORDEX.

In [None]:
# Le code n'est pas à modifier, **sauf** pour les éléments suivants :
# === Les seules choses à changer sont :
#   - gcm_model    : nom du modèle global ( cnrm_cerfacs_cm5  , ichec_ec_earth  )
#   - rcm_model   :  nom du modèle régional (knmi_racmo22e ,  knmi_racmo22e )
#   - experiment  : nom du scénario (ex : 'historical', 'rcp_4_5', 'rcp_8_5') (dans ce code est dédié que pour hist, sinon on doit changer les années)
# A RETENIR le dossier destination folder : le dossier qui va contenir les fichiers netcf du modèle historique
# Tout le reste du code doit rester inchangé.


import cdsapi
import os
import time
import sys
 
#Désactiver les widgets Jupyter (évite le bug de blocage)
sys.modules["ipywidgets"] = None
 
#Dossier de destination
destination_folder ="D:/cordex_data/donnees_historiques"        # à VOIR 
os.makedirs(destination_folder, exist_ok=True)
 
#Initialisation de l'API
client = cdsapi.Client()
 
#Paramètres du dataset
dataset = "projections-cordex-domains-single-levels"
experiment = "historical"                                 # à MODIFIER
gcm_model = "cnrm_cerfacs_cm5"                            # à MODIFIER
rcm_model = "cnrm_aladin63"                               # à MODIFIER
ensemble_member = "r1i1p1"
horizontal_resolution = "0_11_degree_x_0_11_degree"
temporal_resolution = "daily_mean"
 
#Variables climatiques
variables = [
    "2m_relative_humidity",
    "10m_wind_speed",
    "maximum_2m_temperature_in_the_last_24_hours",
    "minimum_2m_temperature_in_the_last_24_hours",
    "mean_precipitation_flux",
    "surface_solar_radiation_downwards"
]
 
#Périodes à télécharger
periods = [
    ("1951", "1955"), ("1956", "1960"), ("1961", "1965"),
    ("1966", "1970"), ("1971", "1975"), ("1976", "1980"),
    ("1981", "1985"), ("1986", "1990"), ("1991", "1995"),
    ("1996", "2000"), ("2001", "2005"),
]
 
#Téléchargement par période
for i, (start_year, end_year) in enumerate(periods):
    filename = f"{destination_folder}/cordex_{experiment}_{gcm_model}_{rcm_model}_{start_year}_{end_year}.zip"
 
    print(f"\n Bloc {i+1}/{len(periods)} : {start_year}-{end_year}")
 
    #  Ne pas re-télécharger si déjà présent
    if os.path.exists(filename) and os.path.getsize(filename) > 0:
        print(f" Déjà téléchargé : {filename}")
        continue
 
    print(f" Téléchargement en cours...")
 
    request = {
        "domain": "europe",
        "experiment": experiment,
        "horizontal_resolution": horizontal_resolution,
        "temporal_resolution": temporal_resolution,
        "variable": variables,
        "gcm_model": gcm_model,
        "rcm_model": rcm_model,
        "ensemble_member": ensemble_member,
        "start_year": [start_year],
        "end_year": [end_year],
        "format": "zip" 
    }
 
    try:
        result = client.retrieve(dataset, request)
        print(" Téléchargement terminé. Sauvegarde du fichier (en mode console)...")
        path = result.download(filename)
        print(f" Fichier enregistré : {path}")
        time.sleep(1)
    except Exception as e:
        print(f" Erreur pour {start_year}-{end_year} : {e}")
 
print("\n Tous les blocs ont été traités avec succès.")

#### <span style="color:#6A5ACD;">b. Extraction géographique : Zone France</span>

Cette section présente un script permettant d’extraire automatiquement **les données climatiques historiques du modèle CNRM-CERFACS-CM5-CNRM-ALADIN63**, en nous concentrant uniquement sur le **territoire français** (même chose pour les autres modèles).

L’objectif est de parcourir l’ensemble des fichiers NetCDF disponibles, de sélectionner la zone correspondant aux limites géographiques de la France, puis de sauvegarder ces sous-ensembles pour une analyse ciblée à l’échelle nationale.

Le script ci-dessous permet d’automatiser cette extraction pour tous les fichiers du répertoire :

In [None]:
# Le code doit rester inchangé, à l’exception de la variable `input_folder`.
#  Il faut spécifier un sous-dossier dans le dossier des données historiques du modèle,
# nommé selon le modèle utilisé.
# Exemple : si le dossier principal est `donnees_historiques` et le modèle est
# `CNRM-CERFACS-CM5_CNRM-ALADIN63`, alors :
#     input_folder = 'donnees_historiques/CNRM-CERFACS-CM5_CNRM-ALADIN63'

import os
import xarray as xr
import numpy as np

# Paramètres
input_folder = "D:/cordex_data/donnees_historiques/CNRM-CERFACS-CM5_CNRM-ALADIN63"    # changer CNRM-CERFACS-CM5_CNRM-ALADIN63 par Modèle qu'on veut
output_folder = os.path.join(input_folder, "france_extrait")
os.makedirs(output_folder, exist_ok=True)

# Limites géographiques de la France
lat_min, lat_max = 41, 51
lon_min, lon_max = -5, 10

# Boucle sur tous les fichiers NetCDF du dossier
for file in os.listdir(input_folder):
    if file.endswith(".nc"):
        path = os.path.join(input_folder, file)
        print(f"\n Traitement : {file}")
        try:
            ds = xr.open_dataset(path)

            # Lecture des coordonnées lat/lon
            lat2d = ds["lat"]
            lon2d = ds["lon"]

            # Masque pour la France
            mask = (lat2d >= lat_min) & (lat2d <= lat_max) & (lon2d >= lon_min) & (lon2d <= lon_max)
            iy, ix = np.where(mask)

            if iy.size == 0 or ix.size == 0:
                print(" Aucun point dans la zone France.")
                continue

            ymin, ymax = iy.min(), iy.max()
            xmin, xmax = ix.min(), ix.max()

            # Identifier la variable principale (hors lat/lon/time_bounds)
            var_names = [v for v in ds.data_vars if v not in ['lat', 'lon', 'time_bounds']]
            if not var_names:
                print(" Pas de variable principale trouvée.")
                continue

            var_name = var_names[0]
            print(f" Variable détectée : {var_name}")

            # Extraire les données pour la France
            data_subset = ds[var_name].isel(x=slice(xmin, xmax + 1), y=slice(ymin, ymax + 1))
            lat_subset = lat2d.isel(y=slice(ymin, ymax + 1), x=slice(xmin, xmax + 1))
            lon_subset = lon2d.isel(y=slice(ymin, ymax + 1), x=slice(xmin, xmax + 1))

            # Réassigner les coordonnées
            data_subset = data_subset.assign_coords(lat=lat_subset, lon=lon_subset)

            # Sauvegarde dans le dossier 'france_extrait'
            output_path = os.path.join(output_folder, f"{var_name}_FR_{file}")
            data_subset.to_netcdf(output_path)
            print(f" Sauvegardé : {output_path}")

        except Exception as e:
            print(f" Erreur pour {file} : {e}")

#### <span style="color:#6A5ACD;">c. Téléchargement des données du modèle climatique future</span>

Nous appliquons les mêmes configurations de modèles que précédemment, cette fois dans le cadre du scénario **RCP 4.5**

In [None]:
# Le code n'est pas à modifier, **sauf** pour les éléments suivants :
# === Les seules choses à changer sont :
#   - gcm_model    : nom du modèle global ( cnrm_cerfacs_cm5  , ichec_ec_earth  )
#   - rcm_model   :  nom du modèle régional (knmi_racmo22e ,  knmi_racmo22e )
#   - experiment  : nom du scénario (ex : 'rcp_4_5', 'rcp_8_5') 
# A RETENIR le dossier destination folder : le dossier qui va contenir les fichiers netcf du modèle futur
# Tout le reste du code doit rester inchangé.



import cdsapi
import os
import time
import sys

sys.modules["ipywidgets"] = None
destination_folder = "D:/cordex_data/donnees_futures"      # à VOIR
os.makedirs(destination_folder, exist_ok=True)


client = cdsapi.Client()


dataset = "projections-cordex-domains-single-levels"
experiment = "rcp_4_5"                                             # à MODIFIER
gcm_model = "cnrm_cerfacs_cm5"                                    # à MODIFIER                              
rcm_model = "cnrm_aladin63"                                       # à MODIFIER
ensemble_member = "r1i1p1"
horizontal_resolution = "0_11_degree_x_0_11_degree"
temporal_resolution = "daily_mean"


variables = [
    "2m_relative_humidity",
    "10m_wind_speed",
    "maximum_2m_temperature_in_the_last_24_hours",
    "minimum_2m_temperature_in_the_last_24_hours",
    "mean_precipitation_flux",
    "surface_solar_radiation_downwards"
]


periods = [
    ("2006", "2010"), ("2011", "2015"), ("2016", "2020"),
    ("2021", "2025"), ("2026", "2030"), ("2031", "2035"),
    ("2036", "2040"), ("2041", "2045"), ("2046", "2050"),
    ("2051", "2055"), ("2056", "2060"), ("2061", "2065"),
    ("2066", "2070"), ("2071", "2075"), ("2076", "2080"),
    ("2081", "2085"), ("2086", "2090"), ("2091", "2095"),
    ("2096", "2100"),
]


for i, (start_year, end_year) in enumerate(periods):
    filename = f"{destination_folder}/cordex_{experiment}_{gcm_model}_{rcm_model}_{start_year}_{end_year}.zip"
    print(f"\nBloc {i+1}/{len(periods)} : {start_year}-{end_year}")

   
    if os.path.exists(filename) and os.path.getsize(filename) > 0:
        print(f"Déjà téléchargé : {filename}")
        continue

    print("Téléchargement en cours...")

    request = {
        "domain": "europe",
        "experiment": experiment,
        "horizontal_resolution": horizontal_resolution,
        "temporal_resolution": temporal_resolution,
        "variable": variables,
        "gcm_model": gcm_model,
        "rcm_model": rcm_model,
        "ensemble_member": ensemble_member,
        "start_year": [start_year],
        "end_year": [end_year],
        "format": "zip"
    }

    try:
        result = client.retrieve(dataset, request)
        print("Téléchargement terminé. Sauvegarde du fichier...")
        path = result.download(filename)
        print(f"Fichier enregistré : {path}")
        time.sleep(1)
    except Exception as e:
        print(f"Erreur pour {start_year}-{end_year} : {e}")

print("\nTous les blocs RCP 4.5 ont été traités avec succès.")

<h2 style="font-family: 'Alice', serif; color: #2471A3; font-size: 2em; font-weight: 700;">
  Étape 02 : Prétraitement des données
</h2>

> **Remarque**  
> Pour les étapes de prétraitement (notamment l’extraction spatiale et la manipulation de fichiers CORDEX), nous basculerons vers le langage **R**, en utilisant notamment les packages [`eurocordexr`](https://github.com/Swiss-climate-initiative/eurocordexr) et [`nngeo`](https://cran.r-project.org/web/packages/nngeo/index.html).


<h2 style="font-family: 'Alice', serif; color: #2471A3; font-size: 2em; font-weight: 700;">
  Étape 03 : Débiaisage des données
</h2>

<div style="
    background-color: #ffffff;
    padding: 25px 30px;
    border-radius: 10px;
    box-shadow: 2px 2px 8px rgba(0,0,0,0.05);
    font-family: 'Georgia', serif;
    color: #2c2c2c;
">

<p style="font-size:15px; line-height:1.6;">
Cette section réalise une <strong>correction de biais</strong> des projections climatiques à l'aide de deux approches complémentaires :
</p>

<ul style="font-size:15px; line-height:1.6;">
  <li><strong>La méthode CDF-t</strong> (Cumulative Distribution Function transform), appliquée indépendamment à chaque variable.</li>
  <li><strong>La méthode dOTC</strong> (Optimal Transport Correction), appliquée de façon <strong>multivariée</strong>, sur l'ensemble des variables simultanément.</li>
</ul>

<p style="font-size:15px; line-height:1.6;">
L'objectif est de corriger les sorties quotidiennes des modèles climatiques (historiques et futurs) au niveau stationnel, en se basant sur les observations de référence issues de la réanalyse SAFRAN.
</p>

<p style="font-size:15px; line-height:1.6;">
L'analyse concerne <strong>40 stations météorologiques</strong> réparties sur le territoire français. Les variables corrigées sont : les précipitations <code>pr</code>, le vent <code>sfcWind</code>, les températures <code>tasmin</code> et <code>tasmax</code>, l'humidité <code>hurs</code>, le rayonnement <code>rsds</code> et l'évapotranspiration potentielle <code>ETP</code>.
</p>

<p style="font-size:15px; margin-top:10px; line-height:1.6;">
Deux périodes principales sont considérées :
</p>
<ul style="font-size:15px; line-height:1.6;">
  <li><strong>Période historique (1976–2005)</strong> : utilisée pour le calibrage à partir des observations.</li>
  <li><strong>Période future (2006–2100)</strong> : corrigée par une <strong>correction mensuelle</strong> sur des <em>fenêtres glissantes</em> de 30 ans, produisant chacune un noyau central de 10 ans corrigés.</li>
</ul>

<p style="font-size:15px; margin-top:10px; line-height:1.6;">
Pour chaque station, le script :
</p>
<ul style="font-size:15px; line-height:1.6;">
  <li>Charge les données d'observation, historiques et de projection future.</li>
  <li>Applique la <strong>correction CDF-t</strong> (mensuelle, univariée).</li>
  <li>Applique la <strong>correction dOTC</strong> (mensuelle, multivariée).</li>
  <li>Applique un <strong>traitement SSR (Singularity Stochastic Removal)</strong> et une <strong>transformation log-exp</strong> pour la variable <code>pr</code>.</li>
  <li>Génère :
    <ul>
      <li>Un fichier CSV par variable corrigée</li>
      <li>Un fichier CSV fusionné par station contenant toutes les variables corrigées</li>
      <li>Un journal de synthèse des corrections</li>
    </ul>
  </li>
</ul>

<p style="font-size:15px; margin-top:10px; line-height:1.6;">
Le tableau suivant résume les fenêtres glissantes utilisées pour la correction :
</p>

<table style="
    width: 100%;
    border-collapse: collapse;
    text-align: left;
    font-size: 15px;
    border: 1px solid #ddd;
">
  <thead style="background-color: #fdeef4;">
    <tr>
      <th style="padding: 10px; border: 1px solid #ddd;">Fenêtre</th>
      <th style="padding: 10px; border: 1px solid #ddd;">Fenêtre de 30 ans</th>
      <th style="padding: 10px; border: 1px solid #ddd;">Période corrigée</th>
    </tr>
  </thead>
  <tbody>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 1</td><td style="padding: 8px; border: 1px solid #ddd;">2006–2035</td><td style="padding: 8px; border: 1px solid #ddd;">2006–2025</td></tr>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 2</td><td style="padding: 8px; border: 1px solid #ddd;">2016–2045</td><td style="padding: 8px; border: 1px solid #ddd;">2026–2035</td></tr>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 3</td><td style="padding: 8px; border: 1px solid #ddd;">2026–2055</td><td style="padding: 8px; border: 1px solid #ddd;">2036–2045</td></tr>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 4</td><td style="padding: 8px; border: 1px solid #ddd;">2036–2065</td><td style="padding: 8px; border: 1px solid #ddd;">2046–2055</td></tr>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 5</td><td style="padding: 8px; border: 1px solid #ddd;">2046–2075</td><td style="padding: 8px; border: 1px solid #ddd;">2056–2065</td></tr>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 6</td><td style="padding: 8px; border: 1px solid #ddd;">2056–2085</td><td style="padding: 8px; border: 1px solid #ddd;">2066–2075</td></tr>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 7</td><td style="padding: 8px; border: 1px solid #ddd;">2066–2095</td><td style="padding: 8px; border: 1px solid #ddd;">2076–2085</td></tr>
    <tr><td style="padding: 8px; border: 1px solid #ddd;">Fenêtre 8</td><td style="padding: 8px; border: 1px solid #ddd;">2076–2100</td><td style="padding: 8px; border: 1px solid #ddd;">2086–2100</td></tr>
  </tbody>
</table>

</div>

<div style="
    background-color: #ffffff;
    padding: 25px 30px;
    border-radius: 10px;
    box-shadow: 2px 2px 8px rgba(0,0,0,0.05);
    font-family: 'Georgia', serif;
    color: #2c2c2c;
">

<h2 style="color:#c2185b; text-align:center; font-size:24px; margin-top:0;">
   1. Package de débiaisage SBCK
</h2>

<p style="font-size:15px; line-height:1.6;">
Le package <strong>SBCK</strong> (<em>Statistical Bias Correction Kit</em>) est un outil Python open source développé spécifiquement pour la correction de biais dans les projections climatiques.
Il propose différentes méthodes de débiaisage avancées, notamment&nbsp;:
</p>

<ul style="font-size:15px; line-height:1.6;">
  <li><strong>CDF-t</strong> (<em>Cumulative Distribution Function transform</em>) : correction univariée basée sur l’ajustement de la distribution des variables simulées sur celle de référence.</li>
  <li><strong>dOTC</strong> (<em>distributional Optimal Transport Correction</em>) : correction multivariée reposant sur la théorie du transport optimal, permettant de préserver la structure de dépendance entre variables climatiques.</li>
</ul>

<p style="font-size:15px; line-height:1.6;">
SBCK permet d’automatiser les traitements, de comparer les méthodes et de générer facilement des jeux de données corrigés adaptés aux besoins de l’analyse climatique.
</p>

<p style="font-size:15px; line-height:1.6;">
Pour plus d’informations, consulter le dépôt GitHub&nbsp;: 
<a href="https://github.com/yrobink/SBCK" target="_blank">https://github.com/yrobink/SBCK</a>
</p>

</div>


In [None]:
pip install SBCK

<h2 style="
    font-family: Georgia, serif;
    font-size: 24px;
    color: #c2185b;
    margin-top: 40px;
    text-align: center;
">
  1. Méthode CDF-t : Cumulative Distribution Function – Transform
</h2>


<p style="
    font-family: Georgia, serif;
    font-size: 16px;
    text-align: center;
    color: #2c2c2c;
">
  Ce script réalise une correction de biais généralisée pour deux modèles climatiques régionaux : <strong>CERFACS-KNMIRACMO22</strong> et <strong>ECEARTH-KNMIRACMO22</strong>, selon le scénario <em>RCP4.5</em>.  
  Il applique la méthode <strong>CDF-t</strong> de manière automatique sur toutes les stations disponibles, avec un traitement identique pour chaque modèle.
</p>

In [None]:
# ============================
# PARAMÉTRAGE DES RÉPERTOIRES
# ============================
# - 'base' : chemin vers le dossier principal contenant les données extraites (c'est_à-dire le dossier des fichiers csv après le pré-traitement des données avec R).
# - 'models' : liste des modèles climatiques à traiter.
#   (ex : ["CERFACS-KNMIRACMO22", "ECEARTH-KNMIRACMO22"])
# 
#  Adapter le chemin 'base' si besoin (par défaut : "D:/cordex_data/projet_climat/extracted_csv")
# à Modifier : Non de repertoire base , et  out_dir 


# Répertoires
base = "D:/cordex_data/projet_climat/extracted_csv"  
# Chemin vers le dossier principal contenant tous les fichiers CSV extraits après traitement avec "eurocordexr".

models = ["CERFACS-KNMIRACMO22", "ECEARTH-KNMIRACMO22"]  
# Liste des sous-dossiers dans 'extracted_csv', chaque sous-dossier correspondant à un modèle climatique.
# Exemple : le dossier 'extracted_csv' est divisé en deux sous-dossiers, un par modèle.


# le coode est inchangé 


import os
import numpy as np
import pandas as pd
from SBCK import CDFt             # Méthode de correction univariée CDF-t du package SBCK
from tqdm import tqdm             # Barre de progression

np.random.seed(42)                # Fixer la graine aléatoire pour la reproductibilité



# Variables à traiter
variables_info = {
    "pr": {"obs_col": "pr", "hist_col": "pr", "rcp_col": "pr", "ssr": True},                     # précipitations (avec SSR)
    "sfcWind": {"obs_col": "sfcWind", "hist_col": "sfcWind", "rcp_col": "sfcWind", "ssr": False},
    "etpFAO": {"obs_col": "etp", "hist_col": "etp", "rcp_col": "etp", "ssr": False},
    "rsds": {"obs_col": "rsds", "hist_col": "rsds", "rcp_col": "rsds", "ssr": False},
    "hurs": {"obs_col": "hurs", "hist_col": "hurs", "rcp_col": "hurs", "ssr": False},
    "tasmin": {"obs_col": "tasmin", "hist_col": "tasmin", "rcp_col": "tasmin", "ssr": False},
    "tasmax": {"obs_col": "tasmax", "hist_col": "tasmax", "rcp_col": "tasmax", "ssr": False},
}
# Transformations log-exp utilisées pour le traitement SSR (pour la variable = pr)
def log1x(x): return np.where(x >= 1, x - 1, np.where((x > 0) & (x < 1), np.log(x), 0))
def exp1x(x): return np.where(x < 0, np.exp(x), x + 1)

# Fonction SSR : remplace les zéros par de petites valeurs aléatoires dans l’intervalle ]0, th[
def apply_ssr_precipitations_fixed_th(data_model, th):
    """
    Applique une transformation SSR (Remplacement Stochastique de petites valeurs) à une série temporelle de précipitations.

    Objectif :
        Remplacer les valeurs nulles par de très petites valeurs aléatoires strictement positives,
        tirées d’une distribution uniforme dans l’intervalle ]1e-6, th[.
        Cela permet d’éviter les problèmes liés à la transformation logarithmique,
        puisque log(0) est indéfini.

    Paramètres :
        data_model (array-like) : tableau numpy contenant les données de précipitation.
        th (float) : seuil positif fixe, généralement défini comme le minimum de toutes les valeurs strictement positives
                     dans les données du modèle et les observations de référence.

    Retour :
        data_corr (np.ndarray) : tableau corrigé dans lequel toutes les valeurs nulles ont été remplacées par des valeurs aléatoires.
    """
    data_corr = data_model.copy()               # Copier la série pour ne pas modifier les données d'origine
    zero_idx = np.where(data_corr == 0)[0]      # Identifier les indices où la valeur est zéro (précipitations nulles)
    if len(zero_idx) > 0:                       # Vérifier s’il y a des zéros ; si oui, appliquer le SSR
        random_values = np.random.uniform(low=1e-6, high=th, size=len(zero_idx))    
        # np.random.uniform(low, high, size) :
        # - low : borne inférieure (incluse)
        # - high : borne supérieure (exclue)
        # - size : nombre de valeurs aléatoires à générer
        data_corr[zero_idx] = random_values    # Remplacer tous les zéros par les valeurs aléatoires générées
    
    return data_corr

# Fenêtres glissantes
# Définition des fenêtres glissantes (30 ans, noyau central de 10 ans)
windows = [
    (2006, 2035, 2006, 2025),
    (2016, 2045, 2026, 2035),
    (2026, 2055, 2036, 2045),
    (2036, 2065, 2046, 2055),
    (2046, 2075, 2056, 2065),
    (2056, 2085, 2066, 2075),
    (2066, 2095, 2076, 2085),
    (2076, 2100, 2086, 2100),
]


# Boucle sur les deux modèles climatiques à traiter (ex. : CERFACS-KNMIRACMO22, ECEARTH-KNMIRACMO22)
for model in models:
    # Définition des chemins vers les fichiers historiques, futurs et observations SAFRAN    
    hist_dir = os.path.join(base, "stations_hist", model)   # Données historiques du modèle
    fut_dir = os.path.join(base, "stations_fut", model)     # Données futures (RCP4.5) du modèle
    obs_dir = os.path.join(base, "stations_SAFRAN")         # Données d'observation SAFRAN
    out_dir = os.path.join("D:/cordex_data/projet_climat/debiaised", f"{model}-CDFT")     # Dossier de sortie      # à VOIR
    os.makedirs(out_dir, exist_ok=True)                                                   # Créer le dossier s'il n'existe pas
 
    print(f"\n=== Traitement du modèle : {model} ===")
    log_list = []          # Liste pour enregistrer les logs (succès ou erreurs)
    
    # Boucle sur chaque station du modèle
    for hist_file in tqdm(os.listdir(hist_dir)):
        # Ignorer les fichiers qui ne sont pas du type "-hist.csv"
        if not hist_file.endswith("-hist.csv"):
            continue
        # Extraction du nom de la station à partir du nom de fichier
        station = hist_file.split(f"-{model}-hist.csv")[0]
        # Construction des chemins vers les fichiers de la station
        hist_path = os.path.join(hist_dir, hist_file)
        rcp_path = os.path.join(fut_dir, f"{station}-{model}-rcp45.csv")
        obs_path = os.path.join(obs_dir, f"{station}_SafranDrias.csv")

        # Vérification de l’existence des fichiers RCP et SAFRAN
        if not os.path.exists(rcp_path):
            log_list.append((station, "ERROR", f"Fichier RCP manquant : {rcp_path}"))
            continue
        if not os.path.exists(obs_path):
            log_list.append((station, "ERROR", f"Fichier obs SAFRAN manquant : {obs_path}"))
            continue

        try:
            # Chargement des fichiers CSV
            hist = pd.read_csv(hist_path, sep=";")
            rcp = pd.read_csv(rcp_path, sep=";")
            obs = pd.read_csv(obs_path, sep=";")

            # Conversion des colonnes "date" en format datetime
            for df in [hist, rcp, obs]:
                df["date"] = pd.to_datetime(df["date"], errors="coerce")
            # Sélection des périodes  
            Y0_base = obs[(obs["date"] >= "1976-01-01") & (obs["date"] <= "2005-12-31")].copy()   # observations de référence
            X0_base = hist[(hist["date"] >= "1976-01-01") & (hist["date"] <= "2005-12-31")].copy() # modèle historique
            X1_base = rcp[rcp["date"] > "2005-12-31"].copy()      # projections futures

            results_all_vars = {}       # Dictionnaire final des résultats corrigés pour chaque variable
            
            # Boucle sur les variables climatiques à corriger
            for var, info in variables_info.items():
                resultats_Z0 = Y0_base[["date"]].copy()      # Préparation des résultats historiques corrigés
                resultats_Z0[f"{var}_corr"] = np.nan
                results_all = {}                             # Résultats pour toutes les fenêtres glissantes
                
                # Traitement spécifique pour les précipitations (SSR + log-exp)
                if info["ssr"]:
                    all_pos_values = np.concatenate([
                        X0_base[info["hist_col"]][X0_base[info["hist_col"]] > 0],   # valeurs > 0 dans les données historiques
                        X1_base[info["rcp_col"]][X1_base[info["rcp_col"]] > 0],     # valeurs > 0 dans les projections futures
                        Y0_base[info["obs_col"]][Y0_base[info["obs_col"]] > 0],     # valeurs > 0 dans les observations
                    ])
                    th_global = all_pos_values.min()    # Seuil SSR : défini comme la plus petite valeur strictement positive parmi les données du modèle et les observations
                    
                    # Application de la transformation SSR sur les données
                    X0_base[info["hist_col"]] = apply_ssr_precipitations_fixed_th(X0_base[info["hist_col"]].values, th_global) 
                    Y0_base[info["obs_col"]] = apply_ssr_precipitations_fixed_th(Y0_base[info["obs_col"]].values, th_global)
                    X1_base[info["rcp_col"]] = apply_ssr_precipitations_fixed_th(X1_base[info["rcp_col"]].values, th_global)
                    
                # Correction de biais mensuelle par CDF-t avec fenêtres glissantes
                for full_start, full_end, corr_start, corr_end in windows:
                    X1_full = X1_base[(X1_base["date"] >= f"{full_start}-01-01") & (X1_base["date"] <= f"{full_end}-12-31")]  # Extraire la fenêtre complète de 30 ans de projections futures (X1) utilisée pour la correction de biais
                    X1_corr = X1_full[(X1_full["date"] >= f"{corr_start}-01-01") & (X1_full["date"] <= f"{corr_end}-12-31")]  # Extraire la sous-période centrale (X1_corr) à l’intérieur de cette fenêtre, sur laquelle la correction sera effectivement appliquée
                    if X1_corr.empty:
                        print(" Aucune donnée pour cette fenêtre.")     # Optionnel : vérifier que la fenêtre contient bien des données avant de continuer :)
                        continue

                    resultats = X1_corr[["date"]].copy()   # Créer un DataFrame contenant uniquement la colonne "date" pour la période future à corriger
                    resultats[f"{var}_corr"] = np.nan     # Ajouter une nouvelle colonne (ex. : "pr_corr") remplie de valeurs manquantes (NaN) comme emplacement réservé

                    for m in range(1, 13):  # Pour chaque mois de janvier à décembre
                        y0_data = Y0_base[Y0_base["date"].dt.month == m][info["obs_col"]].values  # Données observées (SAFRAN), corrigées par SSR, pour le mois m
                        x0_data = X0_base[X0_base["date"].dt.month == m][info["hist_col"]].values # Données du modèle historique, corrigées par SSR, pour le mois m
                        x1_data = X1_corr[X1_corr["date"].dt.month == m][info["rcp_col"]].values  # Données du modèle futur (RCP), corrigées par SSR, pour le mois m
                        
                        # Traitement spécifique pour les précipitations (SSR + log-exp)
                        if info["ssr"]:  # Si le SSR est activé, c’est-à-dire que la variable est la précipitation ("pr")
                         # Appliquer la transformation log1x à y0_data, x0_data et x1_data
                         # Ensuite, remodeler les tableaux 1D en matrices 2D (N lignes, 1 colonne)
                         # Ce format est requis par des méthodes statistiques comme CDF-t, qui attendent des entrées en 2D
                            y0, x0, x1 = log1x(y0_data).reshape(-1, 1), log1x(x0_data).reshape(-1, 1), log1x(x1_data).reshape(-1, 1)     # -1 permet à NumPy de déterminer automatiquement le nombre de lignes ; 1 fixe le nombre de colonnes (une seule variable)
                            cdft = CDFt()                   # Initialisation du modèle CDF-t
                            cdft.fit(y0, x0, x1)
                            Z1, Z0 = cdft.predict(x1, x0)   # Z1 corresponds to the bias-corrected future data, Z0 corresponds to the bias-corrected historical data
                            Z_corr, Z_corr_hist = exp1x(Z1.flatten()), exp1x(Z0.flatten()) # Apply the inverse transformation (exp1x) to the corrected future data (same for historical data)
                            Z_corr[Z_corr < th_global] = 0       # Reset corrected future values below the global SSR threshold back to zero
                            Z_corr_hist[Z_corr_hist < th_global] = 0  # Same reset applied to corrected historical values below the SSR threshold
                        else:  # for all variables expect precipitation
                            y0, x0, x1 = y0_data.reshape(-1, 1), x0_data.reshape(-1, 1), x1_data.reshape(-1, 1)
                            cdft = CDFt()
                            cdft.fit(y0, x0, x1)
                            Z1, Z0 = cdft.predict(x1, x0)
                            Z_corr, Z_corr_hist = Z1.flatten(), Z0.flatten()

                        mask_x1 = X1_corr["date"].dt.month == m # Masque pour sélectionner les dates du mois m dans les données futures corrigées
                        mask_y0 = Y0_base["date"].dt.month == m # Masque pour sélectionner les dates du mois m dans les observations historiques
                        resultats.loc[mask_x1, f"{var}_corr"] = np.round(Z_corr[:mask_x1.sum()], 1)  # Insérer les valeurs corrigées futures (Z_corr), arrondies à 0.1, dans le DataFrame des résultats futurs
                        resultats_Z0.loc[mask_y0, f"{var}_corr"] = np.round(Z_corr_hist[:mask_y0.sum()], 1) # Insérer les valeurs corrigées historiques (Z_corr_hist), arrondies à 0.1, dans le DataFrame des résultats historiques

                    results_all[f"{corr_start}_{corr_end}"] = resultats # Sauvegarder les résultats de la période corrigée (ex. : "2006_2025") dans le dictionnaire des fenêtres glissantes

                results_all["historique_corrige"] = resultats_Z0   # Ajouter les résultats corrigés sur la période historique dans le dictionnaire des résultats (clé spéciale : "historique_corrige")
                # Concaténer tous les résultats (fenêtres glissantes + historique corrigé) en un seul DataFrame
                # Réinitialiser les index et trier les lignes par date
                final_var = pd.concat(results_all.values(), ignore_index=True).sort_values("date")
                
                # Appliquer des contraintes physiques
                if 'hurs_corr' in final_var.columns:
                    final_var.loc[final_var['hurs_corr'] > 100, 'hurs_corr'] = 100   # L’humidité relative (hurs) ne peut pas dépasser 100 %, on tronque à 100 si besoin
                for v in ['rsds_corr', 'etpFAO_corr', 'sfcWind_corr', 'hurs_corr']:
                    if v in final_var.columns:
                        final_var.loc[final_var[v] < 0, v] = 0

                results_all_vars[var] = final_var

            df_final = pd.DataFrame({"date": pd.date_range("1976-01-01", "2100-12-31", freq="D")})
            for var, df_var in results_all_vars.items():
                df_final = df_final.merge(df_var[["date", f"{var}_corr"]], on="date", how="left")
                
            # id = id DRIAS,  grid lon : obs and grid lat : Obs 
            id_station = obs.get("id", [None])[0]
            nom_station = obs.get("nom", [station])[0]
            grid_lon = obs.get("grid_lon", [None])[0]
            grid_lat = obs.get("grid_lat", [None])[0]

            df_final.insert(0, "id", id_station)
            df_final.insert(1, "nom", nom_station)
            df_final.insert(2, "grid_lon", grid_lon)
            df_final.insert(3, "grid_lat", grid_lat)

            df_final.to_csv(f"{out_dir}/CDFT_all_vars_{station}_{model}_rcp45_1976_2100.csv", sep=";", index=False)
            log_list.append((station, "OK", ""))

        except Exception as e:
            log_list.append((station, "ERROR", str(e)))

    pd.DataFrame(log_list, columns=["station", "status", "message"]).to_csv(
        os.path.join(out_dir, "cdf_correction_log.csv"), sep=";", index=False
    )

<h2 style="
    font-family: Georgia, serif;
    font-size: 24px;
    color: #c2185b;
    margin-top: 40px;
    text-align: center;
">
  2. Méthode dOTC : dynamical Optimal Transport Correction
</h2>

<p style="
    font-family: Georgia, serif;
    font-size: 16px;
    text-align: center;
    color: #2c2c2c;
">
  Ce script réalise une correction de biais généralisée pour deux modèles climatiques régionaux : <strong>CERFACS-KNMIRACMO22</strong> et <strong>ECEARTH-KNMIRACMO22</strong>, selon le scénario <em>RCP4.5</em>.  
  Il applique la méthode <strong>dOTC</strong> de manière automatique sur toutes les stations disponibles, avec un traitement identique pour chaque modèle.
</p>


In [None]:
import os
import numpy as np
import pandas as pd
from SBCK import dOTC
from tqdm import tqdm

np.random.seed(42)

variables_info = {
    "pr": {"obs_col": "pr", "hist_col": "pr", "rcp_col": "pr", "ssr": True},
    "sfcWind": {"obs_col": "sfcWind", "hist_col": "sfcWind", "rcp_col": "sfcWind", "ssr": False},
    "etp": {"obs_col": "etp", "hist_col": "etp", "rcp_col": "etp", "ssr": False},
    "rsds": {"obs_col": "rsds", "hist_col": "rsds", "rcp_col": "rsds", "ssr": False},
    "hurs": {"obs_col": "hurs", "hist_col": "hurs", "rcp_col": "hurs", "ssr": False},
    "tasmin": {"obs_col": "tasmin", "hist_col": "tasmin", "rcp_col": "tasmin", "ssr": False},
    "tasmax": {"obs_col": "tasmax", "hist_col": "tasmax", "rcp_col": "tasmax", "ssr": False},
}

vars = list(variables_info.keys())
vars_non_negatives = ["sfcWind", "etp", "rsds", "hurs"]
models = ["CERFACS-KNMIRACMO22", "ECEARTH-KNMIRACMO22"]

def apply_ssr_precipitations_fixed_th(data_model, th):
    data_corr = data_model.copy()
    zero_idx = np.where(data_corr == 0)[0]
    if len(zero_idx) > 0:
        random_values = np.random.uniform(low=1e-6, high=th, size=len(zero_idx))
        data_corr[zero_idx] = random_values
    return data_corr

def log1x(x): return np.where(x >= 1, x - 1, np.where((x > 0) & (x < 1), np.log(x), 0))
def exp1x(x): return np.where(x < 0, np.exp(x), x + 1)

windows = [
    (2006, 2035, 2006, 2025), (2016, 2045, 2026, 2035),
    (2026, 2055, 2036, 2045), (2036, 2065, 2046, 2055),
    (2046, 2075, 2056, 2065), (2056, 2085, 2066, 2075),
    (2066, 2095, 2076, 2085), (2076, 2100, 2086, 2100)
]

base = "D:/cordex_data/projet_climat/extracted_csv"
out_root = "D:/cordex_data/projet_climat/debiaised"

for model in models:
    print(f"\n=== Traitement du modèle : {model} ===")
    hist_dir = os.path.join(base, "stations_hist", model)
    rcp_dir = os.path.join(base, "stations_fut", model)
    obs_dir = os.path.join(base, "stations_SAFRAN")
    out_dir = os.path.join(out_root, f"{model}-dOTC")
    os.makedirs(out_dir, exist_ok=True)

    log_list = []
    for hist_file in tqdm(os.listdir(hist_dir)):
        if not hist_file.endswith("-hist.csv"):
            continue
        station = hist_file.replace(f"-{model}-hist.csv", "")
        hist_path = os.path.join(hist_dir, hist_file)
        rcp_path = os.path.join(rcp_dir, f"{station}-{model}-rcp45.csv")
        obs_path = os.path.join(obs_dir, f"{station}_SafranDrias.csv")

        if not (os.path.exists(hist_path) and os.path.exists(rcp_path) and os.path.exists(obs_path)):
            log_list.append((station, "ERROR", "Fichiers manquants"))
            continue

        try:
            obs = pd.read_csv(obs_path, sep=";", parse_dates=["date"])
            hist = pd.read_csv(hist_path, sep=";", parse_dates=["date"], dayfirst=True)
            rcp = pd.read_csv(rcp_path, sep=";", parse_dates=["date"], dayfirst=True)
            for df in [obs, hist, rcp]:
                df["date"] = pd.to_datetime(df["date"], errors="coerce")

            Y0 = obs[(obs["date"] >= "1976-01-01") & (obs["date"] <= "2005-12-31")].copy()
            X0 = hist[(hist["date"] >= "1976-01-01") & (hist["date"] <= "2005-12-31")].copy()
            X1 = rcp[rcp["date"] > "2005-12-31"].copy()

            resultats_Z0 = pd.DataFrame({"date": Y0["date"]})
            resultats = pd.DataFrame({"date": X1["date"]})
            results_all = {}

            for full_start, full_end, corr_start, corr_end in windows:
                X1_full = X1[(X1["date"] >= f"{full_start}-01-01") & (X1["date"] <= f"{full_end}-12-31")].copy()
                X1_corr = X1_full[(X1_full["date"] >= f"{corr_start}-01-01") & (X1_full["date"] <= f"{corr_end}-12-31")].copy()

                resultats_window = pd.DataFrame({"date": X1_corr["date"]})

                for var in vars:
                    resultats_window[f"{var}_corr"] = np.nan
                    resultats_Z0[f"{var}_corr"] = np.nan

                for m in range(1, 13):
                    y0_mois = Y0[Y0["date"].dt.month == m][vars].copy()
                    x0_mois = X0[X0["date"].dt.month == m][vars].copy()
                    x1_mois = X1_full[X1_full["date"].dt.month == m][vars + ["date"]].copy()
                    x1_corr_mois = X1_corr[X1_corr["date"].dt.month == m][vars + ["date"]].copy()

                    if len(x1_corr_mois) == 0:
                        continue

                    if "pr" in vars:
                        all_pos_pr = np.concatenate([
                            x0_mois["pr"][x0_mois["pr"] > 0],
                            y0_mois["pr"][y0_mois["pr"] > 0],
                            x1_mois["pr"][x1_mois["pr"] > 0]
                        ])
                        th_global = max(np.min(all_pos_pr), 1e-6)
                        y0_mois["pr"] = log1x(apply_ssr_precipitations_fixed_th(y0_mois["pr"].values, th_global))
                        x0_mois["pr"] = log1x(apply_ssr_precipitations_fixed_th(x0_mois["pr"].values, th_global))
                        x1_mois["pr"] = log1x(apply_ssr_precipitations_fixed_th(x1_mois["pr"].values, th_global))

                    model_d = dOTC()
                    model_d.fit(y0_mois.values, x0_mois.values, x1_corr_mois[vars].values)
                    Z_corr, Z_corr_hist = model_d.predict(x1_corr_mois[vars].values, x0_mois.values)

                    for j, var in enumerate(vars):
                        mask_x1 = x1_corr_mois["date"].dt.month == m
                        mask_y0 = Y0[Y0["date"].dt.month == m].index

                        z_corr_hist = Z_corr_hist[:, j]
                        z_corr = Z_corr[:, j]

                        if var == "pr":
                            z_corr = exp1x(z_corr)
                            z_corr_hist = exp1x(z_corr_hist)
                            z_corr[z_corr < th_global] = 0
                            z_corr_hist[z_corr_hist < th_global] = 0

                        if var in vars_non_negatives:
                            z_corr[z_corr < 0] = 0
                            z_corr_hist[z_corr_hist < 0] = 0
                        if var == "hurs":
                            z_corr[z_corr > 100] = 100
                            z_corr_hist[z_corr_hist > 100] = 100

                        resultats_window.loc[x1_corr_mois.index, f"{var}_corr"] = np.round(z_corr, 1)
                        resultats_Z0.loc[mask_y0, f"{var}_corr"] = np.round(z_corr_hist[:len(mask_y0)], 1)

                results_all[f"{corr_start}_{corr_end}"] = resultats_window

            results_all["historique_corrige"] = resultats_Z0

            df_final = pd.DataFrame({"date": pd.date_range("1976-01-01", "2100-12-31", freq="D")})
            for var in vars:
                # Exclure explicitement la clé "historique_corrige" pour éviter de doubler
                temp_values = [df for k, df in results_all.items() if k != "historique_corrige"]
                df_all = pd.concat([results_all["historique_corrige"], *temp_values], ignore_index=True)
                df_var = df_all[["date", f"{var}_corr"]].dropna().drop_duplicates("date").sort_values("date")
                df_final = df_final.merge(df_var, on="date", how="left")

            id_station = obs.get("id", [None])[0] if "id" in obs.columns else station
            nom_station = obs.get("nom", [station])[0] if "nom" in obs.columns else station
            grid_lon = obs.get("grid_lon", [None])[0] if "grid_lon" in obs.columns else None
            grid_lat = obs.get("grid_lat", [None])[0] if "grid_lat" in obs.columns else None

            df_final.insert(0, "id", id_station)
            df_final.insert(1, "nom", nom_station)
            df_final.insert(2, "grid_lon", grid_lon)
            df_final.insert(3, "grid_lat", grid_lat)

            out_file = os.path.join(out_dir, f"dOTC_all_vars_{station}_{model}_rcp45_1976_2100.csv")
            df_final.to_csv(out_file, sep=";", index=False)
            log_list.append((station, "OK", ""))

        except Exception as e:
            log_list.append((station, "ERROR", str(e)))

    pd.DataFrame(log_list, columns=["station", "status", "message"]).to_csv(
        os.path.join(out_dir, "dOTC_log.csv"), sep=";", index=False
    )