# Analyse des Tendances Climatiques en France : √âvolution des Variables M√©t√©orologiques de 1950 √† 2023

L'analyse pr√©sent√©e dans ce notebook se concentre sur l'exploration des donn√©es m√©t√©orologiques quotidiennes collect√©es par M√©t√©o France entre 1950 et 2023. Les donn√©es proviennent du fichier `Q_64_previous-1950-2023_RR-T-Vent.csv.gz`, disponible √† l'adresse https://object.files.data.gouv.fr/meteofrance/data/synchro_ftp/BASE/QUOT/Q_64_previous-1950-2023_RR-T-Vent.csv.gz. Ce fichier contient des informations d√©taill√©es sur les conditions m√©t√©orologiques quotidiennes enregistr√©es dans divers postes m√©t√©orologiques en France, notamment les pr√©cipitations, les temp√©ratures minimales et maximales, ainsi que d'autres variables.

L'objectif principal de cette analyse est de calculer la somme cumul√©e des moyennes journali√®res de certaines variables m√©t√©orologiques cl√©s (pr√©cipitations, temp√©ratures moyennes, maximales et minimales) pour chaque ann√©e, en se concentrant sur la valeur de fin d'ann√©e pour chaque variable. Cela permettra d'√©tudier l'√©volution de ces variables sur le temps et d'identifier d'√©ventuelles tendances climatiques.


## M√©thodologie

La m√©thodologie employ√©e dans cette analyse repose sur l'utilisation de DuckDB pour traiter et analyser les donn√©es m√©t√©orologiques. La premi√®re √©tape consiste √† charger les donn√©es et √† calculer les moyennes journali√®res pour les variables d'int√©r√™t. Ensuite, une somme cumul√©e de ces moyennes est calcul√©e pour chaque ann√©e. Les r√©sultats sont finalement filtr√©s pour ne conserver que la valeur de fin d'ann√©e pour chaque variable, permettant ainsi d'√©tudier leur √©volution annuelle. Les donn√©es r√©sultantes sont ensuite visualis√©es √† l'aide de Matplotlib et Seaborn pour mettre en √©vidence les tendances observ√©es.


 
Les d√©tails de la requ√™te SQL utilis√©e pour l'analyse sont cruciaux pour comprendre les √©tapes de traitement. La requ√™te commence par calculer les moyennes journali√®res pour les variables m√©t√©orologiques, puis proc√®de au calcul de la somme cumul√©e de ces moyennes pour chaque ann√©e. Finalement, seules les valeurs de fin d'ann√©e sont conserv√©es pour chaque variable.


Une visualisation soign√©e est propos√©e pour illustrer les r√©sultats de l'analyse. Les courbes de tendance pour les cumuls annuels de pr√©cipitations, temp√©ratures moyennes, maximales et minimales sont trac√©es, avec un lissage sur 10 ans pour mettre en √©vidence les tendances √† long terme. Les visualisations sont r√©alis√©es avec soin pour offrir une repr√©sentation claire et informative des donn√©es.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [2]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://object.files.data.gouv.fr/meteofrance/data/synchro_ftp/BASE/QUOT/Q_64_previous-1950-2023_RR-T-Vent.csv.gz", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

‚úÖ Donn√©es charg√©es avec succ√®s


## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [3]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH daily_avg AS (
  SELECT 
    CAST(SUBSTRING("AAAAMMJJ", 1, 4) AS INTEGER) AS annee,
    CAST(SUBSTRING("AAAAMMJJ", 5, 2) AS INTEGER) AS mois,
    CAST(SUBSTRING("AAAAMMJJ", 7, 2) AS INTEGER) AS jour,
    AVG(CAST("RR" AS DOUBLE)) AS avg_rr,
    AVG(CAST("TM" AS DOUBLE)) AS avg_tm,
    AVG(CAST("TX" AS DOUBLE)) AS avg_tx,
    AVG(CAST("TN" AS DOUBLE)) AS avg_tn
  FROM 
    loaded_dataset
  GROUP BY 
    annee, mois, jour
),
cum_sum AS (
  SELECT 
    annee,
    jour_de_annee,
    SUM(avg_rr) OVER (PARTITION BY annee ORDER BY jour_de_annee) AS cum_rr,
    SUM(avg_tm) OVER (PARTITION BY annee ORDER BY jour_de_annee) AS cum_tm,
    SUM(avg_tx) OVER (PARTITION BY annee ORDER BY jour_de_annee) AS cum_tx,
    SUM(avg_tn) OVER (PARTITION BY annee ORDER BY jour_de_annee) AS cum_tn
  FROM (
    SELECT 
      annee,
      (mois - 1) * 30 + jour AS jour_de_annee,
      avg_rr,
      avg_tm,
      avg_tx,
      avg_tn
    FROM 
      daily_avg
  ) AS subquery
)
SELECT 
  annee,
  cum_rr AS cum_rr_end_year,
  cum_tm AS cum_tm_end_year,
  cum_tx AS cum_tx_end_year,
  cum_tn AS cum_tn_end_year
FROM 
  cum_sum
WHERE 
  jour_de_annee = (SELECT MAX(jour_de_annee) FROM cum_sum AS cs WHERE cs.annee = cum_sum.annee)
ORDER BY 
  annee """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

R√©sultats : 74 lignes


Unnamed: 0,annee,cum_rr_end_year,cum_tm_end_year,cum_tx_end_year,cum_tn_end_year
0,1950,1354.693791,4973.35,6319.083333,2722.3
1,1951,1537.841796,4766.5,5870.35,2546.475
2,1952,1583.263803,4852.2,6059.233333,2542.516667
3,1953,915.175,4638.45,6016.91,2443.906667
4,1954,1498.891898,4490.85,5693.094048,2441.085119


## üìà Visualisation

La biblioth√®que principale utilis√©e pour cette visualisation est Seaborn, une extension de Matplotlib, qui permet de cr√©er des graphiques statistiques attractifs et informatifs. Ce choix est adapt√© car Seaborn offre une grande flexibilit√© pour personnaliser les visualisations et Matplotlib fournit une base solide pour les repr√©sentations graphiques. Cela permet une repr√©sentation claire et concise de l'√©volution des composantes m√©t√©orologiques cumul√©es par ann√©e.

In [4]:
import pandas as pd
import duckdb as ddb
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import StrMethodFormatter

palette = {
    "cum_rr_end_year": "#add8e6",   # light blue : pluie
    "cum_tm_end_year": "#ffd700",   # gold       : temp√©rature moyenne
    "cum_tx_end_year": "#ff4500",   # orangered  : temp√©rature max
    "cum_tn_end_year": "#4682b4"    # steelblue  : temp√©rature min
}

# Lissage sur 10 ans (fen√™tre glissante centr√©e, dropna pour nettoyer)
window = 10
df_plot = df.copy()
for col in ["cum_rr_end_year", "cum_tm_end_year", "cum_tx_end_year", "cum_tn_end_year"]:
    df_plot[f"{col}_smooth"] = df_plot[col].rolling(window, center=True).mean()

df_plot = df_plot.dropna(subset=[f"{col}_smooth" for col in palette.keys()])

sns.set_theme(style="whitegrid")
plt.rcParams.update({
    "font.family": "DejaVu Sans",
    "font.size": 11,
})
fig, axes = plt.subplots(2, 2, figsize=(16, 10))
axes = axes.flatten()

labels = {
    "cum_rr_end_year": "Cumul pr√©cipitations (mm)",
    "cum_tm_end_year": "Cumul T moyenne (¬∞C)",
    "cum_tx_end_year": "Cumul T max (¬∞C)",
    "cum_tn_end_year": "Cumul T min (¬∞C)",
}

for idx, col in enumerate(palette.keys()):
    ax = axes[idx]
    ax.plot(
        df_plot["annee"],
        df_plot[col],
        color=palette[col],
        linewidth=1.5,
        alpha=0.7,
        label="Donn√©es brutes (rouge clair)",
    )
    ax.plot(
        df_plot["annee"],
        df_plot[f"{col}_smooth"],
        color="blue",
        linewidth=2.5,
        label="Courbe liss√©e (10 ans)",
    )
    ax.set_title(labels[col], fontsize=14, weight="bold")
    ax.set_xlabel("Ann√©e")
    ax.set_ylabel("Valeur cumul√©e")
    ax.legend(frameon=False)
    ax.yaxis.set_major_formatter(StrMethodFormatter("{x:,.0f}"))
    sns.despine(ax=ax)

plt.suptitle("√âvolution des composantes m√©t√©orologiques cumul√©es par ann√©e", fontsize=16)
fig.tight_layout(rect=[0, 0.03, 1, 0.97])
dataviz = fig
dataviz

ModuleNotFoundError: No module named 'seaborn'

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*

In [5]:

# --- Variables inject√©es par le script ---
FINAL_OBJECT_VARIABLE_NAME = 'dataviz'
OUTPUT_IMAGE_NAME = 'published\\notebooks\\duckit_analysis_20250820_223026.png'
OUTPUT_HTML_NAME = 'published\\notebooks\\duckit_analysis_20250820_223026.html'

# ===================================================================
# CELLULE INJECT√âE AUTOMATIQUEMENT (VERSION ROBUSTE)
# ===================================================================
import sys
import os
# On importe les modules n√©cessaires pour l'export au cas o√π
try:
    from bokeh.io import save as bokeh_save
except ImportError:
    bokeh_save = None

try:
    # On s'assure que le dossier de sortie existe
    output_dir = os.path.dirname(OUTPUT_IMAGE_NAME)
    if output_dir:
        os.makedirs(output_dir, exist_ok=True)

    # On utilise globals().get() pour une r√©cup√©ration plus s√ªre
    final_object = globals().get(FINAL_OBJECT_VARIABLE_NAME)

    if final_object is None:
        # On l√®ve une NameError pour √™tre coh√©rent avec le code original
        raise NameError(f"name '{FINAL_OBJECT_VARIABLE_NAME}' is not defined")

    print(f"INFO: Variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e. Tentative d'exportation...")

    object_type = str(type(final_object))

    if 'plotly.graph_objs._figure.Figure' in object_type:
        print(f"--> D√©tect√© : Plotly. Sauvegarde HTML et PNG.")
        # 1. Sauvegarde HTML pour l'interactivit√©
        print(f"--> Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.write_html(OUTPUT_HTML_NAME, include_plotlyjs='cdn')
        # 2. Sauvegarde PNG pour l'aper√ßu statique
        try:
            print(f"--> Tentative de sauvegarde PNG directe dans : {OUTPUT_IMAGE_NAME}")
            final_object.write_image(OUTPUT_IMAGE_NAME, scale=3, width=1200, height=800)
            print(f"--> Image Plotly sauvegard√©e avec succ√®s.")
        except Exception as e:
            print(f"AVERTISSEMENT: La sauvegarde directe en PNG a √©chou√© (kaleido est-il install√©?).", file=sys.stderr)
            print(f"   Erreur: {e}", file=sys.stderr)
            print(f"--> PLAN B: On va utiliser la capture d'√©cran du HTML √† la place.")
            # On cr√©e un fichier marqueur pour que le script de post-traitement prenne le relais
            with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
                f.write("plotly")
    elif 'folium.folium.Map' in object_type:
        print(f"--> D√©tect√© : Folium. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("folium")
    elif 'altair.vegalite' in object_type and hasattr(final_object, 'save'):
        print(f"--> D√©tect√© : Altair. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("altair")
    elif 'bokeh.plotting' in object_type and bokeh_save is not None:
        print(f"--> D√©tect√© : Bokeh. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        bokeh_save(final_object, filename=OUTPUT_HTML_NAME, title="")
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("bokeh")
    elif 'matplotlib.figure.Figure' in object_type:
        print(f"--> D√©tect√© : Matplotlib. Sauvegarde dans : {OUTPUT_IMAGE_NAME}")
        final_object.savefig(OUTPUT_IMAGE_NAME, dpi=300, bbox_inches='tight')
    else:
        print(f"AVERTISSEMENT: Type non support√© : {object_type}", file=sys.stderr)
except NameError:
    print(f"AVERTISSEMENT: Aucune variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e.", file=sys.stderr)
except Exception as e:
    print(f"ERREUR lors de l'exportation : {e}", file=sys.stderr)


AVERTISSEMENT: Aucune variable 'dataviz' trouv√©e.
