# Analyse des Pr√©cipitations Annuelles Cumul√©es : Une Plong√©e dans les Donn√©es M√©t√©o de la France


Le contexte de cette analyse est la compr√©hension et la visualisation des pr√©cipitations annuelles cumul√©es en France sur une p√©riode √©tendue, allant de 1950 √† 2023. Les donn√©es utilis√©es proviennent du site data.gouv.fr, sp√©cifiquement du fichier `https://object.files.data.gouv.fr/meteofrance/data/synchro_ftp/BASE/QUOT/Q_64_previous-1950-2023_RR-T-Vent.csv.gz`, qui contient des informations m√©t√©orologiques quotidiennes pour divers postes en France. L'objectif est de calculer la somme cumulative des pr√©cipitations journali√®res moyennes sur toutes les stations √† la mani√®re d'une int√©grale depuis le d√©but de chaque ann√©e et de ne garder que la valeur de fin de chaque ann√©e.


Cette analyse s'inscrit dans une d√©marche de compr√©hension des tendances climatiques en France, en se concentrant sur les pr√©cipitations. En analysant ces donn√©es sur une p√©riode de plus de 70 ans, nous visons √† d√©gager des tendances et des variations significatives qui pourraient √™tre pertinentes pour les √©tudes climatiques et la planification environnementale.


## M√©thodologie

La m√©thodologie employ√©e consiste en plusieurs √©tapes : premi√®rement, le chargement et le traitement des donn√©es m√©t√©orologiques quotidiennes via une requ√™te SQL dans DuckDB, permettant de calculer la moyenne journali√®re des pr√©cipitations, puis leur somme cumulative pour chaque ann√©e. Deuxi√®mement, une analyse et une visualisation des r√©sultats sont r√©alis√©es √† l'aide de Python et de la biblioth√®que Matplotlib, avec un lissage des donn√©es sur 20 ans pour faire ressortir les tendances √† long terme.


Cette approche combine des techniques de traitement de donn√©es, d'analyse statistique et de visualisation pour offrir une compr√©hension approfondie des pr√©cipitations annuelles cumul√©es en France sur la p√©riode consid√©r√©e.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [2]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://object.files.data.gouv.fr/meteofrance/data/synchro_ftp/BASE/QUOT/Q_64_previous-1950-2023_RR-T-Vent.csv.gz", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

‚úÖ Donn√©es charg√©es avec succ√®s


## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [3]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH daily_avg_rr AS (
  SELECT 
    CAST(SUBSTRING("AAAAMMJJ", 1, 4) AS INTEGER) AS annee,
    CAST(SUBSTRING("AAAAMMJJ", 5, 2) AS INTEGER) AS mois,
    CAST(SUBSTRING("AAAAMMJJ", 7, 2) AS INTEGER) AS jour,
    AVG(CAST("RR" AS DOUBLE)) AS avg_rr
  FROM loaded_dataset
  GROUP BY "AAAAMMJJ"
),
cumulative_sum AS (
  SELECT 
    annee,
    jour,
    mois,
    SUM(avg_rr) OVER (PARTITION BY annee ORDER BY mois, jour) AS cum_sum_rr
  FROM daily_avg_rr
)
SELECT 
  annee, 
  cum_sum_rr AS integral_precipitation
FROM cumulative_sum
WHERE mois = 12 AND jour = 31
ORDER BY annee """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

R√©sultats : 74 lignes


Unnamed: 0,annee,integral_precipitation
0,1950,1354.693791
1,1951,1537.841796
2,1952,1583.263803
3,1953,915.175
4,1954,1498.891898


## üìà Visualisation

La biblioth√®que principale utilis√©e pour cette visualisation de donn√©es est Matplotlib, un outil polyvalent et puissant pour cr√©er des graphiques de haute qualit√©. Cette technologie est adapt√©e car elle permet une grande personnalisation des √©l√©ments graphiques, ce qui est √©vident dans la repr√©sentation des donn√©es de pr√©cipitation annuelle avec une courbe liss√©e et des points de minimum et maximum mis en √©vidence. Cela permet une visualisation claire et informative des tendances dans les donn√©es.

In [4]:
import pandas as pd
import duckdb as ddb
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy.signal import savgol_filter
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Source Sans Pro'
mpl.rcParams['font.size'] = 10

# Mise en ordre
df = df.sort_values('annee').reset_index(drop=True)

# Calcul du lissage 20 ans
window = min(20, len(df) - (len(df) % 2 == 0))
polyorder = min(3, window - 1)
df['precip_lisse'] = savgol_filter(df['integral_precipitation'], window_length=window, polyorder=polyorder)

# Pr√©paration figure
fig, ax = plt.subplots(figsize=(12, 6))
fig.patch.set_facecolor('white')
ax.set_facecolor('white')

# Courbes
ax.plot(df['annee'], df['integral_precipitation'], 
        color='#ff6666', linewidth=1.2, label='Donn√©es brutes', alpha=0.8)
ax.plot(df['annee'], df['precip_lisse'], 
        color='#1f77b4', linewidth=2.5, label='Courbe liss√©e 20 ans')

# Points min/max
min_idx = df['integral_precipitation'].idxmin()
max_idx = df['integral_precipitation'].idxmax()
for idx, color in [(min_idx, 'red'), (max_idx, 'red')]:
    ax.scatter(df.at[idx, 'annee'], df.at[idx, 'integral_precipitation'], 
               color=color, s=60, zorder=5, edgecolors='white', linewidth=1.5)
    ax.annotate(f"{df.at[idx, 'integral_precipitation']:.0f}", 
                xy=(df.at[idx, 'annee'], df.at[idx, 'integral_precipitation']),
                xytext=(10, 10), textcoords='offset points',
                bbox=dict(boxstyle="round,pad=0.3", facecolor='white', edgecolor=color, alpha=0.7),
                fontweight='bold', clip_on=True)

# Mise en forme
ax.set_title('Pr√©cipitations annuelles cumul√©es liss√©es sur 20 ans', pad=20, fontsize=14, fontweight='bold')
ax.set_xlabel('Ann√©es (1950-2023)', labelpad=10)
ax.set_ylabel('Pr√©cipitations cumul√©es (mm)', labelpad=10)
ax.grid(True, alpha=0.3, linestyle='-', linewidth=0.5)
ax.set_xlim(df['annee'].min() - 1, df['annee'].max() + 1)
legend = ax.legend(loc='upper left', frameon=True, fancybox=True, shadow=True)
legend.get_frame().set_facecolor('white')
legend.get_frame().set_edgecolor('lightgray')
plt.tight_layout()

dataviz = fig
dataviz

ModuleNotFoundError: No module named 'scipy'

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*

In [5]:

# --- Variables inject√©es par le script ---
FINAL_OBJECT_VARIABLE_NAME = 'dataviz'
OUTPUT_IMAGE_NAME = 'published\\notebooks\\duckit_analysis_20250820_222737.png'
OUTPUT_HTML_NAME = 'published\\notebooks\\duckit_analysis_20250820_222737.html'

# ===================================================================
# CELLULE INJECT√âE AUTOMATIQUEMENT (VERSION ROBUSTE)
# ===================================================================
import sys
import os
# On importe les modules n√©cessaires pour l'export au cas o√π
try:
    from bokeh.io import save as bokeh_save
except ImportError:
    bokeh_save = None

try:
    # On s'assure que le dossier de sortie existe
    output_dir = os.path.dirname(OUTPUT_IMAGE_NAME)
    if output_dir:
        os.makedirs(output_dir, exist_ok=True)

    # On utilise globals().get() pour une r√©cup√©ration plus s√ªre
    final_object = globals().get(FINAL_OBJECT_VARIABLE_NAME)

    if final_object is None:
        # On l√®ve une NameError pour √™tre coh√©rent avec le code original
        raise NameError(f"name '{FINAL_OBJECT_VARIABLE_NAME}' is not defined")

    print(f"INFO: Variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e. Tentative d'exportation...")

    object_type = str(type(final_object))

    if 'plotly.graph_objs._figure.Figure' in object_type:
        print(f"--> D√©tect√© : Plotly. Sauvegarde HTML et PNG.")
        # 1. Sauvegarde HTML pour l'interactivit√©
        print(f"--> Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.write_html(OUTPUT_HTML_NAME, include_plotlyjs='cdn')
        # 2. Sauvegarde PNG pour l'aper√ßu statique
        try:
            print(f"--> Tentative de sauvegarde PNG directe dans : {OUTPUT_IMAGE_NAME}")
            final_object.write_image(OUTPUT_IMAGE_NAME, scale=3, width=1200, height=800)
            print(f"--> Image Plotly sauvegard√©e avec succ√®s.")
        except Exception as e:
            print(f"AVERTISSEMENT: La sauvegarde directe en PNG a √©chou√© (kaleido est-il install√©?).", file=sys.stderr)
            print(f"   Erreur: {e}", file=sys.stderr)
            print(f"--> PLAN B: On va utiliser la capture d'√©cran du HTML √† la place.")
            # On cr√©e un fichier marqueur pour que le script de post-traitement prenne le relais
            with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
                f.write("plotly")
    elif 'folium.folium.Map' in object_type:
        print(f"--> D√©tect√© : Folium. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("folium")
    elif 'altair.vegalite' in object_type and hasattr(final_object, 'save'):
        print(f"--> D√©tect√© : Altair. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("altair")
    elif 'bokeh.plotting' in object_type and bokeh_save is not None:
        print(f"--> D√©tect√© : Bokeh. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        bokeh_save(final_object, filename=OUTPUT_HTML_NAME, title="")
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("bokeh")
    elif 'matplotlib.figure.Figure' in object_type:
        print(f"--> D√©tect√© : Matplotlib. Sauvegarde dans : {OUTPUT_IMAGE_NAME}")
        final_object.savefig(OUTPUT_IMAGE_NAME, dpi=300, bbox_inches='tight')
    else:
        print(f"AVERTISSEMENT: Type non support√© : {object_type}", file=sys.stderr)
except NameError:
    print(f"AVERTISSEMENT: Aucune variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e.", file=sys.stderr)
except Exception as e:
    print(f"ERREUR lors de l'exportation : {e}", file=sys.stderr)


AVERTISSEMENT: Aucune variable 'dataviz' trouv√©e.
