# Analyse des temp√©ratures maximales journali√®res : une plong√©e dans les donn√©es m√©t√©orologiques fran√ßaises


L'analyse pr√©sent√©e dans ce notebook s'appuie sur un jeu de donn√©es m√©t√©orologiques quotidiennes pour diverses stations en France, disponible √† l'adresse suivante : https://object.files.data.gouv.fr/meteofrance/data/synchro_ftp/BASE/QUOT/Q_95_latest-2024-2025_RR-T-Vent.csv.gz. Ce fichier contient des informations pr√©cieuses sur les pr√©cipitations, les temp√©ratures, les vents, et d'autres param√®tres m√©t√©orologiques. L'objectif principal de cette analyse est de pr√©parer les donn√©es pour examiner les temp√©ratures maximales journali√®res, calculer la moyenne glissante sur 30 jours, et identifier les anomalies par comparaison avec cette moyenne glissante, puis de lisser ces anomalies sur 7 jours.


L'√©tude des temp√©ratures maximales journali√®res et de leurs anomalies est cruciale pour comprendre les mod√®les climatiques et m√©t√©orologiques en France. En analysant ces donn√©es, nous pouvons mettre en lumi√®re les tendances et les variations significatives dans les temp√©ratures, contribuant ainsi √† une meilleure compr√©hension du climat et √† une prise de d√©cision √©clair√©e dans divers domaines tels que l'agriculture, l'urbanisme et la gestion des ressources.


## M√©thodologie

La m√©thodologie employ√©e pour cette analyse implique plusieurs √©tapes cl√©s. Tout d'abord, les donn√©es sont charg√©es et pr√©par√©es √† l'aide de requ√™tes SQL dans DuckDB, permettant un traitement efficace et rapide des grandes quantit√©s de donn√©es. Les temp√©ratures moyennes journali√®res sont calcul√©es et utilis√©es pour d√©terminer la moyenne glissante sur 30 jours. Ensuite, les anomalies sont identifi√©es en comparant les temp√©ratures journali√®res avec cette moyenne glissante. Enfin, ces anomalies sont liss√©es sur 7 jours pour att√©nuer les fluctuations quotidiennes et mettre en √©vidence les tendances sous-jacentes. Les r√©sultats sont ensuite visualis√©s √† l'aide de Plotly pour une repr√©sentation graphique claire et interactive des donn√©es et des analyses effectu√©es.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [1]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://object.files.data.gouv.fr/meteofrance/data/synchro_ftp/BASE/QUOT/Q_95_latest-2024-2025_RR-T-Vent.csv.gz", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [2]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH 
daily_avg AS (
  SELECT 
    CAST(SUBSTRING("AAAAMMJJ", 1, 4) AS INTEGER) AS year,
    CAST(SUBSTRING("AAAAMMJJ", 5, 2) AS INTEGER) AS month,
    CAST(SUBSTRING("AAAAMMJJ", 7, 2) AS INTEGER) AS day,
    CAST("TM" AS DOUBLE) AS "TM",
    "AAAAMMJJ"
  FROM 
    loaded_dataset
),
avg_tm AS (
  SELECT 
    "AAAAMMJJ",
    AVG("TM") AS avg_tm_day
  FROM 
    daily_avg
  GROUP BY 
    "AAAAMMJJ"
),
moving_avg AS (
  SELECT 
    "AAAAMMJJ",
    avg_tm_day,
    AVG(avg_tm_day) OVER (ORDER BY "AAAAMMJJ" ROWS BETWEEN 29 PRECEDING AND CURRENT ROW) AS moving_avg_30_days
  FROM 
    avg_tm
),
anomalies AS (
  SELECT 
    "AAAAMMJJ",
    avg_tm_day,
    moving_avg_30_days,
    avg_tm_day - moving_avg_30_days AS anomaly
  FROM 
    moving_avg
)
SELECT 
  "AAAAMMJJ",
  avg_tm_day,
  moving_avg_30_days,
  anomaly,
  AVG(anomaly) OVER (ORDER BY "AAAAMMJJ" ROWS BETWEEN 3 PRECEDING AND 3 FOLLOWING) AS smoothed_anomaly_7_days
FROM 
  anomalies
ORDER BY 
  "AAAAMMJJ" """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

## üìà Visualisation

La biblioth√®que principale utilis√©e est Plotly, qui est id√©ale pour cr√©er des visualisations interactives et personnalisables. Plotly est adapt√©e pour repr√©senter des donn√©es temporelles complexes avec plusieurs courbes et des info-bulles d√©taill√©es. Elle permet une repr√©sentation claire et dynamique des donn√©es de temp√©rature journali√®re et de leurs anomalies.

In [3]:
import pandas as pd
import duckdb as ddb
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px

df['AAAAMMJJ'] = pd.to_datetime(df['AAAAMMJJ'], format='%Y%m%d')

dataviz = go.Figure()

dataviz.add_trace(go.Scatter(x=df['AAAAMMJJ'], y=df['avg_tm_day'],
                             mode='lines',
                             name='Temp√©rature journali√®re',
                             line=dict(color='lightgrey'), hovertemplate='%{y:.2f}¬∞C<br>%{x|%Y-%m-%d}<extra></extra>'))

dataviz.add_trace(go.Scatter(x=df['AAAAMMJJ'], y=df['moving_avg_30_days'],
                             mode='lines',
                             name='Moyenne glissante 30 jours',
                             line=dict(color='red'), hovertemplate='%{y:.2f}¬∞C<br>%{x|%Y-%m-%d}<extra></extra>'))

dataviz.add_trace(go.Scatter(x=df['AAAAMMJJ'], y=df['smoothed_anomaly_7_days'],
                             mode='lines',
                             name='Anomalie liss√©e 7 jours',
                             line=dict(color='teal', dash='dot'), hovertemplate='%{y:.2f}¬∞C<br>%{x|%Y-%m-%d}<extra></extra>'))

dataviz.update_layout(
    height=500,
    margin=dict(l=20, r=20, t=60, b=20),
    hovermode='x unified',
    font=dict(family='Source Sans Pro', size=12),
    title=dict(text="Analyse des temp√©ratures maximales journali√®res et anomalies", x=0.5),
    xaxis_title="Date",
    yaxis_title="Temp√©rature (¬∞C)",
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
)
dataviz

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*