# EDA Données changement climatique - LSH (Longues Séries Homogénéisées)
Séries mensuelles corrigées par homogénéisation statistique pour les paramètres températures minimales (TN), maximales (TX), insolations (IN) ou précipitations (RR).

Liste des fichier qui vont être étudiés : 
- SH_IN pas de lien pour l'outremer correspond au cumul mensuel des durées d'insolation. 
- SH_RR_Outremer ( cumul mensuel des hauteurs de précipitation en mm et 1/10)
- SH_TN_Outremer (Moyenne mensuelle de la température minimal )
- SH_TX_Outremer (Moyenne mensuelle de la température maximal sous abri)


In [14]:
import requests 
import zipfile
import io
import pandas as pd
import os



In [84]:

# Lire depuis un zip et combiner

def extract_csv_to_df(urls):
    response = requests.get(urls)
        
    if response.status_code == 200:
        array_header = []
        array_data = []
        with zipfile.ZipFile(io.BytesIO(response.content)) as zip_file:
            for filename in zip_file.namelist():
                if filename.endswith('.csv'):
                    # on sépare la lecture des métadonnées et des données
                    print(f"Lecture de {filename}...")
                    with zip_file.open(filename) as file:                
                        df_header = pd.read_csv(file).head(12)
                    
                    with zip_file.open(filename) as file:
                        df_data = pd.read_csv(file, sep=';', skiprows=13)
                        
                        # On récupère le num_post
                        num_post = df_header.iloc[0,0].split('=')[1].strip()
                        # Ajouter une colonne num_postpour tracer l'origine des mesures
                        df_data.insert(0, 'num_post', num_post)
                        array_header.append(df_header)
                        array_data.append(df_data)
        return array_header, array_data
        



In [85]:
array_header, array_data = extract_csv_to_df("https://www.data.gouv.fr/api/1/datasets/r/9617eade-a4ae-4fa1-bbe7-88458aff67b2")


Lecture de SH_MRR097105002.csv...
Lecture de SH_MRR097107002.csv...
Lecture de SH_MRR097108003.csv...
Lecture de SH_MRR097111001.csv...
Lecture de SH_MRR097115003.csv...
Lecture de SH_MRR097117002.csv...
Lecture de SH_MRR097118001.csv...
Lecture de SH_MRR097124004.csv...
Lecture de SH_MRR097128008.csv...
Lecture de SH_MRR097209017.csv...
Lecture de SH_MRR097304001.csv...
Lecture de SH_MRR097305001.csv...
Lecture de SH_MRR097409230.csv...
Lecture de SH_MRR097410238.csv...
Lecture de SH_MRR097411150.csv...
Lecture de SH_MRR097418110.csv...
Lecture de SH_MRR098715003.csv...
Lecture de SH_MRR098718001.csv...
Lecture de SH_MRR098722003.csv...
Lecture de SH_MRR098722005.csv...
Lecture de SH_MRR098723001.csv...
Lecture de SH_MRR098723003.csv...
Lecture de SH_MRR098723004.csv...
Lecture de SH_MRR098731002.csv...
Lecture de SH_MRR098738010.csv...
Lecture de SH_MRR098747002.csv...
Lecture de SH_MRR098747013.csv...
Lecture de SH_MRR098748003.csv...
Lecture de SH_MRR098748009.csv...
Lecture de SH_

[   # DONNEES MENSUELLES HOMOGENEISEES de RR : Cumul mensuel des hauteurs de précipitation (en mm et 1/10) 
 0                               # NUM_POSTE= 97105002                                                     
 1                   # NOM_USUEL= BASSE-TERRE GUILLARD                                                     
 2                             # LATITUDE (°) = 15.996                                                     
 3                             # LONGITUDE(°)= -61.721                                                     
 4                                 # ALTITUDE (m) = 92                                                     
 5   # ETAT DU POSTE (fermé avec date de fermeture ...                                                     
 6                           # NUM_SERIE= MRR097105002                                                     
 7   # Amplitude minimale détectable de la série = ...                                                     
 8              # Période ho

In [87]:
for df in dfs:
    df.insert(0, 'num_poste', num_post)
    

In [88]:

# Combiner tous les DataFrames
def combined_df_to_csv(dfs, output_file="../data2/precipitation_moyenne_mensuelle.csv"):
    os.makedirs(os.path.dirname(output_file), exist_ok=True) # Créer le répertoire s'il n'existe pas
    
    if dfs:
        df_combined = pd.concat(dfs, ignore_index=True, axis=1)
        
        print(f"\n✓ {len(dfs)} fichiers combinés")
        print(f"✓ Total: {len(df_combined)} lignes, {len(df_combined.columns)} colonnes")
        
        # Sauvegarder
        df_combined.to_csv(output_file, index=False)
        print(f"✓ Sauvegardé dans {output_file}")
        
    

In [79]:
def format_metadata(df_meta):
    lines = df_meta.iloc[:, 0].tolist() # extrait la colonne sous forme de liste
    data = {}
    for line in lines:
        line = line.strip()
        if not line.startswith("#"):
            continue
        # enlève le "#"
        content = line[1:].strip()
        # découpe en clé=valeur
        if "=" in content:
            key, value = content.split("=", 1)
            key = key.strip()
            value = value.strip()
            data[key] = value
        elif ":" in content:
            key, value = content.split(":", 1)
            key = key.strip()
            value = value.strip()
            data[key] = value
    # transforme en DataFrame avec 1 seule ligne
    df_meta = pd.DataFrame([data])
    print(df_meta)
    return df_meta

Lecture de SH_MRR097105002.csv...
Lecture de SH_MRR097107002.csv...
Lecture de SH_MRR097108003.csv...
Lecture de SH_MRR097111001.csv...
Lecture de SH_MRR097115003.csv...
Lecture de SH_MRR097117002.csv...
Lecture de SH_MRR097118001.csv...
Lecture de SH_MRR097124004.csv...
Lecture de SH_MRR097128008.csv...
Lecture de SH_MRR097209017.csv...
Lecture de SH_MRR097304001.csv...
Lecture de SH_MRR097305001.csv...
Lecture de SH_MRR097409230.csv...
Lecture de SH_MRR097410238.csv...
Lecture de SH_MRR097411150.csv...
Lecture de SH_MRR097418110.csv...
Lecture de SH_MRR098715003.csv...
Lecture de SH_MRR098718001.csv...
Lecture de SH_MRR098722003.csv...
Lecture de SH_MRR098722005.csv...
Lecture de SH_MRR098723001.csv...
Lecture de SH_MRR098723003.csv...
Lecture de SH_MRR098723004.csv...
Lecture de SH_MRR098731002.csv...
Lecture de SH_MRR098738010.csv...
Lecture de SH_MRR098747002.csv...
Lecture de SH_MRR098747013.csv...
Lecture de SH_MRR098748003.csv...
Lecture de SH_MRR098748009.csv...
Lecture de SH_

In [89]:
array_header[0]

Unnamed: 0,# DONNEES MENSUELLES HOMOGENEISEES de RR : Cumul mensuel des hauteurs de précipitation (en mm et 1/10)
0,# NUM_POSTE= 97105002
1,# NOM_USUEL= BASSE-TERRE GUILLARD
2,# LATITUDE (°) = 15.996
3,# LONGITUDE(°)= -61.721
4,# ALTITUDE (m) = 92
5,# ETAT DU POSTE (fermé avec date de fermeture ...
6,# NUM_SERIE= MRR097105002
7,# Amplitude minimale détectable de la série = ...
8,# Période homogénéisée : 196501 201612
9,# Date(s) de rupture(s) d'homogénéité : 197512


In [91]:
format_metadata(array_header[0]).head()

  NUM_POSTE             NOM_USUEL LATITUDE (°) LONGITUDE(°) ALTITUDE (m)  \
0  97105002  BASSE-TERRE GUILLARD       15.996      -61.721           92   

  ETAT DU POSTE (fermé avec date de fermeture AAAA-MM-JJ ou ouvert à la date de production du fichier le 13/03/2025)  \
0                                             ouvert                                                                   

      NUM_SERIE Amplitude minimale détectable de la série  \
0  MRR097105002                                      0.12   

  Période homogénéisée Date(s) de rupture(s) d'homogénéité  \
0        196501 201612                              197512   

  Periode homogénéisée  196501 201612  : Q_HOM  \
0                                            1   

  Données prolongées si nécessaire jusqu'en 202412 par des donnees mensuelles non homogénéisées : Q_HOM  
0                                                  0                                                     


Unnamed: 0,NUM_POSTE,NOM_USUEL,LATITUDE (°),LONGITUDE(°),ALTITUDE (m),ETAT DU POSTE (fermé avec date de fermeture AAAA-MM-JJ ou ouvert à la date de production du fichier le 13/03/2025),NUM_SERIE,Amplitude minimale détectable de la série,Période homogénéisée,Date(s) de rupture(s) d'homogénéité,Periode homogénéisée 196501 201612 : Q_HOM,Données prolongées si nécessaire jusqu'en 202412 par des donnees mensuelles non homogénéisées : Q_HOM
0,97105002,BASSE-TERRE GUILLARD,15.996,-61.721,92,ouvert,MRR097105002,0.12,196501 201612,197512,1,0
