In [1]:
import requests
import pandas as pd

# URL de base pour accéder à l'API
base_url = "https://public.opendatasoft.com/api/explore/v2.1"

# Chemin pour accéder aux enregistrements du dataset
dataset_path = "/catalog/datasets/donnees-synop-essentielles-omm/exports/json?lang=fr&timezone=Europe%2FBerlin"

# Construction de l'URL complète
url = f"{base_url}{dataset_path}"

# Exécution de la requête GET
response = requests.get(url)

# Vérification si la requête a réussi
if response.status_code == 200:
    # Extraction des données
    data = response.json()

    # Conversion des résultats en DataFrame
    df = pd.DataFrame(data)
    df.head()
else:
    print(f"Erreur lors de la requête: {response.status_code}")

In [2]:
len(df)

2349841

In [3]:
df.to_csv('data_meteo.csv', index=False)

In [4]:
df.columns

Index(['numer_sta', 'date', 'pmer', 'tend', 'cod_tend', 'dd', 'ff', 't', 'td',
       'u', 'vv', 'ww', 'w1', 'w2', 'n', 'nbas', 'hbas', 'cl', 'cm', 'ch',
       'pres', 'niv_bar', 'geop', 'tend24', 'tn12', 'tn24', 'tx12', 'tx24',
       'tminsol', 'sw', 'tw', 'raf10', 'rafper', 'per', 'etat_sol', 'ht_neige',
       'ssfrai', 'perssfrai', 'rr1', 'rr3', 'rr6', 'rr12', 'rr24', 'phenspe1',
       'phenspe2', 'phenspe3', 'phenspe4', 'nnuage1', 'ctype1', 'hnuage1',
       'nnuage2', 'ctype2', 'hnuage2', 'nnuage3', 'ctype3', 'hnuage3',
       'nnuage4', 'ctype4', 'hnuage4', 'coordonnees', 'nom',
       'type_de_tendance_barometrique', 'temps_passe_1', 'temps_present', 'tc',
       'tn12c', 'tn24c', 'tx12c', 'tx24c', 'tminsolc', 'latitude', 'longitude',
       'altitude', 'libgeo', 'codegeo', 'nom_epci', 'code_epci', 'nom_dept',
       'code_dep', 'nom_reg', 'code_reg', 'mois_de_l_annee'],
      dtype='object')

In [5]:
df['coordonnees']

0                {'lon': 3.0195, 'lat': 44.1185}
1          {'lon': 54.520667, 'lat': -15.887667}
2               {'lon': -0.456167, 'lat': 49.18}
3              {'lon': -4.412, 'lat': 48.444167}
4            {'lon': 6.502333, 'lat': 44.565667}
                           ...                  
2349836      {'lon': 6.502333, 'lat': 44.565667}
2349837      {'lon': 1.106833, 'lat': 43.005333}
2349838    {'lon': 77.569167, 'lat': -37.795167}
2349839    {'lon': -56.179167, 'lat': 46.766333}
2349840     {'lon': -3.473167, 'lat': 48.825833}
Name: coordonnees, Length: 2349841, dtype: object

In [6]:
df = df.sort_values(by=['nom_reg', 'date'])

In [7]:
df.isnull().sum()

numer_sta               0
date                    0
pmer               116753
tend               196544
cod_tend           223885
                    ...  
nom_dept           242364
code_dep           242364
nom_reg            242364
code_reg           242364
mois_de_l_annee         0
Length: 82, dtype: int64

In [8]:
df.head()

Unnamed: 0,numer_sta,date,pmer,tend,cod_tend,dd,ff,t,td,u,...,altitude,libgeo,codegeo,nom_epci,code_epci,nom_dept,code_dep,nom_reg,code_reg,mois_de_l_annee
611249,7471,2010-01-01T01:00:00+01:00,,-130.0,8,0.0,0.0,277.05,275.85,92.0,...,833,Chaspuzac,43062,CA du Puy-en-Velay,200073419,Haute-Loire,43,Auvergne-Rhône-Alpes,84,1
759784,7577,2010-01-01T01:00:00+01:00,99050.0,-150.0,7,360.0,2.1,280.45,279.85,96.0,...,73,Montélimar,26198,CA Montélimar Agglomération,200040459,Drôme,26,Auvergne-Rhône-Alpes,84,1
866906,7481,2010-01-01T01:00:00+01:00,99080.0,-120.0,6,0.0,0.0,280.65,278.75,88.0,...,235,Colombier-Saugnieu,69299,CC de l'Est Lyonnais (CCEL),246900575,Rhône,69,Auvergne-Rhône-Alpes,84,1
1217336,7460,2010-01-01T01:00:00+01:00,99060.0,-100.0,7,0.0,0.0,279.65,279.35,98.0,...,331,Clermont-Ferrand,63113,Clermont Auvergne Métropole,246300701,Puy-de-Dôme,63,Auvergne-Rhône-Alpes,84,1
248351,7460,2010-01-01T04:00:00+01:00,98990.0,-70.0,6,140.0,1.0,279.25,278.95,98.0,...,331,Clermont-Ferrand,63113,Clermont Auvergne Métropole,246300701,Puy-de-Dôme,63,Auvergne-Rhône-Alpes,84,1


In [None]:

df=pd.read_csv('data_meteo.csv', sep=',')

# Renommons les variables de la base de données
# Celà se fait à partir de la documentation fournie par SYNOP

nouveaux_noms_colonnes={'numer_sta':'num_station', 'date':'date_UTC', 'pmer':'pression_mer', 'tend':'variation_pression_3h', 'cod_tend':'type_tendance_baro', 'dd':'direction_vent', 'ff':'vitesse_vent', 't':'temperature', 'td':'point_de_rosee',
       'u':'humidite', 'vv':'visibilite_horizontale', 'ww':'temps_present', 'w1':'temps_passe_1', 'w2':'temps_passe_2', 'n':'nebulosite_totale', 'nbas':'nebulosite_nuage_etage_inf', 'hbas':'hauteur_base_nuage_etage_inf', 'cl':'type_nuage_etage_inf', 'cm':'type_nuage_etage_moyen', 'ch':'type_nuage_etage_sup',
       'pres':'pression_station', 'niv_bar':'niveau_barometriq', 'geop':'geopotentiel', 'tend24':'variation_pression_24h', 'tn12':'temperature_min_sur_12h', 'tn24':'temperature_min_sur_24h', 'tx12':'temperature_max_sur_12h', 'tx24':'temperature_max_sur_24h',
       'tminsol':'temperature_min_sol_sur_12h', 'sw':'methode_mesure_temperature_thermometre_mouille', 'tw':'temperature_thermometre_mouille', 'raf10':'rafales_10_dernieres_minutes', 'rafper':'rafales_sur_une_periode', 'per':'periode_mesure_rafales', 'etat_sol':'etat_du_sol', 'ht_neige':'hauteur_totale_couche_neige/glace_au_sol',
       'ssfrai':'hauteur_neige_fraiche', 'perssfrai':'periode_mesure_neige_fraiche', 'rr1':'precipitation_dans_1_derniere_heure', 'rr3':'precipitation_dans_3_derniere_heure', 'rr6':'precipitation_dans_6_derniere_heure', 'rr12':'precipitation_dans_12_derniere_heure', 'rr24':'precipitation_dans_24_derniere_heure', 'phenspe1':'phenomene_special_1',
       'phenspe2':'phenomene_special_2', 'phenspe3':'phenomene_special_3', 'phenspe4':'phenomene_special_4', 'nnuage1':'nebulosite_couche_nuageuse_1', 'ctype1':'type_de_nuage_1', 'hnuage1':'hauteur_de_base_nuage_1',
       'nnuage2':'nebulosite_couche_nuageuse_2', 'ctype2':'type_de_nuage_2', 'hnuage2':'hauteur_de_base_nuage_2', 'nnuage3':'nebulosite_couche_nuageuse_3', 'ctype3':'type_de_nuage_3', 'hnuage3':'hauteur_de_base_nuage_3',
       'nnuage4':'nebulosite_couche_nuageuse_4', 'ctype4':'type_de_nuage_4', 'hnuage4':'hauteur_de_base_nuage_4', 'coordonnees':'coordonnees', 'nom':'nom',
       'type_de_tendance_barometrique':'type_de_tendance_barometrique', 'temps_passe_1':'temps_passe_1', 'temps_present':'temps_present', 'tc':'temperature_degre_celcius',
       'tn12c':'temperature_celcius_min_sur_12h', 'tn24c':'temperature_celcius_min_sur_24h', 'tx12c':'temperature_celcius_max_sur_12h', 'tx24c':'temperature_celcius_max_sur_24h', 'tminsolc':'temperature_celcius_min_sol_sur_12h', 'latitude':'latitude', 'longitude':'longitude',
       'altitude':'altitude', 'libgeo':'libelle_geolocalisation', 'codegeo':'code_geolocalisation', 'nom_epci':'nom_EPCI', 'code_epci':'code_EPCI', 'nom_dept':'nom_departement',
       'code_dep':'code_departement', 'nom_reg':'nom_region', 'code_reg':'code_region', 'mois_de_l_annee':'mois'}
                        
# Nous allons renommer les variables en créant une nouvelle base afin de conserver une copie de la base initiale

df_modifie_1 = df.rename(columns=nouveaux_noms_colonnes)

df_modifie_1.columns

# sauvegarde des copies de ces bases
#df.to_csv('donnees_meteo_initiale.csv', index=False)
#df_modifie_1.to_csv('donnees_meteo_modifie_1.csv', index=False)


## Identification des variables qui nous interessent
# nous allons identifier les les variables météorologiques se reférant aux espects retenus Après une revue de la littérature:
# température : 'temperature_degre_celcius', 'temperature_celcius_min_sur_24h', 'temperature_celcius_max_sur_24h'
# vitesse du vent : 'vitesse_vent'
# couverture nuageuse : 'nebulosite_totale'
# humidité : 'humidite'
#rayonnement global : 'visibilite_horizontale'

# Vérification des valeurs manquantes pour les variables d'agrégation
print(df_modifie_1['nom_region'].isnull().sum())
print(df_modifie_1['code_region'].isnull().sum())
print(df_modifie_1['nom_departement'].isnull().sum())
print(df_modifie_1['code_departement'].isnull().sum())
print(df_modifie_1['nom'].isnull().sum())
print(df_modifie_1['nom'].describe())

# On constate que tous les noms de commune sont renseignés, mais certains noms de région et département ne le sont pas. Nous allons
# donc utiliser les noms de commune pour renseigner les départements et régions

# Importation de la base de données des communes, départements et régions
communes_departement_region = pd.read_csv('communes_departement_region.csv', sep=',')

## Complétons les régions et départements manquants

# Tout d'abord on identifie les positions des variables concernées dans la base
pos_nom_dep=df_modifie_1.columns.get_loc('nom_departement')
pos_nom_reg=df_modifie_1.columns.get_loc('nom_region')
pos_code_dep=df_modifie_1.columns.get_loc('code_departement')
pos_code_reg=df_modifie_1.columns.get_loc('code_region')
pos_nom_com=df_modifie_1.columns.get_loc('nom')

# Ecrivons une fonction qui le fera pour un individu:

def gestion_var_manquante_dep_region(ligne,pos_nom_dep=pos_nom_dep,pos_nom_reg=pos_nom_reg,pos_code_dep=pos_code_dep,pos_code_reg=pos_code_reg,pos_nom_com=pos_nom_com,reference=communes_departement_region):
    """
    Cette fonction renseigne les départements et régions manquantes le cas échéant
    
    Args:
        ligne (dictionnaire): un enregistrement de données dans un dataframe .
        reference (dataframe): Le dataframe contenant les noms des communes, departements et régions.

    Returns:
        ligne: la ligne modifiée le cas échéant.
    """
    if pd.isna(ligne[pos_nom_dep]) or pd.isna(ligne[pos_nom_reg]): # je ne modifie la ligne que si le département ou la région est nulle
        if not(pd.isna(ligne[pos_nom_dep])): # si le département est renseigné, on cherche la région correspondante
            correspondance=communes_departement_region[communes_departement_region['nom_departement']==ligne[pos_nom_dep]]
            ligne[pos_nom_reg]=correspondance['nom_region'] # je renseigne la région
            ligne[pos_code_reg]=correspondance['code_region'] # je renseigne le code région
            ligne[pos_code_dep]=correspondance['code_departement'] # je renseigne le code département
        elif not(pd.isna(ligne[pos_nom_com])): # si la commune est renseignée
            correspondance=communes_departement_region[communes_departement_region['nom_commune']==ligne[pos_nom_com]]
            ligne[pos_nom_reg]=correspondance['nom_region'] # je renseigne la région
            ligne[pos_nom_dep]=correspondance['nom_departement'] # je renseigne le département
            ligne[pos_code_reg]=correspondance['code_region'] # je renseigne le code région
            ligne[pos_code_dep]=correspondance['code_departement'] # je renseigne le code département
        elif not(pd.isna(ligne[pos_code_dep])): # si le code du departement est renseigné
            correspondance=communes_departement_region[communes_departement_region['code_departement']==ligne[pos_code_dep]]
            ligne[pos_nom_reg]=correspondance['nom_region'] # je renseigne la région
            ligne[pos_code_reg]=correspondance['code_region'] # je renseigne le code région
            ligne[pos_nom_dep]=correspondance['nom_departement'] # je renseigne le département
    return ligne

## On applique la fonction de gestion des régions et départements manquants à la base entière

df_modifie_2 = df_modifie_1.apply(gestion_var_manquante_dep_region, axis=1)
df_modifie_2.head()
print(len(df_modifie_2))

communes_departement_region.head()

## Ecriture de la fonction qui calcule les indicateurs journaliers par département : moyenne simple des observations enregistrées pour le département

## Avant de le faire, nous allons éclater la variable 'date_UTC' pour en faire deux variables: jour et heure

def extraire_sous_chaine(chaine, debut, fin):
    """
    Extrait la sous-chaîne de 'debut' à 'fin' (inclus) de la chaîne donnée.
    """
    if debut < 0 or fin >= len(chaine):
        raise ValueError("Indices de début ou de fin invalides.")
    return chaine[debut : fin + 1]

df_modifie_2['jour']=df_modifie_2['date_UTC'].apply(extraire_sous_chaine,debut=0,fin=9)
df_modifie_2['heure']=df_modifie_2['date_UTC'].apply(extraire_sous_chaine,debut=11,fin=18)


### AGREGATION JOURNALIERE DES VARIABLES
# 01) agrégation à l'échelle départementale
# Tout d'abord, agrégeons les variables 'temperature_degre_celcius','vitesse_vent', 'nebulosite_totale', 'humidite', 'visibilite_horizontale'

agregation_dep_mean = df_modifie_2.groupby(['jour','code_departement']).agg({'temperature_degre_celcius': 'mean', 'vitesse_vent': 'mean','nebulosite_totale':'mean','visibilite_horizontale':'mean'})

isinstance(agregation_dep_mean, pd.DataFrame)

agregation_dep_mean = agregation_dep_mean.rename(columns={'jour':'jour','code_departement':'code_departement','temperature_degre_celcius':'temperature_degre_celcius_departement','vitesse_vent':'vitesse_vent_departement','nebulosite_totale':'nebulosite_totale_departement','visibilite_horizontale':'visibilite_horizontale_departement'})
agregation_dep_mean.columns
print(agregation_dep_mean[:9])

# Fusion de la base agrégée obtenue et de la base de départ dans une nouvelle base
df_modifie_3 = pd.merge(df_modifie_2, agregation_dep_mean, on=['jour','code_departement'], how='left')

df_modifie_3.head()

# 02) agrégation à l'échelle régionale

#Cette agrégation utilisera des pondérations qui sont égales à la superficie des départements

# chargement de la base de données des départements avec leurs superficies

!pip install openpyxl
departements_francais = pd.read_excel('departements_francais.xlsx')
departements_francais.head()
departements_francais=departements_francais.rename(columns=departements_francais.iloc[1])
departements_francais=departements_francais.drop([0,1])
departements_francais.head()

## J'ajoute la superficie du département la base principale

departements_francais=departements_francais[['Département\nNom','Superficie\n(km2)']]
departements_francais=departements_francais.rename(columns={'Département\nNom':'nom_departement','Superficie\n(km2)':'superficie_km2'})
df_modifie_4 = pd.merge(df_modifie_3, departements_francais, on=['nom_departement'], how='left')

df_modifie_4.head()

## Je fait maintenant l'aggrégation par région en appliquant les pondérations que sont les superficies des départements

# Créons un dictionnaire pour stocker les critères d'agrégation
import numpy as np
criteres_agregation = {'temperature_degre_celcius_departement': lambda x: np.average(x, weights=df_modifie_4.loc[x.index, 'superficie_km2']),'vitesse_vent_departement': lambda x: np.average(x, weights=df_modifie_4.loc[x.index, 'superficie_km2']),'nebulosite_totale_departement': lambda x: np.average(x, weights=df_modifie_4.loc[x.index, 'superficie_km2']),'visibilite_horizontale_departement': lambda x: np.average(x, weights=df_modifie_4.loc[x.index, 'superficie_km2'])}
# Appliquons l'agrégation groupée en utilisant les critères spécifiés
agregation_reg_mean = df_modifie_4.groupby(['jour','code_region']).agg(criteres_agregation)
isinstance(agregation_reg_mean, pd.DataFrame)
agregation_reg_mean.head()

agregation_reg_mean = agregation_reg_mean.rename(columns={'jour':'jour','code_region':'code_region','temperature_degre_celcius_departement':'temperature_degre_celcius_region','vitesse_vent_departement':'vitesse_vent_region','nebulosite_totale_departement':'nebulosite_totale_region','visibilite_horizontale_departement':'visibilite_horizontale_region'})
agregation_reg_mean.columns
print(agregation_reg_mean[:9])

# Fusion de la base agrégée obtenue et de la base de départ dans une nouvelle base
df_modifie_5 = pd.merge(df_modifie_4, agregation_reg_mean, on=['jour','code_region'], how='left')

df_modifie_5.head()

## GESTION DES AUTRES VARIABLES (températures minimales et maximales)
# Nous allons considérer que la température minimale/maximale observée avant 22h est la température minimale/maximale de la journée

# Crérons une base des températures minimales
# On extrait le base de données pour chaque 22h

base_22h=df_modifie_5[df_modifie_5['heure']=='22:00:00']
agregation_reg_min_max=base_22h.groupby(['jour','code_region']).agg({'temperature_celcius_min_sur_24h': 'min', 'temperature_celcius_max_sur_24h': 'max'})

isinstance(agregation_reg_min_max, pd.DataFrame)

agregation_reg_min_max = agregation_reg_min_max.rename(columns={'jour':'jour','code_region':'code_region','temperature_celcius_min_sur_24h':'temperature_celcius_min_sur_24h_region','temperature_celcius_max_sur_24h':'temperature_celcius_max_sur_24h_region'})
agregation_reg_min_max.columns
print(agregation_reg_min_max[:9])

# Fusion de la base agrégée obtenue et de la base de départ dans une nouvelle base
df_modifie_6 = pd.merge(df_modifie_5, agregation_reg_min_max, on=['jour','code_region'], how='left')

df_modifie_6.head()


# Création de la variable portant sur la journée

In [152]:
df_modifie_6.head()

Unnamed: 0,num_station,date_UTC,pression_mer,variation_pression_3h,type_tendance_baro,direction_vent,vitesse_vent,temperature,point_de_rosee,humidite,...,vitesse_vent_departement,nebulosite_totale_departement,visibilite_horizontale_departement,superficie_km2,temperature_degre_celcius_region,vitesse_vent_region,nebulosite_totale_region,visibilite_horizontale_region,temperature_celcius_min_sur_24h_region,temperature_celcius_max_sur_24h_region
0,7471,2010-01-01T01:00:00+01:00,,-130.0,8.0,0.0,0.0,277.05,275.85,92.0,...,3.2125,100.0,16750.0,4977.1,5.071089,3.156449,97.528217,14843.831817,,
1,7471,2010-01-01T04:00:00+01:00,,-70.0,6.0,260.0,3.1,275.65,274.35,91.0,...,3.2125,100.0,16750.0,4977.1,5.071089,3.156449,97.528217,14843.831817,,
2,7471,2010-01-01T07:00:00+01:00,,50.0,3.0,170.0,0.5,275.75,274.55,92.0,...,3.2125,100.0,16750.0,4977.1,5.071089,3.156449,97.528217,14843.831817,,
3,7471,2010-01-01T10:00:00+01:00,,200.0,3.0,260.0,3.1,277.05,274.75,85.0,...,3.2125,100.0,16750.0,4977.1,5.071089,3.156449,97.528217,14843.831817,,
4,7471,2010-01-01T13:00:00+01:00,,220.0,1.0,310.0,5.7,277.25,275.55,89.0,...,3.2125,100.0,16750.0,4977.1,5.071089,3.156449,97.528217,14843.831817,,
