<h1 style="color: #1f77b4; font-size: 50px; text-align: center;">
Acquisition des donn√©es : archive m√©t√©orologique historique parisienne
</h1>

# Contexte et objectifs du projet

Ce notebook initie une √©tude acad√©mique portant sur la pr√©vision de la temp√©rature de l‚Äôair √† 2 m√®tres ($temperature_2m$) √† Paris, en France.

L‚Äôobjectif principal de ce notebook sp√©cifique est d‚Äôacqu√©rir un jeu de donn√©es m√©t√©orologiques multivari√©, de haute fid√©lit√© et √† r√©solution horaire. Le p√©rim√®tre temporel du jeu de donn√©es couvre une p√©riode multi-d√©cennale (de 2000 √† aujourd‚Äôhui), ce qui est essentiel pour capturer une large vari√©t√© de r√©gimes climatologiques, de cycles saisonniers et d‚Äô√©v√©nements m√©t√©orologiques extr√™mes ou atypiques. 

Les donn√©es ont √©t√© choisies afin de disposer de s√©ries m√©t√©orologiques fiables, multivari√©es et √† haute fr√©quence temporelle pour la ville de Paris. Apr√®s avoir explor√© plusieurs sources et API, les donn√©es horaires (pas de temps de 1h) issues de Open-Meteo ont √©t√© retenues pour leur qualit√© scientifique, leur coh√©rence physique et leur accessibilit√© open-source, en ad√©quation avec les objectifs de mod√©lisation fine et reproductible du projet. La m√©thodologie repose donc sur l‚Äôutilisation de l‚ÄôAPI Open-Meteo Archive.

Ce notebook constitue l‚Äô√©tape fondatrice de la collecte de donn√©es pour l‚Äôensemble du projet. Le format Jupyter Notebook, ici comme pour les autres notebooks, a √©t√© choisi de mani√®re d√©lib√©r√©e afin de respecter les principes de la recherche FAIR (Findable, Accessible, Interoperable, Reproducible). Chaque √©tape est explicitement document√©e et ex√©cut√©e par du code afin de garantir une transparence totale et une reproductibilit√© compl√®te.

In [None]:
# Initialisation de l'environnement
import os
import requests
import pandas as pd
from datetime import datetime

In [None]:
# D√©finition G√©ospatiale 
latitude = 48.8534
longitude = 2.3488

üí° Fun fact : ces coordonn√©es ne repr√©sentent pas un ¬´ centre-ville ¬ª arbitraire, mais ont √©t√© sp√©cifiquement choisies pour correspondre √† l‚Äôemplacement de l‚ÄôObservatoire de Paris.
Ce site est l‚Äôun des plus anciens observatoires astronomiques au monde et constitue depuis des si√®cles un point central des relev√©s m√©t√©orologiques parisiens, ce qui en fait un point d‚Äôancrage scientifiquement et historiquement pertinent pour notre √©tude.

In [None]:
# D√©finition temporelle
end_date = "2025-10-25" # Une end_date dynamique (c‚Äôest-√†-dire ¬´ aujourd‚Äôhui ¬ª) n‚Äôest pas adapt√©e √† un travail de recherche acad√©mique,
                        # car elle rend le jeu de donn√©es non statique et compromet la reproductibilit√©
                        # C‚Äôest pourquoi nous avons choisi de d√©finir une end_date fixe pour notre √©tude
start_date = "2000-01-01"

In [None]:
url = "https://archive-api.open-meteo.com/v1/archive" # Source des donn√©es
params = {
    "latitude" : latitude,
    "longitude" : longitude, 
    "start_date" : start_date,
    "end_date" : end_date,
    "hourly" : "temperature_2m,relative_humidity_2m,apparent_temperature,dew_point_2m,precipitation,rain,snowfall,snow_depth,wind_speed_100m,wind_speed_10m,wind_direction_10m,wind_direction_100m,wind_gusts_10m,weather_code,pressure_msl,surface_pressure,cloud_cover,cloud_cover_low,cloud_cover_mid,cloud_cover_high,et0_fao_evapotranspiration,vapour_pressure_deficit,soil_temperature_0_to_7cm,soil_temperature_7_to_28cm,soil_temperature_28_to_100cm,soil_temperature_100_to_255cm,soil_moisture_0_to_7cm,soil_moisture_7_to_28cm,soil_moisture_28_to_100cm,soil_moisture_100_to_255cm,wet_bulb_temperature_2m,boundary_layer_height,total_column_integrated_water_vapour,is_day,sunshine_duration",
    "timezone": "Europe/Berlin",
    "timezone_abbreviation": "CEST"
}    # L‚Äô√©l√©ment ¬´ hourly ¬ª fait r√©f√©rence √† la s√©lection des variables (Feature Selection), c‚Äôest-√†-dire √† la liste des variables m√©t√©orologiques √† r√©cup√©rer.

In [5]:
response = requests.get(url, params = params)
Data = response.json()

In [None]:
# Structuration des donn√©es : du JSON au DataFrame de s√©ries temporelles
df = pd.DataFrame(Data["hourly"])
df['time'] = pd.to_datetime(df['time']) 

In [7]:
df.head()

Unnamed: 0,time,temperature_2m,relative_humidity_2m,apparent_temperature,dew_point_2m,precipitation,rain,snowfall,snow_depth,wind_speed_100m,...,soil_temperature_100_to_255cm,soil_moisture_0_to_7cm,soil_moisture_7_to_28cm,soil_moisture_28_to_100cm,soil_moisture_100_to_255cm,wet_bulb_temperature_2m,boundary_layer_height,total_column_integrated_water_vapour,is_day,sunshine_duration
0,2000-01-01 00:00:00,6.0,97,4.0,5.5,0.0,0.0,0.0,0.01,14.0,...,10.8,0.414,0.419,0.417,0.359,5.6,115.0,15.6,0,0.0
1,2000-01-01 01:00:00,6.0,96,3.8,5.4,0.0,0.0,0.0,0.01,14.9,...,10.8,0.414,0.419,0.417,0.359,5.5,100.0,16.5,0,0.0
2,2000-01-01 02:00:00,5.9,96,3.8,5.3,0.0,0.0,0.0,0.01,14.7,...,10.8,0.414,0.418,0.417,0.359,5.4,105.0,16.7,0,0.0
3,2000-01-01 03:00:00,6.0,96,3.8,5.3,0.0,0.0,0.0,0.01,14.6,...,10.8,0.414,0.418,0.417,0.359,5.5,110.0,16.9,0,0.0
4,2000-01-01 04:00:00,6.1,96,3.9,5.5,0.0,0.0,0.0,0.01,15.5,...,10.7,0.413,0.418,0.417,0.359,5.6,130.0,17.3,0,0.0


In [None]:
# Persistance des donn√©es : export vers un fichier CSV
data_folder = "../data"
os.makedirs(data_folder, exist_ok=True)

data_path = os.path.join(data_folder, "hourly_data.csv")
df.to_csv(data_path, index=False)

print(f"Data saved to {data_path}")

Data saved to ../data/hourly_data.csv
