In [38]:
import requests
import pandas as pd
import time
from datetime import datetime, timedelta

In [31]:
# Configuration
API_URL = "https://api.open-meteo.com/v1/forecast"
LIMIT = 1000  # Nombre maximum d'enregistrements par page
TARGET_RECORDS = 20000  # Nombre minimum d'enregistrements à récupérer
HOURLY_VARIABLES = [
    "temperature_2m",
    "relative_humidity_2m",
    "precipitation",
    "wind_speed_10m",
    "weather_code"
]
LOCATIONS = [
    (48.8566, 2.3522),
    (45.7640, 4.8357),
    (43.2965, 5.3698),
    (44.8378, -0.5792)
]


In [127]:
# Fonction pour récupérer les données
def fetch_weather_data(latitude: float, longitude: float) -> pd.DataFrame:
    all_data = []
    remaining_hours = 3000
    end_date = datetime.now()
    
    while remaining_hours > 0:
        # Calcul de la période (max 90 jours par appel API)
        chunk_days = min(90, (remaining_hours // 24) + 1)
        start_date = end_date - timedelta(days=chunk_days)
        
        params = {
            "latitude": latitude,
            "longitude": longitude,
            "start_date": start_date.strftime('%Y-%m-%d'),
            "end_date": end_date.strftime('%Y-%m-%d'),
            "hourly": ",".join(HOURLY_VARIABLES),
            "timezone": "Europe/Paris"
        }
        
        try:
            response = requests.get(API_URL, params=params, timeout=15)
            data = response.json()
            chunk_df = pd.DataFrame(data["hourly"])
            
            # Ajout des métadonnées
            chunk_df["latitude"] = latitude
            chunk_df["longitude"] = longitude
            
            all_data.append(chunk_df)
            fetched_hours = len(chunk_df)
            remaining_hours -= fetched_hours
            
            print(f"{fetched_hours} données horaires ajoutées pour {latitude,longitude} (reste {remaining_hours})")
            
            # Mise à jour pour la prochaine itération
            end_date = start_date - timedelta(days=1)
            time.sleep(1)  # Respect des limites de l'API
            
            if fetched_hours == 0:
                break
                
        except Exception as e:
            print(f"Erreur pour {latitude, longitude}: {str(e)}")
            break

    final_df = pd.concat(all_data, ignore_index=True) if all_data else pd.DataFrame()
    return final_df.iloc[:3000]  # Retourne exactement le nombre demandé

In [124]:
def collect_all_locations() -> pd.DataFrame:
    all_dfs = []
    
    for (lat, lon) in LOCATIONS:
        print(f"\n=== Récupération des données pour la localisation({lat}, {lon}) ===")
        
        # Récupération des données pour cette localisation
        df_location = fetch_weather_data(latitude=lat, longitude=lon)
        
        if not df_location.empty:
            all_dfs.append(df_location)
        
        # Pause entre les requêtes pour éviter de surcharger l'API
        time.sleep(2)
    
    # Combinaison de tous les DataFrames
    final_df2 = pd.concat(all_dfs, ignore_index=True) if all_dfs else pd.DataFrame()
    
    # Statistiques
    if not final_df2.empty:
        counts = final_df2["latitude"].value_counts()
        print("\n=== Récapitulatif ===")
        print(f"Total de données récupérées : {len(final_df2)}")
        print("Détail par localisation :")
        print(counts.to_string())
    
    return final_df2

In [125]:
df_meteo = collect_all_locations()


=== Récupération des données pour la localisation(48.8566, 2.3522) ===
2184 données horaires ajoutées pour (48.8566, 2.3522) (reste 816)
864 données horaires ajoutées pour (48.8566, 2.3522) (reste -48)


  final_df = pd.concat(all_data, ignore_index=True) if all_data else pd.DataFrame()



=== Récupération des données pour la localisation(45.764, 4.8357) ===
2184 données horaires ajoutées pour (45.764, 4.8357) (reste 816)
864 données horaires ajoutées pour (45.764, 4.8357) (reste -48)


  final_df = pd.concat(all_data, ignore_index=True) if all_data else pd.DataFrame()



=== Récupération des données pour la localisation(43.2965, 5.3698) ===
2184 données horaires ajoutées pour (43.2965, 5.3698) (reste 816)
864 données horaires ajoutées pour (43.2965, 5.3698) (reste -48)


  final_df = pd.concat(all_data, ignore_index=True) if all_data else pd.DataFrame()



=== Récupération des données pour la localisation(44.8378, -0.5792) ===
2184 données horaires ajoutées pour (44.8378, -0.5792) (reste 816)
864 données horaires ajoutées pour (44.8378, -0.5792) (reste -48)


  final_df = pd.concat(all_data, ignore_index=True) if all_data else pd.DataFrame()



=== Récapitulatif ===
Total de données récupérées : 12000
Détail par localisation :
latitude
48.8566    3000
45.7640    3000
43.2965    3000
44.8378    3000


In [126]:
df_meteo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12000 entries, 0 to 11999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   time                  12000 non-null  object 
 1   temperature_2m        7392 non-null   float64
 2   relative_humidity_2m  7392 non-null   float64
 3   precipitation         7392 non-null   float64
 4   wind_speed_10m        7392 non-null   float64
 5   weather_code          7392 non-null   float64
 6   latitude              12000 non-null  float64
 7   longitude             12000 non-null  float64
dtypes: float64(7), object(1)
memory usage: 750.1+ KB


In [128]:
# Enregistrement du DataFrame final dans un fichier CSV
df_meteo.to_csv("weather_data_extracted.csv", index=False)