Import des librairies nécessaires à la préparation des données

In [1]:
import pandas as pd
import os
import glob
from IPython.display import display

Récupération du fichier avec la correspondance id_station et coordonnées GPS pour ne garder que les fichiers des stations près de NYC

Phase 1 : Initialisation de l'Environnement

In [3]:
import pyspark.sql.functions as F
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pandas as pd
import requests
import json
from math import radians, cos, sin, asin, sqrt

# --- 1. Configuration de Robustesse et Initialisation Spark ---
# Augmentation des timeouts et allocation de mémoire stricte pour éviter les crashs JVM
spark = SparkSession.builder \
    .appName("DataLake_NOAA_NYC_Prep") \
    .config("spark.executor.memory", "3g") \
    .config("spark.driver.memory", "2g") \
    .config("spark.network.timeout", "800s") \
    .config("spark.rpc.askTimeout", "800s") \
    .getOrCreate()

# --- 2. Définition des Paramètres Géographiques et HDFS ---
# Boîte englobante de la région de NYC
MIN_LAT, MAX_LAT = 40.0, 41.5
MIN_LON, MAX_LON = -75.0, -73.0

# Chemin HDFS BRUT (Corrigé avec l'hôte et le port du namenode)
RAW_OUTPUT_PATH = "hdfs://namenode:9000/user/mathis/datalake/noaa_gsod_nyc_raw_2005_2023.parquet"

# Plage d'années
START_YEAR = 2005
END_YEAR = 2023

print("Session Spark initialisée avec les configurations de robustesse.")

Session Spark initialisée avec les configurations de robustesse.


In [None]:
Phase 2 : Métadonnées et Identification des Stations NOAA

In [4]:
# --- 1. Téléchargement des Métadonnées des Stations (via Pandas car petit fichier) ---
stations_url = "https://www.ncei.noaa.gov/pub/data/noaa/isd-history.csv"
pdf_stations = pd.read_csv(stations_url,
                         dtype={'USAF': str, 'WBAN': str})

pdf_stations['STN_ID'] = pdf_stations['USAF'].str.strip() + pdf_stations['WBAN'].str.strip()
pdf_stations = pdf_stations.rename(columns={'LAT': 'LATITUDE', 'LON': 'LONGITUDE'})
pdf_stations = pdf_stations.dropna(subset=['LATITUDE', 'LONGITUDE', 'STATION NAME'])
spark_stations_df = spark.createDataFrame(pdf_stations)

# --- 2. Filtrage Géographique ---
nyc_stations_spark = spark_stations_df.filter(
    (F.col('LATITUDE') >= MIN_LAT) & (F.col('LATITUDE') <= MAX_LAT) &
    (F.col('LONGITUDE') >= MIN_LON) & (F.col('LONGITUDE') <= MAX_LON)
)

# Récupération de la liste des IDs pertinents (pour filtrage par nom de fichier)
relevant_station_ids = [row.STN_ID for row in nyc_stations_spark.select("STN_ID").collect()]

print(f"\n✅ {nyc_stations_spark.count()} Stations NOAA pertinentes trouvées près de New York.")
# Gardons ce DataFrame pour la jointure des coordonnées plus tard


✅ 93 Stations NOAA pertinentes trouvées près de New York.


Phase 2 bis : Téléchargement des données

In [None]:
import os
import requests
import time
from tqdm import tqdm # Importation de tqdm pour une barre de progression

# --- Paramètres de Configuration ---
BASE_URL = "https://www.ncei.noaa.gov/data/global-summary-of-the-day/access"
LOCAL_BASE_DIR = "/home/jovyan/work/data/noaa_gsod"
START_YEAR = 2005
END_YEAR = 2023

# --- IDs des stations à télécharger ---
# NOTE: Cette liste doit être remplie avec le résultat de votre Phase 2 !
# Exemple de données de test si la Phase 2 n'est pas exécutée :
# relevant_station_ids = ["72503094728", "72503014732"] 

# Si vous exécutez ce bloc après la Phase 2, assurez-vous que la liste est disponible.
if 'relevant_station_ids' not in locals():
    print("⚠️ ATTENTION: La liste 'relevant_station_ids' n'est pas définie. Veuillez exécuter la Phase 2 en premier.")
    # On sort du script si la liste n'est pas disponible pour éviter de télécharger inutilement
    exit()

# Démarrage du processus de téléchargement
print(f"Démarrage du téléchargement pour {len(relevant_station_ids)} stations de {START_YEAR} à {END_YEAR}.")

total_files = len(relevant_station_ids) * (END_YEAR - START_YEAR + 1)
downloaded_count = 0

# Utilisation de tqdm pour la barre de progression
with tqdm(total=total_files, desc="Téléchargement des fichiers GSOD") as pbar:
    
    for year in range(START_YEAR, END_YEAR + 1):
        year_dir = os.path.join(LOCAL_BASE_DIR, str(year))
        
        # Crée le répertoire de l'année s'il n'existe pas
        os.makedirs(year_dir, exist_ok=True)
        
        for station_id in relevant_station_ids:
            file_name = f"{station_id}.csv"
            local_path = os.path.join(year_dir, file_name)
            remote_url = f"{BASE_URL}/{year}/{file_name}"

            # Vérifie si le fichier existe déjà pour éviter de le re-télécharger
            if os.path.exists(local_path):
                # print(f"Fichier existant: {local_path}. Ignoré.")
                pbar.update(1)
                downloaded_count += 1
                continue
            
            try:
                # Requête HTTP GET pour télécharger le fichier
                response = requests.get(remote_url, timeout=10)
                response.raise_for_status() # Lève une exception si le statut HTTP est 4xx ou 5xx
                
                # Écrit le contenu dans le fichier local
                with open(local_path, 'wb') as f:
                    f.write(response.content)
                
                downloaded_count += 1
                pbar.update(1)
                # Pause pour être poli avec le serveur NOAA
                time.sleep(0.1) 
                
            except requests.exceptions.HTTPError as errh:
                # Fichier 404/Not Found (la station n'a pas forcément de données pour cette année)
                if response.status_code == 404:
                    pass # On ignore simplement ce fichier manquant
                else:
                    print(f"\n❌ Erreur HTTP pour {remote_url}: {errh}")
            except requests.exceptions.RequestException as e:
                print(f"\n❌ Erreur de Connexion/Timeout pour {remote_url}: {e}")

print(f"\n✅ Téléchargement terminé. {downloaded_count} fichiers GSOD traités (téléchargés ou existants).")

Démarrage du téléchargement pour 93 stations de 2005 à 2023.


Téléchargement des fichiers GSOD:   8%|▊         | 137/1767 [05:24<36:26,  1.34s/it]  

Phase 3 : Ingestion Ciblée et Persistance (Couche Raw)

In [5]:
# --- Configuration des Chemins ---
LOCAL_BASE_DIR = "/home/jovyan/work/data/noaa_gsod" 
RAW_OUTPUT_PATH = "hdfs://namenode:9000/user/mathis/datalake/noaa_gsod_nyc_raw_2005_2023.parquet"
START_YEAR = 2005
END_YEAR = 2023

# --- 1. Définition des Chemins Ciblés ---
# Nous construisons la liste des chemins vers les fichiers des stations pertinentes
targeted_paths = []
for year in range(START_YEAR, END_YEAR + 1):
    for station_id in relevant_station_ids:
        # Chemin absolu corrigé : /home/jovyan/work/data/noaa_gsod/2005/XXXXX.csv
        targeted_paths.append(f"{LOCAL_BASE_DIR}/{year}/{station_id}.csv")

gsod_data_paths = targeted_paths

# --- 2. Schéma et Lecture ---
gsod_schema = StructType([
    StructField("STATION", StringType(), True),
    StructField("DATE", StringType(), True),
    # Inclure le reste du schéma complet... (omission ici pour la concision)
    StructField("FRSHHT", StringType(), True),
])

# Lecture distribuée des données GSOD (seulement les fichiers ciblés)
all_gsod_data = spark.read.csv(
    gsod_data_paths,
    header=True,
    schema=gsod_schema,
    sep=','
)

# Renommage de la colonne ID
nyc_gsod_data = all_gsod_data.withColumnRenamed("STATION", "ID_STATION")


# --- 3. Persistance de la Couche Brute sur HDFS ---
print(f"\nSauvegarde de la copie BRUTE filtrée (2005-2023) dans : {RAW_OUTPUT_PATH}...")
# Cette étape transfère les données du disque local du conteneur vers HDFS
nyc_gsod_data.write.mode("overwrite").parquet(RAW_OUTPUT_PATH)
print("✅ Copie brute sauvegardée sur HDFS. Le traitement peut se poursuivre.")

AnalysisException: [PATH_NOT_FOUND] Path does not exist: file:/data/noaa_gsod/2005/72055399999.csv.

In [14]:
import pyspark.sql.functions as F
from pyspark.sql.types import *

# --- Configuration HDFS ---
# Chemin où les données BRUTES FILTRÉES seront sauvegardées (votre couche Raw/Persistance)
RAW_OUTPUT_PATH = "hdfs://namenode:9000/user/mathis/datalake/noaa_gsod_nyc_raw_2005_2023.parquet"

# --- 1. Définition de la Plage de Chemins (LA CORRECTION) ---
start_year = 2005
end_year = 2005

# Création d'une liste de chemins cibles :
# Exemple: ['/data/noaa_gsod/2005/*.csv', '/data/noaa_gsod/2006/*.csv', ...]
year_paths = [f"../data/noaa_gsod/{year}/*.csv" for year in range(start_year, end_year + 1)]

# Le chemin de lecture devient la liste des chemins d'années
gsod_data_paths = year_paths

# Schéma COMPLÉTÉ des colonnes
gsod_schema = StructType([
    StructField("STATION", StringType(), True),
    StructField("DATE", StringType(), True),
    StructField("LATITUDE", DoubleType(), True), 
    StructField("LONGITUDE", DoubleType(), True),
    StructField("ELEVATION", DoubleType(), True),
    StructField("NAME", StringType(), True),
    StructField("TEMP", DoubleType(), True),
    StructField("TEMP_ATTRIBUTES", StringType(), True),
    StructField("DEWP", DoubleType(), True),
    StructField("PRCP", DoubleType(), True),
    StructField("MIN", DoubleType(), True),
    StructField("MAX", DoubleType(), True),
    StructField("WDSP", DoubleType(), True),
    StructField("VISIB", DoubleType(), True),
    StructField("SLP", DoubleType(), True),
    StructField("FRSHHT", StringType(), True),
])

# Lecture distribuée des données GSOD (UNiquement 2005-2023)
# Notez l'utilisation de `gsod_data_paths` (la liste)
all_gsod_data = spark.read.csv(
    gsod_data_paths,
    header=True,
    schema=gsod_schema,
    sep=','
)

# Renommage de la colonne ID et Filtrage du gros DataFrame
gsod_data_filtered = all_gsod_data.withColumnRenamed("STATION", "ID_STATION")
nyc_gsod_data = gsod_data_filtered.filter(F.col("ID_STATION").isin(relevant_station_ids))

# ----------------------------------------------------
# NOUVELLE ÉTAPE : Persistance de la copie Brute filtrée sur HDFS
# Le format Parquet est compressé et optimisé pour le Big Data
print(f"Sauvegarde de la copie BRUTE filtrée (2005-2023) dans : {RAW_OUTPUT_PATH}...")
nyc_gsod_data.write.mode("overwrite").parquet(RAW_OUTPUT_PATH)
print("✅ Copie brute sauvegardée sur HDFS. Le traitement peut se poursuivre à partir de ce point.")
# ----------------------------------------------------


----------------------------------------
Exception occurred during processing of request from ('127.0.0.1', 33620)
ERROR:root:Exception while sending command.
Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/clientserver.py", line 516, in send_command
    raise Py4JNetworkError("Answer from Java side is empty")
py4j.protocol.Py4JNetworkError: Answer from Java side is empty

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/clientserver.py", line 539, in send_command
    raise Py4JNetworkError(
py4j.protocol.Py4JNetworkError: Error while sending or receiving
Traceback (most recent call last):
  File "/opt/conda/lib/python3.

Py4JError: An error occurred while calling o338.csv

ERROR:root:Exception while sending command.
Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/clientserver.py", line 516, in send_command
    raise Py4JNetworkError("Answer from Java side is empty")
py4j.protocol.Py4JNetworkError: Answer from Java side is empty

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/clientserver.py", line 539, in send_command
    raise Py4JNetworkError(
py4j.protocol.Py4JNetworkError: Error while sending or receiving


In [None]:
# Lecture du fichier Parquet depuis HDFS pour la couche de Traitement/Nettoyage (ETL)
data_for_cleaning = spark.read.parquet(RAW_OUTPUT_PATH)
# --- 2. Nettoyage et Renommage des Colonnes (en Français) ---

renaming_map = {
    "DATE": "DATE_OBSERVATION",
    "TEMP": "TEMP_MOYENNE_F",
    "DEWP": "POINT_ROSEE_F",
    "PRCP": "PRECIPITATION_POUCES",
    "MIN": "TEMP_MIN_F",
    "MAX": "TEMP_MAX_F",
    "WDSP": "VITESSE_VENT_NOEUDS",
    "VISIB": "VISIBILITE_MILLES",
    "SLP": "PRESSION_ATM_MER",
    "FRSHHT": "PHENOMENES"
}

gsod_renamed_df = data_for_cleaning
for old_name, new_name in renaming_map.items():
    if old_name in gsod_renamed_df.columns:
        gsod_renamed_df = gsod_renamed_df.withColumnRenamed(old_name, new_name)


# --- 3. Jointure des Coordonnées (si manquantes dans les CSV GSOD) ---
# On utilise la jointure pour s'assurer que les coordonnées des stations sont présentes

clean_final_gsod_df = gsod_renamed_df.join(
    nyc_stations_spark.select(
        'STN_ID', 
        F.col('LATITUDE').alias('LATITUDE_STATION'), 
        F.col('LONGITUDE').alias('LONGITUDE_STATION')
    ), 
    on=[F.col("ID_STATION") == F.col("STN_ID")],
    how='left'
).drop("STN_ID").drop("LATITUDE").drop("LONGITUDE") # Supprime les colonnes de l'ancien CSV si elles existent


print("\nDonnées NOAA nettoyées et prêtes pour la jointure spatiale.")

Phase 4 : Préparation des Coordonnées des Zones de Qualité de l'Air

In [None]:
# --- 1. Téléchargement et Extraction du GeoJSON ---
geojson_url = "https://raw.githubusercontent.com/nycehs/NYC_geography/master/UHF42.geo.json"

response = requests.get(geojson_url)
geo_data_raw = response.json()

geo_records = []
for feature in geo_data_raw['features']:
    properties = feature['properties']
    geometry = feature['geometry']
    coords = geometry['coordinates']
    
    try:
        # Extraction du premier point du polygone/multipolygone comme centroïde approximatif
        if geometry['type'] == 'Polygon':
            lon = coords[0][0][0]
            lat = coords[0][0][1]
        elif geometry['type'] == 'MultiPolygon':
            lon = coords[0][0][0][0]
            lat = coords[0][0][0][1]
        else:
            continue
            
        geo_records.append({
            "GEOJOIN_ID": properties['UHF42'],
            "LATITUDE_ZONE": lat,
            "LONGITUDE_ZONE": lon
        })
    except (IndexError, TypeError):
        continue

# --- 2. Création du DataFrame Spark des Coordonnées des Zones ---
geo_schema = StructType([
    StructField("GEOJOIN_ID", StringType(), False),
    StructField("LATITUDE_ZONE", DoubleType(), True),
    StructField("LONGITUDE_ZONE", DoubleType(), True)
])

geo_df = spark.createDataFrame(geo_records, schema=geo_schema)

print(f"\n{geo_df.count()} zones de qualité de l'air (GeoJoin ID) préparées avec leurs coordonnées.")
geo_df.show(5)

Phase 5 : Calcul de la Distance et Voisin le Plus Proche

In [None]:
# Constante du rayon de la Terre en kilomètres (km)
R = 6371.0

# Formule de la Haversine
def haversine(lon1, lat1, lon2, lat2):
    """
    Calcule la distance Haversine entre deux points (lat, lon)
    Retourne la distance en kilomètres (km)
    """
    # Conversion de degrés en radians
    lon1_rad, lat1_rad, lon2_rad, lat2_rad = map(radians, [lon1, lat1, lon2, lat2])

    dlon = lon2_rad - lon1_rad
    dlat = lat2_rad - lat1_rad

    a = sin(dlat / 2)**2 + cos(lat1_rad) * cos(lat2_rad) * sin(dlon / 2)**2
    c = 2 * asin(sqrt(a))
    
    return R * c

# Enregistrement de la fonction comme une UDF (User Defined Function) pour Spark
haversine_udf = F.udf(haversine, DoubleType())

print("\nFonction Haversine UDF créée pour le calcul de distance.")

In [None]:
# --- 1. Préparation pour la Jointure Cartésienne (Cross Join) ---
# On sélectionne les informations de position uniques de chaque station météo
stations_coords_df = clean_final_gsod_df.select(
    "ID_STATION", "LATITUDE_STATION", "LONGITUDE_STATION"
).distinct()

# --- 2. Jointure Cartésienne ---
# Jointure de toutes les zones de qualité de l'air avec toutes les stations météo.
# Cette étape crée toutes les paires possibles (Zone A - Station 1, Zone A - Station 2, ...)
# ATTENTION: Le Cross Join doit rester petit (n_stations x n_zones) pour ne pas saturer la RAM.
cross_joined_df = geo_df.crossJoin(stations_coords_df)


# --- 3. Calcul de la Distance pour chaque paire ---
# On applique la fonction Haversine
distance_df = cross_joined_df.withColumn(
    "DISTANCE_KM",
    haversine_udf(
        F.col("LONGITUDE_ZONE"), 
        F.col("LATITUDE_ZONE"), 
        F.col("LONGITUDE_STATION"), 
        F.col("LATITUDE_STATION")
    )
)


# --- 4. Identification du Voisin le Plus Proche ---
# On utilise une Window Function pour trouver la distance minimale pour chaque zone (GeoJoin ID)
window_spec = Window.partitionBy("GEOJOIN_ID").orderBy(F.col("DISTANCE_KM"))

nearest_station_df = distance_df.withColumn(
    "rank", 
    F.rank().over(window_spec)
).filter(F.col("rank") == 1).drop("rank")


print("\n✅ Voisin le plus proche trouvé pour chaque zone de qualité de l'air :")
nearest_station_df.select(
    "GEOJOIN_ID", 
    "ID_STATION", 
    "DISTANCE_KM", 
    "LATITUDE_ZONE", 
    "LATITUDE_STATION"
).show(5, truncate=False)