In [1]:
import utils as utils
import requests
import pandas as pd
import io
import json
import time
import datetime
import random
from pyspark.sql.types import StructType, StructField, StringType, ArrayType, LongType, DecimalType, FloatType, DoubleType, IntegerType, BooleanType, MapType
from pyspark.sql import SparkSession
from pyspark.sql import functions as F # Import functions for from_json and col
from pyspark.sql.functions import col, when, lit, coalesce
from pyspark.sql.dataframe import DataFrame


In [2]:
#crear context spark
spark = utils.create_context()

Funcion para obtener preddicion diaria (o horaria) de AEMET

In [3]:
#import requests
#import json
#import pandas as pd
#import io
#import random
#import time
#import datetime

# --- Configuración General ---
# IMPORTANTE: ¡Reemplaza con tu clave API de AEMET!
AEMET_API_KEY = 'eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJmcnZhcmdhcy44N0BnbWFpbC5jb20iLCJqdGkiOiI3MTJmNjFkYi1hMDg3LTRkM2QtODFlNS04ZjY4YjYwOWE2YTAiLCJpc3MiOiJBRU1FVCIsImlhdCI6MTc0OTIyOTY1OSwidXNlcklkIjoiNzEyZjYxZGItYTA4Ny00ZDNkLTgxZTUtOGY2OGI2MDlhNmEwIiwicm9sZSI6IiJ9.BbMqB0Jj2_z5wJw6luQhH7iMlJDMk2gfPEVOQ7Chc7E'

# URL del archivo XLSX del INE con los códigos de municipio
INE_XLSX_URL = 'https://www.ine.es/daco/daco42/codmun/diccionario25.xlsx'

# Código de municipio que queremos asegurar que siempre esté incluido
REQUIRED_MUNICIPALITY_CODE = '08019' # Barcelona

# Número de municipios aleatorios a seleccionar (además del obligatorio)
NUM_RANDOM_MUNICIPALITIES = 3 

# Retraso entre llamadas a la API de AEMET (en segundos)
API_CALL_DELAY_SECONDS = 0.5 

# --- Función para obtener datos de AEMET para un solo municipio (implementa el proceso de 2 pasos) ---
def get_aemet_prediction_for_municipio(api_key: str, municipality_code: str, data_type: str = 'diaria'):
    """
    Obtiene datos de predicción de la API de AEMET para un municipio y tipo de dato específico.
    Maneja el proceso de dos pasos de la API de AEMET.

    Args:
        api_key (str): Clave de API de AEMET.
        municipality_code (str): Código de municipio de AEMET (ej. '08019').
        data_type (str): 'diaria' para predicción diaria, 'horaria' para predicción horaria.

    Returns:
        dict or list: Los datos obtenidos en formato JSON, o None si ocurre un error.
    """
    if data_type not in ['diaria', 'horaria']:
        print(f"Advertencia: Tipo de dato '{data_type}' no soportado. Usando 'diaria'.")
        data_type = 'diaria'

    # PRIMER PASO: Llamada a la API de AEMET para obtener la URL de los datos
    initial_api_url = f'https://opendata.aemet.es/opendata/api/prediccion/especifica/municipio/{data_type}/{municipality_code}'
    
    headers = {
        'accept': 'application/json',
        'api_key': api_key # La API Key se pasa en los headers para esta primera llamada
    }

    try:
        initial_response = requests.get(initial_api_url, headers=headers)
        initial_response.raise_for_status() # Lanza una excepción para errores HTTP
        
        data_info = initial_response.json()

        if 'datos' in data_info:
            data_url = data_info['datos']
            time.sleep(API_CALL_DELAY_SECONDS) # Pequeña espera para no sobrecargar la API

            # SEGUNDO PASO: Llamada a la URL de 'datos' para obtener el JSON real
            # Aquí no se necesita la api_key en los headers, ya que es una URL directa
            final_data_response = requests.get(data_url)
            final_data_response.raise_for_status() 
            
            return final_data_response.json() # Devolvemos el JSON de la predicción
        else:
            print(f"  Error para {municipality_code}: No se encontró 'datos' en la primera respuesta. {data_info}")
            return None

    except requests.exceptions.RequestException as e:
        print(f"  Error de solicitud para {municipality_code}: {e}")
        if hasattr(e, 'response') and e.response is not None:
            print(f"    Estado HTTP: {e.response.status_code}, Contenido: {e.response.text}")
        return None
    except json.JSONDecodeError as e:
        print(f"  Error de JSON para {municipality_code}: {e}")
        return None
    except Exception as e:
        print(f"  Error inesperado para {municipality_code}: {e}")
        return None


Funcion principal para obtener json AEMET

In [4]:
# --- Función Principal para obtener JSON Crudo ---
def get_aemet_raw_json_for_selected_municipalities(
    api_key: str, 
    ine_xlsx_url: str, 
    required_mun_code: str, 
    num_random_mun: int, 
    data_type: str = 'diaria'
) -> list:
    """
    Lee códigos de municipio de un XLSX del INE, selecciona un conjunto de ellos (incluyendo uno obligatorio),
    y descarga los datos de predicción de AEMET en formato JSON CRUDO para cada uno.

    Args:
        api_key (str): Tu clave de API de AEMET.
        ine_xlsx_url (str): URL del archivo XLSX del INE.
        required_mun_code (str): Código del municipio que siempre debe incluirse.
        num_random_mun (int): Número de municipios aleatorios a seleccionar.
        data_type (str): Tipo de dato de predicción ('diaria' o 'horaria').

    Returns:
        list: Una lista de diccionarios. Cada diccionario contiene información del municipio
              y el JSON crudo de la predicción de AEMET.
              Devuelve una lista vacía si no se pudieron obtener datos.
    """
    
    # 1. Descargar y leer el XLSX del INE
    print(f"1. Descargando el archivo XLSX del INE desde: {ine_xlsx_url}")
    try:
        response = requests.get(ine_xlsx_url)
        response.raise_for_status()
        file_content = io.BytesIO(response.content)
        
        df_ine = pd.read_excel(file_content, header=1) 
        
        print("   Archivo XLSX del INE leído exitosamente.")
        print(f"   Columnas leídas del Excel: {df_ine.columns.tolist()}") 
        
    except Exception as e:
        print(f"Error al leer el archivo XLSX del INE: {e}")
        print("Asegúrate de que la URL es correcta y el archivo Excel es accesible y no corrupto.")
        return []

    # --- Preprocesar códigos de municipio del INE ---
    try:
        df_ine_filtered = df_ine.dropna(subset=['CPRO', 'CMUN'])
        df_ine_filtered['CPRO_STR'] = df_ine_filtered['CPRO'].astype(int).astype(str).str.zfill(2)
        df_ine_filtered['CMUN_STR'] = df_ine_filtered['CMUN'].astype(int).astype(str).str.zfill(3)
        df_ine_filtered['COD_AEMET'] = df_ine_filtered['CPRO_STR'] + df_ine_filtered['CMUN_STR']
    except KeyError as e:
        print(f"\n¡Error de columna después de leer el Excel! La columna {e} no se encontró en el DataFrame.")
        print(f"Columnas disponibles en el DataFrame: {df_ine.columns.tolist()}")
        print("A pesar de especificar 'header=1', las columnas 'CPRO' y 'CMUN' no se encontraron. Revisa si hay un error tipográfico en el código o si el nombre de las columnas en el Excel es diferente (mayúsculas/minúsculas, espacios, etc.).")
        return []
    except Exception as e:
        print(f"\nError al procesar los códigos de municipio después de leer el Excel: {e}")
        return []

    all_available_codes = df_ine_filtered['COD_AEMET'].unique().tolist()
    
    # 2. Seleccionar municipios
    selected_municipio_codes = set()
    
    if required_mun_code in all_available_codes:
        selected_municipio_codes.add(required_mun_code)
        print(f"2.1. Incluyendo el municipio obligatorio: {required_mun_code}")
    else:
        print(f"Advertencia: El municipio obligatorio {required_mun_code} no se encontró en el XLSX. Asegúrate de que el código sea correcto.")
    
    eligible_for_random = [code for code in all_available_codes if code not in selected_municipio_codes]
    if len(eligible_for_random) >= num_random_mun:
        random_selection = random.sample(eligible_for_random, num_random_mun)
        selected_municipio_codes.update(random_selection)
        print(f"2.2. Seleccionando {num_random_mun} municipios aleatorios.")
    else:
        print(f"Advertencia: No hay suficientes municipios para seleccionar {num_random_mun} aleatorios. Seleccionando todos los restantes ({len(eligible_for_random)}).")
        selected_municipio_codes.update(eligible_for_random)

    final_municipio_codes = list(selected_municipio_codes)
    print(f"3. Se descargarán datos para los siguientes municipios ({len(final_municipio_codes)} en total): {final_municipio_codes}")

    all_raw_aemet_data = []
    
    # 4. Iterar por cada municipio seleccionado y descargar datos de AEMET
    print("4. Iniciando descarga de datos RAW de AEMET para los municipios seleccionados...")
    for i, code in enumerate(final_municipio_codes):
        print(f"  [{i+1}/{len(final_municipio_codes)}] Obteniendo datos RAW para municipio {code}...")
        aemet_data = get_aemet_prediction_for_municipio(api_key, code, data_type=data_type)
        
        if aemet_data:
            municipio_info_row = df_ine_filtered[df_ine_filtered['COD_AEMET'] == code].iloc[0]
            
            # Almacenar el JSON crudo junto con la información del municipio
            raw_record = {
                'municipio_codigo_aemet': code,
                'nombre_municipio_ine': municipio_info_row.get('NOMBRE', None),
                'provincia_ine': municipio_info_row.get('PROVINCIA', None),
                'ccaa_ine': municipio_info_row.get('CA', None),
                'fecha_descarga_utc': datetime.datetime.utcnow().isoformat(),
                'raw_aemet_data_json': aemet_data # Aquí guardamos el JSON completo
            }
            all_raw_aemet_data.append(raw_record)
        
        time.sleep(API_CALL_DELAY_SECONDS) 

    if not all_raw_aemet_data:
        print("No se pudieron obtener datos RAW de AEMET para ningún municipio seleccionado.")
        return []

    print(f"\n5. Se han obtenido datos RAW de AEMET para {len(all_raw_aemet_data)} municipios.")
    return all_raw_aemet_data



FUNCION PARA IMPUTAR DATOS NUMERICOS

In [None]:
def imputeNumericColumns(
    df: DataFrame,
    constant_value: float = 999.0,
    columns_to_impute: list = None
) -> DataFrame:
    """
    Imputa valores NULL en columnas numéricas (IntegerType, FloatType, LongType, DoubleType, DecimalType) 
    de un DataFrame de Spark con un valor constante especificado.

    Esta función opera en columnas que *ya* son de tipo numérico.
    Si sus valores "vacíos" se representan actualmente como cadenas vacías ("") 
    u otro texto no numérico en una columna StringType, primero debe convertirlos a 
    valores NULL y convertir la columna a un tipo numérico mediante un paso de preprocesamiento.

    Args:
        df (DataFrame): El Spark DataFrame.
        constant_value (float): El valor constante para imputación. Por defecto será 999.0.
        columns_to_impute (list, optional): Una lista de nombres de columnas numéricas específicas para imputar.
                                            Si no hay ninguno, se imputarán todas las columnas numéricas.

    Returns:
        DataFrame: Un nuevo Spark DataFrame con NULL imputados en columnas numéricas.

    """
    if not isinstance(df, DataFrame):
        raise TypeError("Entrada 'df' debe ser un Spark DataFrame.")
    if not isinstance(constant_value, (int, float)):
        raise TypeError("Entrada'constant_value' debe ser un tipo numeric (int or float).")

    # Define the Spark numeric types this function will target
    numeric_spark_types = (IntegerType, LongType, FloatType, DoubleType, DecimalType)

    # Get all column names from the DataFrame's SCHEMA that are actually numeric types
    df_actual_numeric_cols_from_schema = [f.name for f in df.schema.fields if isinstance(f.dataType, numeric_spark_types)]

    # Your predefined lists for AEMET data
    all_aemet_cols_conceptual = ['prob_precipitacion_00_24','cota_nieve_prov_00_24','estado_cielo_00_24_descripcion','estado_cielo_00_24_code','viento_direccion_00_24','viento_velocidad_00_24','racha_max_00_24','temperatura_maxima','temperatura_minima','sens_termica_maxima','sens_termica_minima','humedad_relativa_maxima','humedad_relativa_minima','uv_max']
    string_aemet_cols_conceptual = ['estado_cielo_00_24_descripcion', 'viento_direccion_00_24']

    # Determine the conceptual numeric columns based on your AEMET lists
    conceptual_numeric_aemet_cols = list(set(all_aemet_cols_conceptual) - set(string_aemet_cols_conceptual))

    # The final set of numeric columns to consider for imputation are those that are:
    # 1. Actually numeric in the DataFrame's schema.
    # 2. Present in your conceptual list of AEMET numeric columns.
    # This ensures robustness.
    all_numeric_cols_to_target = list(set(df_actual_numeric_cols_from_schema) & set(conceptual_numeric_aemet_cols))


    if columns_to_impute:
        # If specific columns are requested, filter them against the actual numeric target list
        actual_columns_to_impute = [c for c in columns_to_impute if c in all_numeric_cols_to_target]
        if len(actual_columns_to_impute) != len(columns_to_impute):
            missing_or_non_target = set(columns_to_impute) - set(actual_columns_to_impute)
            print(f"Warning: Algunas columnas específicas ({missing_or_non_target}) no son target o no existen en el schema del DataFrame schema. Estas serán ignoradas.")
        numeric_cols_for_imputation = actual_columns_to_impute
    else:
        # If no specific columns, use all identified numeric target columns
        numeric_cols_for_imputation = all_numeric_cols_to_target

    if not numeric_cols_for_imputation:
        print("No se encontraron ni seleccionaron columnas numéricas para la imputación según los criterios. No se realizaron cambios.")
        return df

    print(f"Imputando NULLs en columans numéricas con valor constante: '{constant_value}'...")
    print(f"Columnas affectadas: {', '.join(numeric_cols_for_imputation)}")

    columns_to_select = []
    for column_name in df.columns:
        if column_name in numeric_cols_for_imputation:
            # coalesce replaces NULLs. For numerical types, NULL is the only "empty" value.
            columns_to_select.append(
                coalesce(col(column_name), lit(constant_value)).alias(column_name)
            )
        else:
            columns_to_select.append(col(column_name))

    return df.select(columns_to_select)

FUNCION PARA IMPUTAR TEXTOS

In [None]:
#Crear una función para imputar nulos en las columnas de tipo StringType Spark DataFrame
def imputeStringColumns(df: "SPARK_DataFrame", replacement_value: str = "Desconocido"):
    """
    Imputa valores nulos en columnas de tipo StringType con un valor por defecto.
    """
    string_cols=['estado_cielo_00_24_descripcion', 'viento_direccion_00_24', 'cota_nieve_prov_00_24', 'estado_cielo_00_24_code', 'racha_max_00_24']
    #string_cols = [field.name for field in df.schema.fields if isinstance(field.dataType, StringType)]
    #menos columnas específicas que no queremos imputar
    #string_cols = [col for col in string_cols if col not in ['id', 'version']]  # Exclude 'id' and 'version' columns if they are StringType
    # Exclude columns that are not StringType or that we don't want to impute   
    #string_cols = [col for col in string_cols if col not in ['municipio_codigo_aemet', 'nombre_municipio_ine', 'fecha_descarga_utc', 'prediccion_fecha']] 
    
    if not string_cols:
        print("No se encontraron columns StringType para imputation.")
        return df

    # Create a list of all columns, applying the imputation logic for StringType columns
    columns_to_select = []
    for column_name in df.columns:
        if column_name in string_cols:
            columns_to_select.append(
                # Check if NULL OR if it's an empty string
                when(col(column_name).isNull() | (col(column_name) == ""), lit(replacement_value))
                .otherwise(col(column_name))
                .alias(column_name)
            )
        else:
            columns_to_select.append(col(column_name))
            
    print(f"Imputando nulls y strings vacios es columnas con '{replacement_value}'...")
    print(f"Columnas afectadas: {', '.join(string_cols)}")

    return df.select(columns_to_select)


Obtencion de raw jsons desde AEMET

In [5]:
list_of_raw_jsons = get_aemet_raw_json_for_selected_municipalities(
        api_key=AEMET_API_KEY,
        ine_xlsx_url=INE_XLSX_URL,
        required_mun_code=REQUIRED_MUNICIPALITY_CODE,
        num_random_mun=NUM_RANDOM_MUNICIPALITIES,
        data_type='diaria' #o si prefieres la predicción 'horaria'
    )

if list_of_raw_jsons:
        print("\n--- JSONs RAW Obtenidos ---")
        for i, item in enumerate(list_of_raw_jsons):
            print(f"\n--- Municipio {i+1}: {item['nombre_municipio_ine']} ({item['municipio_codigo_aemet']}) ---")
            # Imprime el JSON de forma legible
            print(json.dumps(item['raw_aemet_data_json'], indent=2, ensure_ascii=False))
            print("-" * 50) # Separador

        print(f"\nTotal de municipios con JSONs RAW: {len(list_of_raw_jsons)}")
else:
        print("No se obtuvieron JSONs RAW para ningún municipio.")

print("\nProceso finalizado. Ahora tienes una lista de diccionarios con el JSON crudo de AEMET para cada municipio seleccionado.")
print("Puedes usar esta lista (por ejemplo, 'list_of_raw_jsons') para crear un DataFrame de Spark o guardarla.")

1. Descargando el archivo XLSX del INE desde: https://www.ine.es/daco/daco42/codmun/diccionario25.xlsx
   Archivo XLSX del INE leído exitosamente.
   Columnas leídas del Excel: ['CODAUTO', 'CPRO', 'CMUN', 'DC', 'NOMBRE']
2.1. Incluyendo el municipio obligatorio: 08019
2.2. Seleccionando 3 municipios aleatorios.
3. Se descargarán datos para los siguientes municipios (4 en total): ['05081', '37188', '46193', '08019']
4. Iniciando descarga de datos RAW de AEMET para los municipios seleccionados...
  [1/4] Obteniendo datos RAW para municipio 05081...
  [2/4] Obteniendo datos RAW para municipio 37188...
  [3/4] Obteniendo datos RAW para municipio 46193...
  [4/4] Obteniendo datos RAW para municipio 08019...

5. Se han obtenido datos RAW de AEMET para 4 municipios.

--- JSONs RAW Obtenidos ---

--- Municipio 1: Garganta del Villar (05081) ---
[
  {
    "origen": {
      "productor": "Agencia Estatal de Meteorología - AEMET. Gobierno de España",
      "web": "https://www.aemet.es",
      "enl

LANDING ZONE

Raw Json --->> DataFrame SPARK

In [23]:
processed_data = []
for item in list_of_raw_jsons:
    raw_aemet_data = item.get('raw_aemet_data_json')#This is the JSON data we want to process
    # Convert the raw_aemet_data to a JSON string
    # If raw_aemet_data is None or an empty list, we will set it to an empty JSON array string
    # This ensures that we always have a valid JSON string for the DataFrame
    if raw_aemet_data:
        # Ensure it's a string, even if it's an empty list
        raw_aemet_data_json_str = json.dumps(raw_aemet_data)
    else:
        # If raw_aemet_data is None or an empty list, set to an empty JSON array string
        # This handles cases where 'raw_aemet_data_json' might be missing entirely or explicitly None
        raw_aemet_data_json_str = '[]'

    processed_data.append({
        'municipio_codigo_aemet': item.get('municipio_codigo_aemet'),
        'nombre_municipio_ine': item.get('nombre_municipio_ine'),
        'fecha_descarga_utc': item.get('fecha_descarga_utc'),
        'raw_aemet_data_json_str': raw_aemet_data_json_str,
        'id': item.get('id'),
        'version': item.get('version')
    })


# Define the schema explicitly for the initial DataFrame
# This is crucial for avoiding CANNOT_DETERMINE_TYPE errors
schema = StructType([
    StructField("municipio_codigo_aemet", StringType(), True),
    StructField("nombre_municipio_ine", StringType(), True),
    StructField("fecha_descarga_utc", StringType(), True),
    StructField("raw_aemet_data_json_str", StringType(), True), # This should always be a string
    StructField("id", LongType(), True), # Use LongType as IDs might exceed IntegerType max
    StructField("version", DoubleType(), True)
])

# Create the Spark DataFrame with the defined schema
df_raw_aemet = spark.createDataFrame(processed_data, schema=schema)

# Show the schema to verify data types
#print("\n--- Schema of DataFrame df_raw_aemet ---")
#df_raw_aemet.printSchema()

# Show some rows to verify the data
print("\n--- First 5 rows of DataFrame df_raw_aemet ---")
df_raw_aemet.show(5, truncate=False)



--- First 5 rows of DataFrame df_raw_aemet ---
+----------------------+--------------------+--------------------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Write/Overwrite table into iceberg

In [7]:
db_name = "local_db"
table_name = "aemet"

if utils.check_table_exists(spark,db_name,table_name):
    utils.overwrite_iceberg_table(spark,df_raw_aemet,db_name,table_name)



#Trusted Zone:
    Valores iniciales de cada dia (00-24)

In [29]:
# Procesar la lista de JSONs crudos para crear un DataFrame de Spark
processed_data = []
for item in list_of_raw_jsons:
    raw_aemet_data = item.get('raw_aemet_data_json') # This should be the JSON object in raw format processed earlier
    # Convert the raw_aemet_data to a JSON string
    # If raw_aemet_data is None or an empty list, we will set it to an empty JSON array string
    # This ensures that we always have a valid JSON string for the DataFrame
    if raw_aemet_data:
        # Ensure it's a string, even if it's an empty list
        raw_aemet_data_json_str = json.dumps(raw_aemet_data)
    else:
        # If raw_aemet_data is None or an empty list, set to an empty JSON array string
        raw_aemet_data_json_str = '[]'

    processed_data.append({
        'municipio_codigo_aemet': item.get('municipio_codigo_aemet'),
        'nombre_municipio_ine': item.get('nombre_municipio_ine'),
        #'provincia_ine': item.get('provincia_ine'),
        #'ccaa_ine': item.get('ccaa_ine'),
        'fecha_descarga_utc': item.get('fecha_descarga_utc'),
        'raw_aemet_data_json_str': raw_aemet_data_json_str,
        'id': item.get('id'),
        'version': item.get('version')
    })


# Define the schema for the initial DataFrame
schema_df = StructType([
    StructField("municipio_codigo_aemet", StringType(), True),
    StructField("nombre_municipio_ine", StringType(), True),
    #StructField("provincia_ine", StringType(), True),
    #StructField("ccaa_ine", StringType(), True),
    StructField("fecha_descarga_utc", StringType(), True),
    StructField("raw_aemet_data_json_str", StringType(), True),
    StructField("id", LongType(), True),
    StructField("version", DoubleType(), True)
])

# Create the Spark DataFrame with the defined schema
df_raw_aemet = spark.createDataFrame(processed_data, schema=schema_df)



# Define the schema for the nested JSON string in 'raw_aemet_data_json_str'
aemet_data_schema = ArrayType(StructType([
    StructField("origen", StructType([
        StructField("productor", StringType(), True),
        StructField("web", StringType(), True),
        StructField("enlace", StringType(), True),
        StructField("language", StringType(), True),
        StructField("copyright", StringType(), True),
        StructField("notaLegal", StringType(), True)
    ]), True),
    StructField("elaborado", StringType(), True),
    StructField("nombre", StringType(), True),
    StructField("provincia", StringType(), True),
    StructField("prediccion", StructType([
        StructField("dia", ArrayType(StructType([
            StructField("probPrecipitacion", ArrayType(StructType([
                StructField("value", IntegerType(), True),
                StructField("periodo", StringType(), True)
            ])), True),
            StructField("cotaNieveProv", ArrayType(StructType([
                StructField("value", IntegerType(), True),
                StructField("periodo", StringType(), True)
            ])), True),
            StructField("estadoCielo", ArrayType(StructType([
                StructField("value", StringType(), True),
                StructField("periodo", StringType(), True),
                StructField("descripcion", StringType(), True)
            ])), True),
            StructField("viento", ArrayType(StructType([
                StructField("direccion", StringType(), True),
                StructField("velocidad", IntegerType(), True),
                StructField("periodo", StringType(), True)
            ])), True),
            StructField("rachaMax", ArrayType(StructType([
                StructField("value", IntegerType(), True),
                StructField("periodo", StringType(), True)
            ])), True),
            StructField("temperatura", StructType([
                StructField("maxima", IntegerType(), True),
                StructField("minima", IntegerType(), True),
                StructField("dato", ArrayType(StructType([
                    StructField("value", IntegerType(), True),
                    StructField("hora", IntegerType(), True)
                ])), True)
            ]), True),
            StructField("sensTermica", StructType([
                StructField("maxima", IntegerType(), True),
                StructField("minima", IntegerType(), True),
                StructField("dato", ArrayType(StructType([
                    StructField("value", IntegerType(), True),
                    StructField("hora", IntegerType(), True)
                ])), True)
            ]), True),
            StructField("humedadRelativa", StructType([
                StructField("maxima", IntegerType(), True),
                StructField("minima", IntegerType(), True),
                StructField("dato", ArrayType(StructType([
                    StructField("value", IntegerType(), True),
                    StructField("hora", IntegerType(), True)
                ])), True)
            ]), True),
            StructField("uvMax", IntegerType(), True),
            StructField("fecha", StringType(), True)
        ])), True)
    ]), True),
    StructField("id", LongType(), True),
    StructField("version", DoubleType(), True)
]))

# Apply the from_json function to parse the raw_aemet_data_json_str column
df_parsed = df_raw_aemet.withColumn(
    "parsed_aemet_data",
    F.from_json(F.col("raw_aemet_data_json_str"), aemet_data_schema)
)

# Explode the 'dia' array to get one row per day for each municipality
df_exploded_days = df_parsed.withColumn(
    "day_data",
    F.explode_outer(F.col("parsed_aemet_data").getItem(0).getField("prediccion").getField("dia"))
)

# Function to filter an array of structs for the "00-24" period and get its value
def get_period_value(col_name, value_field="value"):
    return F.expr(f"""
        FILTER({col_name}, element -> element.periodo = '00-24')[0].{value_field}
    """)

# Select and extract the desired data, focusing on the '00-24' period for relevant arrays
df_daily_summary = df_exploded_days.select(
    F.col("municipio_codigo_aemet"),
    F.col("nombre_municipio_ine"),
    F.col("fecha_descarga_utc"),
    F.col("day_data.fecha").alias("prediccion_fecha"),

    # Probabilidad de precipitación 00-24
    get_period_value("day_data.probPrecipitacion", "value").alias("prob_precipitacion_00_24"),

    # Cota de nieve provincial 00-24
    get_period_value("day_data.cotaNieveProv", "value").alias("cota_nieve_prov_00_24"),

    # Estado del cielo 00-24
    get_period_value("day_data.estadoCielo", "descripcion").alias("estado_cielo_00_24_descripcion"),
    get_period_value("day_data.estadoCielo", "value").alias("estado_cielo_00_24_code"),

    # Viento 00-24
    get_period_value("day_data.viento", "direccion").alias("viento_direccion_00_24"),
    get_period_value("day_data.viento", "velocidad").alias("viento_velocidad_00_24"),

    # Racha máxima 00-24
    get_period_value("day_data.rachaMax", "value").alias("racha_max_00_24"),

    # Temperatura
    F.col("day_data.temperatura.maxima").alias("temperatura_maxima"),
    F.col("day_data.temperatura.minima").alias("temperatura_minima"),

    # Sensación térmica
    F.col("day_data.sensTermica.maxima").alias("sens_termica_maxima"),
    F.col("day_data.sensTermica.minima").alias("sens_termica_minima"),

    # Humedad Relativa
    F.col("day_data.humedadRelativa.maxima").alias("humedad_relativa_maxima"),
    F.col("day_data.humedadRelativa.minima").alias("humedad_relativa_minima"),

    # UV Max
    F.col("day_data.uvMax").alias("uv_max")
)

# Show the schema and some results
#print("\n--- Schema of df_daily_summary ---")
#df_daily_summary.printSchema()

print("\n--- First 20 rows of df_daily_summary ---")
df_daily_summary.show(20, truncate=False)

# Optional: Stop SparkSession
# spark.stop()


--- First 20 rows of df_daily_summary ---
+----------------------+--------------------+--------------------------+-------------------+------------------------+---------------------+------------------------------+-----------------------+----------------------+----------------------+---------------+------------------+------------------+-------------------+-------------------+-----------------------+-----------------------+------+
|municipio_codigo_aemet|nombre_municipio_ine|fecha_descarga_utc        |prediccion_fecha   |prob_precipitacion_00_24|cota_nieve_prov_00_24|estado_cielo_00_24_descripcion|estado_cielo_00_24_code|viento_direccion_00_24|viento_velocidad_00_24|racha_max_00_24|temperatura_maxima|temperatura_minima|sens_termica_maxima|sens_termica_minima|humedad_relativa_maxima|humedad_relativa_minima|uv_max|
+----------------------+--------------------+--------------------------+-------------------+------------------------+---------------------+------------------------------+-------

In [35]:
df_imputed = imputeNumericColumns(df_daily_summary, constant_value=-9999)
df_imputed = imputeStringColumns(df_imputed, replacement_value="Desconocido")
print("\n--- First 20 rows of df_daily_summary ---")
df_imputed.show(20, truncate=False)

Imputing NULLs in numerical columns with constant value: '-9999'...
Columns affected: temperatura_minima, viento_velocidad_00_24, racha_max_00_24, temperatura_maxima, prob_precipitacion_00_24, sens_termica_maxima, sens_termica_minima, cota_nieve_prov_00_24, uv_max, humedad_relativa_maxima, humedad_relativa_minima
Imputando nulls and strings vacios es columnas con 'Desconocido'...
Columnas afectadas: estado_cielo_00_24_descripcion, viento_direccion_00_24, cota_nieve_prov_00_24, estado_cielo_00_24_code, racha_max_00_24

--- First 20 rows of df_daily_summary ---
+----------------------+--------------------+--------------------------+-------------------+------------------------+---------------------+------------------------------+-----------------------+----------------------+----------------------+---------------+------------------+------------------+-------------------+-------------------+-----------------------+-----------------------+------+
|municipio_codigo_aemet|nombre_municipio_ine

EXPLOITATION ZONE

In [38]:
# Filtrar las filas para el municipio de Barcelona y seleccionar las columnas deseadas
df_final = (
    df_imputed
    .filter(col('nombre_municipio_ine') == 'Barcelona')#Municipio de Barcelona
    # Seleccionar las columnas relevantes para el resultado final
    .select(
        'municipio_codigo_aemet', 'nombre_municipio_ine', 'fecha_descarga_utc',
        'prediccion_fecha', 'prob_precipitacion_00_24', 'estado_cielo_00_24_descripcion',
        'uv_max', 'temperatura_maxima', 'temperatura_minima',
        'sens_termica_maxima', 'sens_termica_minima', 'humedad_relativa_maxima',
        'humedad_relativa_minima'
    )
)
print("\n--- First 20 rows of df_final ---")
df_final.show(20, truncate=False)


--- First 20 rows of df_final ---
+----------------------+--------------------+--------------------------+-------------------+------------------------+------------------------------+------+------------------+------------------+-------------------+-------------------+-----------------------+-----------------------+
|municipio_codigo_aemet|nombre_municipio_ine|fecha_descarga_utc        |prediccion_fecha   |prob_precipitacion_00_24|estado_cielo_00_24_descripcion|uv_max|temperatura_maxima|temperatura_minima|sens_termica_maxima|sens_termica_minima|humedad_relativa_maxima|humedad_relativa_minima|
+----------------------+--------------------+--------------------------+-------------------+------------------------+------------------------------+------+------------------+------------------+-------------------+-------------------+-----------------------+-----------------------+
|08019                 |Barcelona           |2025-06-24T19:11:36.234795|2025-06-24T00:00:00|0                       |De