# üßä Trabajo Pr√°ctico Integrador ‚Äì Parte 2  
## Transformaci√≥n y creaci√≥n de la capa Silver (Weather + Air Quality)

En esta segunda parte procesamos los datos horarios provenientes de la **capa Bronze** para generar datasets limpios y estandarizados en la **capa Silver**, usando **pandas**, **Delta Lake** y **MinIO (S3)**.  
Se incluyen tanto los datos de **Weather** como los de **Air Quality**.

---

## üéØ Objetivos
- Leer datos de Bronze (Weather + Air Quality).  
- Limpiar, transformar y enriquecer ambos datasets.  
- Crear un Silver horario y un Silver agregado diario.  
- Guardar ambos datasets nuevamente en Delta Lake.

---

## üîß Proceso de Transformaci√≥n

### üßæ Lectura desde Bronze
Cargamos los datasets:
- `weather_hourly`  
- `air_quality_hourly`  

> Si falla la lectura, se retorna un DataFrame vac√≠o para continuar el flujo sin errores.

### üßπ Limpieza de datos
- Columnas num√©ricas ‚Üí rellenar nulos con la mediana  
- Columnas categ√≥ricas ‚Üí rellenar nulos con `'unknown'`  
- No se eliminan filas completas (no hay muchos nulos)

### üßΩ Eliminaci√≥n de duplicados
Se remueven registros repetidos.  
- Si existen `time` + `station_id` (Weather) o `time` + `location` (Air Quality), se usan como clave para identificar duplicados.

### üïí Conversi√≥n de fechas y tipos
- Se convierte la columna `time` a datetime  
- Se crean columnas auxiliares:  
  - `extract_date` ‚Üí fecha (`YYYY-MM-DD`)  
  - `extract_hour` ‚Üí hora (`HH`)  
- Se optimizan columnas categ√≥ricas (`id`, `station_id`, `location`, `name`)

### üè∑Ô∏è Renombrado
Estandarizaci√≥n (solo Weather por ahora):  
- `temperature` ‚Üí `temp_c`  
- `humidity` ‚Üí `rel_humidity_pct`

### ‚ûï Columnas derivadas
Se agregan variables √∫tiles:  
`temp_above_30`, `temp_f`, `dew_point_c_est`, `rolling_mean_temp_3h`, `heat_index_c`, `wind_kmh`, `temp_category`, `period_day`, `weekday`.

### üìà Agregaci√≥n diaria
- Weather: promedios, medianas, m√°ximos, m√≠nimos, viento promedio, horas con >30¬∞C y horas con lluvia  
- Air Quality: promedios diarios de PM10, PM2.5, CO, O3, NO2 y SO2

---

## ü™ô Guardado en Silver
Se generan cuatro datasets:
- **Silver horario Weather**  
- **Silver horario Air Quality**  
- **Silver diario Weather**  
- **Silver diario Air Quality**  

> Modo de escritura: **overwrite**, para mantener siempre la versi√≥n m√°s reciente y coherente.

---

## üîí Seguridad y manejo de credenciales
- Todas las credenciales de MinIO/S3 se gestionan mediante variables de entorno o un archivo `.env`.  
- No se exponen claves ni contrase√±as directamente en el c√≥digo.  
- Esto asegura que el c√≥digo pueda compartirse o versionarse sin comprometer datos sensibles.


### üõ†Ô∏è Instalaci√≥n de librer√≠as

En esta celda instalamos todas las dependencias necesarias para el TP:

- **requests** ‚Üí para consumir la API Open-Meteo  
- **pandas** ‚Üí para manipular DataFrames  
- **pyarrow** ‚Üí soporte columnar para Delta Lake  
- **deltalake** ‚Üí para escribir y leer tablas Delta directamente en MinIO  
- **python-dotenv** ‚Üí para cargar variables de entorno desde un archivo `.env`  

> Esta instalaci√≥n debe ejecutarse **una sola vez** al iniciar el entorno.


In [1]:
!pip install requests pandas pyarrow deltalake python-dotenv --quiet
print("‚úî Librer√≠as instaladas correctamente")


‚úî Librer√≠as instaladas correctamente


### üîí Carga de variables de entorno

En esta celda:

- Se carga un archivo `.env` para mantener **seguras las credenciales** y rutas sensibles.
- Se asignan variables a Python desde el archivo `.env`.
- Esto permite que el c√≥digo del notebook no contenga claves hardcodeadas y sea m√°s seguro y portable.


In [2]:
# ===============================================================
# üîë Carga de variables de entorno
# ===============================================================

from dotenv import load_dotenv
import os

# Cargar archivo .env
load_dotenv()

# Asignar variables de entorno
AWS_ENDPOINT_URL = os.environ["AWS_ENDPOINT_URL"]
AWS_ACCESS_KEY_ID = os.environ["AWS_ACCESS_KEY_ID"]
AWS_SECRET_ACCESS_KEY = os.environ["AWS_SECRET_ACCESS_KEY"]
BRONZE_FULL = os.environ["BRONZE_FULL"]
BRONZE_INC = os.environ["BRONZE_INC"]
SILVER_WEATHER = os.environ["SILVER_WEATHER"]
SILVER_DAILY_AVG = os.environ["SILVER_DAILY_AVG"]

print("Variables de entorno cargadas correctamente")


Variables de entorno cargadas correctamente


### üîß Configuraci√≥n de MinIO y rutas

En esta celda:

- Se conecta a MinIO (S3) usando las credenciales cargadas desde `.env`.
- Se definen las rutas para la capa Bronze y Silver.
- De esta forma, el c√≥digo queda seguro y portable entre distintos entornos.


In [3]:
import pandas as pd
import numpy as np
from deltalake import DeltaTable, write_deltalake
from datetime import datetime, timezone
import os

# ===============================================================
# üîß Configuraci√≥n MinIO y rutas usando variables de entorno
# ===============================================================

storage_options = {
    "AWS_ENDPOINT_URL": os.environ["AWS_ENDPOINT_URL"],
    "AWS_ACCESS_KEY_ID": os.environ["AWS_ACCESS_KEY_ID"],
    "AWS_SECRET_ACCESS_KEY": os.environ["AWS_SECRET_ACCESS_KEY"],
    "AWS_ALLOW_HTTP": "true"
}

# Nombre del bucket
bkt = "sebastianmedina-bucket"

# Rutas para TP2 (Silver y Bronze)
bronze_weather_path   = os.environ["BRONZE_INC"]   # Datos horarios meteorol√≥gicos
bronze_meta_path      = os.environ["BRONZE_FULL"]  # Datos completos / metadata
silver_weather_path   = os.environ["SILVER_WEATHER"]      # Silver horario
silver_daily_avg_path = os.environ["SILVER_DAILY_AVG"]    # Silver agregado diario

print("‚úÖ Configuraci√≥n MinIO y rutas cargadas")


‚úÖ Configuraci√≥n MinIO y rutas cargadas


### üõ†Ô∏è Funciones para manejo de Delta Lake

- `read_delta_to_pandas(delta_path)`  
  Lee una tabla Delta desde MinIO y devuelve un DataFrame. Maneja errores y retorna un DataFrame vac√≠o si falla.

- `save_pandas_to_delta(df, delta_path, mode="overwrite")`  
  Guarda un DataFrame en Delta Lake sobre MinIO, permitiendo modo `overwrite` o `append`.

- `show_basic_info(df, name="DataFrame")`  
  Muestra informaci√≥n r√°pida del DataFrame: cantidad de filas y columnas, tipos de columnas y nulos por columna.


In [4]:
def read_delta_to_pandas(delta_path: str):
    """Lee una tabla Delta desde MinIO y devuelve un DataFrame."""
    try:
        dt = DeltaTable(delta_path, storage_options=storage_options)
        df = dt.to_pandas()
        print(f"‚úÖ Le√≠do desde {delta_path} -> {df.shape[0]} filas, {df.shape[1]} columnas")
        return df
    except Exception as e:
        print(f"‚ùå Error leyendo {delta_path}: {e}")
        return pd.DataFrame()

def save_pandas_to_delta(df: pd.DataFrame, delta_path: str, mode="overwrite"):
    """Guarda un DataFrame en Delta Lake sobre MinIO."""
    try:
        write_deltalake(delta_path, df, mode=mode, storage_options=storage_options, schema_mode="merge")
        print(f"‚úÖ Guardado en Delta: {delta_path} | mode={mode} | filas={len(df)}")
    except Exception as e:
        print(f"‚ùå Error guardando en {delta_path}: {e}")

def show_basic_info(df: pd.DataFrame, name="DataFrame"):
    """Muestra shape, tipos de columnas y nulos de un DataFrame."""
    print(f"--- {name} ---")
    print("Shape:", df.shape)
    print("Tipos:\n", df.dtypes)
    print("Nulos por columna:\n", df.isna().sum())
    print()


# üì• Lectura desde Bronze

En esta celda cargamos los datasets horarios almacenados en la capa **Bronze**:

- **`weather_hourly`** ‚Üí datos meteorol√≥gicos.
- **`air_quality_hourly`** ‚Üí datos de calidad del aire.

Se utiliza la funci√≥n `read_delta_to_pandas` para leer los archivos desde MinIO.  
En caso de cualquier error (archivo inexistente, formato incorrecto o problemas de conexi√≥n), se devuelve un **DataFrame vac√≠o** para que el pipeline contin√∫e sin interrumpirse.


In [5]:
# ===============================================================
# üì• Lectura desde Bronze (WEATHER + AIR QUALITY)
# ===============================================================

# --- WEATHER HOURLY ---
# Leemos el dataset horario de meteorolog√≠a desde la carpeta espec√≠fica 'weather'
# dentro de Bronze incremental. Cada carpeta contiene su propio _delta_log y particiones por fecha.
df_weather = read_delta_to_pandas(bronze_weather_path + "weather/")
display(df_weather.head())  # Mostramos primeras filas para inspecci√≥n r√°pida

# --- AIR QUALITY HOURLY ---
# Leemos el dataset horario de calidad del aire desde la carpeta espec√≠fica 'air_quality'
# dentro de Bronze incremental. Esto garantiza que DeltaTable encuentre los archivos y logs correctos.
df_air_quality = read_delta_to_pandas(bronze_weather_path + "air_quality/")
display(df_air_quality.head())  # Mostramos primeras filas para inspecci√≥n r√°pida


‚úÖ Le√≠do desde s3://sebastianmedina-bucket/bronze/incremental/weather/ -> 24 filas, 12 columnas


Unnamed: 0,time,temperature_2m,relative_humidity_2m,apparent_temperature,precipitation,weathercode,pressure_msl,cloudcover,visibility,windspeed_10m,winddirection_10m,date
0,2025-12-03 00:00:00,19.0,90,21.0,0.0,1,1012.2,7,24140.0,4.6,72,2025-12-03
1,2025-12-03 01:00:00,18.7,90,20.7,0.0,0,1012.3,2,24140.0,3.2,63,2025-12-03
2,2025-12-03 02:00:00,18.5,90,20.3,0.0,0,1012.0,0,24140.0,3.6,37,2025-12-03
3,2025-12-03 03:00:00,18.3,91,20.1,0.0,1,1011.9,7,24140.0,3.8,17,2025-12-03
4,2025-12-03 04:00:00,18.3,92,20.1,0.0,1,1011.8,35,24140.0,4.0,10,2025-12-03


‚úÖ Le√≠do desde s3://sebastianmedina-bucket/bronze/incremental/air_quality/ -> 24 filas, 8 columnas


Unnamed: 0,time,pm10,pm2_5,carbon_monoxide,ozone,nitrogen_dioxide,sulphur_dioxide,date
0,2025-12-03 00:00:00,9.0,8.6,143.0,42.0,25.9,4.8,2025-12-03
1,2025-12-03 01:00:00,8.6,8.2,132.0,43.0,23.6,4.7,2025-12-03
2,2025-12-03 02:00:00,8.4,8.0,118.0,42.0,21.3,4.6,2025-12-03
3,2025-12-03 03:00:00,8.2,7.8,111.0,41.0,19.9,4.6,2025-12-03
4,2025-12-03 04:00:00,8.4,8.1,115.0,37.0,20.1,4.9,2025-12-03


#ü©∫ An√°lisis inicial
Inspeccionamos el DataFrame:
- cantidad de filas y columnas
- columnas con nulos
- tipos de datos sospechosos


In [6]:
# Mostramos informaci√≥n b√°sica del DataFrame de WEATHER
show_basic_info(df_weather, "Bronze - weather_hourly")

# Listamos los nombres de las columnas para inspecci√≥n r√°pida
print("Columnas:", df_weather.columns.tolist())

# Mostramos informaci√≥n b√°sica del DataFrame de AIR QUALITY
show_basic_info(df_air_quality, "Bronze - air_quality_hourly")
print("Columnas:", df_air_quality.columns.tolist())


--- Bronze - weather_hourly ---
Shape: (24, 12)
Tipos:
 time                    datetime64[us]
temperature_2m                 float64
relative_humidity_2m             int64
apparent_temperature           float64
precipitation                  float64
weathercode                      int64
pressure_msl                   float64
cloudcover                       int64
visibility                     float64
windspeed_10m                  float64
winddirection_10m                int64
date                            object
dtype: object
Nulos por columna:
 time                    0
temperature_2m          0
relative_humidity_2m    0
apparent_temperature    0
precipitation           0
weathercode             0
pressure_msl            0
cloudcover              0
visibility              0
windspeed_10m           0
winddirection_10m       0
date                    0
dtype: int64

Columnas: ['time', 'temperature_2m', 'relative_humidity_2m', 'apparent_temperature', 'precipitation', 'weathercode',

#üßπ Limpieza de valores nulos

Aplicamos una estrategia simple y segura para manejar valores faltantes:

- **Columnas num√©ricas:** se rellenan con la **mediana**, que es m√°s robusta que el promedio ante valores at√≠picos.
- **Columnas categ√≥ricas:** se completan con el valor **'unknown'** para mantener consistencia y evitar perder filas.
- **No eliminamos filas completas**, ya que la cantidad de nulos en este dataset es baja y preferimos conservar la mayor parte de la informaci√≥n posible.

Esto garantiza un dataset limpio y estable para los pasos posteriores del pipeline.



In [7]:
def clean_fill_missing(df: pd.DataFrame):
    """
    Limpia nulos num√©ricos y categ√≥ricos, y unifica nombres de columnas clave.

    - Columnas num√©ricas ‚Üí rellenar con la mediana.
    - Columnas categ√≥ricas ‚Üí rellenar con 'unknown'.
    - Renombrar columnas relevantes de WEATHER para unificar nombres.
    """
    if df.empty:
        print("‚ö†Ô∏è DataFrame vac√≠o, no se aplica limpieza")
        return df

    nulos_antes = df.isna().sum()

    # Renombrar columnas clave
    rename_map = {}
    if "temperature_2m" in df.columns: rename_map["temperature_2m"] = "temperature"
    if "relative_humidity_2m" in df.columns: rename_map["relative_humidity_2m"] = "humidity"
    if "windspeed_10m" in df.columns: rename_map["windspeed_10m"] = "wind_speed"
    df = df.rename(columns=rename_map)

    # Columnas num√©ricas
    numeric_cols = [c for c in df.columns if np.issubdtype(df[c].dtype, np.number)]
    for col in numeric_cols:
        med = df[col].median(skipna=True)
        df[col] = df[col].fillna(med if not pd.isna(med) else 0)

    # Columnas categ√≥ricas
    for col in df.columns:
        if df[col].dtype == object:
            df[col] = df[col].fillna("unknown")

    nulos_despues = df.isna().sum()
    print("Nulos antes:\n", nulos_antes[nulos_antes>0])
    print("\nNulos despu√©s:\n", nulos_despues[nulos_despues>0])

    return df

# Aplicar limpieza a los DataFrames cargados desde Bronze
df_weather = clean_fill_missing(df_weather)
df_air_quality = clean_fill_missing(df_air_quality)

Nulos antes:
 Series([], dtype: int64)

Nulos despu√©s:
 Series([], dtype: int64)
Nulos antes:
 Series([], dtype: int64)

Nulos despu√©s:
 Series([], dtype: int64)


### üßΩ Eliminaci√≥n de duplicados

En esta celda removemos registros duplicados para asegurar consistencia en el dataset:

- Si existen las columnas **`time`** y **`station_id`**, se consideran como clave compuesta ‚Äîdos registros con la misma combinaci√≥n se tratan como duplicados.
- Si esas columnas no est√°n presentes (por ejemplo, en los datos de calidad del aire), se eval√∫an **todas las columnas** para identificar filas id√©nticas.

Aunque en muchos casos la API no devuelve duplicados, esta validaci√≥n garantiza que el dataset Silver quede limpio y preparado para an√°lisis posteriores.


In [8]:
def remove_duplicates(df: pd.DataFrame):
    """
    Elimina duplicados basados en columnas l√≥gicas o todas las columnas.

    - Si existen columnas 'time' y 'station_id', se usan como clave compuesta.
    - Si no existen, se consideran todas las columnas para detectar duplicados.
    """
    if df.empty:
        print("‚ö†Ô∏è DataFrame vac√≠o, no se eliminan duplicados")
        return df

    dup_subset = ["time", "station_id"] if "time" in df.columns and "station_id" in df.columns else df.columns.tolist()

    before = df.shape[0]
    df = df.drop_duplicates(subset=dup_subset)
    after = df.shape[0]

    print(f"Duplicados eliminados: {before - after}")
    return df

# Aplicar limpieza de duplicados a los DataFrames cargados desde Bronze
df_weather = remove_duplicates(df_weather)
df_air_quality = remove_duplicates(df_air_quality)


Duplicados eliminados: 0
Duplicados eliminados: 0


# üïí Conversi√≥n de fechas y categor√≠as

En esta celda transformamos los campos temporales y categ√≥ricos del dataset adaptado a los nuevos endpoints:

- **Convertimos columnas de fecha y hora a `datetime`** para permitir filtrado, ordenamiento y resampling.
- **Creamos columnas auxiliares**:
  - `extract_date` ‚Üí solo la fecha del registro.
  - `extract_hour` ‚Üí hora del registro.
- **Convertimos columnas categ√≥ricas a tipo `category`**, optimizando memoria y velocidad de agrupamiento.

Estas transformaciones aseguran que el dataset Silver est√© listo para limpieza, agregaci√≥n y an√°lisis posteriores, tanto para WEATHER como para AIR QUALITY.


In [9]:
def convert_and_format_dates(df: pd.DataFrame) -> pd.DataFrame:
    """
    Convierte fechas a datetime, crea columnas auxiliares y optimiza columnas categ√≥ricas.

    Par√°metros:
    - df: DataFrame que contiene datos horarios de WEATHER o AIR QUALITY.

    Funcionalidad:
    - Detecta columna temporal ('time' o 'datetime') y la convierte a datetime.
    - Crea columnas auxiliares:
        * extract_date ‚Üí fecha en formato 'YYYY-MM-DD'
        * extract_hour ‚Üí hora como string
    - Convierte columnas de identificaci√≥n/categ√≥ricas a tipo 'category':
        'id', 'station_id', 'location', 'name'
    - Si no encuentra columna temporal, asigna fecha y hora actual.
    """
    from datetime import datetime, timezone

    time_col = "time" if "time" in df.columns else ("datetime" if "datetime" in df.columns else None)
    now = datetime.now(timezone.utc)

    if time_col:
        df[time_col] = pd.to_datetime(df[time_col], errors="coerce")
        df["extract_date"] = df[time_col].dt.date.astype(str)
        df["extract_hour"] = df[time_col].dt.hour.astype(str)
    else:
        df["extract_date"] = now.strftime("%Y-%m-%d")
        df["extract_hour"] = now.strftime("%H")

    # Optimiza columnas categ√≥ricas
    for col in ["id", "station_id", "location", "name"]:
        if col in df.columns:
            df[col] = df[col].astype("category")

    return df
# Procesar fechas y categor√≠as
df_weather = convert_and_format_dates(df_weather)
df_air_quality = convert_and_format_dates(df_air_quality)

# Mostrar primeras filas para verificar
display(df_weather.head())
display(df_air_quality.head())



Unnamed: 0,time,temperature,humidity,apparent_temperature,precipitation,weathercode,pressure_msl,cloudcover,visibility,wind_speed,winddirection_10m,date,extract_date,extract_hour
0,2025-12-03 00:00:00,19.0,90,21.0,0.0,1,1012.2,7,24140.0,4.6,72,2025-12-03,2025-12-03,0
1,2025-12-03 01:00:00,18.7,90,20.7,0.0,0,1012.3,2,24140.0,3.2,63,2025-12-03,2025-12-03,1
2,2025-12-03 02:00:00,18.5,90,20.3,0.0,0,1012.0,0,24140.0,3.6,37,2025-12-03,2025-12-03,2
3,2025-12-03 03:00:00,18.3,91,20.1,0.0,1,1011.9,7,24140.0,3.8,17,2025-12-03,2025-12-03,3
4,2025-12-03 04:00:00,18.3,92,20.1,0.0,1,1011.8,35,24140.0,4.0,10,2025-12-03,2025-12-03,4


Unnamed: 0,time,pm10,pm2_5,carbon_monoxide,ozone,nitrogen_dioxide,sulphur_dioxide,date,extract_date,extract_hour
0,2025-12-03 00:00:00,9.0,8.6,143.0,42.0,25.9,4.8,2025-12-03,2025-12-03,0
1,2025-12-03 01:00:00,8.6,8.2,132.0,43.0,23.6,4.7,2025-12-03,2025-12-03,1
2,2025-12-03 02:00:00,8.4,8.0,118.0,42.0,21.3,4.6,2025-12-03,2025-12-03,2
3,2025-12-03 03:00:00,8.2,7.8,111.0,41.0,19.9,4.6,2025-12-03,2025-12-03,3
4,2025-12-03 04:00:00,8.4,8.1,115.0,37.0,20.1,4.9,2025-12-03,2025-12-03,4


# üè∑Ô∏è Renombrado de columnas

En esta celda unificamos y estandarizamos los nombres de columnas para que el dataset **Silver** tenga nombres consistentes y f√°ciles de usar:

- **temperature ‚Üí temp_c**: se aclara que el valor est√° en grados Celsius.  
- **humidity ‚Üí rel_humidity_pct**: se especifica que representa humedad relativa en porcentaje.

Este paso asegura claridad en el esquema y evita ambig√ºedades para an√°lisis posteriores, aplicable tanto a WEATHER como a AIR QUALITY.


In [10]:
def rename_columns(df: pd.DataFrame):
    """Renombra columnas para estandarizar nombres en Silver, compatible con WEATHER y AIR QUALITY."""
    rename_map = {}
    if "temperature" in df.columns and "temp_c" not in df.columns:
        rename_map["temperature"] = "temp_c"
    if "humidity" in df.columns and "rel_humidity_pct" not in df.columns:
        rename_map["humidity"] = "rel_humidity_pct"

    if rename_map:
        df = df.rename(columns=rename_map)

    print("Renombradas columnas:", rename_map)
    return df

# Ejemplo de uso: aplicar al dataset cargado previamente
df_weather = rename_columns(df_weather)
df_air_quality = rename_columns(df_air_quality)

# Mostrar primeras filas para verificaci√≥n
display(df_weather.head())



Renombradas columnas: {'temperature': 'temp_c', 'humidity': 'rel_humidity_pct'}
Renombradas columnas: {}


Unnamed: 0,time,temp_c,rel_humidity_pct,apparent_temperature,precipitation,weathercode,pressure_msl,cloudcover,visibility,wind_speed,winddirection_10m,date,extract_date,extract_hour
0,2025-12-03 00:00:00,19.0,90,21.0,0.0,1,1012.2,7,24140.0,4.6,72,2025-12-03,2025-12-03,0
1,2025-12-03 01:00:00,18.7,90,20.7,0.0,0,1012.3,2,24140.0,3.2,63,2025-12-03,2025-12-03,1
2,2025-12-03 02:00:00,18.5,90,20.3,0.0,0,1012.0,0,24140.0,3.6,37,2025-12-03,2025-12-03,2
3,2025-12-03 03:00:00,18.3,91,20.1,0.0,1,1011.9,7,24140.0,3.8,17,2025-12-03,2025-12-03,3
4,2025-12-03 04:00:00,18.3,92,20.1,0.0,1,1011.8,35,24140.0,4.0,10,2025-12-03,2025-12-03,4


# ‚ûï Columnas derivadas (mejoradas)

En esta celda agregamos nuevas columnas √∫tiles para an√°lisis de WEATHER y AIR QUALITY:

- **temp_above_30** ‚Üí indica si la temperatura supera 30¬∞C.  
- **temp_f** ‚Üí temperatura en Fahrenheit.  
- **dew_point_c_est** ‚Üí punto de roc√≠o estimado seg√∫n temperatura y humedad.  
- **rolling_mean_temp_3h** ‚Üí promedio m√≥vil de temperatura de 3 horas.  
- **heat_index_c** ‚Üí sensaci√≥n t√©rmica estimada.  
- **wind_kmh** ‚Üí velocidad del viento convertida a km/h.  
- **temp_category** ‚Üí clasificaci√≥n simple de temperatura (fr√≠o / templado / caliente / muy caliente).  
- **period_day** ‚Üí periodo del d√≠a (madrugada, ma√±ana, tarde, noche).  
- **weekday** ‚Üí d√≠a de la semana.

Estas columnas enriquecen el dataset y facilitan an√°lisis, visualizaciones y agregaciones posteriores.


In [11]:
def create_derived_columns_enhanced(df: pd.DataFrame):
    """Crea columnas derivadas mejoradas para an√°lisis meteorol√≥gico."""

    # Temperatura y humedad
    if "temp_c" not in df.columns and "temperature" in df.columns:
        df["temp_c"] = df["temperature"]
    if "temp_c" in df.columns:
        df["temp_above_30"] = df["temp_c"] > 30
        df["temp_f"] = df["temp_c"] * 9/5 + 32
    else:
        df["temp_above_30"] = False
        df["temp_f"] = np.nan

    if "temp_c" in df.columns and "rel_humidity_pct" in df.columns:
        df["dew_point_c_est"] = df["temp_c"] - ((100 - df["rel_humidity_pct"]) / 5)
        df["heat_index_c"] = df["temp_c"] + 0.33*df["rel_humidity_pct"] - 0.7
    else:
        df["dew_point_c_est"] = np.nan
        df["heat_index_c"] = np.nan

    # Velocidad del viento en km/h
    if "wind_speed" in df.columns:
        df["wind_kmh"] = df["wind_speed"] * 3.6
    else:
        df["wind_kmh"] = np.nan

    # Rolling mean de 3 horas
    if "temp_c" in df.columns and "time" in df.columns:
        df = df.sort_values("time")
        df["rolling_mean_temp_3h"] = df["temp_c"].rolling(window=3, min_periods=1).mean()
    else:
        df["rolling_mean_temp_3h"] = np.nan

    # Clasificaci√≥n de temperatura
    bins = [0, 15, 25, 30, 50]
    labels = ["Fr√≠o", "Templado", "Caliente", "Muy caliente"]
    if "temp_c" in df.columns:
        df["temp_category"] = pd.cut(df["temp_c"], bins=bins, labels=labels)
    else:
        df["temp_category"] = "unknown"

    # Periodo del d√≠a
    def period_of_day(hour):
        if 0 <= hour < 6: return "Madrugada"
        elif 6 <= hour < 12: return "Ma√±ana"
        elif 12 <= hour < 18: return "Tarde"
        else: return "Noche"

    if "extract_hour" in df.columns:
        df["period_day"] = df["extract_hour"].astype(int).apply(period_of_day)
    else:
        df["period_day"] = "unknown"

    # D√≠a de la semana
    if "extract_date" in df.columns:
        df["weekday"] = pd.to_datetime(df["extract_date"]).dt.day_name()
    else:
        df["weekday"] = "unknown"

    print("‚úÖ Columnas derivadas mejoradas creadas")
    return df

# Aplicar a los DataFrames cargados
df_weather = create_derived_columns_enhanced(df_weather)
df_air_quality = create_derived_columns_enhanced(df_air_quality)

# Mostrar primeras filas para verificaci√≥n
display(df_weather.head())



‚úÖ Columnas derivadas mejoradas creadas
‚úÖ Columnas derivadas mejoradas creadas


Unnamed: 0,time,temp_c,rel_humidity_pct,apparent_temperature,precipitation,weathercode,pressure_msl,cloudcover,visibility,wind_speed,...,extract_hour,temp_above_30,temp_f,dew_point_c_est,heat_index_c,wind_kmh,rolling_mean_temp_3h,temp_category,period_day,weekday
0,2025-12-03 00:00:00,19.0,90,21.0,0.0,1,1012.2,7,24140.0,4.6,...,0,False,66.2,17.0,48.0,16.56,19.0,Templado,Madrugada,Wednesday
1,2025-12-03 01:00:00,18.7,90,20.7,0.0,0,1012.3,2,24140.0,3.2,...,1,False,65.66,16.7,47.7,11.52,18.85,Templado,Madrugada,Wednesday
2,2025-12-03 02:00:00,18.5,90,20.3,0.0,0,1012.0,0,24140.0,3.6,...,2,False,65.3,16.5,47.5,12.96,18.733333,Templado,Madrugada,Wednesday
3,2025-12-03 03:00:00,18.3,91,20.1,0.0,1,1011.9,7,24140.0,3.8,...,3,False,64.94,16.5,47.63,13.68,18.5,Templado,Madrugada,Wednesday
4,2025-12-03 04:00:00,18.3,92,20.1,0.0,1,1011.8,35,24140.0,4.0,...,4,False,64.94,16.7,47.96,14.4,18.366667,Templado,Madrugada,Wednesday


#üìà Agregaci√≥n diaria mejorada

Generamos un nuevo dataset diario a partir de los datos horarios. Calculamos:

- **avg_temp_c** ‚Üí temperatura promedio del d√≠a  
- **median_temp_c** ‚Üí temperatura mediana del d√≠a  
- **std_temp_c** ‚Üí variaci√≥n (desv√≠o est√°ndar)  
- **max_temp_c / min_temp_c** ‚Üí m√°ximas y m√≠nimas diarias  
- **avg_wind_speed** ‚Üí viento promedio  
- **hours_hot** ‚Üí cantidad de horas con temperatura > 30¬∞C  
- **hours_rain** ‚Üí cantidad de horas con precipitaci√≥n > 0 mm  

Estas m√©tricas permiten analizar tendencias clim√°ticas diarias de forma compacta.


In [12]:
def daily_aggregates_enhanced(df: pd.DataFrame):
    """
    Genera un DataFrame diario agregado a partir de los datos horarios.

    M√©tricas calculadas:
    - Promedio, mediana, std, m√°ximo y m√≠nimo de temperatura.
    - Velocidad promedio del viento.
    - Cantidad de horas con temperatura > 30¬∞C.
    - Cantidad de horas con precipitaci√≥n.
    """
    if "temp_c" in df.columns and "extract_date" in df.columns:
        daily = df.groupby("extract_date").agg(
            avg_temp_c=("temp_c", "mean"),
            median_temp_c=("temp_c", "median"),
            std_temp_c=("temp_c", "std"),
            max_temp_c=("temp_c", "max"),
            min_temp_c=("temp_c", "min"),
            avg_wind_speed=("wind_speed", "mean") if "wind_speed" in df.columns else pd.NamedAgg(column="temp_c", aggfunc="mean"),
            hours_hot=("temp_above_30", "sum") if "temp_above_30" in df.columns else pd.NamedAgg(column="temp_c", aggfunc=lambda x: 0),
            hours_rain=("precipitation", lambda x: (x>0).sum()) if "precipitation" in df.columns else pd.NamedAgg(column="temp_c", aggfunc=lambda x: 0)
        ).reset_index()

        # Redondear m√©tricas de temperatura a 2 decimales
        daily[["avg_temp_c", "median_temp_c"]] = daily[["avg_temp_c", "median_temp_c"]].round(2)
        print("‚úÖ Agregados diarios generados")
        return daily
    else:
        print("‚ùå Columnas necesarias para agregaci√≥n diaria no encontradas")
        return pd.DataFrame()

# Aplicar funci√≥n al DataFrame correcto
daily_weather = daily_aggregates_enhanced(df_weather)
display(daily_weather.head())

# Si quieres, tambi√©n puedes aplicar a air quality, aunque normalmente no tiene temp_c
# daily_air_quality = daily_aggregates_enhanced(df_air_quality)
# display(daily_air_quality.head())


‚úÖ Agregados diarios generados


Unnamed: 0,extract_date,avg_temp_c,median_temp_c,std_temp_c,max_temp_c,min_temp_c,avg_wind_speed,hours_hot,hours_rain
0,2025-12-03,24.37,24.35,4.904965,31.0,18.3,6.5875,4,0


# ü™ô Guardado en Silver

En esta celda escribimos los resultados procesados en la capa **Silver**:

- **weather_hourly** ‚Üí dataset limpio y transformado, con columnas derivadas.  
- **daily averages** ‚Üí dataset agregado con m√©tricas diarias.

Ambos se guardan en formato **Delta Lake**, usando `mode="overwrite"` para reemplazar la versi√≥n anterior y mantener siempre la m√°s reciente.


In [13]:
# Guardado de datasets procesados en Silver

# Silver horario
save_pandas_to_delta(df_weather, silver_weather_path, mode="overwrite")

# Silver agregado diario
if not daily_weather.empty:
    save_pandas_to_delta(daily_weather, silver_daily_avg_path, mode="overwrite")


‚úÖ Guardado en Delta: s3://sebastianmedina-bucket/silver/weather_cleaned/ | mode=overwrite | filas=24
‚úÖ Guardado en Delta: s3://sebastianmedina-bucket/silver/weather_daily_avg/ | mode=overwrite | filas=1
