# Análisis rápido del `master_dataset.parquet`

Este notebook carga el archivo Parquet central (`master_dataset.parquet`), muestra las primeras filas, estadísticas y (si existen coordenadas) un mapa con las estaciones.

In [2]:
import os
import sys

CURRENT_DIR = os.path.dirname(os.path.abspath("__file__"))

ROOT_DIR = os.path.abspath(os.path.join(CURRENT_DIR, ".."))

FILE_PATH = os.path.join(ROOT_DIR, "data_clean", "master", "master_dataset.parquet")

print("Directorio del notebook:", CURRENT_DIR)
print("ROOT del proyecto:", ROOT_DIR)
print("Ruta absoluta del parquet:", FILE_PATH)

import pandas as pd

df = pd.read_parquet(FILE_PATH)
df.head()

Directorio del notebook: /Users/mrescobar/dev/Proyecto2--Python/notebooks
ROOT del proyecto: /Users/mrescobar/dev/Proyecto2--Python
Ruta absoluta del parquet: /Users/mrescobar/dev/Proyecto2--Python/data_clean/master/master_dataset.parquet


Unnamed: 0,timestamp,station_id,station_name,lat,lon,sensor,value,source,date,hour,...,lluvia_diaria_mm_(litros/m²)_acum._actual,lluvia_diaria_mm_(litros/m²)_promedio_histórico,lluvia_diaria_mm_(litros/m²)_acum._promedio_histórico,temperaturas_(°c)_máxima,temperaturas_(°c)_mínima,temperaturas_(°c)_promedio,viento_máximo_velocidad_(km/h),viento_máximo_dirección_(°),viento_máximo_hora_local,dirección_del_viento_predominante
0,2025-11-26 14:00:00,144006,SE PANAMA2 (144-006),9.0944,-79.4606,HUMEDAD,80.7,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
1,2025-11-26 14:00:00,93002,AEROPUERTO DE BOCAS (93-002),9.3403,-82.245,HUMEDAD,93.1,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
2,2025-11-26 14:00:00,144006,SE PANAMA2 (144-006),9.0944,-79.4606,VIENTO,0.4,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
3,2025-11-26 14:00:00,93002,AEROPUERTO DE BOCAS (93-002),9.3403,-82.245,TEMP,25.7,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
4,2025-11-26 14:00:00,93002,AEROPUERTO DE BOCAS (93-002),9.3403,-82.245,VIENTO,1.0,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,


In [3]:
import os
from IPython.display import display
import pandas as pd

print('Archivo objetivo (relativo):', FILE_PATH)
print('Directorio de trabajo actual:', os.getcwd())
if not os.path.exists(FILE_PATH):
    raise FileNotFoundError(f'No se encontró {FILE_PATH}. Asegúrate de ejecutar el notebook desde la raíz del repo o ajusta FILE_PATH.')

Archivo objetivo (relativo): /Users/mrescobar/dev/Proyecto2--Python/data_clean/master/master_dataset.parquet
Directorio de trabajo actual: /Users/mrescobar/dev/Proyecto2--Python/notebooks


In [4]:
try:
    df = pd.read_parquet(FILE_PATH, engine='pyarrow')
except Exception as e:
    print('Advertencia al leer con pyarrow:', e)
    df = pd.read_parquet(FILE_PATH)

print('DataFrame cargado — primeras filas:')
display(df.head())

DataFrame cargado — primeras filas:


Unnamed: 0,timestamp,station_id,station_name,lat,lon,sensor,value,source,date,hour,...,lluvia_diaria_mm_(litros/m²)_acum._actual,lluvia_diaria_mm_(litros/m²)_promedio_histórico,lluvia_diaria_mm_(litros/m²)_acum._promedio_histórico,temperaturas_(°c)_máxima,temperaturas_(°c)_mínima,temperaturas_(°c)_promedio,viento_máximo_velocidad_(km/h),viento_máximo_dirección_(°),viento_máximo_hora_local,dirección_del_viento_predominante
0,2025-11-26 14:00:00,144006,SE PANAMA2 (144-006),9.0944,-79.4606,HUMEDAD,80.7,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
1,2025-11-26 14:00:00,93002,AEROPUERTO DE BOCAS (93-002),9.3403,-82.245,HUMEDAD,93.1,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
2,2025-11-26 14:00:00,144006,SE PANAMA2 (144-006),9.0944,-79.4606,VIENTO,0.4,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
3,2025-11-26 14:00:00,93002,AEROPUERTO DE BOCAS (93-002),9.3403,-82.245,TEMP,25.7,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,
4,2025-11-26 14:00:00,93002,AEROPUERTO DE BOCAS (93-002),9.3403,-82.245,VIENTO,1.0,IMHPA,2025-11-26,14:00:00,...,,,,,,,,,,


In [5]:
# Información rápida y estadísticas
print('Dimensiones (filas, columnas):', df.shape)
print('Tipos de columnas:')
display(df.dtypes)

print('Descripción estadística (numérica):')
display(df.describe())

Dimensiones (filas, columnas): (189, 24)
Tipos de columnas:


timestamp                                                datetime64[ns]
station_id                                                        int64
station_name                                                     object
lat                                                             float64
lon                                                             float64
sensor                                                           object
value                                                           float64
source                                                           object
date                                                             object
hour                                                             object
year                                                            float64
month                                                           float64
day                                                             float64
lluvia_diaria_mm_(litros/m²)_mes_actual                         

Descripción estadística (numérica):


Unnamed: 0,timestamp,station_id,lat,lon,value,year,month,day,lluvia_diaria_mm_(litros/m²)_promedio_histórico,lluvia_diaria_mm_(litros/m²)_acum._promedio_histórico,temperaturas_(°c)_máxima,temperaturas_(°c)_mínima,temperaturas_(°c)_promedio,viento_máximo_velocidad_(km/h),viento_máximo_dirección_(°)
count,189,189.0,189.0,189.0,189.0,189.0,189.0,189.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,2025-12-01 12:52:03.809523712,121214.354497,8.524375,-80.867655,36.689418,2025.0,11.957672,2.058201,,,,,,,
min,2025-11-26 14:00:00,91029.0,7.375,-82.91109,0.4,2025.0,11.0,1.0,,,,,,,
25%,2025-12-01 18:00:00,108060.0,8.18187,-82.22989,9.5,2025.0,12.0,1.0,,,,,,,
50%,2025-12-01 18:00:00,118001.0,8.54,-80.7461,23.8,2025.0,12.0,1.0,,,,,,,
75%,2025-12-01 18:30:00,132016.0,8.9518,-79.9264,57.5,2025.0,12.0,1.0,,,,,,,
max,2025-12-01 19:15:00,154018.0,9.56171,-77.755,100.0,2025.0,12.0,26.0,,,,,,,
std,,15777.135211,0.531632,1.318596,34.988846,0.0,0.201871,5.046781,,,,,,,


In [None]:
if {'lat','lon'}.issubset(set(df.columns)):
    try:
        import folium
        center = [float(df['lat'].median()), float(df['lon'].median())]
        m = folium.Map(location=center, zoom_start=6)
        subset = df.dropna(subset=['lat','lon']).head(200)
        for _, row in subset.iterrows():
            popup = None
            if 'station_name' in row.index and pd.notna(row['station_name']):
                popup = str(row['station_name'])
            elif 'station_id' in row.index and pd.notna(row['station_id']):
                popup = str(row['station_id'])
            folium.CircleMarker(location=[float(row['lat']), float(row['lon'])], radius=3, popup=popup).add_to(m)
        display(m)
    except Exception as e:
        print('Error generando mapa con folium:', e)
else:
    print("No hay columnas 'lat' y 'lon' en el dataset. Columnas disponibles:")
    print(list(df.columns))