#### Importar datos

In [110]:
import pandas as pd
import xarray as xr
import numpy as np

# 1. Load and parse dates
df = pd.read_csv(
    "/home/germankux/Downloads/temp_promedio_bogota_2010_2022.csv",
    parse_dates=["FechaObservacionHour"]
)


#### Transformar la variable FechaObservacionHour a un formato de fecha y hora

In [111]:
df["FechaObservacionHour"] = pd.to_datetime(df["FechaObservacionHour"])
# make it tz‑naive again
df["FechaObservacionHour"] = df["FechaObservacionHour"].dt.tz_localize(None)


#### Generar las variables de fecha y hora

In [112]:
# 2. Extract date and hour-of-day
df["date"] = df["FechaObservacionHour"].dt.normalize()   # midnight of each day
df["hour"] = df["FechaObservacionHour"].dt.hour          # 0–23

#### Genero 3 variables que van a representar los 3 ejes del tensor 

In [113]:
# 3. Ensure every (date, hour, station) exists
dates    = pd.date_range(df["date"].min(), df["date"].max(), freq="D")
hours    = np.arange(24)
stations = df["NombreEstacion"].unique()

#### Genero un multindice con todas las combinaciones posibles de las 3 variables de índice

In [114]:
# build the full grid
full_idx = pd.MultiIndex.from_product(
    [dates, hours, stations],
    names=["date","hour","NombreEstacion"]
)

#### Genera un pandas series de la variable de interés "temperatura" con el índice completo "full_idx"

In [115]:
# re‑index onto the full grid, pulling in your temperature values
s = ( df
      .set_index(["date","hour","NombreEstacion"])["ValorPromedioHora"]
      .reindex(full_idx)
)

In [116]:
type(s)  # should be a Series with a MultiIndex

pandas.core.series.Series

In [117]:
s.head(200).tail(34) # Ejemplo de valores que toma la variable s

date        hour  NombreEstacion                            
2010-01-01  4     EL DESTINO  - AUT                              NaN
                  LA ESMERALDA-  - AUT                           NaN
                  EL SOCHE  - AUT                                NaN
                  UNIVERSIDAD SANTO TOMÁS  - AUT                 NaN
            5     IDEAM BOGOTA  - AUT                           11.2
                  CIUDAD BOLIVAR                                 8.2
                  VILLA TERESA - AUT                             5.4
                  NUEVA GENERACION  - AUT                        NaN
                  CERRO GUADALUPE - FOPAE                        NaN
                  UAN SEDE CIRCUNVALAR - FOPAE                   NaN
                  ESC LA UNION - FOPAE                           NaN
                  UNIVERSIDAD NACIONAL  - AUT                    NaN
                  UAN SEDE USME - FOPAE                          NaN
                  SAN BENITO - FOPAE      

#### Transforma el pandas series "s" a un xarray DataArray "da"

In [118]:
# 4. Convert to xarray DataArray
da = s.to_xarray().rename("t2m")  
# da dims are ('date','hour','NombreEstacion')

#### Se realiza la interpolación de los valores faltantes en el xarray DataArray

In [119]:
# 5. Interpolate missing values “smartly”:
#   a) first along the hour‑of‑day (within each date & station) – linear in hour
da = da.interpolate_na(dim="hour", method="nearest", fill_value="extrapolate")

#   b) then along the date (within each hour & station) – linear in time
da = da.interpolate_na(dim="date", method="nearest", fill_value="extrapolate")

In [120]:
da # Como se visualiza el tensor de temperatura

#### Generación del tensor de pandas

In [121]:
# 6. (Optional) get back a NumPy tensor
tensor = da.values  
# shape will be (n_dates, 24, n_stations)

In [122]:
tensor.shape

(4384, 24, 34)