# Proyecto de visualización

## Introducción

El sector residencial desempeña un papel clave en el consumo energético total y en las emisiones asociadas al cambio climático. En países con climas fríos como Suiza, la **calefacción de los hogares** representa una parte sustancial del consumo final de energía y está fuertemente influenciada tanto por las **condiciones meteorológicas** como por la **tecnología de los sistemas de calefacción** utilizados.

El objetivo de este proyecto es analizar y visualizar la evolución del consumo energético residencial en Suiza entre los años **2000 y 2024**, poniendo especial énfasis en tres dimensiones interrelacionadas:

1. **Consumo energético por uso final**, con especial atención al peso de la calefacción frente a otros usos domésticos.
2. **Influencia del clima**, medida a través de indicadores como los *Heating Degree Days (HDD)*, y su impacto en la demanda de calefacción.
3. **Transición tecnológica de los sistemas de calefacción**, incluyendo la creciente adopción de bombas de calor y la reducción del uso de energías fósiles.

Para ello, se utilizan datos oficiales procedentes de:
- La **Oficina Federal de Energía (BFE)**, a través de las tablas PHH sobre consumo energético residencial.
- **MeteoSwiss**, para los datos climáticos diarios y los indicadores HDD/CDD.
- La **Oficina Federal de Estadística (BFS)**, para la información sobre sistemas de calefacción en edificios residenciales.

El trabajo se estructura en dos fases:
- **Preparación y limpieza de los datos**, realizada en este notebook mediante Python y pandas, transformando fuentes heterogéneas en conjuntos de datos *tidy* listos para visualización.
- **Visualización y análisis exploratorio**, llevado a cabo con Flourish, con el objetivo de construir una narrativa clara que conecte clima, consumo energético y cambio tecnológico.

Este enfoque permite no solo describir tendencias históricas, sino también aportar contexto explicativo sobre los factores que impulsan la evolución del consumo energético residencial en Suiza.

## Referencias:

https://stats.swiss/?lc=en

https://www.bfs.admin.ch/bfs/en/home/statistics/construction-housing/buildings/energy-sector.gnpdetail.2025-0428.html

https://www.bfs.admin.ch/bfs/en/home/statistics/construction-housing/surveys/gws2009.html

https://www.bfs.admin.ch/bfs/en/home/statistics/construction-housing/buildings/energy-sector.assetdetail.36162970.html

https://github.com/sdmx-twg/sdmx-rest/blob/v1.5.0/v2_1/ws/rest/docs/4_1_introduction.md

## Setup

In [None]:
# ===============================
# Manipulación y análisis de datos
# ===============================
import pandas as pd
import numpy as np

# ===============================
# Trabajo con rutas y archivos
# ===============================
from pathlib import Path
from glob import glob
import os

# ===============================
# Expresiones regulares (limpieza de columnas, detección de años)
# ===============================
import re

# ===============================
# Descarga de datos desde APIs / web
# ===============================
import requests

# ===============================
# Control de tiempos (pausas en descargas)
# ===============================
import time

## Sistemas de calefacción en edificios residenciales

### Fuente de datos y alcance

La información sobre los **sistemas de calefacción en edificios residenciales** procede de la **Oficina Federal de Estadística de Suiza (BFS)**, concretamente de la estadística **GWS (Gebäude- und Wohnungsstatistik)**. Esta fuente recopila información detallada a nivel de edificio sobre el tipo de sistema de calefacción utilizado, permitiendo analizar su distribución territorial y su evolución temporal.

En este proyecto se utilizan los datos publicados a través de la plataforma **stats.swiss**, accesibles tanto mediante descarga directa como a través de la **API SDMX del BFS**. El análisis se centra en el período **2021–2024**, correspondiente a los últimos datos disponibles de forma homogénea a nivel cantonal.

Los sistemas de calefacción considerados incluyen, entre otros:
- Fuel (heating oil)
- Gas
- Electricidad
- Calefacción urbana (district heating)
- Bombas de calor
- Biomasa (madera)
- Solar térmica
- Otros sistemas y edificios sin sistema de calefacción declarado

### Proceso de preparación de los datos

El flujo de trabajo seguido para la preparación de los datos de calefacción es el siguiente:

1. **Descarga de los datos brutos**  
   Se parte de un archivo CSV obtenido desde stats.swiss que contiene el número de edificios clasificados por:
   - cantón,
   - año,
   - tipo de sistema de calefacción (codificado),
   - número de edificios.

2. **Limpieza y recodificación**  
   Los códigos numéricos asociados a los sistemas de calefacción se transforman en etiquetas descriptivas (por ejemplo, *Heat pump*, *Gas*, *Heating oil*), facilitando su interpretación y uso en las visualizaciones.

3. **Agregación y cálculo de indicadores**  
   Para cada combinación de **cantón y año**:
   - se calcula el número total de edificios,
   - se obtiene la cuota relativa (*share*) de cada sistema de calefacción,
   - se verifica la coherencia de los datos (la suma de las cuotas por cantón y año es igual a 1).

4. **Estructuración en formato tidy**  
   Los datos se transforman a un formato largo (*tidy data*), en el que cada fila representa:
   - un cantón,
   - un año,
   - un sistema de calefacción,
   - el número de edificios,
   - la cuota relativa del sistema.

### Archivos generados

Como resultado del proceso de preparación se generan los siguientes archivos:

- **`heating_systems_by_canton_year.csv`**  
  Contiene los datos agregados por cantón, año y sistema de calefacción, incluyendo el número absoluto de edificios.

- **`heating_systems_by_canton_year_tidy.csv`**  
  Versión final en formato *tidy*, que incorpora el número total de edificios por cantón y año, así como la cuota relativa de cada sistema de calefacción.

Estos archivos constituyen la base para analizar la **penetración de las bombas de calor**, la reducción de sistemas fósiles y las diferencias regionales entre cantones.

https://stats.swiss/vis?lc=en&df[ds]=disseminate&df[id]=DF_GWS_REG3&df[ag]=CH1.GWS&df[vs]=1.0.0&dq=A.8011%2B8012%2B8013%2B8014%2B8015%2B8016%2B8017%2B8018%2B8019%2B8020%2B8021%2B8022%2B8023%2B8024%2B_T.1021%2B1025%2B1030%2B1040.1%2B2%2B3%2B4%2B5%2B6%2B7%2B8%2B9.8100%2BZH%2BBE%2BLU%2BUR%2BSZ%2BOW%2BNW%2BGL%2BZG%2BFR%2BSO%2BBS%2BBL%2BSH%2BAR%2BAI%2BSG%2BGR%2BAG%2BTG%2BTI%2BVD%2BVS%2BNE%2BGE%2BJU&pd=2021%2C2024&to[TIME_PERIOD]=true&vw=tb

In [2]:
path = "data/heating_systems/raw/CH1.GWS_DF_GWS_REG3_2021_2024.csv"
df_raw = pd.read_csv(path)

df_raw.head()

Unnamed: 0,STRUCTURE,STRUCTURE_ID,STRUCTURE_NAME,ACTION,FREQ,Unnamed: 5,GBAUPS,Unnamed: 7,GKATS,Unnamed: 9,...,DIFF_LAST_UPDATE,Unnamed: 21,DIFF_EMBARGO_DATE,Unnamed: 23,DIFF_DB_STATE,Unnamed: 25,OBS_STATUS,Unnamed: 27,DIFF_REGION_REF,Unnamed: 29
0,DATAFLOW,CH1.GWS:DF_GWS_REG3(1.0.0),,I,A,,8020,,1040,,...,2025-09-22T08:30,,2025-09-22T08:30,,2025-09-22,,A,,POLG,
1,DATAFLOW,CH1.GWS:DF_GWS_REG3(1.0.0),,I,A,,8020,,1040,,...,2025-09-22T08:30,,2025-09-22T08:30,,2025-09-22,,A,,POLG,
2,DATAFLOW,CH1.GWS:DF_GWS_REG3(1.0.0),,I,A,,8020,,1040,,...,2025-09-22T08:30,,2025-09-22T08:30,,2025-09-22,,A,,POLG,
3,DATAFLOW,CH1.GWS:DF_GWS_REG3(1.0.0),,I,A,,8020,,1040,,...,2025-09-22T08:30,,2025-09-22T08:30,,2025-09-22,,A,,POLG,
4,DATAFLOW,CH1.GWS:DF_GWS_REG3(1.0.0),,I,A,,8022,,1040,,...,2025-09-22T08:30,,2025-09-22T08:30,,2025-09-22,,A,,POLG,


In [3]:
IN_PATH = "data/heating_systems/heating_systems_by_canton_year.csv" 
df = pd.read_csv(IN_PATH)

# 1) Agregar: canton-year-heating_system (sumando OBS)
agg = (
    df.groupby(["canton", "year", "heating_system"], as_index=False)
      .agg(n_buildings=("n_buildings", "sum"))
)

# 2) Recalcular totales y shares
tot = (
    agg.groupby(["canton", "year"], as_index=False)["n_buildings"]
       .sum()
       .rename(columns={"n_buildings": "total_buildings"})
)

final = agg.merge(tot, on=["canton", "year"], how="left")
final["share"] = final["n_buildings"] / final["total_buildings"]

# 3) (Opcional) quitar el total Suiza si aparece como canton=8100
final = final[final["canton"] != 8100].copy()

# 4) Comprobación: share suma 1 por canton-year
check = final.groupby(["canton", "year"])["share"].sum().reset_index()
print("Max error vs 1:", (check["share"] - 1).abs().max())

OUT_PATH = "data/heating_systems/heating_systems_by_canton_year_tidy.csv"
final.to_csv(OUT_PATH, index=False)
print("Exportado:", OUT_PATH)

final.head(15)


Max error vs 1: 1.1102230246251565e-16
Exportado: data/heating_systems/heating_systems_by_canton_year_tidy.csv


Unnamed: 0,canton,year,heating_system,n_buildings,total_buildings,share
0,8100,2021,Biomass,127716,3548322,0.035993
1,8100,2021,District heating,419502,3548322,0.118225
2,8100,2021,Electricity,1445536,3548322,0.407386
3,8100,2021,Gas,624202,3548322,0.175915
4,8100,2021,Heat pump,285608,3548322,0.080491
5,8100,2021,Heating oil,604760,3548322,0.170435
6,8100,2021,No heating system,10404,3548322,0.002932
7,8100,2021,Other,18494,3548322,0.005212
8,8100,2021,Solar thermal,12100,3548322,0.00341
9,8100,2022,Biomass,134968,3570642,0.037799


In [None]:
final[["canton", "year"]].drop_duplicates().sort_values(["year", "canton"])

Unnamed: 0,canton,year
0,8100,2021
36,AG,2021
72,AI,2021
108,AR,2021
144,BE,2021
...,...,...
819,UR,2024
855,VD,2024
891,VS,2024
927,ZG,2024


In [5]:
final.groupby(["canton", "year"])["share"].sum().describe()

count    1.080000e+02
mean     1.000000e+00
std      2.839667e-17
min      1.000000e+00
25%      1.000000e+00
50%      1.000000e+00
75%      1.000000e+00
max      1.000000e+00
Name: share, dtype: float64

In [6]:
hp_2024 = (
    final[(final["year"] == 2024) & (final["heating_system"] == "Heat pump")]
    .sort_values("share", ascending=False)
)

hp_2024[["canton", "share"]].head(10)

Unnamed: 0,canton,share
895,VS,0.222358
787,TI,0.16023
391,GR,0.120455
823,UR,0.100571
859,VD,0.098595
571,OW,0.098136
355,GL,0.09219
535,NW,0.084302
283,FR,0.074681
31,8100,0.070768


In [None]:
hp_trend = final[final["heating_system"] == "Heat pump"]
hp_trend.groupby(["year"])["share"].mean().reset_index()

Unnamed: 0,year,share
0,2021,0.074672
1,2022,0.073217
2,2023,0.069199
3,2024,0.065533


In [8]:
heating_dict = {
    1: "Heating oil",
    2: "Gas",
    3: "Electricity",
    4: "District heating",
    5: "Heat pump",
    6: "Biomass",
    7: "Solar thermal",
    8: "Other",
    9: "No heating system"
}

In [9]:
######################################
# Agregación y porcentajes
######################################

df = df_raw[["GEMEINDENAME", "TIME_PERIOD", "GWAERZH", "OBS_VALUE"]].copy()

df.rename(columns={
    "GEMEINDENAME": "canton",
    "TIME_PERIOD": "year",
    "GWAERZH": "heating_code",
    "OBS_VALUE": "n_buildings"
}, inplace=True)

df["heating_system"] = df["heating_code"].map(heating_dict)


In [10]:
totals = df.groupby(["canton", "year"])["n_buildings"].sum().reset_index()
df = df.merge(totals, on=["canton", "year"], suffixes=("", "_total"))

df["share"] = df["n_buildings"] / df["n_buildings_total"]

In [11]:
#####################################
# Export final
#####################################

out_path = "data/heating_systems/heating_systems_by_canton_year.csv"
df.to_csv(out_path, index=False)


## Consumo energético residencial

### Fuente de datos y alcance

El análisis del **consumo energético residencial** se basa en las tablas **PHH (Private Haushalte)** publicadas por la **Oficina Federal de Energía de Suiza (BFE)**. Estas tablas ofrecen una reconstrucción coherente y homogénea del consumo energético de los hogares suizos desde el año **2000 hasta 2024**, expresada en **petajulios (PJ)**.

Los datos PHH se obtienen a partir de modelos energéticos que combinan estadísticas oficiales, encuestas sectoriales y supuestos técnicos, permitiendo descomponer el consumo energético residencial tanto por **uso final** como por **tipo de energía**. En este proyecto se utilizan varias tablas clave para capturar diferentes perspectivas del consumo energético doméstico.

### Dimensiones analizadas

El consumo energético residencial se estudia a través de las siguientes dimensiones complementarias:

1. **Consumo por uso final**  
   A partir de la *Tabelle 8*, se analiza cómo se reparte el consumo energético de los hogares entre distintos usos, como:
   - calefacción de espacios (*Raumwärme*),
   - agua caliente sanitaria,
   - cocina,
   - iluminación,
   - electrodomésticos y usos eléctricos específicos.

   Esta descomposición permite identificar qué usos concentran la mayor parte de la demanda energética y cómo han evolucionado en el tiempo.

2. **Consumo térmico por uso**  
   Mediante la *Tabelle 9*, se profundiza en el consumo de **energía térmica**, diferenciando entre calefacción de espacios, agua caliente y otros usos térmicos. Esta tabla resulta especialmente relevante para contextualizar el peso de la calefacción dentro del consumo energético total.

3. **Calefacción y condiciones meteorológicas**  
   Las *Tabellen 11 y 12* permiten analizar el consumo de calefacción por tipo de energía:
   - con influencia directa de la meteorología,
   - y ajustado por condiciones climáticas medias.

   Esta distinción es fundamental para separar los efectos estructurales (eficiencia, cambio tecnológico) de las variaciones debidas a inviernos más fríos o más suaves.

### Proceso de preparación de los datos

Para su uso en las visualizaciones, los datos PHH se someten a un proceso sistemático de preparación:

- limpieza de columnas no informativas,
- identificación y selección de columnas correspondientes a años,
- transformación a formato largo (*tidy data*),
- homogeneización de nombres y unidades.

El resultado son conjuntos de datos consistentes y comparables en el tiempo, adecuados para su integración con información climática y tecnológica.

### Archivos generados

Como resultado de este proceso, se generan los siguientes archivos CSV en formato *tidy*:

- **`tabelle8_residential_energy_by_use_2000_2024.csv`**  
  Consumo energético residencial por uso final.

- **`tabelle9_thermal_energy_by_use_2000_2024.csv`**  
  Consumo de energía térmica por uso.

- **`tabelle11_space_heating_by_energy_carrier_weather_influenced_2000_2024.csv`**  
  Consumo de calefacción por tipo de energía con influencia meteorológica.

- **`tabelle12_space_heating_by_energy_carrier_weather_adjusted_2000_2024.csv`**  
  Consumo de calefacción ajustado por condiciones climáticas.

Estos archivos constituyen la base para las visualizaciones desarrolladas en Flourish y permiten analizar de forma integrada la evolución del consumo energético residencial, su relación con el clima y los cambios tecnológicos en los sistemas de calefacción.

### Papel en la narrativa del proyecto

El análisis del consumo energético residencial proporciona el **marco general** del proyecto. Permite identificar tendencias de largo plazo, como la reducción del consumo térmico total o el aumento del peso relativo de los usos eléctricos, y sirve como punto de partida para relacionar estos cambios con la evolución climática y la transición de los sistemas de calefacción en los hogares suizos.


In [None]:
path = "data/energy/12388-PHH_Webtabellen_2024.xlsx"

xls = pd.ExcelFile(path)
xls.sheet_names

['Titelblatt',
 'Tabellenverzeichnis',
 'Tabelle1',
 'Tabelle2',
 'Tableau3',
 'Tableau4',
 'Tabelle6',
 'Tabelle7',
 'Tabelle8',
 'Tabelle9',
 'Tabelle10',
 'Tabelle11',
 'Tabelle12',
 'Tabelle13',
 'Tabelle14',
 'Tabelle15',
 'Tabelle16',
 'Tabelle17',
 'Tabelle18',
 'Tabelle19',
 'Tabelle20',
 'Tabelle21',
 'Tabelle22']

In [None]:
# Ruta y hoja
path = Path("data/energy/12388-PHH_Webtabellen_2024.xlsx")
sheet = "Tabelle8"

# 1) Leer usando la cabecera correcta
df_raw = pd.read_excel(path, sheet_name=sheet, header=5)

# 2) Quitar columnas vacías tipo "Unnamed"
df_raw = df_raw.loc[:, ~df_raw.columns.astype(str).str.startswith("Unnamed")]

# 3) Renombrar primera columna
df_raw = df_raw.rename(columns={df_raw.columns[0]: "end_use"})

# 4) Detectar columnas que son años (2000 o 2000.0)
year_cols = [
    c for c in df_raw.columns
    if re.fullmatch(r"\d{4}(\.0)?", str(c))
]

print("Años detectados:", year_cols)

# 5) Quedarnos solo con usos + años
df_use = df_raw[["end_use"] + year_cols]

# 6) Pasar a formato largo (tidy)
df_t8 = df_use.melt(
    id_vars="end_use",
    var_name="year",
    value_name="consumption_PJ"
)

# 7) Limpiar tipos
df_t8["year"] = pd.to_numeric(df_t8["year"], errors="coerce").astype(int)
df_t8 = df_t8.dropna(subset=["consumption_PJ"])

df_t8.head(10)

Años detectados: [2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024]


Unnamed: 0,end_use,year,consumption_PJ
0,Raumwärme,2000,169.699611
1,Raumwärme fest installiert,2000,168.184271
2,Heizen mobil,2000,1.51534
3,Warmwasser,2000,31.564857
4,"Klima, Lüftung, HT",2000,3.508979
5,Heizen Hilfsenergie,2000,2.259114
6,"Lüftung, Luftbefeuchtung",2000,0.742629
7,Klimatisierung,2000,0.050461
8,"Antennenverstärker, u.a.",2000,0.456774
9,"I&K, Unterhaltung",2000,5.6668


In [14]:
out_path = Path("data/energy/processed/tabelle8_residential_energy_by_use_2000_2024.csv")
out_path.parent.mkdir(parents=True, exist_ok=True)

df_t8.to_csv(out_path, index=False)

print("CSV guardado en:", out_path)

CSV guardado en: data\energy\processed\tabelle8_residential_energy_by_use_2000_2024.csv


In [None]:
# Archivo y hoja
path = Path("data/energy/12388-PHH_Webtabellen_2024.xlsx")
sheet = "Tabelle9"   # 

# 1) Leer usando la cabecera correcta
df_raw = pd.read_excel(path, sheet_name=sheet, header=5)

# 2) Quitar columnas vacías tipo "Unnamed"
df_raw = df_raw.loc[:, ~df_raw.columns.astype(str).str.startswith("Unnamed")].copy()

# 3) Renombrar la primera columna como "thermal_use"
df_raw = df_raw.rename(columns={df_raw.columns[0]: "thermal_use"})

# 4) Detectar columnas-año (2000 o 2000.0)
year_cols = [c for c in df_raw.columns if re.fullmatch(r"\d{4}(\.0)?", str(c).strip())]
print("Años detectados:", year_cols)

# 5) uso térmico + años
df_use = df_raw[["thermal_use"] + year_cols].copy()

# 6) Convertir a formato largo (tidy)
df_t9 = df_use.melt(
    id_vars="thermal_use",
    var_name="year",
    value_name="consumption_PJ"
)

# 7) Limpiar tipos y filas vacías
df_t9["year"] = pd.to_numeric(df_t9["year"], errors="coerce").astype(int)
df_t9 = df_t9.dropna(subset=["consumption_PJ"])

# (Opcional) quitar fila Total
# df_t9 = df_t9[df_t9["thermal_use"].str.lower() != "total"]

df_t9.head(10)


Años detectados: [2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024]


Unnamed: 0,thermal_use,year,consumption_PJ
0,Raumwärme,2000,157.002772
1,Warmwasser,2000,24.323419
2,Prozesswärme / Kochen,2000,0.804732
3,Total,2000,182.130923
13,Raumwärme,2001,170.756598
14,Warmwasser,2001,24.162267
15,Prozesswärme / Kochen,2001,0.769259
16,Total,2001,195.688124
26,Raumwärme,2002,158.213134
27,Warmwasser,2002,24.077755


In [16]:
out_path = Path("data/energy/processed/tabelle9_thermal_energy_by_use_2000_2024.csv")
out_path.parent.mkdir(parents=True, exist_ok=True)

df_t9.to_csv(out_path, index=False)

print("CSV guardado en:", out_path)
print("Filas:", len(df_t9))
print(df_t9.head(10))


CSV guardado en: data\energy\processed\tabelle9_thermal_energy_by_use_2000_2024.csv
Filas: 100
              thermal_use  year  consumption_PJ
0               Raumwärme  2000      157.002772
1              Warmwasser  2000       24.323419
2   Prozesswärme / Kochen  2000        0.804732
3                   Total  2000      182.130923
13              Raumwärme  2001      170.756598
14             Warmwasser  2001       24.162267
15  Prozesswärme / Kochen  2001        0.769259
16                  Total  2001      195.688124
26              Raumwärme  2002      158.213134
27             Warmwasser  2002       24.077755


In [17]:
# Archivo y hoja
path = Path("data/energy/12388-PHH_Webtabellen_2024.xlsx")
sheet = "Tabelle11"   # <-- importante

# 1) Leer con cabecera correcta
df_raw = pd.read_excel(path, sheet_name=sheet, header=5)

# 2) Quitar columnas vacías
df_raw = df_raw.loc[:, ~df_raw.columns.astype(str).str.startswith("Unnamed")].copy()

# 3) Renombrar primera columna
df_raw = df_raw.rename(columns={df_raw.columns[0]: "energy_carrier"})

# 4) Detectar columnas de años (2000 o 2000.0)
year_cols = [
    c for c in df_raw.columns
    if re.fullmatch(r"\d{4}(\.0)?", str(c).strip())
]

print("Años detectados:", year_cols)

# 5) Seleccionar columnas útiles
df_use = df_raw[["energy_carrier"] + year_cols].copy()

# 6) Formato largo (tidy)
df_t11 = df_use.melt(
    id_vars="energy_carrier",
    var_name="year",
    value_name="space_heating_PJ"
)

# 7) Limpieza
df_t11["year"] = pd.to_numeric(df_t11["year"], errors="coerce").astype(int)
df_t11 = df_t11.dropna(subset=["space_heating_PJ"])

# (Opcional) quitar fila Total
# df_t11 = df_t11[df_t11["energy_carrier"].str.lower() != "total"]

df_t11.head(10)


Años detectados: [2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024]


Unnamed: 0,energy_carrier,year,space_heating_PJ
0,Heizöl,2000,102.953358
1,Erdgas,2000,28.604506
2,Kohle,2000,0.440424
3,El. Widerstandsheizungen,2000,11.237376
4,Elektrische Wärmepumpen,2000,1.459464
5,Fernwärme,2000,4.311263
6,Holz,2000,18.033402
7,Umweltwärme,2000,2.619819
8,Solar,2000,0.04
9,Total,2000,169.699611


In [18]:
out_path = Path("data/energy/processed/tabelle11_space_heating_by_energy_carrier_weather_influenced_2000_2024.csv")
out_path.parent.mkdir(parents=True, exist_ok=True)

df_t11.to_csv(out_path, index=False)

print("CSV guardado en:", out_path)
print("Filas:", len(df_t11))


CSV guardado en: data\energy\processed\tabelle11_space_heating_by_energy_carrier_weather_influenced_2000_2024.csv
Filas: 300


In [19]:
# Archivo y hoja
path = Path("data/energy/12388-PHH_Webtabellen_2024.xlsx")
sheet = "Tabelle12"

# 1) Leer con cabecera correcta
df_raw = pd.read_excel(path, sheet_name=sheet, header=5)

# 2) Quitar columnas vacías tipo Unnamed
df_raw = df_raw.loc[:, ~df_raw.columns.astype(str).str.startswith("Unnamed")].copy()

# 3) Renombrar primera columna
df_raw = df_raw.rename(columns={df_raw.columns[0]: "energy_carrier"})

# 4) Detectar columnas-año (2000 o 2000.0)
year_cols = [
    c for c in df_raw.columns
    if re.fullmatch(r"\d{4}(\.0)?", str(c).strip())
]
print("Años detectados:", year_cols)

# 5) Selección y formato tidy
df_use = df_raw[["energy_carrier"] + year_cols].copy()

df_t12 = df_use.melt(
    id_vars="energy_carrier",
    var_name="year",
    value_name="space_heating_PJ_adjusted"
)

# 6) Limpieza
df_t12["year"] = pd.to_numeric(df_t12["year"], errors="coerce").astype(int)
df_t12 = df_t12.dropna(subset=["space_heating_PJ_adjusted"])

# (Opcional) quitar fila Total
# df_t12 = df_t12[df_t12["energy_carrier"].str.lower() != "total"]

df_t12.head(10)


Años detectados: [2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024]


Unnamed: 0,energy_carrier,year,space_heating_PJ_adjusted
0,Heizöl,2000,115.122077
1,Erdgas,2000,32.00527
2,Kohle,2000,0.49198
3,El. Widerstandsheizungen,2000,12.359871
4,Elektrische Wärmepumpen,2000,1.628031
5,Fernwärme,2000,4.828914
6,Holz,2000,20.106866
7,Umweltwärme,2000,2.922293
8,Solar,2000,0.04
9,Total,2000,189.505301


In [20]:
out_path = Path("data/energy/processed/tabelle12_space_heating_by_energy_carrier_weather_adjusted_2000_2024.csv")
out_path.parent.mkdir(parents=True, exist_ok=True)

df_t12.to_csv(out_path, index=False)

print("CSV guardado en:", out_path)
print("Filas:", len(df_t12))


CSV guardado en: data\energy\processed\tabelle12_space_heating_by_energy_carrier_weather_adjusted_2000_2024.csv
Filas: 300


In [21]:
print("Años:", df_t12["year"].min(), "-", df_t12["year"].max())
print("Carriers (ejemplo):", df_t12["energy_carrier"].unique()[:10])

Años: 2000 - 2024
Carriers (ejemplo): ['Heizöl' 'Erdgas' 'Kohle' 'El. Widerstandsheizungen'
 'Elektrische Wärmepumpen' 'Fernwärme' 'Holz' 'Umweltwärme' 'Solar'
 'Total']


## Clima (para HDD/CDD) — 

## Clima y demanda energética residencial

### Motivación

Las condiciones climáticas influyen de forma directa en la demanda energética de los hogares, especialmente en países con inviernos fríos como Suiza. Las variaciones interanuales de la temperatura afectan principalmente al **consumo de calefacción**, que representa el mayor componente del consumo energético residencial.

Para analizar esta relación de forma cuantitativa, se utilizan indicadores climáticos sintéticos que permiten resumir la severidad térmica de un año y compararla de manera homogénea en el tiempo y el espacio.

### Indicadores climáticos: HDD y CDD

En este proyecto se emplean dos indicadores ampliamente utilizados en el análisis energético:

- **Heating Degree Days (HDD)**: miden la demanda potencial de calefacción. Un valor elevado de HDD indica un año más frío y, por tanto, una mayor necesidad de calefacción.
- **Cooling Degree Days (CDD)**: miden la demanda potencial de refrigeración, relevante principalmente en contextos de climatización estival.

Dado el contexto climático suizo, el análisis se centra principalmente en los **HDD**, mientras que los **CDD** se incluyen como referencia para observar tendencias recientes asociadas al aumento de temperaturas.

### Fuente de datos y cobertura

Los datos climáticos proceden de **MeteoSwiss**, el servicio meteorológico nacional de Suiza. Se utilizan registros diarios de temperatura de una red de estaciones meteorológicas distribuidas por todo el territorio nacional.

A partir de estos registros se calculan los indicadores HDD y CDD:
- a nivel de **estación meteorológica**,
- y posteriormente agregados a nivel **cantonal**.

El período de análisis abarca los años **2000–2024**, lo que permite estudiar tanto la variabilidad interanual como posibles tendencias de medio plazo.

https://opendatadocs.meteoswiss.ch/

https://opendatadocs.meteoswiss.ch/a-data-groundbased/a1-automatic-weather-stations#data-download

### Proceso de preparación de los datos

El flujo de trabajo seguido para los datos climáticos incluye:

1. **Descarga de series diarias de temperatura** desde la plataforma de datos abiertos de MeteoSwiss.
2. **Cálculo de HDD y CDD** a partir de la temperatura media diaria, siguiendo definiciones estándar utilizadas en estudios energéticos.
3. **Agregación temporal y espacial**, obteniendo valores anuales por estación y por cantón.
4. **Estructuración en formato tidy**, facilitando su integración con los datos de consumo energético y sistemas de calefacción.

### Archivos generados

Como resultado de este proceso se generan los siguientes conjuntos de datos:

- **`smn_hdd_cdd_station_year_2000_2024.csv`**  
  Indicadores HDD y CDD anuales a nivel de estación meteorológica.

- **`smn_hdd_cdd_canton_year_2000_2024.csv`**  
  Indicadores HDD y CDD agregados a nivel cantonal.

Estos archivos permiten analizar la evolución del clima en Suiza y proporcionan el contexto necesario para interpretar los cambios observados en el consumo energético residencial y en la demanda de calefacción.

### Papel en la narrativa del proyecto

La inclusión de indicadores climáticos permite distinguir entre:
- variaciones del consumo energético debidas a **factores meteorológicos** (años más fríos o más suaves),
- y cambios de carácter **estructural**, asociados a mejoras de eficiencia energética o a la transición hacia nuevos sistemas de calefacción.

De este modo, el análisis climático constituye un elemento clave para comprender la relación entre clima, consumo energético y transformación tecnológica en el sector residencial suizo.

In [37]:
COLL = "ch.meteoschweiz.ogd-smn"
BASE = "https://data.geo.admin.ch/api/stac/v1"

def stac_search(collection=COLL, limit=100, **kwargs):
    url = f"{BASE}/search"
    payload = {"collections": [collection], "limit": limit, **kwargs}
    r = requests.post(url, json=payload, timeout=60)
    r.raise_for_status()
    return r.json()

# 1) Trae algunos items (primeras páginas) para inspeccionar qué campos trae cada item
data = stac_search(limit=50)
items = data["features"]
items[0].keys(), items[0]["properties"].keys()

(dict_keys(['id', 'collection', 'type', 'stac_version', 'geometry', 'bbox', 'properties', 'stac_extensions', 'links', 'assets']),
 dict_keys(['datetime', 'title', 'created', 'updated']))

In [23]:
def find_daily_historical_item(items, station_code=None):
    matches = []
    for it in items:
        p = it["properties"]
        # Ajusta estas condiciones según lo que veas en properties
        ok_station = True if station_code is None else (p.get("station_code") == station_code or p.get("station") == station_code)
        ok_daily = "daily" in str(p).lower() or p.get("time_resolution") == "d"
        ok_hist = "historical" in str(p).lower() or p.get("update_interval") == "historical"
        if ok_station and ok_daily and ok_hist:
            matches.append(it)
    return matches

matches = find_daily_historical_item(items, station_code="SMA")  # ejemplo: cambia el código
len(matches)


0

In [None]:
# =========================
# 0) Rutas a tus metadatos
# =========================
META_PARAMS   = "data/data_info/ogd-smn_meta_parameters.csv"
META_STATIONS = "data/data_info/ogd-smn_meta_stations.csv"
META_INV      = "data/data_info/ogd-smn_meta_datainventory.csv"

OUT_DIR = "data/meteo/smn_daily_historical_by_station"
os.makedirs(OUT_DIR, exist_ok=True)

TEMP_PARAM = "tre200d0"

# =========================
# 1) Cargar metadatos
# =========================
params   = pd.read_csv(META_PARAMS, sep=";", encoding="cp1252")
stations = pd.read_csv(META_STATIONS, sep=";", encoding="cp1252")
inv      = pd.read_csv(META_INV, sep=";", encoding="cp1252")

if TEMP_PARAM not in set(params["parameter_shortname"]):
    raise ValueError(f"No encuentro {TEMP_PARAM} en ogd-smn_meta_parameters.csv")

stations_with_temp = (
    inv.loc[inv["parameter_shortname"].eq(TEMP_PARAM), "station_abbr"]
      .dropna()
      .unique()
      .tolist()
)

print(f"Estaciones con {TEMP_PARAM}: {len(stations_with_temp)}")


In [None]:

def find_item_for_station(items, station_abbr: str):
    st = station_abbr.lower()
    for it in items:
        props = it.get("properties", {}) or {}

        # 1) buscar coincidencia exacta en valores de properties
        for v in props.values():
            if isinstance(v, str) and v.lower() == st:
                return it

        # 2) buscar el código dentro del id (a veces el id incluye la estación)
        it_id = (it.get("id") or "").lower()
        if st in it_id:
            return it

        # 3) buscar en cualquier string de properties (más permisivo)
        for v in props.values():
            if isinstance(v, str) and st in v.lower():
                return it

    return None

def print_item_debug(it):
    print("ITEM ID:", it.get("id"))
    props = it.get("properties", {}) or {}
    print("PROPERTIES KEYS:", sorted(list(props.keys())))

    # muestra posibles campos relevantes
    for k in sorted(props.keys()):
        v = props[k]
        if isinstance(v, (str, int, float)) and len(str(v)) < 80:
            if "station" in k.lower() or "abbr" in k.lower() or "site" in k.lower():
                print(f"  {k}: {v}")

    assets = it.get("assets", {}) or {}
    print("\nASSETS (CSV hrefs):")
    csv_hrefs = []
    for ak, av in assets.items():
        href = (av.get("href") or "")
        if href.lower().endswith(".csv"):
            csv_hrefs.append((ak, href))
    for ak, href in csv_hrefs:
        print(f"  - {ak}: {href}")
    print("\nTotal CSV assets:", len(csv_hrefs))

# Prueba con una estación (ABO)
st = "ABO"
it = find_item_for_station(items, st)

if it is None:
    print(f"No encontré item para {st} ni por properties ni por id.")
else:
    print_item_debug(it)


In [None]:
OUT_DIR = "data/meteo/smn_daily_by_station"
os.makedirs(OUT_DIR, exist_ok=True)

def pick_best_daily_csv(csv_hrefs):
    """
    Elige el mejor candidato daily.
    Regla:
      1) si hay alguno que contenga 'historical' y parezca daily -> ese
      2) si no, el que contenga '/d/' o 'daily'
      3) si no, el primer CSV (y luego validamos por columnas)
    """
    def score(h):
        hl = h.lower()
        s = 0
        if "historical" in hl: s += 50
        if re.search(r"/d/", hl): s += 20
        if "daily" in hl: s += 20
        if "recent" in hl: s -= 5
        if "now" in hl: s -= 10
        return s

    return sorted(csv_hrefs, key=lambda x: score(x[1]), reverse=True)[0]

def download_and_check(station_abbr, item):
    assets = item.get("assets", {}) or {}
    csv_hrefs = [(k, (v.get("href") or "")) for k, v in assets.items() if (v.get("href") or "").lower().endswith(".csv")]

    if not csv_hrefs:
        return station_abbr, "NO_CSV_ASSETS", None

    asset_key, href = pick_best_daily_csv(csv_hrefs)

    out_path = os.path.join(OUT_DIR, f"smn_{station_abbr}_{asset_key}.csv".replace("/", "_"))
    df = pd.read_csv(href, sep=";", encoding="cp1252")

    # Validación mínima para HDD/CDD
    ok_ref = "ReferenceTS" in df.columns
    ok_tmp = "tre200d0" in df.columns

    df.to_csv(out_path, index=False)
    return station_abbr, f"DOWNLOADED ok_ref={ok_ref} ok_tmp={ok_tmp}", out_path

# prueba con las 5 estaciones
test_stations = ['ABO', 'AIG', 'ALT', 'AND', 'ANT']
results = []

for st in test_stations:
    it = find_item_for_station(items, st)
    if it is None:
        results.append((st, "NO_ITEM", None))
        print(f"[{st}] ❌ NO_ITEM")
        continue

    st, status, path = download_and_check(st, it)
    results.append((st, status, path))
    print(f"[{st}] ✅ {status} -> {path}")

pd.DataFrame(results, columns=["station", "status", "file"])


In [36]:
# descargar 150

STAC_BASE  = "https://data.geo.admin.ch/api/stac/v1"
COLLECTION = "ch.meteoschweiz.ogd-smn"

OUT_DIR = "data/meteo/smn_daily_historical_by_station"
os.makedirs(OUT_DIR, exist_ok=True)

# stations_with_temp ya lo tienes de antes (150 estaciones con tre200d0)
print("Total estaciones a descargar:", len(stations_with_temp))

session = requests.Session()

def stac_get_item(station_abbr: str):
    item_id = station_abbr.lower()
    url = f"{STAC_BASE}/collections/{COLLECTION}/items/{item_id}"
    r = session.get(url, timeout=60)
    r.raise_for_status()
    return r.json()

def download_daily_historical(station_abbr: str):
    out_path = os.path.join(OUT_DIR, f"smn_{station_abbr}_d_historical.csv")
    if os.path.exists(out_path) and os.path.getsize(out_path) > 0:
        return station_abbr, "SKIP", out_path

    item = stac_get_item(station_abbr)
    assets = item.get("assets", {}) or {}

    asset_key = f"ogd-smn_{station_abbr.lower()}_d_historical.csv"
    if asset_key not in assets:
        return station_abbr, f"FAIL: missing asset {asset_key}", None

    href = assets[asset_key].get("href")
    if not href:
        return station_abbr, "FAIL: missing href", None

    # Descargar CSV (MeteoSwiss: sep=';' y encoding cp1252)
    df = pd.read_csv(href, sep=";", encoding="cp1252")
    # sanity check mínimo
    if "ReferenceTS" not in df.columns or "tre200d0" not in df.columns:
        # aun así guardamos para inspección, pero marcamos warning
        df.to_csv(out_path, index=False)
        return station_abbr, "WARN: missing ReferenceTS/tre200d0", out_path

    df.to_csv(out_path, index=False)
    return station_abbr, "OK", out_path

results = []
ok = skip = warn = fail = 0

for i, st in enumerate(stations_with_temp, start=1):
    try:
        st, status, path = download_daily_historical(st)
        results.append((st, status, path))

        if status == "OK":
            ok += 1
        elif status == "SKIP":
            skip += 1
        elif status.startswith("WARN"):
            warn += 1
        else:
            fail += 1

        if i % 10 == 0 or i == len(stations_with_temp):
            print(f"[{i}/{len(stations_with_temp)}] OK={ok} SKIP={skip} WARN={warn} FAIL={fail}")

        time.sleep(0.1)  # pausa suave
    except Exception as e:
        fail += 1
        results.append((st, f"ERROR: {e}", None))
        print(f"[{i}/{len(stations_with_temp)}] {st} ERROR: {e}")
        time.sleep(0.2)

results_df = pd.DataFrame(results, columns=["station_abbr", "status", "file"])
results_df.to_csv(os.path.join(OUT_DIR, "_download_log.csv"), index=False)

print("\nResumen final:")
print("OK  :", ok)
print("SKIP:", skip)
print("WARN:", warn)
print("FAIL:", fail)
print("Log:", os.path.join(OUT_DIR, "_download_log.csv"))

results_df.head(15)


NameError: name 'stations_with_temp' is not defined

In [35]:

STAC_BASE  = "https://data.geo.admin.ch/api/stac/v1"
COLLECTION = "ch.meteoschweiz.ogd-smn"

OUT_DIR = "data/meteo/smn_daily_historical_by_station"
os.makedirs(OUT_DIR, exist_ok=True)

session = requests.Session()

def stac_get_item(station_abbr: str):
    item_id = station_abbr.lower()
    url = f"{STAC_BASE}/collections/{COLLECTION}/items/{item_id}"
    r = session.get(url, timeout=60)
    r.raise_for_status()
    return r.json()

def download_raw_csv(url: str, out_path: str):
    with session.get(url, stream=True, timeout=120) as r:
        r.raise_for_status()
        with open(out_path, "wb") as f:
            for chunk in r.iter_content(chunk_size=1024 * 1024):
                if chunk:
                    f.write(chunk)

def check_columns_quick(path: str):
    """Detecta separador probando ; y , y devuelve (sep, cols)."""
    for sep in [";", ","]:
        try:
            df = pd.read_csv(path, sep=sep, encoding="cp1252", nrows=5)
            cols = [c.lstrip("\ufeff").strip() for c in df.columns]
            if "ReferenceTS" in cols:
                return sep, cols
        except Exception:
            pass
    return None, []

results = []
ok = skip = fail = 0

for i, st in enumerate(stations_with_temp, start=1):
    out_path = os.path.join(OUT_DIR, f"smn_{st}_d_historical.csv")

    if os.path.exists(out_path) and os.path.getsize(out_path) > 0:
        sep, cols = check_columns_quick(out_path)
        results.append((st, "SKIP", out_path, sep, ("tre200d0" in cols)))
        skip += 1
        continue

    try:
        item = stac_get_item(st)
        asset_key = f"ogd-smn_{st.lower()}_d_historical.csv"
        href = item["assets"][asset_key]["href"]

        download_raw_csv(href, out_path)

        sep, cols = check_columns_quick(out_path)
        has_temp = ("tre200d0" in cols)
        results.append((st, "OK", out_path, sep, has_temp))
        ok += 1

        if i % 10 == 0 or i == len(stations_with_temp):
            print(f"[{i}/{len(stations_with_temp)}] OK={ok} SKIP={skip} FAIL={fail}")

        time.sleep(0.1)

    except Exception as e:
        results.append((st, f"FAIL: {e}", None, None, False))
        fail += 1
        print(f"[{i}/{len(stations_with_temp)}] {st} FAIL: {e}")
        time.sleep(0.2)

log_df = pd.DataFrame(results, columns=["station_abbr", "status", "file", "detected_sep", "has_tre200d0"])
log_path = os.path.join(OUT_DIR, "_download_log_v2.csv")
log_df.to_csv(log_path, index=False)

print("\nResumen final:")
print("OK  :", ok)
print("SKIP:", skip)
print("FAIL:", fail)
print("Log:", log_path)
log_df.head(15)


NameError: name 'stations_with_temp' is not defined

In [None]:
# Paso 1
path = "data/meteo/smn_daily_historical_by_station/smn_ABO_d_historical.csv"

with open(path, "rb") as f:
    raw = f.read(4000)

print("Primeros 200 bytes (repr):")
print(repr(raw[:200]))

print("\nPrimeras líneas decodificadas (cp1252, ignore):")
text = raw.decode("cp1252", errors="ignore")
for i, line in enumerate(text.splitlines()[:8], start=1):
    print(f"{i:02d}: {line}")


In [None]:
# Paso 2
path = "data/meteo/smn_daily_historical_by_station/smn_ABO_d_historical.csv"

# Intento 1 (lo normal)
try:
    df = pd.read_csv(path, sep=";", encoding="cp1252", nrows=5)
    cols = [c.lstrip("\ufeff").strip() for c in df.columns]
    print("Intento 1 OK. Columnas:", cols[:20])
    print("ReferenceTS:", "ReferenceTS" in cols)
    print("tre200d0:", "tre200d0" in cols)
except Exception as e:
    print("Intento 1 FALLÓ:", e)

# Intento 2 (más tolerante)
try:
    df = pd.read_csv(path, sep=";", encoding="cp1252", engine="python", nrows=5)
    cols = [c.lstrip("\ufeff").strip() for c in df.columns]
    print("\nIntento 2 OK. Columnas:", cols[:20])
    print("ReferenceTS:", "ReferenceTS" in cols)
    print("tre200d0:", "tre200d0" in cols)
except Exception as e:
    print("\nIntento 2 FALLÓ:", e)

# Intento 3 (autodetectar separador)
try:
    df = pd.read_csv(path, sep=None, encoding="cp1252", engine="python", nrows=5)
    cols = [c.lstrip("\ufeff").strip() for c in df.columns]
    print("\nIntento 3 OK (sep autodetect). Columnas:", cols[:20])
    print("ReferenceTS:", "ReferenceTS" in cols)
    print("tre200d0:", "tre200d0" in cols)
except Exception as e:
    print("\nIntento 3 FALLÓ:", e)


In [None]:
IN_DIR = "data/meteo/smn_daily_historical_by_station"
paths = sorted(glob(os.path.join(IN_DIR, "smn_*_d_historical.csv")))

rows = []
for path in paths:
    st = os.path.basename(path).split("_")[1]  # smn_ABO_d_historical.csv -> ABO
    try:
        df = pd.read_csv(path, sep=",", encoding="cp1252", nrows=3)
        cols = [c.strip().lower() for c in df.columns]
        has_ts = "reference_timestamp" in cols
        has_temp = "tre200d0" in cols
        rows.append((st, "OK", path, ",", has_ts, has_temp))
    except Exception as e:
        rows.append((st, f"FAIL: {e}", path, None, False, False))

log_fixed = pd.DataFrame(rows, columns=["station_abbr","status","file","sep","has_reference_timestamp","has_tre200d0"])
log_path = os.path.join(IN_DIR, "_download_log_fixed.csv")
log_fixed.to_csv(log_path, index=False)

print("Guardado:", log_path)
print("OK:", (log_fixed["status"]=="OK").sum(), "FAIL:", (log_fixed["status"]!="OK").sum())
log_fixed.head(10)


In [None]:
IN_DIR = "data/meteo/smn_daily_historical_by_station"
paths = sorted(glob(os.path.join(IN_DIR, "smn_*_d_historical.csv")))

rows = []
for path in paths:
    st = os.path.basename(path).split("_")[1]  # smn_ABO_d_historical.csv -> ABO
    try:
        df = pd.read_csv(path, sep=",", encoding="cp1252", nrows=3)
        cols = [c.strip().lower() for c in df.columns]
        has_ts = "reference_timestamp" in cols
        has_temp = "tre200d0" in cols
        rows.append((st, "OK", path, ",", has_ts, has_temp))
    except Exception as e:
        rows.append((st, f"FAIL: {e}", path, None, False, False))

log_fixed = pd.DataFrame(rows, columns=["station_abbr","status","file","sep","has_reference_timestamp","has_tre200d0"])
log_path = os.path.join(IN_DIR, "_download_log_fixed.csv")
log_fixed.to_csv(log_path, index=False)

print("Guardado:", log_path)
print("OK:", (log_fixed["status"]=="OK").sum(), "FAIL:", (log_fixed["status"]!="OK").sum())
log_fixed.head(10)


In [34]:
IN_DIR = "data/meteo/smn_daily_historical_by_station"
paths = sorted(glob(os.path.join(IN_DIR, "smn_*_d_historical.csv")))

BASE_HDD = 18.0
BASE_CDD = 24.0
YEAR_START = 2000
YEAR_END = 2024  # ajusta si tu histórico llega a 2025

out_rows = []

for path in paths:
    st = os.path.basename(path).split("_")[1]

    df = pd.read_csv(path, sep=",", encoding="cp1252", usecols=["station_abbr","reference_timestamp","tre200d0"])
    df["reference_timestamp"] = pd.to_datetime(df["reference_timestamp"], dayfirst=True, errors="coerce")
    df = df.dropna(subset=["reference_timestamp"])

    df["year"] = df["reference_timestamp"].dt.year
    df = df[(df["year"] >= YEAR_START) & (df["year"] <= YEAR_END)].copy()

    # tre200d0 puede venir con NaN si no hay dato
    t = pd.to_numeric(df["tre200d0"], errors="coerce")
    df = df.dropna(subset=["tre200d0"])
    t = pd.to_numeric(df["tre200d0"], errors="coerce")

    df["HDD"] = np.maximum(0, BASE_HDD - t)
    df["CDD"] = np.maximum(0, t - BASE_CDD)

    annual = df.groupby(["station_abbr","year"], as_index=False)[["HDD","CDD"]].sum()
    out_rows.append(annual)

hdd_station_year = pd.concat(out_rows, ignore_index=True)

OUT_PATH = "data/meteo/smn_hdd_cdd_station_year_2000_2024.csv"
hdd_station_year.to_csv(OUT_PATH, index=False)
print("Exportado:", OUT_PATH)
hdd_station_year.head()


Exportado: data/meteo/smn_hdd_cdd_station_year_2000_2024.csv


Unnamed: 0,station_abbr,year,HDD,CDD
0,ABO,2000,4167.5,0.0
1,ABO,2001,4385.6,0.0
2,ABO,2002,4092.1,0.0
3,ABO,2003,4097.2,0.0
4,ABO,2004,4437.0,0.0


In [None]:
# agregar HDD/CDD por cantón y año

# =========================
# 1) Cargar datasets
# =========================
hdd_station = pd.read_csv(
    "data/meteo/smn_hdd_cdd_station_year_2000_2024.csv"
)

stations_meta = pd.read_csv(
    "data/data_info/ogd-smn_meta_stations.csv",
    sep=";",
    encoding="cp1252"
)

# =========================
# 2) Unir estación -> cantón
# =========================
df = hdd_station.merge(
    stations_meta[["station_abbr", "station_canton"]],
    on="station_abbr",
    how="left"
)

# Comprobación rápida
assert df["station_canton"].isna().sum() == 0, "Hay estaciones sin cantón"

# =========================
# 3) Agregar por cantón y año (MEDIA)
# =========================
hdd_canton_year = (
    df
    .groupby(["station_canton", "year"], as_index=False)
    .agg(
        HDD_mean=("HDD", "mean"),
        CDD_mean=("CDD", "mean"),
        n_stations=("station_abbr", "nunique")
    )
)

hdd_canton_year.head()

In [None]:
# Export final para Flourish
OUT_PATH = "data/meteo/smn_hdd_cdd_canton_year_2000_2024.csv"
hdd_canton_year.to_csv(OUT_PATH, index=False)
print("Exportado:", OUT_PATH)