# üìä Descarga de datos de Generaci√≥n Renovable - API REE

Este notebook descarga datos de generaci√≥n el√©ctrica renovable/no renovable desde la **API de Red El√©ctrica de Espa√±a (REE)**.

## Especificaciones:
- **API Base**: `https://apidatos.ree.es`
- **Widget**: `/es/datos/generacion/evolucion-renovable-no-renovable`
- **Series**: 18 (Espa√±a + 17 regiones)
- **Periodo**: Enero 2016 - Diciembre 2025
- **Estrategia**: Descarga a√±o por a√±o para evitar errores 500

## Mapeo de geo_ids corregido:
- 8741: Pen√≠nsula (Espa√±a)
- 8742: Canarias
- 8743: Baleares
- 4-21: CCAA peninsulares

---
## 1. Configuraci√≥n e Instalaci√≥n

In [23]:
# Instalar dependencias si no est√°n disponibles
# !pip install requests pandas openpyxl tqdm

In [24]:
import os
import time
import json
from datetime import datetime
from pathlib import Path
from typing import Dict, List, Optional, Tuple

import requests
import pandas as pd
from tqdm.notebook import tqdm

# Configurar pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("‚úÖ Librer√≠as cargadas correctamente")

‚úÖ Librer√≠as cargadas correctamente


---
## 2. Configuraci√≥n de par√°metros

In [25]:
# ============================================
# CONFIGURACI√ìN PRINCIPAL
# ============================================

# Directorio de salida
OUTPUT_DIR = Path(r"G:\Mi unidad\Proyectos\IPA27_project\data\raw\renovables")
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

# API Base URL
API_BASE = "https://apidatos.ree.es"
WIDGET = "/es/datos/generacion/evolucion-renovable-no-renovable"

# Headers para la API
HEADERS = {
    "Accept": "application/json",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Referer": "https://www.ree.es/",
    "Origin": "https://www.ree.es"
}

# ============================================
# MAPEO CORRECTO DE GEO_IDS
# ============================================
# Basado en la informaci√≥n proporcionada:
# - Espa√±a peninsular: 8741
# - Canarias: 8742  
# - Baleares: 8743
# - CCAA peninsulares: 4-21 (sin 12, 19)

CCAA_MAP = {
    # Sistemas el√©ctricos principales
    8741: "Espa√±a_Peninsula",
    8742: "Canarias",
    8743: "Baleares",
    # CCAA peninsulares
    4: "Andaluc√≠a",
    5: "Arag√≥n",
    6: "Cantabria",
    7: "Castilla-La Mancha",
    8: "Castilla y Le√≥n",
    9: "Catalu√±a",
    10: "Pa√≠s Vasco",
    11: "Principado de Asturias",
    13: "Comunidad de Madrid",
    14: "Comunidad Foral de Navarra",
    15: "Comunitat Valenciana",
    16: "Extremadura",
    17: "Galicia",
    20: "La Rioja",
    21: "Regi√≥n de Murcia",
}

# A√±os a descargar (uno por uno para evitar error 500)
YEARS = list(range(2016, 2026))  # 2016 a 2025

print(f"üìÅ Directorio de salida: {OUTPUT_DIR}")
print(f"üìä Series a descargar: {len(CCAA_MAP)}")
print(f"üìÖ A√±os: {YEARS[0]} - {YEARS[-1]}")
print(f"üì• Total peticiones: {len(CCAA_MAP) * len(YEARS)}")

üìÅ Directorio de salida: G:\Mi unidad\Proyectos\IPA27_project\data\raw\renovables
üìä Series a descargar: 18
üìÖ A√±os: 2016 - 2025
üì• Total peticiones: 180


---
## 3. Funciones de descarga

In [26]:
def construir_url_params(geo_id: int, year: int) -> dict:
    """
    Construye los par√°metros de la URL seg√∫n el tipo de geo_id.
    
    - geo_ids 8741-8743: sistemas el√©ctricos (solo geo_limit, sin geo_trunc)
    - geo_ids 4-21: CCAA (usan geo_limit=ccaa + geo_trunc + geo_ids)
    """
    start_date = f"{year}-01-01T00:00"
    end_date = f"{year}-12-31T23:59"
    
    params = {
        "start_date": start_date,
        "end_date": end_date,
        "time_trunc": "month",
    }
    
    # Para sistemas el√©ctricos (8741, 8742, 8743), usar geo_limit SIN geo_trunc
    if geo_id >= 8740:
        if geo_id == 8741:
            params["geo_limit"] = "peninsular"
        elif geo_id == 8742:
            params["geo_limit"] = "canarias"
        elif geo_id == 8743:
            params["geo_limit"] = "baleares"
        # NO incluir geo_trunc ni geo_ids para sistemas el√©ctricos
    else:
        # CCAA: incluir geo_trunc + geo_limit + geo_ids
        params["geo_trunc"] = "electric_system"
        params["geo_limit"] = "ccaa"
        params["geo_ids"] = geo_id
    
    return params


def descargar_datos_api(
    geo_id: int,
    year: int,
    max_retries: int = 3
) -> Optional[dict]:
    """
    Descarga datos de la API de REE con reintentos.
    """
    url = f"{API_BASE}{WIDGET}"
    params = construir_url_params(geo_id, year)
    
    for attempt in range(max_retries):
        try:
            response = requests.get(url, params=params, headers=HEADERS, timeout=60)
            
            if response.status_code == 200:
                return response.json()
            elif response.status_code in [500, 502, 503]:
                if attempt < max_retries - 1:
                    time.sleep(2 ** attempt)
                    continue
            else:
                print(f"      ‚ö†Ô∏è HTTP {response.status_code}")
                return None
                
        except requests.exceptions.RequestException as e:
            if attempt < max_retries - 1:
                time.sleep(2 ** attempt)
                continue
            print(f"      ‚ö†Ô∏è Error: {e}")
            return None
    
    return None


def json_a_dataframe(data: dict, geo_id: int, ccaa_nombre: str) -> pd.DataFrame:
    """
    Convierte el JSON de la API a DataFrame.
    """
    registros = []
    
    try:
        included = data.get("included", [])
        
        for item in included:
            attrs = item.get("attributes", {})
            tipo = attrs.get("title", "")
            valores = attrs.get("values", [])
            
            for valor in valores:
                registros.append({
                    "geo_id": geo_id,
                    "region": ccaa_nombre,
                    "tipo": tipo,
                    "fecha": valor.get("datetime", ""),
                    "valor_MWh": valor.get("value", 0),
                    "porcentaje": valor.get("percentage", 0),
                })
    except Exception as e:
        print(f"      ‚ö†Ô∏è Error parseando JSON: {e}")
    
    df = pd.DataFrame(registros)
    
    if not df.empty:
        df["fecha"] = pd.to_datetime(df["fecha"])
    
    return df


print("‚úÖ Funciones de descarga definidas")

‚úÖ Funciones de descarga definidas


---
## 4. Probar descarga con una regi√≥n

In [27]:
# Probar con Espa√±a peninsular (geo_id=8741)
print("üß™ Probando Espa√±a Peninsular...")
data = descargar_datos_api(8741, 2024)
if data:
    df_test = json_a_dataframe(data, 8741, "Espa√±a_Peninsula")
    print(f"‚úÖ √âxito! {len(df_test)} registros")
    display(df_test.head())
else:
    print("‚ùå Error")

üß™ Probando Espa√±a Peninsular...
‚úÖ √âxito! 24 registros


Unnamed: 0,geo_id,region,tipo,fecha,valor_MWh,porcentaje
0,8741,Espa√±a_Peninsula,Renovable,2024-01-01 00:00:00+01:00,12071990.0,0.521983
1,8741,Espa√±a_Peninsula,Renovable,2024-02-01 00:00:00+01:00,13108370.0,0.601819
2,8741,Espa√±a_Peninsula,Renovable,2024-03-01 00:00:00+01:00,14473020.0,0.656903
3,8741,Espa√±a_Peninsula,Renovable,2024-04-01 00:00:00+02:00,13599430.0,0.656176
4,8741,Espa√±a_Peninsula,Renovable,2024-05-01 00:00:00+02:00,13334170.0,0.638945


---
## 5. üöÄ Ejecutar descarga completa

In [28]:
# ============================================
# DESCARGA DE TODAS LAS SERIES
# ============================================

resultados = []
datos_por_region = {}  # Almacenar DataFrames por regi√≥n

total_peticiones = len(CCAA_MAP) * len(YEARS)
print(f"üöÄ Iniciando descarga de {total_peticiones} peticiones...\n")

with tqdm(total=total_peticiones, desc="Progreso total") as pbar:
    for geo_id, region_nombre in CCAA_MAP.items():
        print(f"\nüìç {region_nombre} (geo_id={geo_id})")
        
        dfs_region = []
        exitos = 0
        errores = 0
        
        for year in YEARS:
            data = descargar_datos_api(geo_id, year)
            
            if data:
                df = json_a_dataframe(data, geo_id, region_nombre)
                if not df.empty:
                    dfs_region.append(df)
                    exitos += 1
                else:
                    errores += 1
            else:
                errores += 1
            
            pbar.update(1)
            time.sleep(0.3)  # Pausa entre peticiones
        
        # Combinar todos los a√±os de esta regi√≥n
        if dfs_region:
            df_region = pd.concat(dfs_region, ignore_index=True)
            df_region = df_region.drop_duplicates().sort_values("fecha")
            datos_por_region[region_nombre] = df_region
            print(f"   ‚úÖ {exitos} a√±os OK, {errores} errores, {len(df_region)} registros total")
        else:
            print(f"   ‚ùå Sin datos")
        
        resultados.append({
            "geo_id": geo_id,
            "region": region_nombre,
            "exitos": exitos,
            "errores": errores,
            "registros": len(df_region) if dfs_region else 0
        })

print("\n" + "="*60)
print("‚úÖ DESCARGA COMPLETADA")
print("="*60)

üöÄ Iniciando descarga de 180 peticiones...



Progreso total:   0%|          | 0/180 [00:00<?, ?it/s]


üìç Espa√±a_Peninsula (geo_id=8741)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Canarias (geo_id=8742)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Baleares (geo_id=8743)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Andaluc√≠a (geo_id=4)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Arag√≥n (geo_id=5)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Cantabria (geo_id=6)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Castilla-La Mancha (geo_id=7)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Castilla y Le√≥n (geo_id=8)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Catalu√±a (geo_id=9)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Pa√≠s Vasco (geo_id=10)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Principado de Asturias (geo_id=11)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç Comunidad de Madrid (geo_id=13)
   ‚úÖ 10 a√±os OK, 0 errores, 240 registros total

üìç 

---
## 6. Resumen de resultados

In [29]:
df_resultados = pd.DataFrame(resultados)

print("\nüìä RESUMEN DE DESCARGAS")
print("="*60)
display(df_resultados)

print(f"\nTotal regiones con datos: {len(datos_por_region)}")
print(f"Total registros: {sum(df_resultados['registros'])}")


üìä RESUMEN DE DESCARGAS


Unnamed: 0,geo_id,region,exitos,errores,registros
0,8741,Espa√±a_Peninsula,10,0,240
1,8742,Canarias,10,0,240
2,8743,Baleares,10,0,240
3,4,Andaluc√≠a,10,0,240
4,5,Arag√≥n,10,0,240
5,6,Cantabria,10,0,240
6,7,Castilla-La Mancha,10,0,240
7,8,Castilla y Le√≥n,10,0,240
8,9,Catalu√±a,10,0,240
9,10,Pa√≠s Vasco,10,0,240



Total regiones con datos: 18
Total registros: 4320


---
## 7. Guardar archivos individuales por regi√≥n

In [40]:
# ===== SECCI√ìN 7: GUARDAR ARCHIVOS INDIVIDUALES =====
print("üíæ Guardando archivos individuales...\n")

for region_nombre, df in datos_por_region.items():
    nombre_archivo = region_nombre.replace(" ", "_").replace(".", "").replace("/", "_")
    archivo = OUTPUT_DIR / f"{nombre_archivo}.xlsx"
    
    df_copy = df.copy()
    
    # IMPORTANTE: Convertir fecha a string (sin timezone)
    df_copy["fecha"] = df_copy["fecha"].astype(str).str[:10]
    
    df_pivot = df_copy.pivot_table(
        index="fecha",
        columns="tipo",
        values=["valor_MWh", "porcentaje"],
        aggfunc="first"
    )
    
    df_pivot.columns = [f"{col[1]}_{col[0]}" for col in df_pivot.columns]
    df_pivot = df_pivot.reset_index()
    
    df_pivot.to_excel(archivo, index=False, sheet_name=region_nombre[:30])
    print(f"   üìÑ {archivo.name}: {len(df_pivot)} filas")

print(f"\n‚úÖ Archivos guardados en: {OUTPUT_DIR}")

üíæ Guardando archivos individuales...

   üìÑ Espa√±a_Peninsula.xlsx: 120 filas
   üìÑ Canarias.xlsx: 120 filas
   üìÑ Baleares.xlsx: 120 filas
   üìÑ Andaluc√≠a.xlsx: 120 filas
   üìÑ Arag√≥n.xlsx: 120 filas
   üìÑ Cantabria.xlsx: 120 filas
   üìÑ Castilla-La_Mancha.xlsx: 120 filas
   üìÑ Castilla_y_Le√≥n.xlsx: 120 filas
   üìÑ Catalu√±a.xlsx: 120 filas
   üìÑ Pa√≠s_Vasco.xlsx: 120 filas
   üìÑ Principado_de_Asturias.xlsx: 120 filas
   üìÑ Comunidad_de_Madrid.xlsx: 120 filas
   üìÑ Comunidad_Foral_de_Navarra.xlsx: 120 filas
   üìÑ Comunitat_Valenciana.xlsx: 120 filas
   üìÑ Extremadura.xlsx: 120 filas
   üìÑ Galicia.xlsx: 120 filas
   üìÑ La_Rioja.xlsx: 120 filas
   üìÑ Regi√≥n_de_Murcia.xlsx: 120 filas

‚úÖ Archivos guardados en: G:\Mi unidad\Proyectos\IPA27_project\data\raw\renovables


---
## 8. Compilar en archivo √∫nico con 18 hojas

In [41]:
# ===== SECCI√ìN 8: COMPILAR ARCHIVO √öNICO =====
archivo_compilado = OUTPUT_DIR / "renovables_compilado.xlsx"
print(f"üìö Compilando archivo √∫nico: {archivo_compilado.name}\n")

with pd.ExcelWriter(archivo_compilado, engine='openpyxl') as writer:
    for region_nombre, df in datos_por_region.items():
        sheet_name = region_nombre[:31].replace("/", "_")
        
        df_copy = df.copy()
        
        # IMPORTANTE: Convertir fecha a string (sin timezone)
        df_copy["fecha"] = df_copy["fecha"].astype(str).str[:10]
        
        df_pivot = df_copy.pivot_table(
            index="fecha",
            columns="tipo",
            values=["valor_MWh", "porcentaje"],
            aggfunc="first"
        )
        df_pivot.columns = [f"{col[1]}_{col[0]}" for col in df_pivot.columns]
        df_pivot = df_pivot.reset_index()
        
        df_pivot.to_excel(writer, sheet_name=sheet_name, index=False)
        print(f"   üìã {sheet_name}: {len(df_pivot)} filas")

print(f"\n‚úÖ Archivo compilado: {archivo_compilado}")

üìö Compilando archivo √∫nico: renovables_compilado.xlsx

   üìã Espa√±a_Peninsula: 120 filas
   üìã Canarias: 120 filas
   üìã Baleares: 120 filas
   üìã Andaluc√≠a: 120 filas
   üìã Arag√≥n: 120 filas
   üìã Cantabria: 120 filas
   üìã Castilla-La Mancha: 120 filas
   üìã Castilla y Le√≥n: 120 filas
   üìã Catalu√±a: 120 filas
   üìã Pa√≠s Vasco: 120 filas
   üìã Principado de Asturias: 120 filas


Exception ignored in: <function ZipFile.__del__ at 0x0000024AE15224C0>
Traceback (most recent call last):
  File "c:\Users\Usuario\anaconda3\envs\tftimeseriesII\lib\zipfile.py", line 1807, in __del__
    self.close()
  File "c:\Users\Usuario\anaconda3\envs\tftimeseriesII\lib\zipfile.py", line 1824, in close
    self.fp.seek(self.start_dir)
ValueError: seek of closed file
Exception ignored in: <function ZipFile.__del__ at 0x0000024AE15224C0>
Traceback (most recent call last):
  File "c:\Users\Usuario\anaconda3\envs\tftimeseriesII\lib\zipfile.py", line 1807, in __del__
    self.close()
  File "c:\Users\Usuario\anaconda3\envs\tftimeseriesII\lib\zipfile.py", line 1824, in close
    self.fp.seek(self.start_dir)
ValueError: seek of closed file


   üìã Comunidad de Madrid: 120 filas
   üìã Comunidad Foral de Navarra: 120 filas
   üìã Comunitat Valenciana: 120 filas
   üìã Extremadura: 120 filas
   üìã Galicia: 120 filas
   üìã La Rioja: 120 filas
   üìã Regi√≥n de Murcia: 120 filas

‚úÖ Archivo compilado: G:\Mi unidad\Proyectos\IPA27_project\data\raw\renovables\renovables_compilado.xlsx


---
## 9. Verificaci√≥n final

In [42]:
# Listar archivos generados
print("\nüìÅ Archivos generados:")
for f in sorted(OUTPUT_DIR.glob("*.xlsx")):
    size_kb = f.stat().st_size / 1024
    print(f"   üìÑ {f.name} ({size_kb:.1f} KB)")


üìÅ Archivos generados:
   üìÑ Andaluc√≠a.xlsx (12.3 KB)
   üìÑ Arag√≥n.xlsx (12.2 KB)
   üìÑ Baleares.xlsx (12.4 KB)
   üìÑ Canarias.xlsx (12.4 KB)
   üìÑ Cantabria.xlsx (12.1 KB)
   üìÑ Castilla-La_Mancha.xlsx (12.3 KB)
   üìÑ Castilla_y_Le√≥n.xlsx (12.2 KB)
   üìÑ Catalu√±a.xlsx (12.3 KB)
   üìÑ Comunidad_de_Madrid.xlsx (12.1 KB)
   üìÑ Comunidad_Foral_de_Navarra.xlsx (12.2 KB)
   üìÑ Comunitat_Valenciana.xlsx (12.2 KB)
   üìÑ Espa√±a_Peninsula.xlsx (12.5 KB)
   üìÑ Extremadura.xlsx (12.2 KB)
   üìÑ Galicia.xlsx (12.3 KB)
   üìÑ La_Rioja.xlsx (12.1 KB)
   üìÑ Pa√≠s_Vasco.xlsx (12.2 KB)
   üìÑ Principado_de_Asturias.xlsx (12.2 KB)
   üìÑ Regi√≥n_de_Murcia.xlsx (12.2 KB)
   üìÑ renovables_compilado.xlsx (132.8 KB)


In [43]:
# Vista previa de una regi√≥n
print("\nüìà Vista previa de datos:")
if datos_por_region:
    primera_region = list(datos_por_region.keys())[0]
    print(f"\n{primera_region}:")
    display(datos_por_region[primera_region].head(10))


üìà Vista previa de datos:

Espa√±a_Peninsula:


Unnamed: 0,geo_id,region,tipo,fecha,valor_MWh,porcentaje
0,8741,Espa√±a_Peninsula,Renovable,2016-01-01 00:00:00+01:00,9828544.0,0.44217
12,8741,Espa√±a_Peninsula,No renovable,2016-01-01 00:00:00+01:00,12399420.0,0.55783
1,8741,Espa√±a_Peninsula,Renovable,2016-02-01 00:00:00+01:00,11092330.0,0.522433
13,8741,Espa√±a_Peninsula,No renovable,2016-02-01 00:00:00+01:00,10139720.0,0.477567
2,8741,Espa√±a_Peninsula,Renovable,2016-03-01 00:00:00+01:00,11231340.0,0.494904
14,8741,Espa√±a_Peninsula,No renovable,2016-03-01 00:00:00+01:00,11462610.0,0.505096
3,8741,Espa√±a_Peninsula,Renovable,2016-04-01 00:00:00+02:00,11066520.0,0.519605
15,8741,Espa√±a_Peninsula,No renovable,2016-04-01 00:00:00+02:00,10231440.0,0.480395
4,8741,Espa√±a_Peninsula,Renovable,2016-05-01 00:00:00+02:00,10657380.0,0.525241
16,8741,Espa√±a_Peninsula,No renovable,2016-05-01 00:00:00+02:00,9633085.0,0.474759


---
## 10. Guardar log de resultados

In [44]:
# Guardar log
log_path = OUTPUT_DIR / "_log_descargas.csv"
df_resultados.to_csv(log_path, index=False, encoding='utf-8-sig')
print(f"üìù Log guardado: {log_path}")

üìù Log guardado: G:\Mi unidad\Proyectos\IPA27_project\data\raw\renovables\_log_descargas.csv
