# Objetivo

En este trabajo comparto el código de varias funciones que nos permiten bajar datos de tres de los más importantes repositorios de datos de este mercado:

* esios : https://www.esios.ree.es/es?locale=es
* API AEMET: https://opendata.aemet.es/centrodedescargas/productosAEMET?
* MibGas : https://www.mibgas.es/es


La información disponible en cada uno de ellos es muy vasta. En este ejercicio jugaremos con algunos ejemplos en cada una de las APIs...

Para el caso de esios y de Aemet es necesario solicitar un token, que autentifica las peticiones de datos. Aquí tiene las [instrucciones](https://www.esios.ree.es/es/pagina/api) para solicitarlo.


# Importamos librerías

In [2]:
import pandas as pd
import numpy as np
import requests
import json
from datetime import datetime,timedelta,date
import sys
import time
import pytz
import os
from dateutil.relativedelta import relativedelta

import matplotlib.pyplot as plt
from matplotlib.ticker import FuncFormatter
from matplotlib import cm
import matplotlib.dates as mdates
import matplotlib.ticker as ticker
from matplotlib.dates import (YEARLY, MONTHLY, DateFormatter, WeekdayLocator, MonthLocator,DayLocator,
                              rrulewrapper, RRuleLocator, drange, num2date, date2num)
import matplotlib.patches as mpatches
import matplotlib.units as munits
from matplotlib.dates import num2date, date2num
from aemet import Aemet, Estacion

import seaborn as sns


import html

ruta_tokens = r'C:\Users\Jose\Desktop\TFG\tokens'
sys.path.append(ruta_tokens)


from pass_esios import token_esios #importo mi token de esios, añadan su propia clave en su versión
from pass_aemet import token_aemet


# Funciones para bajar los datos

In [3]:
def catalogo_esios(token):
    """
    Descarga todos los identificadores y su descripcion de esios
    
    Parameters
    ----------
    token : str
        El token de esios necesario para realizar las llamadas al API
        
    Returns
    -------
    DataFrame
        Dataframe de pandas con el catalogo de los id de la API
    
    """
    
    
    headers = {'Accept':'application/json; application/vnd.esios-api-v2+json',
           'Content-Type':'application/json',
           'Host':'api.esios.ree.es',
           'Cookie' : '',
           'Authorization':'Token token={}'.format(token),
           'x-api-key': f'{token}',
           'Cache-Control': 'no-cache',
           'Pragma': 'no-cache'
          }
    end_point = 'https://api.esios.ree.es/indicators'
    response = requests.get(end_point, headers=headers)
    print(response)
    response = response.json()
    
    #del resultado en json bruto se convierte en pandas, y se eliminan los tags del campo description

    return (pd
            .json_normalize(data=response['indicators'], errors='ignore')
            .assign(description = lambda df_: df_.apply(lambda df__: html.unescape(df__['description']
                                                            .replace('<p>','')
                                                            .replace('</p>','')
                                                            .replace('<b>','')
                                                            .replace('</b>','')), 
                                                  axis=1)
                   )
           )

In [4]:
def download_esios2(token,indicadores,fecha_inicio,fecha_fin,time_trunc='day'):
    """
    Descarga datos esios desde un determinado identificador y entre dos fechas
    
    Parameters
    ----------
    token : str
        El token de esios necesario para realizar las llamadas al API
    
    indicadores : list
        Lista con los strings de los indicadores de los que queremos bajar datos
        
    fecha_inicio : str
        Fecha con formato %Y-%M-%d, que indica la fecha desde la que se quiere bajar los datos.
        Ejemplo 2022-10-30, 30 Octubre de 2022.
    
    fecha_fin : str
        Fecha con formato %Y-%M-%d, que indica la fecha hasta la que se quiere bajar los datos.
        Ejemplo 2022-10-30, 30 Octubre de 2022.
        
    time_trunc : str, optional
        Campo adicional que nos permite elegir la granularidad de los datos que queremos bajar.
        
    Returns
    -------
    DataFrame
        Dataframe de pandas con los datos solicitados
    
    """
    
    # preparamos la cabecera a insertar en la llamada. Vease la necesidad de disponer el token de esios
    
    headers = {'Accept':'application/json; application/vnd.esios-api-v2+json', 
        'Content-Type':'application/json', 
        'Host':'api.esios.ree.es', 
        'Cookie' : '', 
        'Authorization':f'Token token={token}', 
        'x-api-key': f'{token}',  
        'Cache-Control': 'no-cache', 
        'Pragma': 'no-cache' 
} 
    
    # preparamos la url básica a la que se le añadiran los campos necesarios 
    
    end_point = 'https://api.esios.ree.es/indicators'
    
    # El procedimiento es sencillo: 
    # a) por cada uno de los indicadores configuraremos la url, según las indicaciones de la documentación.
    # b) Hacemos la llamada y recogemos los datos en formato json.
    # c) Añadimos la información a una lista
    
    lista=[]

    for indicador in indicadores:
        url = f'{end_point}/{indicador}?start_date={fecha_inicio}T00:00&end_date={fecha_fin}T23:59&time_trunc={time_trunc}'
        print (url)
        response = requests.get(url, headers=headers)
        print(response)
        response = response.json()
        lista.append(pd.json_normalize(data=response['indicator'], record_path=['values'], meta=['name','short_name'], errors='ignore'))

    # Devolvemos como salida de la función un df fruto de la concatenación de los elemenos de la lista
    # Este procedimiento, con una sola concatenación al final, es mucho más eficiente que hacer múltiples 
    # concatenaciones.
    
    return pd.concat(lista, ignore_index=True )

In [5]:
def download_esios(token,indicadores,fecha_inicio,fecha_fin,time_trunc='day'):
    headers = {'Accept':'application/json; application/vnd.esios-api-v2+json',
           'Content-Type':'application/json',
           'Host':'api.esios.ree.es',
           'Cookie' : '',
           'Authorization':f'Token token={token}',
           'x-api-key': f'{token}', 
           'Cache-Control': 'no-cache',
           'Pragma': 'no-cache'
          }
    url = 'https://api.esios.ree.es/indicators'
    #url = 'https://apip.esios.ree.es/indicators'
    lista=[]

    for indicador in indicadores:
        
        url_ = f'{url}/{indicador}?start_date={fecha_inicio}T00:00&end_date={fecha_fin}T23:59&time_trunc={time_trunc}&geo_limit=peninsular'
        print (url)
        response = requests.get(url_, headers=headers)

        print(response)
        
        response = response.json()
        lista.append(pd.json_normalize(data=response['indicator'], record_path=['values'], meta=['name','short_name'], errors='ignore'))


    return pd.concat(lista, ignore_index=True )

In [6]:
def download_ree(indicador,fecha_inicio,fecha_fin,time_trunc='day'):
    """
    Descarga datos desde apidatos.ree.es entre dos fechas determinadas 
    
    Parameters
    ----------
    
    indicador : str
        Texto con el indicador del end point del que queremo bajar la información
        
    fecha_inicio : str
        Fecha con formato %Y-%M-%d, que indica la fecha desde la que se quiere bajar los datos.
        Ejemplo 2022-10-30, 30 Octubre de 2022.
    
    fecha_fin : str
        Fecha con formato %Y-%M-%d, que indica la fecha hasta la que se quiere bajar los datos.
        Ejemplo 2022-10-30, 30 Octubre de 2022.
        
    time_trunc : str, optional
        Campo adicional que nos permite elegir la granularidad de los datos que queremos bajar.
        Hour, Day, Month...dependiendo del end point se aplicará o no esta orden
        
    Returns
    -------
    DataFrame
        Dataframe de pandas con los datos solicitados
    
    """
    
    
    headers = {'Accept': 'application/json',
               'Content-Type': 'applic<ation/json',
               'Host': 'apidatos.ree.es'}
    
    end_point = 'https://apidatos.ree.es/es/datos/'
    
    lista=[]
    url = f'{end_point}{indicador}?start_date={fecha_inicio}T00:00&end_date={fecha_fin}T23:59&\
    time_trunc={time_trunc}'
    print (url)
    
    response = requests.get(url, headers=headers).json()
    
    return pd.json_normalize(data=response['included'], 
                                   record_path=['attributes','values'], 
                                   meta=['type',['attributes','type' ]], 
                                   errors='ignore')

In [7]:
def download_gas(year):
    """
    Descarga datos de precio de gas desde MIBGAS para GDAES
    
    Parameters
    ----------
    year : str
        Indicamos el año del que nos queremos bajar los datos de precio de gas PVB
        
    Returns
    -------
    DataFrame
        Dataframe de pandas con los datos solicitados, columnas Fecha , Producto y Precio
    
    """
    
    path = f'https://www.mibgas.es/en/file-access/MIBGAS_Data_{year}.xlsx?path=AGNO_{year}/XLS'
    if year==2022:
        df = (pd.read_excel(path,sheet_name='Trading Data PVB&VTP',usecols=['Trading day','Product','Daily Reference Price\n[EUR/MWh]']).
        query("Product=='GDAES_D+1'").
        rename(columns={'Trading day':'fecha','Product':'Producto','Daily Reference Price\n[EUR/MWh]':'precio'}).
        sort_values('fecha',ascending=True).
        reset_index(drop=True)
        )
    else:
        df = (pd.read_excel(path,sheet_name='Trading Data PVB&VTP',usecols=['Trading day','Product','Reference Price\n[EUR/MWh]']).
        query("Product=='GDAES_D+1'").
        rename(columns={'Trading day':'fecha','Product':'Producto','Reference Price\n[EUR/MWh]':'precio'}).
        sort_values('fecha',ascending=True).
        reset_index(drop=True)
        )
    return df

In [8]:
def weather_stations_city(token, ciudades):
    """
    Lista los identificadores de las estaciones meteorologicas de unas ciudades determinadas
    
    Parameters
    ----------
    CIUDAD :  List str
        Nombres de la ciudades
        
    Returns
    -------
    List
        lista de identificadores de las estaciones de la ciudad indicada
    
    """
    lf = []
    todas = Estacion.get_estaciones(token)
    for ciudad in ciudades:
        indicativos = [estacion['indicativo'] for estacion in todas if ciudad.upper() in estacion['nombre'].upper()]
        lf.extend(indicativos)
    return lf
    

In [9]:
def download_aemet(token, indicadores, fecha_inicio, fecha_fin):
    """
    Descarga datos de climatológicos de la API de AEMET para una estación meteorológica específica
    en un rango de fechas determinado.

    Parameters
    ----------
    token : str
        Token de acceso a la API de AEMET.
    indicador : str
        Código de identificación de la estación meteorológica.
    fecha_inicio : str
        Fecha de inicio del rango en formato 'YYYY-MM-DD'.
    fecha_fin : str
        Fecha de fin del rango en formato 'YYYY-MM-DD'.

    Returns
    -------
    dict
        Datos de temperatura extrema para la estación y rango de fechas dados.
    """
    # Desde aemet solo se pueden descargar datos de semestre en semestre:
    # obtenemos a continuación los semestres entre las fechas dadas.
    # Convertir las cadenas de fecha a objetos datetime
    start_date = datetime.strptime(fecha_inicio, '%Y-%m-%d')
    end_date = datetime.strptime(fecha_fin, '%Y-%m-%d')
    
    # Lista para almacenar los intervalos
    semesters = []
    
    # Iterar desde la fecha de inicio hasta la fecha de fin
    current_start_date = start_date
    while current_start_date <= end_date:
        # Determinar el final del semestre
        if current_start_date.month <= 6:
            semester_end_month = 6
            semester_end_day = 30
        else:
            semester_end_month = 12
            semester_end_day = 31
        
        # Calcular la fecha de final del semestre
        semester_end_date = datetime(current_start_date.year, semester_end_month, semester_end_day)
        
        # Ajustar el final del semestre si supera la fecha de fin
        if semester_end_date > end_date:
            semester_end_date = end_date
        
        # Añadir el intervalo a la lista
        semesters.append((current_start_date.strftime('%Y-%m-%d'), semester_end_date.strftime('%Y-%m-%d')))
        
        current_start_date = semester_end_date + timedelta(days=1)

    ls = []
    print(semesters)
    
    for fechas in semesters:
        # print(fecha_inicio, fecha_fin)
        fecha_ini = fechas[0]
        fecha_f = fechas[1]
        for indicador in indicadores:
            base_url = f'https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{fecha_ini}T00:00:00UTC/fechafin/{fecha_f}T23:59:59UTC/estacion/{indicador}/?api_key={token}'
            url = base_url.format(fecha_ini, fecha_f, indicador, token)
            print(url)
            response = requests.get(url)
            print(response)
            data = response.json()
            url_valores = data['datos']
            observaciones = requests.get(url_valores)
            resultado = observaciones.json()
            ls.extend(resultado)
    return ls
    

# Esios

## Preparamos un catálogo

Empezamos con la función `catalogo_esios(token)` con la que generamos un pandas con todos los endpoints de esta API.

In [10]:
catalogo = catalogo_esios(token_esios)

<Response [200]>


In [11]:
catalogo.head()

Unnamed: 0,name,description,short_name,id
0,Generación programada PBF Hidráulica UGH,"Es el programa de energía diario, con desglose...",Hidráulica UGH,1
1,Generación programada PBF Hidráulica no UGH,"Es el programa de energía diario, con desglose...",Hidráulica no UGH,2
2,Generación programada PBF Turbinación bombeo,"Es el programa de energía diario, con desglose...",Turbinación bombeo,3
3,Generación programada PBF Nuclear,"Es el programa de energía diario, con desglose...",Nuclear,4
4,Generación programada PBF Hulla antracita Anex...,"Es el programa de energía diario, con desglose...",Hulla antracita RD 134/2010,5


podemos buscar los identificadores de las fuentes que nos interesan. Busquemos, como ejemplo, aquellas relacionadas con energía nuclear:

In [12]:
for i in catalogo.loc[catalogo['name'].str.contains('uclear'),:].index:
       print (f"{catalogo.loc[i,'id']} -> {catalogo.loc[i,'name']}")

4 -> Generación programada PBF Nuclear
39 -> Generación programada PVP Nuclear
74 -> Generación programada P48 Nuclear
109 -> Generación programada PHF1 Nuclear
144 -> Generación programada PHF2 Nuclear
179 -> Generación programada PHF3 Nuclear
214 -> Generación programada PHF4 Nuclear
249 -> Generación programada PHF5 Nuclear
284 -> Generación programada PHF6 Nuclear
319 -> Generación programada PHF7 Nuclear
424 -> Programa bilateral PBF Nuclear
466 -> Potencia instalada de generación convencional Nuclear
474 -> Potencia disponible de generación Nuclear horizonte horario
482 -> Potencia disponible de generación Nuclear horizonte año móvil
549 -> Generación T.Real nuclear
1153 -> Generación medida Nuclear
1403 -> Generación programada PHFC Nuclear
1477 -> Potencia instalada de generación nuclear
2039 -> Generación T.Real nuclear nacional


Hemos utilizado como palabra clave `uclear` para que sea indiferente si va en mayúscula o en minúscula

También podemos hacer una búsqueda teniendo ya el identificador. Eso nos facilita el buscar los identificadores que nos proporcionan la información para generar ciertas gráficas de esios. Como ejemplo: 

https://www.esios.ree.es/es/analisis/1293?vis=1&start_date=04-11-2022T00%3A00&end_date=04-11-2022T23%3A55&compare_start_date=03-11-2022T00%3A00&groupby=minutes5&compare_indicators=545,544

Esta gráfica, como podemos observa en la url, se genera con el ID=1293, y se compara con la 544 y 545.

In [13]:
identificadores = [10206, 1293, 551, 10211]

In [14]:
for id in identificadores:
 print(f"{catalogo.loc[catalogo['id']==id,'id'].values[0]}-->{catalogo.loc[catalogo['id']==id,'name'].values[0]}\
-{catalogo.loc[catalogo['id']==id,'description'].values[0]}"+'\n')

10206-->Generación T.Real Solar-Generación medida en tiempo real del tipo de producción solar.El desglose de este indicador detalla la energía generada como solar térmica y como solar fotovoltaica.Este indicador tiene datos desde el 02/06/2015 a las 21:00 horas, momento a partir del cual se empezaron a registrar telemedidas de generación solar con dicho desglose.Publicación: cada 10 minutos con la información de las tres últimas horas del día D-1 hasta la hora actual del día D.

1293-->Demanda real-Es el valor real de la demanda de energía eléctrica medida en tiempo real.
Los datos representados en este indicador se refieren a datos Peninsulares.
Publicación: cada 5 minutos con la información de los 5 minutos anteriores.

551-->Generación T.Real eólica-Generación medida en tiempo real del tipo de producción eólica.
Los datos representados en este indicador se refieren a datos Peninsulares.
Publicación: cada 5 minutos con la información de las tres últimas horas del día D-1 hasta la hor

## Bajamos datos de los identificadores que nos interesan para el caso de estudio

In [15]:
inicio = datetime(2022, 1, 1) 
fin = datetime(2023, 12, 31)


def get_monthly_dates(fecha_inicio, fecha_fin):
    resultado = []
    fecha_actual = fecha_inicio.replace(day=1)  # Iniciar desde el primer día del mes de fecha_inicio

    while fecha_actual <= fecha_fin:
        ultimo_dia_mes = fecha_actual.replace(day=1) + timedelta(days=32)
        ultimo_dia_mes = ultimo_dia_mes.replace(day=1) - timedelta(days=1)

        resultado.append((fecha_actual.strftime('%Y-%m-%d'), ultimo_dia_mes.strftime('%Y-%m-%d')))

        # Avanzar al siguiente mes
        siguiente_mes = fecha_actual.month + 1 if fecha_actual.month < 12 else 1
        siguiente_ano = fecha_actual.year + 1 if siguiente_mes == 1 else fecha_actual.year
        fecha_actual = fecha_actual.replace(year=siguiente_ano, month=siguiente_mes)

    return resultado

lista_fechas = get_monthly_dates(inicio, fin)
# Comprobacion metodo
# print(lista_fechas)

In [16]:
df = pd.DataFrame()
for e in lista_fechas:
    f_inicio = e[0]
    f_fin = e[1]
    df_aux = download_esios2(token_esios, identificadores, f_inicio, f_fin, time_trunc='hour')
   
    # Concatenate df_aux with the existing df
    df = pd.concat([df, df_aux], axis=0, ignore_index=True)
    
    time.sleep(1.5)

https://api.esios.ree.es/indicators/10206?start_date=2022-01-01T00:00&end_date=2022-01-31T23:59&time_trunc=hour
<Response [200]>
https://api.esios.ree.es/indicators/1293?start_date=2022-01-01T00:00&end_date=2022-01-31T23:59&time_trunc=hour
<Response [200]>
https://api.esios.ree.es/indicators/551?start_date=2022-01-01T00:00&end_date=2022-01-31T23:59&time_trunc=hour
<Response [200]>
https://api.esios.ree.es/indicators/10211?start_date=2022-01-01T00:00&end_date=2022-01-31T23:59&time_trunc=hour
<Response [200]>
https://api.esios.ree.es/indicators/10206?start_date=2022-02-01T00:00&end_date=2022-02-28T23:59&time_trunc=hour
<Response [200]>
https://api.esios.ree.es/indicators/1293?start_date=2022-02-01T00:00&end_date=2022-02-28T23:59&time_trunc=hour
<Response [200]>
https://api.esios.ree.es/indicators/551?start_date=2022-02-01T00:00&end_date=2022-02-28T23:59&time_trunc=hour
<Response [200]>
https://api.esios.ree.es/indicators/10211?start_date=2022-02-01T00:00&end_date=2022-02-28T23:59&time_tr

In [17]:
# Comprobación descarga correcta de datos
print(df.head())
print(df.shape[0])

   value                       datetime          datetime_utc  \
0  438.0  2022-01-01T00:00:00.000+01:00  2021-12-31T23:00:00Z   
1  439.0  2022-01-01T01:00:00.000+01:00  2022-01-01T00:00:00Z   
2  443.0  2022-01-01T02:00:00.000+01:00  2022-01-01T01:00:00Z   
3  442.0  2022-01-01T03:00:00.000+01:00  2022-01-01T02:00:00Z   
4  444.0  2022-01-01T04:00:00.000+01:00  2022-01-01T03:00:00Z   

                    tz_time  geo_id   geo_name                     name  \
0  2021-12-31T23:00:00.000Z    8741  Península  Generación T.Real Solar   
1  2022-01-01T00:00:00.000Z    8741  Península  Generación T.Real Solar   
2  2022-01-01T01:00:00.000Z    8741  Península  Generación T.Real Solar   
3  2022-01-01T02:00:00.000Z    8741  Península  Generación T.Real Solar   
4  2022-01-01T03:00:00.000Z    8741  Península  Generación T.Real Solar   

  short_name  
0      Solar  
1      Solar  
2      Solar  
3      Solar  
4      Solar  
70080


In [18]:
# Columnas que tiene el dataframe
for columna in df.columns:
    print(columna)

value
datetime
datetime_utc
tz_time
geo_id
geo_name
name
short_name


Reformateamos el pandas, con nombre de columnas estandares y eliminando las que no van a ser usadas y las que aparecen duplicadas:

In [19]:
datos_esios = (df
         .assign(fecha=lambda df_: pd #formateamos campo fecha, desde un str con diferencia horaria a un naive
                      .to_datetime(df_['datetime'],utc=True)  # con la fecha local
                      .dt
                      .tz_convert('Europe/Madrid')
                      .dt
                      .tz_localize(None)
                ) 
             .drop(['datetime','datetime_utc','tz_time','geo_id','geo_name','short_name'],
                   axis=1) #eliminamos campos
             .loc[:,['fecha','name','value']]
             )
        

In [20]:
datos_esios

Unnamed: 0,fecha,name,value
0,2022-01-01 00:00:00,Generación T.Real Solar,438.00
1,2022-01-01 01:00:00,Generación T.Real Solar,439.00
2,2022-01-01 02:00:00,Generación T.Real Solar,443.00
3,2022-01-01 03:00:00,Generación T.Real Solar,442.00
4,2022-01-01 04:00:00,Generación T.Real Solar,444.00
...,...,...,...
70075,2023-12-31 19:00:00,Precio medio horario final suma de componentes,109.00
70076,2023-12-31 20:00:00,Precio medio horario final suma de componentes,101.66
70077,2023-12-31 21:00:00,Precio medio horario final suma de componentes,92.84
70078,2023-12-31 22:00:00,Precio medio horario final suma de componentes,87.14


In [21]:
df_precio = datos_esios[datos_esios['name']=="Precio medio horario final suma de componentes"].copy().set_index('fecha')
df_precio.rename(columns={'value':'precio'}, inplace=True)

df_demanda = datos_esios[datos_esios['name']=="Demanda real"].copy().set_index('fecha')
df_demanda.rename(columns={'value':'demanda'}, inplace=True)


df_eolico = datos_esios[datos_esios['name']=="Generación T.Real eólica"].copy().set_index('fecha')
df_eolico.rename(columns={'value':'generacionEolica'}, inplace=True)

df_solar = datos_esios[datos_esios['name']=="Generación T.Real Solar"].copy().set_index('fecha')
df_solar.rename(columns={'value':'generacionSolar'}, inplace=True)


# Unir df_demanda con df_eolico
df_esios = pd.merge(df_demanda, df_eolico['generacionEolica'], on='fecha', how='inner')

# Unir df_esios con df_solar
df_esios = pd.merge(df_esios, df_solar['generacionSolar'], on='fecha', how='inner')

# Unir df_esios con df_precio
df_esios = pd.merge(df_esios, df_precio['precio'], on='fecha', how='inner')

del df_esios['name']
df_esios = df_esios.reset_index()
df_esios = df_esios.drop_duplicates(subset=['fecha']).reset_index() ### Para ahorrarnos problemas con los cambios de fecha


In [22]:
print(df_esios)


       index               fecha   demanda  generacionEolica  generacionSolar  \
0          0 2022-01-01 00:00:00  129352.0           38005.0            438.0   
1          1 2022-01-01 01:00:00  125484.0           38329.0            439.0   
2          2 2022-01-01 02:00:00  117733.0           38739.0            443.0   
3          3 2022-01-01 03:00:00  110777.0           37066.0            442.0   
4          4 2022-01-01 04:00:00  106340.0           35626.0            444.0   
...      ...                 ...       ...               ...              ...   
17513  17543 2023-12-31 19:00:00  349628.0           77802.0            354.0   
17514  17544 2023-12-31 20:00:00  344442.0           76444.0            349.0   
17515  17545 2023-12-31 21:00:00  329078.0           69861.0            348.0   
17516  17546 2023-12-31 22:00:00  295367.0           65152.0            348.0   
17517  17547 2023-12-31 23:00:00  276894.0           64058.0            348.0   

       precio  
0      158.

In [23]:
#### Para ver cuáles de las fechas se descargan varias veces en el df_esios
'''
def genera_timestamps(start_date_str, end_date_str):
    """
    TEMPORAL HASTA SOLUCIONAR PROBLEMA DE DATOS FALTANTES
    Método auxiliar, enumera todas las fechas y horas comprendidas entre dos dadas,
    para comprobar qué fechas son las que faltan entre los datos descargados de esios
    ----------------------------------------------------------------------
    Entrada: str, fechas de inicio y final
    Salida: conjunto con todos los timestamps entre ambas fechas
    """
    start_date = datetime.strptime(start_date_str, '%Y-%m-%d %H:%M:%S')
    end_date = datetime.strptime(end_date_str, '%Y-%m-%d %H:%M:%S')
    
    current_date = start_date
    ts = set()

    while current_date <= end_date:
        ts.add(current_date)
        current_date += timedelta(hours=1)

    return ts
inicio_a = '2022-01-01 00:00:00'
fin_a = '2023-12-31 23:00:00'
fechas = list(genera_timestamps(inicio_a, fin_a))
fechas_df = list(df_esios['fecha'])
for f in fechas:
    if f in fechas_df:
        fechas_df.remove(f)
print(fechas_df)'''

'\ndef genera_timestamps(start_date_str, end_date_str):\n    """\n    TEMPORAL HASTA SOLUCIONAR PROBLEMA DE DATOS FALTANTES\n    Método auxiliar, enumera todas las fechas y horas comprendidas entre dos dadas,\n    para comprobar qué fechas son las que faltan entre los datos descargados de esios\n    ----------------------------------------------------------------------\n    Entrada: str, fechas de inicio y final\n    Salida: conjunto con todos los timestamps entre ambas fechas\n    """\n    start_date = datetime.strptime(start_date_str, \'%Y-%m-%d %H:%M:%S\')\n    end_date = datetime.strptime(end_date_str, \'%Y-%m-%d %H:%M:%S\')\n    \n    current_date = start_date\n    ts = set()\n\n    while current_date <= end_date:\n        ts.add(current_date)\n        current_date += timedelta(hours=1)\n\n    return ts\ninicio_a = \'2022-01-01 00:00:00\'\nfin_a = \'2023-12-31 23:00:00\'\nfechas = list(genera_timestamps(inicio_a, fin_a))\nfechas_df = list(df_esios[\'fecha\'])\nfor f in fechas:\n  

# Descarga de datos de gas GDAES

Le toca el turno al gas, {ironía ON} el culpable de todos nuestros males {ironía OFF}. [MIBGAS](https://www.mibgas.es/es) ofrece una amplia variedad de datos, y como ejemplo he preparado dos funciones muy simples para bajar datos con el precio de gas PVB ([Punto Virtual de Balance](https://www.boe.es/buscar/doc.php?id=BOE-A-2020-682) ) y con el precio de gas utilizado para el cálculo de la famosa compensación de gas por el [Real Decreto 10/2022](https://www.boe.es/buscar/act.php?id=BOE-A-2022-7843). 

Empezamos con el primero, a la función tan solo hay que pasarle el año que queremos bajar. Este formato de descarga viene impuesto por la manera que tiene Mibgas de entregar está información, agrupada en ficheros excel por año: [ficheros excel de Mibgas](https://www.mibgas.es/es/file-access)

In [24]:
df_gas1 = download_gas(2022)
df_gas2 = download_gas(2023)
df_gas_aux = pd.concat([df_gas1, df_gas2])

In [25]:
# Create a new DataFrame with all possible datetimes
all_dates = pd.date_range(start='2022-01-01 00:00:00', end='2023-12-31 23:00:00', freq='h')
df_gas = pd.DataFrame(all_dates, columns=['fecha'])

precio_gas_repeated = df_gas_aux['precio'].repeat(24).reset_index(drop=True)

# Añadir la columna 'precioGas' al DataFrame df_gas
df_gas['precioGas'] = precio_gas_repeated
# df_gas['fecha']=pd.to_datetime(df_gas["fecha"], utc=True).dt.tz_convert('Europe/Madrid').dt.tz_localize(None)
print(df_gas)

                    fecha  precioGas
0     2022-01-01 00:00:00      53.17
1     2022-01-01 01:00:00      53.17
2     2022-01-01 02:00:00      53.17
3     2022-01-01 03:00:00      53.17
4     2022-01-01 04:00:00      53.17
...                   ...        ...
17515 2023-12-31 19:00:00      30.30
17516 2023-12-31 20:00:00      30.30
17517 2023-12-31 21:00:00      30.30
17518 2023-12-31 22:00:00      30.30
17519 2023-12-31 23:00:00      30.30

[17520 rows x 2 columns]


### Descarga de datos climatológicos desde la API de AEMET

In [26]:
# Obtenemos los identificadores de las estaciones que nos interesan
indicativos_estaciones = weather_stations_city(token_aemet, ["Sevilla aeropuerto", "Barcelona aeropuerto",
                                                          "Valencia aeropuerto", "Madrid aeropuerto"])
print(indicativos_estaciones)

['5783', '0076', '8414A', '3129']


In [27]:
# Comprobación de que, efectivamente, se obtienen los indicativos de las estaciones que se piden
todas = Estacion.get_estaciones(token_aemet)
indicativos = [estacion['nombre'] for estacion in todas if estacion['indicativo']=='5783']
print(indicativos)


['SEVILLA AEROPUERTO']


Una vez hemos conseguido obtener los indicativos de las estaciones de las ciudades que nos interesa estudiar (en este caso, Madrid, Barcelona, Sevilla y valencia - aeropuertos), el siguiente paso es directamente obtener los datos entre las fechas que deseemos. Usaremos para ello el método diseñado anteriormente: `download_aemet`.

In [28]:
# Descarga de datos desde Aemet
finicio = "2022-01-01"
ffin = "2023-12-31"
json_aemet = download_aemet(token_aemet, indicativos_estaciones, finicio, ffin)

[('2022-01-01', '2022-06-30'), ('2022-07-01', '2022-12-31'), ('2023-01-01', '2023-06-30'), ('2023-07-01', '2023-12-31')]
https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/2022-01-01T00:00:00UTC/fechafin/2022-06-30T23:59:59UTC/estacion/5783/?api_key=eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJqb21hbnVwb3JAZ21haWwuY29tIiwianRpIjoiMjIxZGM3MWMtYmMzZi00ZWI1LWExYzctMzcxYzE2OGRiODViIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE3MDk0OTI4OTYsInVzZXJJZCI6IjIyMWRjNzFjLWJjM2YtNGViNS1hMWM3LTM3MWMxNjhkYjg1YiIsInJvbGUiOiIifQ.uVSj_N23BrQwNo__aCkQaOjhDw3fvCTUE15Kvym8svY
<Response [200]>
https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/2022-01-01T00:00:00UTC/fechafin/2022-06-30T23:59:59UTC/estacion/0076/?api_key=eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJqb21hbnVwb3JAZ21haWwuY29tIiwianRpIjoiMjIxZGM3MWMtYmMzZi00ZWI1LWExYzctMzcxYzE2OGRiODViIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE3MDk0OTI4OTYsInVzZXJJZCI6IjIyMWRjNzFjLWJjM2YtNGViNS1hMWM3LTM3MWMxNjhkYjg1YiIsInJvbGUiOiIifQ.uVSj_N23BrQw

Pasamos los datos descargados en formato json a un diccionario de Python para posteriormente poder crear un Dataframe de Pandas a partir del mismo.

In [29]:
dataframes = []
for json_str in json_aemet:
    
    df = pd.DataFrame([json_str])
    dataframes.append(df)

# Concatenar todos los DataFrames en uno solo
datos_aemet = pd.concat(dataframes, ignore_index=True)


In [30]:
print(datos_aemet)

           fecha indicativo              nombre provincia altitud  tmed prec  \
0     2022-01-01       5783  SEVILLA AEROPUERTO   SEVILLA      34  13,6  0,0   
1     2022-01-02       5783  SEVILLA AEROPUERTO   SEVILLA      34  13,0  0,0   
2     2022-01-03       5783  SEVILLA AEROPUERTO   SEVILLA      34  14,6  0,1   
3     2022-01-04       5783  SEVILLA AEROPUERTO   SEVILLA      34  12,6   Ip   
4     2022-01-05       5783  SEVILLA AEROPUERTO   SEVILLA      34  10,9   Ip   
...          ...        ...                 ...       ...     ...   ...  ...   
2915  2023-12-27       3129   MADRID AEROPUERTO    MADRID     609   4,0  0,0   
2916  2023-12-28       3129   MADRID AEROPUERTO    MADRID     609   2,9  0,0   
2917  2023-12-29       3129   MADRID AEROPUERTO    MADRID     609   4,6  0,0   
2918  2023-12-30       3129   MADRID AEROPUERTO    MADRID     609   5,6  0,0   
2919  2023-12-31       3129   MADRID AEROPUERTO    MADRID     609   7,2  0,0   

      tmin horatmin  tmax  ...  sol pre

Tenemos todos los datos de las ciudades que nos interesan descargados en un Dataframe, ahora nos quedamos únicamente con las columnas que nos interesan: fecha, tmin, tmax y provincia.

In [31]:
cols_aemet = ['fecha','tmin','tmax','provincia']
df_a = datos_aemet[cols_aemet]
print(df_a.head())
fecha_buscar = '2023-12-12'
f = df_a.loc[df_a['fecha']==fecha_buscar]
print(f)

        fecha tmin  tmax provincia
0  2022-01-01  7,6  19,5   SEVILLA
1  2022-01-02  6,4  19,5   SEVILLA
2  2022-01-03  7,8  21,3   SEVILLA
3  2022-01-04  9,8  15,3   SEVILLA
4  2022-01-05  5,6  16,2   SEVILLA
           fecha  tmin  tmax  provincia
2348  2023-12-12   NaN   NaN    SEVILLA
2532  2023-12-12   NaN   NaN  BARCELONA
2716  2023-12-12  14,5  25,5   VALENCIA
2900  2023-12-12   6,0  12,8     MADRID


In [32]:
df_sev = df_a[df_a['provincia']=="SEVILLA"].copy().set_index('fecha')
df_sev.rename(columns={'tmin':'tmin_Sevilla', 'tmax': 'tmax_Sevilla'}, inplace=True)

df_bar = df_a[df_a['provincia']=="BARCELONA"].copy().set_index('fecha')
df_bar.rename(columns={'tmin':'tmin_Barcelona', 'tmax': 'tmax_Barcelona'}, inplace=True)


df_mad = df_a[df_a['provincia']=="MADRID"].copy().set_index('fecha')
df_mad.rename(columns={'tmin':'tmin_Madrid', 'tmax': 'tmax_Madrid'}, inplace=True)

df_vlc = df_a[df_a['provincia']=="VALENCIA"].copy().set_index('fecha')
df_vlc.rename(columns={'tmin':'tmin_Valencia', 'tmax': 'tmax_Valencia'}, inplace=True)

# Unir df_sevilla con df_barcelona
df_temp_aemet = pd.merge(df_sev, df_bar[['tmin_Barcelona', 'tmax_Barcelona']], on='fecha', how='inner')

# Unir df_aemet con df_madrid
df_temp_aemet = pd.merge(df_temp_aemet, df_mad[['tmin_Madrid', 'tmax_Madrid']], on='fecha', how='inner')

# Unir df_aemet con df_valencia
df_temp_aemet = pd.merge(df_temp_aemet, df_vlc[['tmin_Valencia','tmax_Valencia']], on='fecha', how='inner')


del df_temp_aemet['provincia']
df_temp_aemet.reset_index(inplace=True)
print(df_temp_aemet)

          fecha tmin_Sevilla tmax_Sevilla tmin_Barcelona tmax_Barcelona  \
0    2022-01-01          7,6         19,5            7,5           16,3   
1    2022-01-02          6,4         19,5            7,8           15,0   
2    2022-01-03          7,8         21,3            8,7           14,7   
3    2022-01-04          9,8         15,3            9,5           18,5   
4    2022-01-05          5,6         16,2            5,8           14,2   
..          ...          ...          ...            ...            ...   
725  2023-12-27          1,0         15,2            3,9           16,0   
726  2023-12-28          3,2         15,5            3,5           15,0   
727  2023-12-29          6,6         13,2            6,2           14,2   
728  2023-12-30          5,7         16,6            4,3           15,8   
729  2023-12-31          4,5         14,2            6,0           17,2   

    tmin_Madrid tmax_Madrid tmin_Valencia tmax_Valencia  
0          -0,3        17,2           3,5

In [33]:
df_aemet = pd.DataFrame(all_dates, columns=['fecha'])
cols_aux = ['tmin_Sevilla', 'tmax_Sevilla','tmin_Barcelona', 'tmax_Barcelona', 'tmin_Madrid',
                                 'tmax_Madrid', 'tmin_Valencia','tmax_Valencia']
temps_repeated = pd.DataFrame()
for columna in cols_aux:
    df_aemet[columna] = df_temp_aemet[columna].repeat(24).reset_index(drop=True)

# df_temp_aemet["fecha"] = pd.to_datetime(df_temp_aemet["fecha"], utc=True).dt.tz_convert('Europe/Madrid').dt.tz_localize(None)
# df_aemet = df_temp_aemet.set_index("fecha").resample("h").ffill().reset_index()
print(df_aemet.head(30))



                 fecha tmin_Sevilla tmax_Sevilla tmin_Barcelona  \
0  2022-01-01 00:00:00          7,6         19,5            7,5   
1  2022-01-01 01:00:00          7,6         19,5            7,5   
2  2022-01-01 02:00:00          7,6         19,5            7,5   
3  2022-01-01 03:00:00          7,6         19,5            7,5   
4  2022-01-01 04:00:00          7,6         19,5            7,5   
5  2022-01-01 05:00:00          7,6         19,5            7,5   
6  2022-01-01 06:00:00          7,6         19,5            7,5   
7  2022-01-01 07:00:00          7,6         19,5            7,5   
8  2022-01-01 08:00:00          7,6         19,5            7,5   
9  2022-01-01 09:00:00          7,6         19,5            7,5   
10 2022-01-01 10:00:00          7,6         19,5            7,5   
11 2022-01-01 11:00:00          7,6         19,5            7,5   
12 2022-01-01 12:00:00          7,6         19,5            7,5   
13 2022-01-01 13:00:00          7,6         19,5            7,

### Unimos los tres DataFrames resultantes en un último DataFrame final.

In [36]:
print(df_esios.head())
print(df_aemet.head())
print(df_gas.head())

   index               fecha   demanda  generacionEolica  generacionSolar  \
0      0 2022-01-01 00:00:00  129352.0           38005.0            438.0   
1      1 2022-01-01 01:00:00  125484.0           38329.0            439.0   
2      2 2022-01-01 02:00:00  117733.0           38739.0            443.0   
3      3 2022-01-01 03:00:00  110777.0           37066.0            442.0   
4      4 2022-01-01 04:00:00  106340.0           35626.0            444.0   

   precio  
0  158.86  
1  131.90  
2  130.45  
3  115.01  
4  120.85  
                fecha tmin_Sevilla tmax_Sevilla tmin_Barcelona tmax_Barcelona  \
0 2022-01-01 00:00:00          7,6         19,5            7,5           16,3   
1 2022-01-01 01:00:00          7,6         19,5            7,5           16,3   
2 2022-01-01 02:00:00          7,6         19,5            7,5           16,3   
3 2022-01-01 03:00:00          7,6         19,5            7,5           16,3   
4 2022-01-01 04:00:00          7,6         19,5            7

In [38]:
ruta_guardado = r'C:\Users\Jose\Desktop\TFG\data\datos_TFGb.xlsx'

dfs=[df_esios, df_gas, df_aemet]
df_final = pd.merge(df_esios, df_gas, on='fecha', how='inner')
df_final = pd.merge(df_final, df_aemet, on='fecha', how='inner')
df_final.set_index('fecha', inplace=True)
df_final.reset_index(inplace=True)
df_final.drop(columns={'index'}, inplace=True)
df_final['hora'] = df_final['fecha'].dt.time
df_final['dia_semana'] = df_final['fecha'].dt.dayofweek + 1 
df_final['fecha'] =df_final['fecha'].dt.date
#df_final= df_final.drop(df_final.columns[0], axis=1)

columns_to_convert = ['tmin_Sevilla', 'tmax_Sevilla', 'tmin_Barcelona', 'tmax_Barcelona', 'tmin_Madrid', 'tmax_Madrid', 'tmin_Valencia', 'tmax_Valencia']
col_time = ['hora']

for col in columns_to_convert:
    df_final[col] = df_final[col].str.replace(',', '.').astype(float)

df_final['hora'] = df_final['hora'].apply(lambda x: x.hour ).astype(float)


#df_final.to_excel(ruta_guardado)
print(df_final)

104455.0
