# 1. Se escribe el código necesario para descargar los datos de la AEMET disponibles en OpenData API de 6 en 6 meses sobre la estación meteorológica de Madrid - Retiro (id 3195).

## 1.1 Primero se obtiene la fecha máxima de descarga, que se sabe que es de 4 días antes al día de hoy

In [3]:
import os
import requests
import json
from datetime import datetime, timedelta
import pandas as pd
import time
from urllib3.exceptions import ProtocolError
from requests.exceptions import ConnectionError
from http.client import RemoteDisconnected

In [4]:
with open('API_KEY_AEMET.txt') as f:
    API_KEY = f.readline().strip()

print(f"Mi API Key es: \n\n{API_KEY}")

Mi API Key es: 

eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJmZWxpeHRjbDk3QGdtYWlsLmNvbSIsImp0aSI6ImFmYTVjNjEwLTNmNmUtNDNhZS1iYTZiLWI0OTkyOTM2NTY2ZSIsImlzcyI6IkFFTUVUIiwiaWF0IjoxNzQwOTM4NzY4LCJ1c2VySWQiOiJhZmE1YzYxMC0zZjZlLTQzYWUtYmE2Yi1iNDk5MjkzNjU2NmUiLCJyb2xlIjoiIn0.-D_-Zb0rh0kAgHJgGZOM_QCCKaNZhgDuP4wQPo2Bw7E


Se define la fecha actual en la variable 'ahora' y el día 1 del mes anterior para que haya suficientes días entre la fecha inicial y la fecha máxima del dato devuelto de la API

In [3]:
ahora = datetime.now()
if ahora.month == 1:
    dia_1_mes_anterior = datetime(ahora.year - 1, 12, 1)
else:
    dia_1_mes_anterior = datetime(ahora.year, ahora.month - 1, 1)

ahora = ahora.strftime("%Y-%m-%dT%H:%M:%SUTC")
dia_1_mes_anterior = dia_1_mes_anterior.strftime("%Y-%m-%dT%H:%M:%SUTC")

print(ahora)
print(dia_1_mes_anterior)

2025-03-22T20:51:26UTC
2025-02-01T00:00:00UTC


Se descarga el json generado por las fechas definidas en el bloque anterior

In [4]:
fecha_ini = dia_1_mes_anterior
fecha_fin = ahora
estacion_id = "3195"  # Ejemplo de estación meteorológica de Madrid-Retiro

url = f"https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{fecha_ini}/fechafin/{fecha_fin}/estacion/{estacion_id}?api_key={API_KEY}"

response = requests.get(url)
if response.status_code == 200:
    data = response.json()
    print(json.dumps(data, indent=4, ensure_ascii=False))
    datos_url = data.get("datos")
    if datos_url:
        response_data = requests.get(datos_url)
        if response_data.status_code == 200:
            datos_historicos = response_data.json()
            print(json.dumps(datos_historicos, indent=4, ensure_ascii=False))
        else:
            print("Error al obtener los datos reales")
    else:
        print("No se encontró la URL de datos")
else:
    print("Error en la petición inicial, código de error:", response.status_code)

{
    "descripcion": "exito",
    "estado": 200,
    "datos": "https://opendata.aemet.es/opendata/sh/61f7af51",
    "metadatos": "https://opendata.aemet.es/opendata/sh/b3aa9d28"
}
[
    {
        "fecha": "2025-02-01",
        "indicativo": "3195",
        "nombre": "MADRID, RETIRO",
        "provincia": "MADRID",
        "altitud": "667",
        "tmed": "6,6",
        "prec": "0,0",
        "tmin": "1,5",
        "horatmin": "06:30",
        "tmax": "11,6",
        "horatmax": "16:00",
        "dir": "01",
        "velmedia": "2,2",
        "racha": "8,6",
        "horaracha": "17:30",
        "presMax": "948,1",
        "horaPresMax": "00",
        "presMin": "940,7",
        "horaPresMin": "17",
        "hrMedia": "63",
        "hrMax": "89",
        "horaHrMax": "06:10",
        "hrMin": "46",
        "horaHrMin": "17:30"
    },
    {
        "fecha": "2025-02-02",
        "indicativo": "3195",
        "nombre": "MADRID, RETIRO",
        "provincia": "MADRID",
        "altitud": "

Se obtiene la fecha maxima descargada. A día 22/03/2025 es el 18/03/2025

In [5]:
fechas = [fecha['fecha'] for fecha in datos_historicos]
fecha_max_descargada = max(fechas)
print(fecha_max_descargada)

2025-03-19


Se imprime la diferencia en días entre hoy y la fecha máxima descargada

In [6]:
# Convert fecha_max_descargada to datetime
fecha_max = datetime.strptime(fecha_max_descargada, '%Y-%m-%d')

# Convert ahora to datetime
ahora_dt = datetime.strptime(ahora, '%Y-%m-%dT%H:%M:%SUTC')

# Calculate difference in days
diferencia_dias = (ahora_dt - fecha_max).days

print(f"Diferencia en días: {diferencia_dias}")

Diferencia en días: 3


## 1.2 Se descargan todos los datos de 6 en 6 meses, ya que esta API no permite un rango de fechas superior a 6 meses.

Se definen las fechas a descargar con la siguiente función

In [7]:
# Se formatea la fecha para que coincida con el formato de la API
fecha_max_descargada = fecha_max.strftime("%Y-%m-%dT%H:%M:%SUTC")

# Se convierte la fecha a datetime para poder restarle los dias que se quiera
fecha_max_dt = datetime.strptime(fecha_max_descargada, "%Y-%m-%dT%H:%M:%SUTC")

Se define la siguiente funcion que devuelve los intervalos de fechas a ejecutar en la API

In [8]:
def listar_fechas_descargas(fecha_max: datetime, dias: int, n_veces: int) -> {list, list}:
    """
    Función que devuelve 1 diccionario que contiene 2 listas de fechas empezando por 
    una fecha dada y retrocediendo un número de días dado n_veces.

    La primera lista almacena la fecha inicial de descarga y la segunda lista
    almacena la fecha final de descarga.

    Las fechas devueltas están en el formato correcto para la API de AEMET.
    """
    fechas_iniciales = []
    for i in range(n_veces):

        if i == 0 :
            fecha_inicial = fecha_max - timedelta(days=dias*(i+1))
        else:
            fecha_inicial = fecha_max - timedelta(days=dias*(i+1)+i) 
            # Se resta 1 días más para que la fecha inicial no coincida con la fecha final del siguiente periodo.

        fecha_inicial = fecha_inicial.strftime("%Y-%m-%dT%H:%M:%SUTC")
        fechas_iniciales.append(fecha_inicial)

    fechas_finales = []
    for i in range(n_veces):

        if i == 0:
            fecha_final = fecha_max - timedelta(days=dias*(i)) # En la primera iteración no resta nada porque interesa almacenar la fecha máxima.
        else:
            fecha_final = fecha_max - timedelta(days=dias*(i)+i)
            # Se resta i días más para que la fecha final no coincida con la fecha inicial del periodo anterior.

        fecha_final = fecha_final.strftime("%Y-%m-%dT%H:%M:%SUTC")
        fechas_finales.append(fecha_final)

    return {"fechas_iniciales" : fechas_iniciales, "fechas_finales" : fechas_finales}

Interesa que los intervalos sean de 6 en 6 meses, o lo que es lo mismo, de 180 en 180 días

In [9]:
diccionario_fechas = listar_fechas_descargas(fecha_max_dt, 180, 3)
diccionario_fechas

{'fechas_iniciales': ['2024-09-20T00:00:00UTC',
  '2024-03-23T00:00:00UTC',
  '2023-09-24T00:00:00UTC'],
 'fechas_finales': ['2025-03-19T00:00:00UTC',
  '2024-09-19T00:00:00UTC',
  '2024-03-22T00:00:00UTC']}

Se comprueba en la siguiente tabla que efectivamente hay 180 días de diferencia entre las fechas iniciales y fechas finales por intervalo

In [10]:
df_lista_fechas = pd.DataFrame(diccionario_fechas)
df_lista_fechas["fechas_iniciales"] = pd.to_datetime(df_lista_fechas["fechas_iniciales"])
df_lista_fechas["fechas_finales"] = pd.to_datetime(df_lista_fechas["fechas_finales"])
df_lista_fechas["Diferencia en días"] = (df_lista_fechas["fechas_finales"] - df_lista_fechas["fechas_iniciales"]).dt.days
df_lista_fechas

Unnamed: 0,fechas_iniciales,fechas_finales,Diferencia en días
0,2024-09-20 00:00:00+00:00,2025-03-19 00:00:00+00:00,180
1,2024-03-23 00:00:00+00:00,2024-09-19 00:00:00+00:00,180
2,2023-09-24 00:00:00+00:00,2024-03-22 00:00:00+00:00,180


Se descargan los datos recursivamente

1. Controles de tiempo de descarga de datos

In [11]:
espera_error_429 = 20
espera_error_except = 30

2. Bloque de código para descargar los datos

In [13]:
n_veces_inicial = 0
lista_datos_historicos = []
max_intentos = 0
max_intentors_error = 0

start_time = time.time()

while True :

    try :
        n_veces_inicial += 1
        fechas_descargas = listar_fechas_descargas(fecha_max_dt, 180, n_veces_inicial)

        fecha_ini = fechas_descargas["fechas_iniciales"][-1]
        fecha_fin = fechas_descargas["fechas_finales"][-1]

        estacion_id = "3195"  # Ejemplo de estación meteorológica de Madrid-Retiro

        url = f"https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{fecha_ini}/fechafin/{fecha_fin}/estacion/{estacion_id}?api_key={API_KEY}"

        response = requests.get(url)
        if response.status_code == 200:
            data = response.json()
            datos_url = data.get("datos")
            if datos_url:
                response_data = requests.get(datos_url)
                if response_data.status_code == 200:
                    datos_historicos = response_data.json()
                    lista_datos_historicos.append(datos_historicos)
                    print(f"Se ha descargado los datos de {fecha_ini} a {fecha_fin}")
                else:
                    print("Error al obtener los datos reales", response_data.status_code)
            else:
                print("No se encontró la URL de datos")
                n_veces_inicial -= 1
                max_intentos += 1
        else:
            print("Error en la petición inicial, código de error:", response.status_code)

        if (response.status_code == 200) and datos_url :
            max_intentos = 0
            max_intentors_error = 0
            
        elif response.status_code == 429 :
            time.sleep(espera_error_429)
            n_veces_inicial -= 1
            max_intentos += 1

        elif max_intentos == 3:
            print("Número máximo de intentos alcanzado")
            break
                
        elif response.status_code != 200 :
            break
    
    except (ConnectionError, ProtocolError, RemoteDisconnected) as e:
        print(f"Error de conexión: {e}")
        time.sleep(espera_error_except)
        n_veces_inicial -= 1
        max_intentors_error += 1
        if max_intentors_error == 3:
            print("Número máximo de intentos alcanzado")
            break
        continue

end_time = time.time()

Se ha descargado los datos de 2024-09-20T00:00:00UTC a 2025-03-19T00:00:00UTC
Se ha descargado los datos de 2024-03-23T00:00:00UTC a 2024-09-19T00:00:00UTC
Se ha descargado los datos de 2023-09-24T00:00:00UTC a 2024-03-22T00:00:00UTC
Se ha descargado los datos de 2023-03-27T00:00:00UTC a 2023-09-23T00:00:00UTC
Se ha descargado los datos de 2022-09-27T00:00:00UTC a 2023-03-26T00:00:00UTC
Se ha descargado los datos de 2022-03-30T00:00:00UTC a 2022-09-26T00:00:00UTC
Se ha descargado los datos de 2021-09-30T00:00:00UTC a 2022-03-29T00:00:00UTC
Se ha descargado los datos de 2021-04-02T00:00:00UTC a 2021-09-29T00:00:00UTC
Se ha descargado los datos de 2020-10-03T00:00:00UTC a 2021-04-01T00:00:00UTC
Se ha descargado los datos de 2020-04-05T00:00:00UTC a 2020-10-02T00:00:00UTC
Se ha descargado los datos de 2019-10-07T00:00:00UTC a 2020-04-04T00:00:00UTC
Se ha descargado los datos de 2019-04-09T00:00:00UTC a 2019-10-06T00:00:00UTC
Se ha descargado los datos de 2018-10-10T00:00:00UTC a 2019-04-0

In [14]:
execution_time = end_time - start_time
hours = int(execution_time // 3600)
minutes = int((execution_time % 3600) // 60)
seconds = execution_time % 60
print(f"Tiempo de ejecución: {hours}h {minutes}m {seconds:.0f}s")

Tiempo de ejecución: 0h 9m 55s


3. Se guardan los datos descargados en un fichero .json

In [None]:
folder_name = "dataset_historico_id_3195"
if not os.path.exists(folder_name):
    os.makedirs(folder_name)

file_path = os.path.join(folder_name, f"datos_historicos_{fecha_max_descargada[0:10]}_{fecha_ini[0:10]}.json")
with open(file_path, "w") as f:
    for datos_historicos in lista_datos_historicos :
        json.dump(datos_historicos, f, indent=4, ensure_ascii=False)

4. Se guarda el tiempo de ejecución de la descarga en un fichero .txt en modo "append"

In [None]:
file_path_time = os.path.join(folder_name, f"tiempo_ejecucion.txt")
with open(file_path_time, "a", encoding="utf-8") as f:
    f.write(f"Tiempo de ejecución: {hours}h {minutes}m {seconds:.0f}s a fecha de {ahora}\n")

## 1.3 Se concluye que la fecha más antigua de los datos descargados es el 01/01/1920

In [7]:
fecha_ini = "1919-08-31T20:00:00UTC"
fecha_fin = "1920-01-01T20:00:00UTC"
estacion_id = "3195"  # Ejemplo de estación meteorológica de Madrid-Retiro

url = f"https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{fecha_ini}/fechafin/{fecha_fin}/estacion/{estacion_id}?api_key={API_KEY}"

response = requests.get(url)
if response.status_code == 200:
    data = response.json()
    print(json.dumps(data, indent=4, ensure_ascii=False))
    datos_url = data.get("datos")
    if datos_url:
        response_data = requests.get(datos_url)
        if response_data.status_code == 200:
            datos_historicos = response_data.json()
            print(json.dumps(datos_historicos, indent=4, ensure_ascii=False))
        else:
            print("Error al obtener los datos reales")
    else:
        print("No se encontró la URL de datos")
else:
    print("Error en la petición inicial, código de error:", response.status_code)

{
    "descripcion": "exito",
    "estado": 200,
    "datos": "https://opendata.aemet.es/opendata/sh/8cd35436",
    "metadatos": "https://opendata.aemet.es/opendata/sh/b3aa9d28"
}
[
    {
        "fecha": "1920-01-01",
        "indicativo": "3195",
        "nombre": "MADRID, RETIRO",
        "provincia": "MADRID",
        "altitud": "667",
        "tmed": "10,4",
        "prec": "0,0",
        "tmin": "8,8",
        "horatmin": "23:59",
        "tmax": "11,9",
        "horatmax": "10:30",
        "sol": "3,5",
        "presMax": "934,6",
        "horaPresMax": "00",
        "presMin": "925,3",
        "horaPresMin": "15",
        "hrMedia": "72"
    }
]


In [11]:
fecha_min_descargada = min([fecha['fecha'] for fecha in datos_historicos])
print(f"La fecha más antigua que da la API es {fecha_min_descargada}")

La fecha más antigua que da la API es 1920-01-01


# ¿2. Se escribe el código necesario para descargar los datos de la AEMET disponibles en OpenData API de 15 en 15 días sobre todas las estacion meteorológicas?

# ¿2. Unir dataset actual a los EFMA y SINOBAS?