# Obtención de datos meteorológicos con la API de la AEMET

Constará de varias funciones para obtener los datos históricos a partir del 22 de junio de la API (en la zona de Cangas de Onís como municipio), y luego las previsiones para los siguientes días (en la zona de montaña de los Picos de Europa). Se construirán algunos dataframe con los que podremos construir un CSV y exportarlo. 

> NOTA: Es necesario proporcionar una API KEY para acceder a la AEMET.

Primero, vamos a agregar la ruta del directorio `keys` del proyecto al PATH de Python.

In [9]:
import sys
import os

In [10]:
# Ruta absoluta del directorio "keys"
base_dir = os.path.dirname(os.path.abspath(os.getcwd()))
ruta_keys = os.path.join(base_dir, "keys")

# Validación de que el directorio existe
if not os.path.isdir(ruta_keys):
    raise FileNotFoundError(f"El directorio 'keys' no existe en: {ruta_keys}")

# Validación de que el archivo existe
ruta_api_key = os.path.join(ruta_keys, "api_key.py")
if not os.path.isfile(ruta_api_key):
    raise FileNotFoundError(f"El archivo api_key.py no existe en: {ruta_keys}")

# Añadir el directorio al PATH
if ruta_keys not in sys.path:
    sys.path.append(ruta_keys)

In [11]:
# Paquetes
try:
    from api_key import api_key
except ImportError as e:
    raise ImportError(f"No se pudo importar api_key. Error: {str(e)}")

import requests
import json
import pandas as pd
from datetime import datetime, timedelta, timezone
import time

## Definición de constantes

In [12]:
querystring = {"api_key": api_key}
headers = {
	'cache-control': "no-cache"
}

ID_MUNICIPIO = '33012'  # Cangas de Onís
ZONA = 'peu1'  # Zona montañosa Picos de Europa
IDEMA = "1178R"  # Sotres
IDEMA2 = "1176"  # Cangas de Onís
IDEMA3 = "1175X"  # Bulnes
hoy = datetime.now(timezone.utc)

fecha_inicio = "2025-06-22T00:00:00UTC"
fecha_fin = "2025-06-29T00:00:00UTC"

fecha_inicio2 = "2025-07-01T00:00:00UTC"
fecha_fin2 = (hoy - timedelta(days=4)).strftime("%Y-%m-%dT00:00:00UTC")

## Obtención de valores climatológicos pasados

Esta función usa el endpoint de la AEMET para obtener los valores climatológicos por días observados en una determinada estación, dentro de un rango de días especificado. Devuelve el dataframe con las columnas de interés.

In [13]:
def consulta_historicos(inicio: str, fin: str, estacion:str=IDEMA) -> pd.DataFrame | None:
	url = f"https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{inicio}/fechafin/{fin}/estacion/{estacion}"

	# Si la información está ya almacenada, la leemos de un fichero
	if os.path.exists(os.path.join(base_dir, "data", "raw", f"datos_aemet_historicos_{inicio}_{fin}.json")):
		with open(os.path.join(base_dir, "data", "raw", f"datos_aemet_historicos_{inicio}_{fin}.json")) as f:
			prediccion = json.load(f)
	else:
		# Si no, hacemos la petición y guardamos la información devuelta
		response = requests.request("GET", url, headers=headers, params=querystring)

		if response.status_code == 200:

			# Descarga de los datos reales
			datos = response.json()
			url_datos = datos["datos"]
			# print(url_datos)
			response_datos = requests.request("GET", url_datos, headers=headers)

			if response_datos.status_code == 200:
				prediccion = response_datos.json()

				# Almacenar la información devuelta en un fichero
				with open(os.path.join(base_dir, "data", "raw", f"datos_aemet_historicos_{inicio}_{fin}.json"), "w") as f:
					json.dump(prediccion, f)

	if prediccion:
		# Convertir a dataframe y poner la fecha en el índice
		df = pd.DataFrame(prediccion)
		if "fecha" in df.columns:
			df["fecha"] = pd.to_datetime(df["fecha"])

		# Eliminar columnas que no nos interesan
		df_nuevo = df.drop(columns=["indicativo", "nombre", "provincia", "altitud", "horatmin", "horatmax", "tmed", "horaracha", "horaPresMax", "horaPresMin", "horaHrMax", "horaHrMin"])
		
		return df_nuevo

In [14]:
# Cambio en la configuración de pandas para mostrar el dataframe
pd.set_option('display.max_columns', None)      # Muestra todas las columnas
pd.set_option('display.width', None)            # Usa el ancho completo del terminal o Jupyter
pd.set_option('display.expand_frame_repr', False)  # Evita que pandas divida líneas

df_pasado = consulta_historicos(fecha_inicio, fecha_fin)
time.sleep(2)
df_pasado2 = consulta_historicos(fecha_inicio2, fecha_fin2)

# Concatenar ambos dataframes
df_pasado_completo = pd.concat([df_pasado, df_pasado2], ignore_index=True)
print(df_pasado_completo)

        fecha  prec  tmin  tmax dir velmedia racha presMax presMin hrMedia hrMax hrMin
0  2025-06-22   0,0  11,9  20,4  15      1,4   7,2   884,2   881,9      99   100    61
1  2025-06-23   2,0  11,7  25,0  24      2,5  16,1   884,0   882,2      64   100    40
2  2025-06-24  23,8  13,7  26,6  23      5,6  21,7   884,7   878,7      54    94    34
3  2025-06-25   2,0  11,5  19,9  12      3,6  14,7   882,5   875,5      86   100    50
4  2025-06-26   0,0  11,4  18,2  07      1,4   6,1   886,9   882,5      95   100    80
5  2025-06-27   0,0  14,8  23,5  06      2,5   7,5   889,2   886,2      58    88    51
6  2025-06-28   0,0  16,7  26,7  06      2,8   6,7   889,0   887,9      56    90    46
7  2025-06-29   6,0  14,6  28,9  26      1,4  22,2   888,0   884,5      43    85    28
8  2025-07-01   0,4  14,4  29,1  10      2,2   6,9   882,9   880,4      61   100    30
9  2025-07-02   5,8  11,4  16,0  08      3,3  10,0   885,9   879,9     100   100    94
10 2025-07-03  30,6  11,0  17,0  10      3,

Una vez tenemos estos datos, vamos a completarlos con la información obtenida en la observación directa y en las previsiones de esos días. Esto tendrá que hacerse manualmente. 
 
> NOTA: Si se quiere usar este programa para otros fines y se buscan otros datos u otras fechas, habrá que rellenar manualmente estas columnas o dejarlas vacías con comillas. La AEMET no almacena un histórico con estos datos, por lo que si el usuario no los ha guardado, no hay manera de acceder a ellos.

In [15]:
if df_pasado_completo is not None:
	# low/high/mid
	df_pasado_completo["altonubes"] = ["low", "", "mid", "", "low", "mid", "mid", "mid", "low", "low", "low", "low", "low", "low", "low", "low"]      

	# abundante/escasa/media
	df_pasado_completo["nubosidad"] = ["abundante", "","escasa", "abundante", "escasa", "escasa", "media", "escasa", "abundante", "abundante", "abundante", "abundante", "abundante", "abundante", "abundante", "escasa"] 

	# chubascos/posible/no
	df_pasado_completo["lluvia"] = ["posible", "", "chubascos", "chubascos", "no", "no", "no", "posible", "posible", "posible", "posible", "posible", "posible", "posible", "no", "no"]

	# flojo/moderado/fuerte
	df_pasado_completo["viento"] = ["moderado", "", "fuerte", "moderado", "flojo", "flojo", "flojo", "moderado", "moderado", "moderado", "moderado", "moderado", "flojo", "moderado", "moderado", "flojo"]

	# SI/NO  (en base a las imágenes finales)
	df_pasado_completo["SUBIR"] = ["NO", "NO", "SI", "SI", "NO", "SI", "SI", "SI", "NO", "NO", "NO", "NO", "NO", "NO", "NO", "SI"]  

	print(df_pasado_completo)

        fecha  prec  tmin  tmax dir velmedia racha presMax presMin hrMedia hrMax hrMin altonubes  nubosidad     lluvia    viento SUBIR
0  2025-06-22   0,0  11,9  20,4  15      1,4   7,2   884,2   881,9      99   100    61       low  abundante    posible  moderado    NO
1  2025-06-23   2,0  11,7  25,0  24      2,5  16,1   884,0   882,2      64   100    40                                              NO
2  2025-06-24  23,8  13,7  26,6  23      5,6  21,7   884,7   878,7      54    94    34       mid     escasa  chubascos    fuerte    SI
3  2025-06-25   2,0  11,5  19,9  12      3,6  14,7   882,5   875,5      86   100    50            abundante  chubascos  moderado    SI
4  2025-06-26   0,0  11,4  18,2  07      1,4   6,1   886,9   882,5      95   100    80       low     escasa         no     flojo    NO
5  2025-06-27   0,0  14,8  23,5  06      2,5   7,5   889,2   886,2      58    88    51       mid     escasa         no     flojo    SI
6  2025-06-28   0,0  16,7  26,7  06      2,8   6,7   88

Una vez tenemos el dataframe completo, vamos a establecer como índice la fecha.

In [16]:
df_pasado_completo.set_index(df_pasado_completo.fecha, inplace=True)
df_pasado_final = df_pasado_completo.drop("fecha", axis=1)
df_pasado_final

Unnamed: 0_level_0,prec,tmin,tmax,dir,velmedia,racha,presMax,presMin,hrMedia,hrMax,hrMin,altonubes,nubosidad,lluvia,viento,SUBIR
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2025-06-22,0,119,204,15,14,72,8842,8819,99,100,61,low,abundante,posible,moderado,NO
2025-06-23,20,117,250,24,25,161,8840,8822,64,100,40,,,,,NO
2025-06-24,238,137,266,23,56,217,8847,8787,54,94,34,mid,escasa,chubascos,fuerte,SI
2025-06-25,20,115,199,12,36,147,8825,8755,86,100,50,,abundante,chubascos,moderado,SI
2025-06-26,0,114,182,7,14,61,8869,8825,95,100,80,low,escasa,no,flojo,NO
2025-06-27,0,148,235,6,25,75,8892,8862,58,88,51,mid,escasa,no,flojo,SI
2025-06-28,0,167,267,6,28,67,8890,8879,56,90,46,mid,media,no,flojo,SI
2025-06-29,60,146,289,26,14,222,8880,8845,43,85,28,mid,escasa,posible,moderado,SI
2025-07-01,4,144,291,10,22,69,8829,8804,61,100,30,low,abundante,posible,moderado,NO
2025-07-02,58,114,160,8,33,100,8859,8799,100,100,94,low,abundante,posible,moderado,NO


Por último, podemos guardar el dataframe construido en un CSV para procesarlo más tarde:

In [17]:
df_pasado_final.to_csv('data.csv', sep=";", encoding="utf-8")

## Obtención de previsiones en zona de montaña

Esta función imprime las previsiones de los próximos 4 días (desde hoy hasta dentro de 3 días). Como se dan de forma textual, esto servirá para crear manualmente el dataframe.

Como la API de la AEMET devuelve la previsión en forma de texto, vamos a intentar imputar el valor de las columnas que nos interesan (`altonubes`, `nubosidad`, `lluvia`, `viento`) procesando la salida textual con un LLM ejecutado en local con Ollama.

> NOTA: Para ejecutar esto, se necesita tener en ejecución el modelo `gemma:2b` de Ollama en el sistema. También se puede emplear otro, indicándolo como parámetro.

### Funciones para procesar un texto con un LLM e imputar valores

Comenzamos tratando de procesar el texto sobre las nubes.

In [18]:
def consulta_ollama_nubes(texto, modelo='gemma:2b'):
    url = "http://localhost:11434/api/generate"
    headers = {"Content-Type": "application/json"}

    prompt = f"""Extrae las siguientes dos variables meteorológicas a partir del siguiente informe de predicción:
- 'altonubes': puede ser 'low', 'medium' o 'high'
- 'nubosidad': puede ser 'abundante', 'media' o 'escasa'

Texto:
\"\"\"{texto}\"\"\"

Respuesta en formato JSON. Asegúrate de respetar siempre tanto los nombres de los campos como los posibles valores.
"""

    data = {
        "model": modelo,
        "prompt": prompt,
        "stream": False  # para que la respuesta venga entera, no en streaming
    }

    response = requests.post(url, headers=headers, data=json.dumps(data))
    if response.status_code == 200:
        return response.json()["response"]
    else:
        raise Exception(f"Error {response.status_code}: {response.text}")


Realizamos una prueba:

In [19]:
print(consulta_ollama_nubes("Intervalos de nubes bajas a primeras horas, y ocasionalmente a últimas, que serán más frecuentes en la vertiente cantábrica, y que localmente podrían reducir la visibilidad. Predominio de cielos poco nubosos o despejados el resto del tiempo"))

{
  "altonubes": "low",
  "nubosidad": "media"
}


Viendo que esta función devuelve el resultado esperado, vamos a adaptarla para imputar los valores de `lluvia` y `viento`:

In [30]:
def consulta_ollama_lluvia(texto, modelo='gemma:2b'):
    url = "http://localhost:11434/api/generate"
    headers = {"Content-Type": "application/json"}

    prompt = f"""Extrae la siguiente variable meteorológicas a partir del siguiente informe de predicción:
- 'lluvia': puede ser 'chubascos', 'posible' o 'no'

Texto:
\"\"\"{texto}\"\"\"

Respuesta en formato JSON. La variable 'lluvia' debe tomar uno de los 3 valores que te especifico. La clave del JSON debe ser la palabra 'lluvia' siempre, y el valor debe ser uno de los tres que pongo, sin excepción.
"""

    data = {
        "model": modelo,
        "prompt": prompt,
        "stream": False  # para que la respuesta venga entera, no en streaming
    }

    response = requests.post(url, headers=headers, data=json.dumps(data))
    if response.status_code == 200:
        return response.json()["response"]
    else:
        raise Exception(f"Error {response.status_code}: {response.text}")
    

def consulta_ollama_viento(texto, modelo='gemma:2b'):
    url = "http://localhost:11434/api/generate"
    headers = {"Content-Type": "application/json"}

    prompt = f"""Extrae la siguiente variable meteorológicas a partir del siguiente informe de predicción:
- 'viento': puede ser 'fuerte', 'moderado' o 'flojo'

Texto:
\"\"\"{texto}\"\"\"

Respuesta en formato JSON. La variable 'viento' debe tomar uno de los 3 valores que te especifico. La clave del JSON debe ser la palabra 'viento' siempre, y el valor debe ser uno de los tres que pongo, sin excepción.
"""

    data = {
        "model": modelo,
        "prompt": prompt,
        "stream": False  # para que la respuesta venga entera, no en streaming
    }

    response = requests.post(url, headers=headers, data=json.dumps(data))
    if response.status_code == 200:
        return response.json()["response"]
    else:
        raise Exception(f"Error {response.status_code}: {response.text}")

Pruebas:

In [31]:
print(consulta_ollama_lluvia("Escasa probabilidad de alguna lluvia débil en la vertiente cantábrica de madrugada"))
print(consulta_ollama_viento("De componente norte, generalmente flojo, girando a oeste en cotas altas y a este en el resto"))

{
  "lluvia": "no"
}
{
  "viento": "flojo"
}


Una vez tenemos ya las funciones para procesar la descripción textual, podemos ya rellenar un JSON propio del estilo de los demás. Este JSON se convertirá luego en otro CSV, que contendrá los datos para los cuales la variable `SUBIR` no toma valor, y se tendrá que predecir con el modelo de ML que construiremos. 

In [36]:
def consulta_mountain(zona=ZONA):
	url = f"https://opendata.aemet.es/opendata/api/prediccion/especifica/montaña/pasada/area/{zona}/dia/"
	list_dict_respuesta = []

	for i in range(4):

		# Inicialización de un diccionario
		list_dict_respuesta.append(dict())

		# Consulta a la AEMET	
		response = requests.request("GET", url+str(i), headers=headers, params=querystring)

		if response.status_code == 200:

			# Descarga de los datos reales
			datos = response.json()
			url_datos = datos["datos"]
			
			response_datos = requests.request("GET", url_datos, headers=headers)

			if response_datos.status_code == 200:
				prediccion = response_datos.json()

				# En base a la respuesta dada, rellenamos un JSON propio
				for diccionario in prediccion[0]["seccion"][0]["apartado"]:
					if diccionario["cabecera"] == "Estado del cielo":
						list_dict_respuesta[i]["altonubes"] = json.loads(consulta_ollama_nubes(diccionario["texto"]))["altonubes"]
						list_dict_respuesta[i]["nubosidad"] = json.loads(consulta_ollama_nubes(diccionario["texto"]))["nubosidad"]
					
					if diccionario["cabecera"] == "Precipitaciones":
						list_dict_respuesta[i]["lluvia"] = json.loads(consulta_ollama_lluvia(diccionario["texto"]))["lluvia"]
					

					if diccionario["cabecera"] == "Viento":
						list_dict_respuesta[i]["viento"] = json.loads(consulta_ollama_viento(diccionario["texto"]))["viento"]
				
				# Almacenar la fecha
				today = datetime.today()
				date = today + timedelta(days=i)
				date_formatted = date.strftime('%Y-%m-%d')
				list_dict_respuesta[i]["fecha"] = date_formatted

	return list_dict_respuesta
			

Ahora, ejecutamos la función para crear el JSON (lista de diccionarios), y lo convertimos a dataframe de pandas. 

In [40]:
json_salida = consulta_mountain()
# Convertir a dataframe y poner la fecha en el índice
df = pd.DataFrame(json_salida)
if "fecha" in df.columns:
	df["fecha"] = pd.to_datetime(df["fecha"])
	df.set_index(df.fecha, inplace=True)
df

JSONDecodeError: Expecting value: line 1 column 1 (char 0)