In [22]:
!pip install requests dotenv



In [23]:
import pandas as pd
import requests
import dotenv
import os
from datetime import datetime, timedelta

In [24]:
# Import API key from .env file
dotenv.load_dotenv()
aemet_api_key = os.getenv('aemet_api_key')

# Define the start and end dates
start_date = datetime(2020, 1, 1)
end_date = datetime(2024, 5, 31)

# Define the chunk size (6 months)
chunk_size = timedelta(days=180)

# Initialize an empty list to store the dataframes
dataframes = []

# Loop through the date range in chunks of 6 months
current_date = start_date
while current_date <= end_date:
    chunk_end_date = min(current_date + chunk_size, end_date)

    # Format the dates as strings
    fechaini = current_date.strftime('%Y-%m-%dT00:00:00UTC')
    fechafin = chunk_end_date.strftime('%Y-%m-%dT00:00:00UTC')

    # Construct the URL
    url = f'https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{fechaini}/fechafin/{fechafin}/estacion/0076'
    querystring = {"api_key": aemet_api_key}
    headers = {
        'cache-control': "no-cache"
    }

    # Make the request
    response = requests.request("GET", url, headers=headers, params=querystring)
    data = response.json()

    # Extract the data URL from the response
    data_url = data['datos']
    metadata_url = data['metadatos']

    # Make a request to the data URL
    data_response = requests.get(data_url)
    metadata_response = requests.get(metadata_url)

    # Parse the JSON data
    data_json = data_response.json()
    metadata_json = metadata_response.json()

    # Convert the JSON data to a pandas DataFrame
    df = pd.DataFrame(data_json)
    metadata_df = pd.DataFrame(metadata_json)

    # Append the dataframe to the list
    dataframes.append(df)

    # Move to the next chunk
    current_date = chunk_end_date + timedelta(days=1)

# Concatenate all dataframes into a single dataframe
final_df = pd.concat(dataframes, ignore_index=True)

# Check the size of the final dataframe
print(final_df.shape)

(1613, 25)


In [25]:
# Show the first 10 rows of the final dataframe
final_df.head(10)

Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,horatmin,tmax,...,sol,presMax,horaPresMax,presMin,horaPresMin,hrMedia,hrMax,horaHrMax,hrMin,horaHrMin
0,2020-01-01,76,BARCELONA AEROPUERTO,BARCELONA,4,92,0,49,05:52,134,...,49,10330,Varias,10304,14,76,87,Varias,61,13:57
1,2020-01-02,76,BARCELONA AEROPUERTO,BARCELONA,4,94,0,41,Varias,147,...,15,10328,Varias,10298,14,76,88,Varias,60,13:40
2,2020-01-03,76,BARCELONA AEROPUERTO,BARCELONA,4,78,0,45,07:30,110,...,16,10318,Varias,10289,4,72,88,Varias,61,12:35
3,2020-01-04,76,BARCELONA AEROPUERTO,BARCELONA,4,94,0,39,06:38,148,...,53,10326,Varias,10289,24,63,80,06:39,49,12:54
4,2020-01-05,76,BARCELONA AEROPUERTO,BARCELONA,4,100,0,49,07:22,151,...,55,10293,Varias,10261,13,65,87,Varias,40,13:57
5,2020-01-06,76,BARCELONA AEROPUERTO,BARCELONA,4,100,0,41,07:14,160,...,54,10304,Varias,10271,14,73,89,Varias,56,11:36
6,2020-01-07,76,BARCELONA AEROPUERTO,BARCELONA,4,100,0,46,07:30,153,...,54,10307,Varias,10273,24,73,87,00:00,52,12:00
7,2020-01-08,76,BARCELONA AEROPUERTO,BARCELONA,4,107,0,47,07:34,167,...,53,10315,Varias,10272,0,74,94,Varias,55,12:41
8,2020-01-09,76,BARCELONA AEROPUERTO,BARCELONA,4,102,49,57,07:52,147,...,55,10299,00,10233,24,81,93,00:30,71,13:45
9,2020-01-10,76,BARCELONA AEROPUERTO,BARCELONA,4,96,162,68,22:25,125,...,0,10286,Varias,10230,4,90,98,Varias,78,15:20


In [26]:
# Description of the fields

for i in range(len(metadata_df['campos'])):
    print(metadata_df['campos'][i]['id'] + ' : ' + metadata_df['campos'][i]['descripcion'])


fecha : fecha del dia (AAAA-MM-DD)
indicativo : indicativo climatológico
nombre : nombre (ubicación) de la estación
provincia : provincia de la estación
altitud : altitud de la estación en m sobre el nivel del mar
tmed : Temperatura media diaria
prec : Precipitación diaria de 07 a 07
tmin : Temperatura Mínima del día
horatmin : Hora y minuto de la temperatura mínima
tmax : Temperatura Máxima del día
horatmax : Hora y minuto de la temperatura máxima
dir : Dirección de la racha máxima
velmedia : Velocidad media del viento
racha : Racha máxima del viento
horaracha : Hora y minuto de la racha máxima
sol : Insolación
presmax : Presión máxima al nivel de referencia de la estación
horapresmax : Hora de la presión máxima (redondeada a la hora entera más próxima)
presmin : Presión mínima al nivel de referencia de la estación
horapresmin : Hora de la presión mínima (redondeada a la hora entera más próxima)
hrmedia : Humedad relativa media diaria
hrmax : Humedad relativa máxima diaria
horahrmax :

The required fields are fecha, tmed, prec, tmin, tmax, hrMedia, hrMax, hrMin, velmedia, sol

Insolacion es radiacion solar directa no ocultada por nubes o niebla

Ip significa precipitación inapreciable, es decir, cantidad inferior a 0.1 mm

In [29]:
useful_df = final_df[['fecha', 'tmed', 'prec', 'tmin', 'tmax', 'hrMedia', 'hrMax', 'hrMin', 'velmedia', 'sol']]
useful_df.head(10)

Unnamed: 0,fecha,tmed,prec,tmin,tmax,hrMedia,hrMax,hrMin,velmedia,sol
0,2020-01-01,92,0,49,134,76,87,61,25,49
1,2020-01-02,94,0,41,147,76,88,60,47,15
2,2020-01-03,78,0,45,110,72,88,61,58,16
3,2020-01-04,94,0,39,148,63,80,49,50,53
4,2020-01-05,100,0,49,151,65,87,40,50,55
5,2020-01-06,100,0,41,160,73,89,56,22,54
6,2020-01-07,100,0,46,153,73,87,52,39,54
7,2020-01-08,107,0,47,167,74,94,55,25,53
8,2020-01-09,102,49,57,147,81,93,71,47,55
9,2020-01-10,96,162,68,125,90,98,78,33,0


In [30]:
# Export the dataframe to a CSV file
useful_df.to_csv('weather_data_first_version.csv', index=False)