In [2]:
# Importo las librerías necesarias
import pandas as pd
import numpy as np
import requests
import http.client
from datetime import datetime, timedelta
import ssl
import json
import time
import matplotlib.pyplot as plt
import zipfile
import zlib

## 1-Extracción de datos

In [2]:
# Defino la URL base y los encabezados de la petición
base_url = 'https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{}/fechafin/{}/todasestaciones'
headers = {
    'accept': 'application/json',
    'api_key': 'eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJkYWxlZG9ndUBnbWFpbC5jb20iLCJqdGkiOiJkZGUwNTdiOC0zNzFhLTRkZDktYjUxOC1kNTVmM2RjZjkwYTYiLCJpc3MiOiJBRU1FVCIsImlhdCI6MTcwMTE4MTI5NCwidXNlcklkIjoiZGRlMDU3YjgtMzcxYS00ZGQ5LWI1MTgtZDU1ZjNkY2Y5MGE2Iiwicm9sZSI6IiJ9.QJn-MC0QM108vEdzEx13iYWTp4CxReytcOiED8R0q10'
}

# Defino las fechas de inicio y fin en fecha de Python
start_date = datetime(1973, 1, 1)
end_date = datetime(2023, 1, 1)

# Inicializo una lista para almacenar los datos
data = []

while start_date < end_date:
    # Calculo la fecha agregando un período de 31 días a la fecha inicial
    request_end_date = start_date + timedelta(days=31)

    # Me aseguro de que "request_end_date" no exceda "end_date"
    if request_end_date > end_date:
        request_end_date = end_date

    # Formateo las fechas como strings en el formato requerido por la API
    start_date_str = start_date.strftime('%Y-%m-%dT%H:%M:%SUTC')
    end_date_str = request_end_date.strftime('%Y-%m-%dT%H:%M:%SUTC')

    # Construyo la URL de la solicitud
    url = base_url.format(start_date_str, end_date_str)

    try:
        # Petición GET a la API
        response = requests.get(url, headers=headers)

        # Compruebo si la petición fue exitosa
        if response.status_code == 200:
            # La API devuelve una URL en la respuesta que debes seguir para obtener los datos
            data_url = response.json()['datos']

            # Hago una segunda petición GET a la URL de los datos
            data_response = requests.get(data_url)

            # Compruebo si la segunda petición fue exitosa
            if data_response.status_code == 200:
                # Añado los datos a la lista
                data.extend(data_response.json())
            else:
                print(f'Error when accessing data URL: {data_response.status_code}')
        else:
            print(f'Error: {response.status_code}')
    except requests.exceptions.RequestException as e:
        print(f'Exception when making GET request: {e}')

    # Incremento la fecha de inicio para la próxima iteración
    start_date = request_end_date

    # Introduzco una pausa de 1 segundo entre cada solicitud para evitar el error 429
    time.sleep(5)

Error: 429


In [3]:
# Convierto la lista de diccionarios extraída en un dataframe llamado clima
clima = pd.DataFrame(data)

In [22]:
# Guardar el DataFrame en un archivo CSV
clima.to_csv('../datasets/clima.csv', index=False)

In [11]:
# Para cargar el CSV
clima = pd.read_csv('../datasets/clima.csv')

## 2-Exploración

In [8]:
# Visualizo las cinco primeras filas
clima.head()

Unnamed: 0,fecha,indicativo,nombre,provincia,altitud,tmed,prec,tmin,tmax,velmedia,sol,presMax,horaPresMax,presMin,horaPresMin,horatmin,horatmax,dir,racha,horaracha
0,1973-01-01,C249I,FUERTEVENTURA AEROPUERTO,LAS PALMAS,25,138,0,90,185,17,104,10198,13,10168,6,,,,,
1,1973-01-01,2462,PUERTO DE NAVACERRADA,MADRID,1893,-23,0,-52,6,3,66,8154,24,8109,5,00:00,13:30,,,
2,1973-01-01,1387E,A CORUÑA AEROPUERTO,A CORUÑA,98,50,0,-20,120,31,82,10132,11,10108,5,02:30,14:30,14.0,72.0,05:30
3,1973-01-01,1212E,ASTURIAS AEROPUERTO,ASTURIAS,127,60,0,20,100,11,73,10107,24,10082,1,07:00,15:00,18.0,31.0,01:00
4,1973-01-01,0016A,REUS AEROPUERTO,TARRAGONA,71,87,0,40,134,36,13,10148,24,10094,1,06:20,11:00,36.0,69.0,00:40


In [13]:
# Dimensiones de la tabla
clima.shape

(3187269, 20)

In [20]:
# Recuento de los nulos por columna
clima.isnull().sum()

Unnamed: 0           0
fecha                0
indicativo           0
nombre               0
provincia            0
altitud              0
tmed            140816
prec            106778
tmin            138745
tmax            138843
velmedia        308730
sol            1371290
presMax         942730
horaPresMax     942896
presMin         945525
horaPresMin     945901
horatmin        283610
horatmax        281132
dir             465873
racha           466016
horaracha       467690
dtype: int64

In [14]:
# Tipo de datos de cada columna
clima.dtypes

fecha        datetime64[ns]
provincia            object
altitud               int64
tmed                 object
prec                 object
tmin                 object
tmax                 object
dtype: object

## 3.1-Transformación del dataframe

In [12]:
# Creo un dataframe solo con las columnas que me interesan
reg_clima = clima.drop(['indicativo', 'nombre', 'velmedia', 'sol', 'presMax', 'horaPresMax', 'presMin', 'horaPresMin', 'horatmin', 'horatmax', 'dir', 'racha', 'horaracha'], axis=1)

In [13]:
# Transformo los valores de la columna fecha a Python datetime
reg_clima['fecha'] = pd.to_datetime(reg_clima['fecha'])

In [14]:
# Elimino los valores del 2023 pues el año aún no ha terminado y por lo tanto no tengo todos los datos
reg_clima.drop(reg_clima[reg_clima['fecha'].dt.year == 2023].index, inplace=True)

In [15]:
# Sustituyo por puntos las comas de los valores de las columnas antes de convertirlos a numéricos
reg_clima['tmed'].replace(',', '.', regex=True, inplace=True)
reg_clima['prec'].replace(',', '.', regex=True, inplace=True)
reg_clima['tmin'].replace(',', '.', regex=True, inplace=True)
reg_clima['tmax'].replace(',', '.', regex=True, inplace=True)

In [16]:
# Convierto a numéricas las columnas 'tmed', 'prec', 'tmin' y 'tmax'
reg_clima['tmed'] = pd.to_numeric(reg_clima['tmed'], errors='coerce')
reg_clima['prec'] = pd.to_numeric(reg_clima['prec'], errors='coerce')
reg_clima['tmin'] = pd.to_numeric(reg_clima['tmin'], errors='coerce')
reg_clima['tmax'] = pd.to_numeric(reg_clima['tmax'], errors='coerce')

In [17]:
# Compruebo la cantidad de nulos que hay por columna
reg_clima.isnull().sum()

fecha             0
provincia         0
altitud           0
tmed         140808
prec         195424
tmin         138737
tmax         138835
dtype: int64

In [18]:
# Reemplazo los valores nulos con la media de los valores de su columna
reg_clima.fillna(reg_clima.mean(numeric_only=True), inplace=True)

In [19]:
# Redondeo los valores de tipo float a 2 decimales
reg_clima = reg_clima.round(2)

In [20]:
# Guardo el df en un archivo CSV
reg_clima.to_csv('../datasets/reg_clima.csv', index=False)

In [7]:
# Para cargar el CSV
reg_clima = pd.read_csv('../datasets/reg_clima.csv')

## 3.2-Selección y transformación de los datos

In [41]:
'''# Creo una función que asigna una estación a cada rango de fechas
def asignar_estacion(fecha):
    if 3 <= fecha.month <= 5:
        return 'Primavera'
    elif 6 <= fecha.month <= 8:
        return 'Verano'
    elif 9 <= fecha.month <= 11:
        return 'Otoño'
    else:
        return 'Invierno'
# creo una columna llamada estacion que asigna el nombre de la estación a partir del valor devuelto por la función
reg_clima['estacion'] = reg_clima['fecha'].apply(asignar_estacion)'''

"# Creo una función que asigna una estación a cada rango de fechas\ndef asignar_estacion(fecha):\n    if 3 <= fecha.month <= 5:\n        return 'Primavera'\n    elif 6 <= fecha.month <= 8:\n        return 'Verano'\n    elif 9 <= fecha.month <= 11:\n        return 'Otoño'\n    else:\n        return 'Invierno'\n# creo una columna llamada estacion que asigna el nombre de la estación a partir del valor devuelto por la función\nreg_clima['estacion'] = reg_clima['fecha'].apply(asignar_estacion)"

In [47]:
reg_clima.head(200)

Unnamed: 0,fecha,provincia,altitud,tmed,prec,tmin,tmax
0,1973-01-01,LAS PALMAS,25,13.8,0.0,9.0,18.5
1,1973-01-01,MADRID,1893,-2.3,0.0,-5.2,0.6
2,1973-01-01,A CORUÑA,98,5.0,0.0,-2.0,12.0
3,1973-01-01,ASTURIAS,127,6.0,0.0,2.0,10.0
4,1973-01-01,TARRAGONA,71,8.7,0.0,4.0,13.4
...,...,...,...,...,...,...,...
195,1973-01-03,A CORUÑA,98,4.2,0.0,-4.5,13.0
196,1973-01-03,ASTURIAS,127,6.6,0.0,1.5,11.7
197,1973-01-03,TARRAGONA,71,6.7,0.0,0.0,13.4
198,1973-01-03,STA. CRUZ DE TENERIFE,632,10.7,0.0,7.2,14.2


In [29]:
reg_clima.shape

(3187031, 7)

In [30]:
reg_clima.columns

Index(['fecha', 'provincia', 'altitud', 'tmed', 'prec', 'tmin', 'tmax'], dtype='object')

In [31]:
reg_clima.dtypes

fecha        datetime64[ns]
provincia            object
altitud               int64
tmed                float64
prec                float64
tmin                float64
tmax                float64
dtype: object

In [32]:
#Convierto a datetime la columna fecha
reg_clima['fecha'] = pd.to_datetime(reg_clima['fecha'])

In [39]:
#Creo y guardo un df con los registros climatológicos medios anuales de toda españa
media_anual_espana = reg_clima.resample('Y', on='fecha').mean(numeric_only=True).reset_index()
media_anual_espana = media_anual_espana.drop('altitud', axis=1)
columnas_a_redondear = ['tmed', 'prec', 'tmin', 'tmax']
media_anual_espana[columnas_a_redondear] = media_anual_espana[columnas_a_redondear].round(2)
media_anual_espana.to_csv('../datasets/media_anual_espana.csv', index=False)

In [40]:
media_anual_espana

Unnamed: 0,fecha,tmed,prec,tmin,tmax
0,1973-12-31,14.33,1.54,9.07,19.58
1,1974-12-31,14.33,1.7,9.22,19.42
2,1975-12-31,14.41,1.76,9.38,19.43
3,1976-12-31,14.32,1.86,9.25,19.39
4,1977-12-31,14.41,2.04,9.55,19.25
5,1978-12-31,14.52,1.83,9.44,19.56
6,1979-12-31,14.64,2.16,9.72,19.53
7,1980-12-31,14.5,1.6,9.29,19.67
8,1981-12-31,14.62,1.57,9.38,19.84
9,1982-12-31,15.2,1.72,10.19,20.21


In [52]:
#Creo y guardo un dataframe con los datos anuales medios de las provincias de clima continental
provincias = ['MADRID', 'ZARAGOZA', 'TOLEDO', 'NAVARRA', 'BURGOS', 'AVILA', 'PALENCIA', 'CIUDAD REAL', 'BADAJOZ', 'CACERES', 'OURENSE', 'ARABA/ALAVA', 'HUESCA', 'LA RIOJA', 'VALLADOLID', 'ALBACETE', 'LEON', 'LLEIDA', 'GUADALAJARA', 'TERUEL', 'SALAMANCA', 'ZAMORA', 'SORIA', 'SEGOVIA', 'CUENCA']
continental = reg_clima[reg_clima['provincia'].isin(provincias)]
continental = continental.resample('Y', on='fecha').mean(numeric_only=True).reset_index()
continental.drop('altitud', axis=1, inplace=True)
columnas_a_redondear = ['tmed', 'prec', 'tmin', 'tmax']
continental[columnas_a_redondear] = continental[columnas_a_redondear].round(2)
continental.to_csv('../datasets/continental.csv', index=False)

In [3]:
#Cargar el dataframe continental.csv
continental = pd.read_csv('../datasets/continental.csv')

In [53]:
#Creo un dataframe con los datos anuales de las provincias de clima mediterráneo
provincias = ['TARRAGONA', 'GIRONA', 'CADIZ', 'GRANADA', 'ALMERIA', 'MELILLA', 'HUELVA', 'VALENCIA', 'MURCIA', 'JAEN', 'CASTELLON', 'MALAGA', 'ILLES BALEARS', 'CORDOBA', 'SEVILLA', 'BARCELONA', 'CEUTA', 'ALICANTE']
mediterraneo = reg_clima[reg_clima['provincia'].isin(provincias)]
mediterraneo = mediterraneo.resample('Y', on='fecha').mean(numeric_only=True).reset_index()
mediterraneo.drop('altitud', axis=1, inplace=True)
columnas_a_redondear = ['tmed', 'prec', 'tmin', 'tmax']
mediterraneo[columnas_a_redondear] = mediterraneo[columnas_a_redondear].round(2)
mediterraneo.to_csv('../datasets/mediterraneo.csv', index=False)

In [4]:
#Cargar el dataframe mediterraneo.csv
mediterraneo = pd.read_csv('../datasets/mediterraneo.csv')

In [54]:
#Creo un dataframe con los datos anuales de las provincias de clima oceánico
provincias = ['A CORUÑA', 'ASTURIAS', 'PONTEVEDRA', 'GIPUZKOA', 'CANTABRIA', 'BIZKAIA', 'LUGO']
oceanico = reg_clima[reg_clima['provincia'].isin(provincias)]
oceanico = oceanico.resample('Y', on='fecha').mean(numeric_only=True).reset_index()
oceanico.drop('altitud', axis=1, inplace=True)
columnas_a_redondear = ['tmed', 'prec', 'tmin', 'tmax']
oceanico[columnas_a_redondear] = oceanico[columnas_a_redondear].round(2)
oceanico.to_csv('../datasets/oceanico.csv', index=False)

In [5]:
#Cargar el dataframe oceanico.csv
oceanico = pd.read_csv('../datasets/oceanico.csv')

In [56]:
montana = reg_clima[reg_clima['altitud'] > 1500]

In [57]:
montana = montana.resample('Y', on='fecha').mean(numeric_only=True).reset_index()
montana.drop('altitud', axis=1, inplace=True)
columnas_a_redondear = ['tmed', 'prec', 'tmin', 'tmax']
montana[columnas_a_redondear] = montana[columnas_a_redondear].round(2)
montana.to_csv('../datasets/montana.csv', index=False)

In [24]:
#Cargar el dataframe montana.csv
montana = pd.read_csv('../datasets/montana.csv')

In [61]:
montana

Unnamed: 0,fecha,tmed,prec,tmin,tmax
0,1973-12-31,7.32,2.22,3.15,11.49
1,1974-12-31,6.82,2.51,2.81,10.83
2,1975-12-31,6.9,2.78,3.04,10.76
3,1976-12-31,6.39,3.42,2.63,10.15
4,1977-12-31,6.74,3.28,2.95,10.52
5,1978-12-31,7.85,3.19,3.71,11.99
6,1979-12-31,7.05,4.24,3.15,10.93
7,1980-12-31,6.68,2.76,2.6,10.77
8,1981-12-31,6.84,2.92,2.74,10.95
9,1982-12-31,7.2,2.26,3.53,10.85
