# LAB1 RNNs : Lucía Chicharro, María Montero y Patricia Ramos


Haremos una **predicción de temperaturas** de **24 horas en el futuro**, dada una **serie temporal** de **medidas de cantidades** (cada hora) coeespondientes a **presión** y **humedad** recogidas en el **pasado reciente** por un conjunto de sensores en lo alto de un edificio.

El dataset se ha obtenido de la estación meteorilógica del Max Plank Institure for Biogeochemistry en Jena, Alemania. [http://www.bgc-jena.mpg.de/wetter](http://www.bgc-jena.mpg.de/wetter)

El dataset se compone de 14 magnitudes, como temperatura, presión, humedad, dirección del viento, etc. grabadas cada 10' durante varios años (2009-2016). Descargamos y descomprimimos el dataset

In [1]:
!wget https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip
!unzip jena_climate_2009_2016.csv.zip

--2024-02-27 20:28:53--  https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip
Resolving s3.amazonaws.com (s3.amazonaws.com)... 52.217.111.126, 16.182.103.96, 52.217.121.192, ...
Connecting to s3.amazonaws.com (s3.amazonaws.com)|52.217.111.126|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 13565642 (13M) [application/zip]
Saving to: ‘jena_climate_2009_2016.csv.zip’


2024-02-27 20:28:53 (47.5 MB/s) - ‘jena_climate_2009_2016.csv.zip’ saved [13565642/13565642]

Archive:  jena_climate_2009_2016.csv.zip
  inflating: jena_climate_2009_2016.csv  
  inflating: __MACOSX/._jena_climate_2009_2016.csv  


**Echamos un vistazo al dataset**

In [2]:
import os
fname = os.path.join("jena_climate_2009_2016.csv")

with open(fname) as f:
    data = f.read()

lines = data.split("\n")
header = lines[0].split(",")
lines = lines[1:]
print(header)
print(len(lines))

['"Date Time"', '"p (mbar)"', '"T (degC)"', '"Tpot (K)"', '"Tdew (degC)"', '"rh (%)"', '"VPmax (mbar)"', '"VPact (mbar)"', '"VPdef (mbar)"', '"sh (g/kg)"', '"H2OC (mmol/mol)"', '"rho (g/m**3)"', '"wv (m/s)"', '"max. wv (m/s)"', '"wd (deg)"']
420451


Esto devuelve una cuenta de 420.451 líneas de datos (cada línea es un timestep: un registro de una fecha con 14 valores relativos a las condiciones meteorológicas)

**Parseamos los datos**

In [3]:
import numpy as np
temperature = np.zeros((len(lines),))
raw_data = np.zeros((len(lines), len(header) - 1))
for i, line in enumerate(lines):
    values = [float(x) for x in line.split(",")[1:]]
    # Guardamos columna 1 en el array temperatura
    temperature[i] = values[1]
    # Guardamos todas las columnas (temperatura
    # incluida) en el array raw_data
    raw_data[i, :] = values[:]

Ahora, **convertimos** las 420.551 **líneas de datos** en **arrays NumPy**: **un array para** la **temperatura** (en Celsius), y **otro para el resto de los datos**-las características que usaremos para predecir futuras temperaturas. Notar que **hemos descartado** la columna **"Date Time"**

**Computamos el número de muestras que usaremos para cada lote de datos**

Usaremos el 50% para entrenar, el siguiente 25% para validar y el último 25% para las pruebas.

In [4]:
num_train_samples = int(0.5 * len(raw_data))
num_val_samples = int(0.25 * len(raw_data))
num_test_samples = len(raw_data) - num_train_samples - num_val_samples
print("num_train_samples:", num_train_samples)
print("num_val_samples:", num_val_samples)
print("num_test_samples:", num_test_samples)

num_train_samples: 210225
num_val_samples: 105112
num_test_samples: 105114


### Preparación de los datos

**Normalizando los datos**

Dado que los datos están en escalas diferentes, normalizamos cada serie para que todas tomen valores pequeños en una escala similar.

In [5]:
mean = raw_data[:num_train_samples].mean(axis=0)
raw_data -= mean
std = raw_data[:num_train_samples].std(axis=0)
raw_data /= std

A continuación, **creamos un objeto ``Dataset``** que **produzca lotes** de datos de los **últimos cinco días** **junto con** una **temperatura objetivo** **dentro de las 24 horas siguientes**. Debido a que las **muestras** en el conjunto de datos son **altamente redundantes** (la muestra ``N`` y la muestra ``N + 1`` tendrán la mayoría de sus intervalos de tiempo en común), sería un desperdicio asignar memoria explícitamente para cada muestra. En su lugar, **generaremos las muestras sobre la marcha** y solo mantendremos en la memoria los arrays ``raw_data`` y de ``temperature`` originales, y nada más.

Podríamos escribir fácilmente un generador de Python para hacer esto, pero hay una utilidad incorporada en Keras que hace exactamente eso (**``timeseries_dataset_from_array()``**), por lo que podemos ahorrarnos algo de trabajo al usarlo. Por lo general, se puede usar para cualquier tipo de tarea de pronóstico de series temporales.

Usaremos ``timeseries_dataset_from_array()`` para instanciar tres datasets: uno para **entrenamiento**, otro para **validación** y otro para **prueba**.

Usaremos los siguientes valores de parámetro:

* ``sampling_rate = 6``: las observaciones se muestrearán en un punto de datos por hora: solo mantendremos un punto de datos de 6.
* ``sequence_length = 120``: las observaciones retrocederán 5 días (120 horas).
* ``delay = sampling_rate * (sequence_length + 24 - 1)``: el target de una secuencia será la temperatura 24 horas después del final de la secuencia.

In [6]:
from tensorflow import keras
sampling_rate = 6
sequence_length = 120
delay = sampling_rate * (sequence_length + 24 - 1)
batch_size = 256

train_dataset = keras.utils.timeseries_dataset_from_array(
    raw_data[:-delay],
    targets=temperature[delay:],
    sampling_rate=sampling_rate,
    sequence_length=sequence_length,
    shuffle=True,
    batch_size=batch_size,
    start_index=0,
    end_index=num_train_samples)

val_dataset = keras.utils.timeseries_dataset_from_array(
    raw_data[:-delay],
    targets=temperature[delay:],
    sampling_rate=sampling_rate,
    sequence_length=sequence_length,
    shuffle=True,
    batch_size=batch_size,
    start_index=num_train_samples,
    end_index=num_train_samples + num_val_samples)

test_dataset = keras.utils.timeseries_dataset_from_array(
    raw_data[:-delay],
    targets=temperature[delay:],
    sampling_rate=sampling_rate,
    sequence_length=sequence_length,
    shuffle=True,
    batch_size=batch_size,
    start_index=num_train_samples + num_val_samples)

Dado que el volumen de datos es demasiado grande como para poder trabajar con él sin emplear excesivo tiempo, de los 819 lotes de entrenamiento nos quedaremos con 50. De los lotes de validación con 25 y de los test otros 25.

In [7]:
train_dataset = train_dataset.take(50)
val_dataset = val_dataset.take(25)
test_dataset = test_dataset.take(25)

### Comenzando con un modelo de referencia con sentido común sin usar machine-learning



Esto servirá como línea base que se debe superar para demostrar la utilidad de los modelos de aprendizaje avanzado.

En este caso, **se puede suponer con cierta seguridad que las series de tiempo de temperatura son continuas**, así como **también periódicas con un período diario**. Por lo tanto, **un enfoque de sentido común es predecir siempre que la temperatura dentro de 24 horas será igual a la temperatura en este momento**.

Evaluemos este enfoque, utilizando la **métrica del error absoluto medio (MAE)**, definida de la siguiente manera:

**np.mean(np.abs(preds - targets))**



In [8]:
def evaluate_naive_method(dataset):
    total_abs_err = 0.
    samples_seen = 0
    for samples, targets in dataset:
        # La característica 'temperatura' está en la columna 1,
        # por lo que samples[:, -1, 1] es la última medición de
        # temperatura en la secuencia de entrada. Recordad que
        # normalizamos nuestras características, por lo que para
        # recuperar una temperatura en grados Celsius, debemos
        # desnormalizarla multiplicándola por la desviación
        # estándar y sumando nuevamente la media.
        preds = samples[:, -1, 1] * std[1] + mean[1]
        total_abs_err += np.sum(np.abs(preds - targets))
        samples_seen += samples.shape[0]
    return total_abs_err / samples_seen

print(f"Validation MAE: {evaluate_naive_method(val_dataset):.2f}")
print(f"Test MAE: {evaluate_naive_method(test_dataset):.2f}")

Validation MAE: 2.46
Test MAE: 2.60


Se ha logrado un MAE de validación de 2,46 y de prueba 2,60. Pese a que no es un resultado totalmente adecuado, si lo comparamos con el modelo base que se ha obtenido sin delimitar el conjunto de datos; apenas hay alguna diferencia en las centésimas.

## Modelo a ajustar.

Dado que utilizando parámetros casi aleatorios se obtiene un modelo de capas apiladas con unidades recurrentes cerradas (GRU) que ya supera la línea base, vamos a ver si, modificando algún hiperparámetro, logramos obtener un MAE más bajo.

Como hemos reducido notablemente la cantidad de datos, debemos disminuir el número de épocas para evitar que el modelo se sobreajuste.

Con los hiperparámetros que ya se daban se obtiene:

In [9]:
from tensorflow import keras
from tensorflow.keras import layers

In [10]:


inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(32, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(32, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.54


Se obtiene un MAE de 2,54. Este es el valor que debemos mejorar.

## Aumentamos el número de unidades

Al aumentar el número de unidades, se aumenta la capacidad de apredizaje lo que puede llevar a aprender patrones complejos. Sin embargo, requiere mayor capacidad computacional o puede llevar a un sobreajuste del modelo.

### Aumentamos a 50

In [11]:

inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(50, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(50, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.43


Aumentando a 50 unidades hemos obtenido un MAE de 2,43. Este valor es mucho mejor que el inicial. Sin embargo, debemos comprobar si con menos unidades logramos resultados parecidos con menos coste computacional.

### Aumentamos a 40

In [12]:
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(40, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(40, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.48


Al disminuir el número de unidades ha aumentado el MAE por lo que 50 es el número óptimo de aumento.

## Disminuimos el número de unidades

Pese a que al aumentar se han obtenido mejores resultados, es necesario comprobar si con menos unidades los resultados mejoran o empeoran.



### Disminuimos a 16

In [13]:

inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(16, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(16, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.77


Al disminuir tanto las unidades, no se tienen suficientes como para realizar un proceso de aprendizaje adecuado. Por tanto, vamos a probar a no bajar demasiado ese número.

### Disminuimos a 25

In [14]:
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(25, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(25, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.55


Al obtener 2,55 de MAE podemos concluir que, aumentar el número de unidades, es más beneficioso para la predicción que disminuirlo.

## Modificamos el dropout

Otro hiperparámetro que podemos modificar es el dropout. Esto consiste en poner a cero las unidades de entrada de una capa de manera que se evite el sobreentrenamiento.
Normalmente el dropout no suele superar el 0.5. Además, en este caso al no contar con muchos datos poner más de la mitad de las entradas a cero seguro repercute negativamente en el resultado.

Por tanto, probaremos un dropout de 0,3.

In [16]:
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(50, recurrent_dropout=0.3, return_sequences=True)(inputs)
x = layers.GRU(50, recurrent_dropout=0.3)(x)
x = layers.Dropout(0.3)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.45


El hecho de que no haya mejorado sustancialmente, quizás se puede explicar debido a que el posible sobreajuste que se puede provocar aumentando las unidades se contrasta con un dropout más alto. Por tanto, si considerásemos mejor opción menos unidades, se debería reducir el dropout y comprobar los resultados.

## Modificamos el learning_rate

Esta tasa indica cada cuánto se ajustan los pesos y se minimiza la pérdida. Si es demasiado pequeña puede quedarse en un mínimo local, mientras que si es demasiado grande nunca llegará al mínimo.

In [17]:
learning_rate = 0.001

optimizer = keras.optimizers.RMSprop(learning_rate=learning_rate)

inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(50, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(50, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]

model.compile(optimizer=optimizer, loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.47


Con respecto a la configuración que hemos determinado como última referencia, no supone mejora en el MAE.

Aumentemos este valor.

In [18]:
learning_rate = 0.01

optimizer = keras.optimizers.RMSprop(learning_rate=learning_rate)

inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(50, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(50, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]

model.compile(optimizer=optimizer, loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.58


Como conclusión, se puede suponer que para este caso concreto un learning rate más pequeño favorece el aprendizaje del modelo.

Finalmente cambiaremos al optimizador Adam.

In [19]:
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(50, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(50, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="Adam", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.52


Cambiando el optimizador no se consigue mejorar el MAE.

## Capas Dense

In [21]:
inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.GRU(50, recurrent_dropout=0.5, return_sequences=True)(inputs)
x = layers.GRU(50, recurrent_dropout=0.5)(x)
x = layers.Dropout(0.5)(x)
x = layers.Dense (32)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_stacked_gru_dropout.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=20,
                    validation_data=val_dataset,
                    callbacks=callbacks)
model = keras.models.load_model("jena_stacked_gru_dropout.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test MAE: 2.42


Al añadir una capa Dense intermedia permitimos al modelo aprender patrones más específicos y conocer información extra que con respecto a las RNN. Como resultado, se obtiene el mejor MAE.