# Laporan Analisis Bab 15: Processing Sequences Using Recurrent Neural Networks and Attention (Memproses Urutan Menggunakan Jaringan Saraf Berulang dan Atensi)

**Judul Bab:** Processing Sequences Using Recurrent Neural Networks and Attention
**Penulis:** Aurélien Géron
**Sumber:** Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition (O'Reilly)

### 1. Pendahuluan

Bab 15 ini membahas Jaringan Saraf Tiruan (JST) yang dirancang khusus untuk memproses data sekuensial atau urutan, seperti teks, suara, video, atau deret waktu. **Recurrent Neural Networks (RNNs)** adalah jenis JST yang memiliki "memori" internal yang memungkinkan mereka mempertahankan informasi dari langkah waktu sebelumnya, menjadikannya sangat cocok untuk tugas-tugas yang melibatkan dependensi temporal. Bab ini juga akan memperkenalkan mekanisme **Attention**, sebuah inovasi kunci yang membantu RNN (dan kemudian Transformer) mengatasi keterbatasan tertentu.

Aplikasi utama RNN:
* Pengenalan Suara
* Penerjemahan Mesin
* Analisis Sentimen
* Prediksi Deret Waktu
* Generasi Teks/Musik

### 2. Memproses Urutan Menggunakan RNN (Processing Sequences Using RNNs)

RNN adalah jaringan yang memiliki koneksi yang berulang, memungkinkan informasi mengalir dari satu langkah waktu ke langkah waktu berikutnya.

#### a. Arsitektur Memori (Memory Cells)
* Setiap neuron dalam lapisan RNN menerima input dari lapisan sebelumnya *dan* output dari dirinya sendiri dari langkah waktu sebelumnya (atau dari neuron lain di lapisan yang sama).
* Output dari neuron RNN pada langkah waktu $t$ tidak hanya bergantung pada input pada $t$, tetapi juga pada state tersembunyi (*hidden state*) dari langkah waktu $t-1$. State tersembunyi ini bertindak sebagai "memori" jaringan.
* Sifat rekuren ini memungkinkan jaringan mengingat konteks dari input sebelumnya.

#### b. Input dan Output Urutan (Sequence Input and Output)
RNN dapat dikonfigurasi untuk berbagai tugas:
* **Sequence-to-Sequence (Encoder-Decoder):** Input adalah urutan, output juga urutan (misalnya, penerjemahan mesin).
* **Sequence-to-Vector:** Input adalah urutan, output adalah vektor tunggal (misalnya, klasifikasi sentimen).
* **Vector-to-Sequence:** Input adalah vektor tunggal, output adalah urutan (misalnya, pembuatan teks dari genre).

#### c. Recurrent Layer Sederhana (A Simple Recurrent Layer)
Struktur dasar dari satu sel RNN sederhana ditunjukkan.
Pada langkah waktu $t$, output state tersembunyi $h_t$ dihitung sebagai:
$h_t = f(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$
di mana $f$ adalah fungsi aktivasi, $W$ adalah matriks bobot, $x_t$ adalah input pada langkah $t$, $h_{t-1}$ adalah state tersembunyi dari langkah $t-1$, dan $b$ adalah bias.

Keras menyediakan lapisan `keras.layers.SimpleRNN` untuk implementasi dasar RNN.

#### d. RNNs untuk Prediksi Deret Waktu (RNNs for Time Series Forecasting)
Contoh penggunaan RNN untuk memprediksi nilai berikutnya dalam deret waktu ditunjukkan. Data deret waktu seringkali berupa data univariat (satu fitur) atau multivariat.

#### e. Training RNNs (Melatih RNN)
Pelatihan RNN biasanya dilakukan menggunakan **Backpropagation Through Time (BPTT)**. Ini mirip dengan *backpropagation* biasa, tetapi diterapkan pada jaringan yang "tidak digulung" (*unrolled*) sepanjang sumbu waktu.
* Masalah *vanishing/exploding gradients* lebih parah di RNN karena efeknya terakumulasi sepanjang waktu.
* *Gradient clipping* adalah teknik penting untuk mengatasi *exploding gradients* di RNN.

### 3. Mengatasi Vanishing Gradients (Tackling the Vanishing Gradients Problem)

Masalah *vanishing gradients* sangat signifikan di RNN karena informasi dari langkah waktu yang jauh cenderung "luntur" seiring berjalannya waktu. Beberapa jenis *memory cell* yang lebih kompleks telah dikembangkan untuk mengatasi ini:

#### a. Long Short-Term Memory (LSTM) Cells (Sel Long Short-Term Memory)
* LSTM adalah jenis *memory cell* yang paling populer dan efektif.
* Ini menambahkan "jalur memori" (*memory path*) yang memungkinkan informasi mengalir tanpa banyak perubahan, sehingga informasi penting dari masa lalu dapat dipertahankan untuk jangka waktu yang lebih lama.
* LSTM memiliki beberapa "gerbang" (gates) yang dikontrol secara adaptif:
    * **Forget Gate:** Mengontrol berapa banyak informasi dari state memori sebelumnya yang harus dilupakan.
    * **Input Gate:** Mengontrol berapa banyak input saat ini yang harus disimpan dalam state memori.
    * **Output Gate:** Mengontrol berapa banyak state memori yang harus dibuka ke output.
* `keras.layers.LSTM` adalah lapisan Keras untuk LSTM.

#### b. Gated Recurrent Unit (GRU) Cells (Sel Gated Recurrent Unit)
* GRU adalah versi yang sedikit disederhanakan dari LSTM, menggabungkan *forget gate* dan *input gate* menjadi satu "update gate", dan menggabungkan *hidden state* dengan *memory state*.
* GRU biasanya berkinerja serupa dengan LSTM tetapi lebih cepat dihitung dan membutuhkan lebih sedikit parameter.
* `keras.layers.GRU` adalah lapisan Keras untuk GRU.

#### c. Sel dan Lapisan Kustom (Custom Cells and Layers)
Keras memungkinkan Anda membuat *memory cell* kustom dengan mewarisi dari `keras.layers.Layer` dan mengimplementasikan logika *recurrent* di metode `call()`.

#### d. RNN Lapisan Dalam (Deep RNNs)
RNN dapat dibuat lebih dalam dengan menumpuk beberapa lapisan *recurrent* (misalnya, LSTM atau GRU). Ini memungkinkan jaringan untuk mempelajari pola hierarkis.

#### e. RNN Dua Arah (Bidirectional RNNs)
Untuk beberapa tugas (misalnya, pemrosesan bahasa alami), berguna bagi RNN untuk memproses urutan tidak hanya ke depan tetapi juga ke belakang.
* **Bi-RNN** terdiri dari dua lapisan RNN terpisah (satu ke depan, satu ke belakang) yang outputnya digabungkan.
* `keras.layers.Bidirectional` digunakan untuk membungkus lapisan RNN lainnya.

#### f. RNN Encoder-Decoder (Encoder-Decoder RNNs)
Arsitektur ini digunakan untuk tugas *sequence-to-sequence* (misalnya, penerjemahan mesin).
* **Encoder:** Sebuah RNN yang memproses urutan input dan mengkompresnya menjadi satu vektor *context* tetap (state tersembunyi terakhir).
* **Decoder:** Sebuah RNN yang mengambil vektor *context* ini sebagai input awal dan menghasilkan urutan output.
* Tantangan: Vektor *context* tunggal mungkin menjadi *bottleneck* informasi untuk urutan yang sangat panjang.

#### g. Attention Mechanisms (Mekanisme Atensi)
Mekanisme *attention* diperkenalkan untuk mengatasi *bottleneck* pada arsitektur *encoder-decoder* untuk urutan panjang.
* Daripada hanya meneruskan satu vektor *context* tunggal dari *encoder* ke *decoder*, *attention* memungkinkan *decoder* untuk "melihat" dan memberikan bobot berbeda pada bagian-bagian yang relevan dari urutan input pada setiap langkah waktu output.
* Ini membantu model memfokuskan perhatiannya pada bagian-bagian yang paling penting dari input saat menghasilkan output, seperti yang dilakukan manusia saat menerjemahkan atau membaca.
* Ini adalah fondasi dari model Transformer.

### 4. Transformer Networks (Jaringan Transformer)

*Transformer Networks* adalah arsitektur *deep learning* yang sangat revolusioner, diperkenalkan pada tahun 2017, yang telah menggantikan RNN sebagai *state-of-the-art* dalam banyak tugas pemrosesan urutan, terutama *Natural Language Processing* (NLP).

* **Self-Attention:** Komponen kunci Transformer adalah mekanisme *self-attention* (juga dikenal sebagai *multi-head attention*). Ini memungkinkan setiap elemen dalam urutan untuk secara langsung berinteraksi dan mempertimbangkan semua elemen lain dalam urutan untuk memahami konteksnya, tanpa dependensi rekuren.
* **Encoder-Decoder Architecture:** Transformer juga menggunakan arsitektur *encoder-decoder*, tetapi sepenuhnya didasarkan pada *attention* dan *feedforward layers*, tanpa rekurensi.
* **Positional Encoding:** Karena Transformer tidak memiliki rekurensi, informasi posisi elemen dalam urutan ditambahkan melalui *positional encoding*.
* **Keuntungan:** Komputasi paralel yang tinggi (tidak ada rekurensi), mampu menangani dependensi jarak jauh lebih baik.

### 5. Kesimpulan

Bab 15 adalah pengantar yang sangat penting untuk memproses data sekuensial menggunakan JST. Ini mencakup RNN dasar, masalah *vanishing gradients*, dan solusi canggih seperti LSTM dan GRU. Pemahaman tentang arsitektur *encoder-decoder* dan terutama mekanisme *Attention* adalah kunci. Terakhir, pengenalan singkat tentang Transformer Networks mengisyaratkan era baru dalam pemrosesan urutan yang didominasi oleh *attention*.

## 1. Setup


In [68]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt
import os
import pandas as pd

## 2. RNNs for Time Series Forecasting

### Generating a time series dataset

In [69]:
def generate_time_series(batch_size, n_steps):
    freq1, freq2, offsets1, offsets2 = np.random.rand(4, batch_size, 1)
    time = np.linspace(0, 1, n_steps)
    series = 0.5 * np.sin((time - offsets1) * (freq1 * 10 + 10))  # wave 1
    series += 0.2 * np.sin((time - offsets2) * (freq2 * 20 + 20))  # wave 2
    series += 0.1 * (np.random.rand(batch_size, n_steps) - 0.5)  # noise
    return series[..., np.newaxis].astype(np.float32)

In [70]:
n_steps = 50
series = generate_time_series(10000, n_steps + 1)
X_train, y_train = series[:7000, :n_steps], series[:7000, -1]
X_valid, y_valid = series[7000:9000, :n_steps], series[7000:9000, -1]
X_test, y_test = series[9000:, :n_steps], series[9000:, -1]

### Baseline models (Naive Forecasting, Linear Regression)

In [71]:
# Naive forecasting (predicting last value)
y_pred_naive = X_valid[:, -1]

# Instantiate the MeanSquaredError metric
mse_metric = tf.keras.metrics.MeanSquaredError()

# Update the state and get the result
mse_metric.update_state(y_valid, y_pred_naive)
print(mse_metric.result().numpy()) # Use .numpy() to get a scalar value

# Simple Linear Regression (not shown in book for time series directly, but possible)
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
# Reshape X_train and X_valid to be 2D arrays (samples, features) for scikit-learn
lin_reg.fit(X_train.reshape(-1, n_steps), y_train)
y_pred_linear = lin_reg.predict(X_valid.reshape(-1, n_steps))

# Instantiate another MeanSquaredError metric for linear regression prediction
mse_metric_linear = tf.keras.metrics.MeanSquaredError()

# Update the state and get the result
mse_metric_linear.update_state(y_valid, y_pred_linear)
print(mse_metric_linear.result().numpy()) # Use .numpy() to get a scalar value

0.021102622
0.003097598


### Simple RNN

In [72]:
model = keras.models.Sequential([
    keras.layers.SimpleRNN(1, input_shape=[None, 1]) # Output one value (the next step in series)
])

  super().__init__(**kwargs)


In [73]:
# Compile and train
optimizer = keras.optimizers.Adam(learning_rate=0.005)
model.compile(loss="mse", optimizer=optimizer)
history = model.fit(X_train, y_train, epochs=20, validation_data=(X_valid, y_valid))

Epoch 1/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 11ms/step - loss: 0.4722 - val_loss: 0.1698
Epoch 2/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 9ms/step - loss: 0.1539 - val_loss: 0.1492
Epoch 3/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 9ms/step - loss: 0.1456 - val_loss: 0.1110
Epoch 4/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 9ms/step - loss: 0.0902 - val_loss: 0.0530
Epoch 5/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 12ms/step - loss: 0.0483 - val_loss: 0.0373
Epoch 6/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 10ms/step - loss: 0.0345 - val_loss: 0.0296
Epoch 7/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 9ms/step - loss: 0.0280 - val_loss: 0.0249
Epoch 8/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 10ms/step - loss: 0.0237 - val_loss: 0.0216
Epoch 9/20
[1m219/219[0m [32m━━━━

### Deep RNNs (Stacked RNNs)

In [74]:
model_deep = keras.models.Sequential([
    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.SimpleRNN(20, return_sequences=True), # Another RNN layer
    keras.layers.SimpleRNN(1) # Final RNN layer outputting single value
])

In [75]:
# Compile and train (example)
optimizer = keras.optimizers.Adam(learning_rate=0.005)
model_deep.compile(loss="mse", optimizer=optimizer)
history_deep = model_deep.fit(X_train, y_train, epochs=20, validation_data=(X_valid, y_valid))

Epoch 1/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 39ms/step - loss: 0.0187 - val_loss: 0.0037
Epoch 2/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 31ms/step - loss: 0.0038 - val_loss: 0.0035
Epoch 3/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 32ms/step - loss: 0.0036 - val_loss: 0.0040
Epoch 4/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 38ms/step - loss: 0.0036 - val_loss: 0.0038
Epoch 5/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 31ms/step - loss: 0.0034 - val_loss: 0.0034
Epoch 6/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 37ms/step - loss: 0.0032 - val_loss: 0.0037
Epoch 7/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 37ms/step - loss: 0.0035 - val_loss: 0.0030
Epoch 8/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 31ms/step - loss: 0.0030 - val_loss: 0.0037
Epoch 9/20
[1m219/219[0m [

### RNN for Sequence-to-Sequence Forecasting

In [76]:
# Predicting the next 10 steps
n_steps = 50
series_seq2seq = generate_time_series(10000, n_steps + 10)
X_train_seq, Y_train_seq = series_seq2seq[:7000, :n_steps], series_seq2seq[:7000, -10:, 0]
X_valid_seq, Y_valid_seq = series_seq2seq[7000:9000, :n_steps], series_seq2seq[7000:9000, -10:, 0]
X_test_seq, Y_test_seq = series_seq2seq[9000:, :n_steps], series_seq2seq[9000:, -10:, 0]

In [77]:
model_seq2seq = keras.models.Sequential([
    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.SimpleRNN(20), # Last RNN layer returns only the last output
    keras.layers.Dense(10) # Dense layer to output 10 values
])

In [78]:
# Compile and train (example)
model_seq2seq.compile(loss="mse", optimizer="adam")
history_seq2seq = model_seq2seq.fit(X_train_seq, Y_train_seq, epochs=20,
                                    validation_data=(X_valid_seq, Y_valid_seq))

Epoch 1/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 31ms/step - loss: 0.1290 - val_loss: 0.0285
Epoch 2/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 24ms/step - loss: 0.0243 - val_loss: 0.0206
Epoch 3/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 22ms/step - loss: 0.0179 - val_loss: 0.0164
Epoch 4/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 28ms/step - loss: 0.0153 - val_loss: 0.0128
Epoch 5/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 22ms/step - loss: 0.0133 - val_loss: 0.0119
Epoch 6/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 29ms/step - loss: 0.0130 - val_loss: 0.0109
Epoch 7/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 28ms/step - loss: 0.0116 - val_loss: 0.0110
Epoch 8/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 24ms/step - loss: 0.0112 - val_loss: 0.0106
Epoch 9/20
[1m219/219[0m [

### Custom loss for sequence-to-sequence (not directly in book's code, but conceptually)

In [97]:
# If predicting the whole sequence as target
# Example: y_train is a sequence of length 10
def last_time_step_mse(Y_true, Y_pred):
    return keras.metrics.mean_squared_error(Y_true[:, -1], Y_pred[:, -1])
model_seq2seq.compile(loss="mse", optimizer="adam", metrics=[last_time_step_mse])

## 3. Tackling the Vanishing Gradients Problem

### LSTM Layer

In [98]:
model_lstm = keras.models.Sequential([
    keras.layers.LSTM(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.LSTM(20),
    keras.layers.Dense(1)
])

In [81]:
# Compile and train (example)
model_lstm.compile(loss="mse", optimizer="adam")
history_lstm = model_lstm.fit(X_train, y_train, epochs=20, validation_data=(X_valid, y_valid))

Epoch 1/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 48ms/step - loss: 0.0752 - val_loss: 0.0306
Epoch 2/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 46ms/step - loss: 0.0247 - val_loss: 0.0187
Epoch 3/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 42ms/step - loss: 0.0158 - val_loss: 0.0107
Epoch 4/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 38ms/step - loss: 0.0097 - val_loss: 0.0075
Epoch 5/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 46ms/step - loss: 0.0067 - val_loss: 0.0052
Epoch 6/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 45ms/step - loss: 0.0051 - val_loss: 0.0040
Epoch 7/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 41ms/step - loss: 0.0038 - val_loss: 0.0040
Epoch 8/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 39ms/step - loss: 0.0034 - val_loss: 0.0031
Epoch 9/20
[1m219/219[0m 

### GRU Layer

In [99]:
model_gru = keras.models.Sequential([
    keras.layers.GRU(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.GRU(20),
    keras.layers.Dense(1)
])

In [83]:
# Compile and train (example)
model_gru.compile(loss="mse", optimizer="adam")
history_gru = model_gru.fit(X_train, y_train, epochs=20, validation_data=(X_valid, y_valid))

Epoch 1/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 61ms/step - loss: 0.1049 - val_loss: 0.0167
Epoch 2/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m13s[0m 57ms/step - loss: 0.0114 - val_loss: 0.0048
Epoch 3/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 58ms/step - loss: 0.0047 - val_loss: 0.0046
Epoch 4/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 55ms/step - loss: 0.0043 - val_loss: 0.0044
Epoch 5/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 54ms/step - loss: 0.0042 - val_loss: 0.0044
Epoch 6/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 56ms/step - loss: 0.0043 - val_loss: 0.0053
Epoch 7/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 55ms/step - loss: 0.0042 - val_loss: 0.0043
Epoch 8/20
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 56ms/step - loss: 0.0040 - val_loss: 0.0040
Epoch 9/20
[1m219/219[

### Bidirectional RNN (using GRU as base)

In [100]:
model_bidirectional = keras.models.Sequential([
    keras.layers.Bidirectional(keras.layers.GRU(20, return_sequences=True), input_shape=[None, 1]),
    keras.layers.Bidirectional(keras.layers.GRU(20)),
    keras.layers.Dense(1)
])

  super().__init__(**kwargs)


In [101]:
# Compile and train (example)
model_bidirectional.compile(loss="mse", optimizer="adam")
history_bidirectional = model_bidirectional.fit(X_train, y_train, epochs=10,
                                                validation_data=(X_valid, y_valid))

Epoch 1/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m31s[0m 94ms/step - loss: 0.0534 - val_loss: 0.0098
Epoch 2/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 92ms/step - loss: 0.0074 - val_loss: 0.0061
Epoch 3/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 88ms/step - loss: 0.0050 - val_loss: 0.0054
Epoch 4/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m22s[0m 94ms/step - loss: 0.0043 - val_loss: 0.0045
Epoch 5/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 87ms/step - loss: 0.0041 - val_loss: 0.0048
Epoch 6/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m22s[0m 96ms/step - loss: 0.0041 - val_loss: 0.0042
Epoch 7/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 94ms/step - loss: 0.0038 - val_loss: 0.0046
Epoch 8/10
[1m219/219[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m41s[0m 95ms/step - loss: 0.0039 - val_loss: 0.0041
Epoch 9/10
[1m219/219[