В якості домашнього завдання вам пропонується створити рекурентну нейронну мережу за допомогою механізмів Keras, яка буде класифікувати рецензії із датасету imdb.

На відміну від прикладу в модулі 9 ми використаємо рекурентну нейронну мережу. Поекспериментуйте з будовою мережі - RNN, LSTM, двостороння та глибока.

Порівняйте результати та зробіть висновки.

In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, LSTM, Bidirectional, Dense
from tensorflow.keras.callbacks import EarlyStopping

# Завантаження даних
max_features = 10000  # Кількість унікальних слів
maxlen = 500  # Максимальна довжина рецензії

(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
x_train = pad_sequences(x_train, maxlen=maxlen)
x_test = pad_sequences(x_test, maxlen=maxlen)

# Загальні параметри моделі
embedding_size = 128
batch_size = 32
epochs = 10

# 1. Simple RNN Model
rnn_model = Sequential()
rnn_model.add(Embedding(max_features, embedding_size, input_length=maxlen))
rnn_model.add(SimpleRNN(128))
rnn_model.add(Dense(1, activation='sigmoid'))
rnn_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 2. LSTM Model
lstm_model = Sequential()
lstm_model.add(Embedding(max_features, embedding_size, input_length=maxlen))
lstm_model.add(LSTM(128))
lstm_model.add(Dense(1, activation='sigmoid'))
lstm_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 3. Bidirectional LSTM Model
bi_lstm_model = Sequential()
bi_lstm_model.add(Embedding(max_features, embedding_size, input_length=maxlen))
bi_lstm_model.add(Bidirectional(LSTM(128)))
bi_lstm_model.add(Dense(1, activation='sigmoid'))
bi_lstm_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 4. Deep LSTM Model
deep_lstm_model = Sequential()
deep_lstm_model.add(Embedding(max_features, embedding_size, input_length=maxlen))
deep_lstm_model.add(LSTM(128, return_sequences=True))
deep_lstm_model.add(LSTM(128))
deep_lstm_model.add(Dense(1, activation='sigmoid'))
deep_lstm_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Навчання моделей
early_stopping = EarlyStopping(monitor='val_loss', patience=2, restore_best_weights=True)

history_rnn = rnn_model.fit(x_train, y_train, validation_split=0.2, epochs=epochs, batch_size=batch_size, callbacks=[early_stopping])
history_lstm = lstm_model.fit(x_train, y_train, validation_split=0.2, epochs=epochs, batch_size=batch_size, callbacks=[early_stopping])
history_bi_lstm = bi_lstm_model.fit(x_train, y_train, validation_split=0.2, epochs=epochs, batch_size=batch_size, callbacks=[early_stopping])
history_deep_lstm = deep_lstm_model.fit(x_train, y_train, validation_split=0.2, epochs=epochs, batch_size=batch_size, callbacks=[early_stopping])

# Оцінка моделей
rnn_eval = rnn_model.evaluate(x_test, y_test, verbose=0)
lstm_eval = lstm_model.evaluate(x_test, y_test, verbose=0)
bi_lstm_eval = bi_lstm_model.evaluate(x_test, y_test, verbose=0)
deep_lstm_eval = deep_lstm_model.evaluate(x_test, y_test, verbose=0)

print(f"RNN Model - Loss: {rnn_eval[0]}, Accuracy: {rnn_eval[1]}")
print(f"LSTM Model - Loss: {lstm_eval[0]}, Accuracy: {lstm_eval[1]}")
print(f"Bidirectional LSTM Model - Loss: {bi_lstm_eval[0]}, Accuracy: {bi_lstm_eval[1]}")
print(f"Deep LSTM Model - Loss: {deep_lstm_eval[0]}, Accuracy: {deep_lstm_eval[1]}")

# Висновки
results = {
    "RNN": rnn_eval[1],
    "LSTM": lstm_eval[1],
    "Bidirectional LSTM": bi_lstm_eval[1],
    "Deep LSTM": deep_lstm_eval[1]
}

best_model = max(results, key=results.get)
print(f"The best model is: {best_model} with accuracy of {results[best_model]}")

2024-07-06 17:34:28.209988: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
[1m17464789/17464789[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 0us/step




Epoch 1/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m107s[0m 167ms/step - accuracy: 0.5635 - loss: 0.6675 - val_accuracy: 0.6108 - val_loss: 0.7733
Epoch 2/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m95s[0m 152ms/step - accuracy: 0.7373 - loss: 0.5361 - val_accuracy: 0.7256 - val_loss: 0.5572
Epoch 3/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m95s[0m 152ms/step - accuracy: 0.8035 - loss: 0.4310 - val_accuracy: 0.7748 - val_loss: 0.5135
Epoch 4/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m96s[0m 154ms/step - accuracy: 0.8418 - loss: 0.3760 - val_accuracy: 0.7166 - val_loss: 0.5957
Epoch 5/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m105s[0m 168ms/step - accuracy: 0.8507 - loss: 0.3553 - val_accuracy: 0.7294 - val_loss: 0.5712
Epoch 1/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m371s[0m 589ms/step - accuracy: 0.6721 - loss: 0.5998 - val_accuracy: 0.7402 - val_loss: 0.5145
Epoch 2

Згідно отриманих результатів модель двосторонньої LSTM показала найкращу продуктивність з точністю 0.8529.
Впринципі це очікувано, оскільки двосторонні LSTM можуть захоплювати залежності в послідовностях з обох напрямків, що робить їх більш потужними для задач, де контекст з обох кінців послідовності є важливим.