In [1]:
import tensorflow as tf
import numpy as np

print(tf.__version__)

2.12.0


In [5]:
BATCH_SIZE = 2
SEQ_LEN = 100 # Длина последовательности
EMB_SIZE = 16 # Размер векторного представления (эмбеддинга)
VOCAB_SIZE = 10000 # Количество слов в словаре

x = np.random.randint(VOCAB_SIZE, size=(BATCH_SIZE, SEQ_LEN))
print(x.shape)

(2, 100)


# Обучаемый Embedding слой

In [6]:
embedding_layer = tf.keras.layers.Embedding(VOCAB_SIZE, EMB_SIZE)
y = embedding_layer(x)
print(y.shape)

Metal device set to: Apple M2
(2, 100, 16)


In [7]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(VOCAB_SIZE, 16),
    tf.keras.layers.LSTM(16, return_sequences=False),
    tf.keras.layers.Dense(1, activation=tf.nn.sigmoid),
])

y = model(x)
print(y.shape)

(2, 1)


# Регуляризация

In [8]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(VOCAB_SIZE, 16),
    tf.keras.layers.LSTM(16, return_sequences=False, dropout=.5, recurrent_dropout=.5),
    tf.keras.layers.Dense(1, activation=tf.nn.sigmoid),
])

y = model(x)
print(y.shape)

(2, 1)


# Более глубокая рекуррентная сеть
Можно ставить несколько LSTM слоёв, делая сеть глубже.
В таком случае, все кроме последнего LSTM слоя должны иметь параметр return_sequence=True, иначе последующий слой не
сможет обраборать выход предыдущего (он ожидает последовательность, а ему дают лишь один объект)

In [9]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(VOCAB_SIZE, 16),
    tf.keras.layers.LSTM(16, return_sequences=True, dropout=.5, recurrent_dropout=.5),
    tf.keras.layers.LSTM(16, return_sequences=False, dropout=.5, recurrent_dropout=.5),
    tf.keras.layers.Dense(1, activation=tf.nn.sigmoid),
])

y = model(x)
print(y.shape)

(2, 1)


# Двунаправленные рекуррентные сети
В случае классификации текстов могут помочь улучшить результа двунаправленные сети (которые считывают входную цепочку в двух 
противоположных направлениях). В Keras двунаправленность можно добавить просто обернув LSTM слой в tf.keras.layers.Bidirectional().

In [11]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(VOCAB_SIZE, 16),
    tf.keras.layers.Bidirectional(
        tf.keras.layers.LSTM(16, return_sequences=True, dropout=.5, recurrent_dropout=.5)),
    tf.keras.layers.Bidirectional(
        tf.keras.layers.LSTM(16, return_sequences=False, dropout=.5, recurrent_dropout=.5)),
    tf.keras.layers.Dense(1, activation=tf.nn.sigmoid),
])

y = model(x)
print(y.shape)

(2, 1)


In [None]:
y = lstm_my(x)
print(y.shape)

In [None]:
# Перед тем, как что-то присваивать в параметры модели, нужно чтобы они создались.
# Для этого можно вызвать либо инференс с каким-то входом, либо model.build(...)

lstm_my.lstm_cell.fcXI.kernel = lstm.weights[0][:, 0:32]
lstm_my.lstm_cell.fcXF.kernel = lstm.weights[0][:, 32:64]
lstm_my.lstm_cell.fcXC.kernel = lstm.weights[0][:, 64:96]
lstm_my.lstm_cell.fcXO.kernel = lstm.weights[0][:, 96:128]

lstm_my.lstm_cell.fcHI.kernel = lstm.weights[1][:, 0:32]
lstm_my.lstm_cell.fcHF.kernel = lstm.weights[1][:, 32:64]
lstm_my.lstm_cell.fcHC.kernel = lstm.weights[1][:, 64:96]
lstm_my.lstm_cell.fcHO.kernel = lstm.weights[1][:, 96:128]

lstm_my.lstm_cell.fcXI.bias = lstm.weights[2][0:32]
lstm_my.lstm_cell.fcXF.bias = lstm.weights[2][32:64]
lstm_my.lstm_cell.fcXC.bias = lstm.weights[2][64:96]
lstm_my.lstm_cell.fcXO.bias = lstm.weights[2][96:128]

y = lstm(x)
y_my = lstm_my(x)

print(np.max(np.abs(y.numpy() - y_my.numpy())))