**Сеть с долговременной кратковременной памятью, или сеть LSTM, представляет собой рекуррентную нейронную сеть, которая обучается с использованием обратного распространения через время и преодолевает проблему исчезающего градиента.**

**Вместо нейронов в сетях LSTM есть блоки памяти, которые связаны через слои.**

**Блок имеет компоненты, которые делают его умнее, чем классический нейрон, и память для последних последовательностей. Блок содержит ворота, которые управляют состоянием и выходом блока. Блок работает с входной последовательностью, и каждый логический элемент в блоке использует блоки активации сигмоида для управления, инициированы ли они или нет, что делает изменение состояния и добавление информации, протекающей через блок, условным.**

**Разберём задачу прогнозирования последовательности изучения алфавита. То есть, учитывая букву алфавита, предсказывают следующую букву алфавита.**

**Во-первых,  импортируем все классы и функции, которые мы планируем использовать**

In [None]:
import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM
from keras.utils import np_utils

**Затем мы можем запустить генератор случайных чисел, чтобы гарантировать, что результаты будут одинаковыми при каждом выполнении кода.**

**Теперь мы можем определить наш набор данных.Для нам нужно сопоставить буквы алфавита с целочисленными значениями. Мы можем сделать это легко, создав словарь буквенного индекса для символа.**

In [None]:
# исправить случайное начальное число для воспроизводимости
numpy.random.seed(7)
# определяем необработанный набор данных
alphabet = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
# создаем отображение символов на целые числа (0-25) и наоборот
char_to_int = dict((c, i) for i, c in enumerate(alphabet))
int_to_char = dict((i, c) for i, c in enumerate(alphabet))

**Теперь нам нужно создать наши входные и выходные пары для обучения нашей нейронной сети. Мы можем сделать это путем определения длины входной последовательности, а затем чтения последовательностей из последовательности входных алфавитов.**

In [None]:
# подготавливаем набор входных данных к выходным парам, закодированным как целые числа
seq_length = 1
dataX = []
dataY = []
for i in range(0, len(alphabet) - seq_length, 1):
	seq_in = alphabet[i:i + seq_length]
	seq_out = alphabet[i + seq_length]
	dataX.append([char_to_int[char] for char in seq_in])
	dataY.append(char_to_int[seq_out])
	print(seq_in, '->', seq_out)

A -> B
B -> C
C -> D
D -> E
E -> F
F -> G
G -> H
H -> I
I -> J
J -> K
K -> L
L -> M
M -> N
N -> O
O -> P
P -> Q
Q -> R
R -> S
S -> T
T -> U
U -> V
V -> W
W -> X
X -> Y
Y -> Z


**Выполнение кода до этой точки приведет к следующему выводу, суммирующему входные последовательности длиной 1 и один выходной символ.**

**Нам нужно преобразовать массив NumPy в формат, ожидаемый сетями LSTM.После изменения формы мы можем затем нормализовать входные целые числа в диапазоне от 0 до 1, диапазоне функций активации сигмоида, используемых сетью LSTM.И затем  мы можем рассматривать эту проблему как задачу классификации последовательностей, где каждая из 26 букв представляет отдельный класс.**

In [None]:
# измените форму X на [образцы, временные шаги, особенности]
X = numpy.reshape(dataX, (len(dataX), seq_length, 1))
#нормализация
X = X / float(len(alphabet))
y = np_utils.to_categorical(dataY)

**Наивный LSTM для изучения картирования одного символа в один**

**Давайте начнем с разработки простого LSTM, чтобы научиться предсказывать следующий символ в алфавите с учетом контекста только одного символа.**

**Мы сформулируем это как случайный набор однобуквенных входных пар для однобуквенных выходных пар.**

**Давайте определим сеть LSTM с 32 блоками и выходной слой с функцией активации softmax для прогнозирования. Из-за того что эта проблема классификации нескольких классов, мы можем использовать функцию потери логов и оптимизировать сеть с помощью функции оптимизации ADAM.**

In [None]:
model = Sequential()
model.add(LSTM(32, input_shape=(X.shape[1], X.shape[2])))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X, y, epochs=500, batch_size=1, verbose=2)

Epoch 1/500
25/25 - 2s - loss: 3.2654 - accuracy: 0.0000e+00
Epoch 2/500
25/25 - 0s - loss: 3.2570 - accuracy: 0.0400
Epoch 3/500
25/25 - 0s - loss: 3.2540 - accuracy: 0.0400
Epoch 4/500
25/25 - 0s - loss: 3.2511 - accuracy: 0.0400
Epoch 5/500
25/25 - 0s - loss: 3.2480 - accuracy: 0.0400
Epoch 6/500
25/25 - 0s - loss: 3.2451 - accuracy: 0.0400
Epoch 7/500
25/25 - 0s - loss: 3.2423 - accuracy: 0.0400
Epoch 8/500
25/25 - 0s - loss: 3.2396 - accuracy: 0.0400
Epoch 9/500
25/25 - 0s - loss: 3.2362 - accuracy: 0.0400
Epoch 10/500
25/25 - 0s - loss: 3.2330 - accuracy: 0.0400
Epoch 11/500
25/25 - 0s - loss: 3.2297 - accuracy: 0.0400
Epoch 12/500
25/25 - 0s - loss: 3.2261 - accuracy: 0.0400
Epoch 13/500
25/25 - 0s - loss: 3.2229 - accuracy: 0.0400
Epoch 14/500
25/25 - 0s - loss: 3.2183 - accuracy: 0.0400
Epoch 15/500
25/25 - 0s - loss: 3.2144 - accuracy: 0.0400
Epoch 16/500
25/25 - 0s - loss: 3.2095 - accuracy: 0.0400
Epoch 17/500
25/25 - 0s - loss: 3.2054 - accuracy: 0.0800
Epoch 18/500
25/25 

<tensorflow.python.keras.callbacks.History at 0x7f09ce73ccd0>

**После того, как мы подберем модель, мы сможем оценить и суммировать производительность всего набора данных обучения.**

In [None]:
scores = model.evaluate(X, y, verbose=0)
print("Model Accuracy: %.2f%%" % (scores[1]*100))

Model Accuracy: 84.00%


**Затем мы можем повторно запустить обучающие данные через сеть и сгенерировать прогнозы, преобразовав обе входные и выходные пары обратно в их исходный формат символов, чтобы получить наглядное представление о том, насколько хорошо сеть изучила проблему.**

In [None]:
for pattern in dataX:
	x = numpy.reshape(pattern, (1, len(pattern), 1))
	x = x / float(len(alphabet))
	prediction = model.predict(x, verbose=0)
	index = numpy.argmax(prediction)
	result = int_to_char[index]
	seq_in = [int_to_char[value] for value in pattern]
	print(seq_in, "->", result)

['A'] -> B
['B'] -> B
['C'] -> D
['D'] -> E
['E'] -> F
['F'] -> G
['G'] -> H
['H'] -> I
['I'] -> J
['J'] -> K
['K'] -> L
['L'] -> M
['M'] -> N
['N'] -> O
['O'] -> P
['P'] -> Q
['Q'] -> R
['R'] -> S
['S'] -> T
['T'] -> U
['U'] -> V
['V'] -> X
['W'] -> Z
['X'] -> Z
['Y'] -> Z


**Наивный LSTM для отображения с тремя символами в окне отображения одного символа**

**Популярный подход к добавлению большего контекста к данным - это использование метода окна.**

**Здесь предыдущие шаги в последовательности предоставляются в качестве дополнительных функций ввода в сеть. Мы можем попробовать тот же трюк, чтобы предоставить больше контекста для сети LSTM.**

**Здесь мы увеличиваем длину последовательности с 1 до 3**



In [None]:
seq_length = 3

**Каждый элемент в последовательности затем предоставляется в качестве новой функции ввода в сеть. Для этого требуется изменить способ изменения входных последовательностей на этапе подготовки данных**

In [None]:
X = numpy.reshape(dataX, (len(dataX), 1, seq_length))

**Это также требует изменения того, как образцы образцов изменяются при демонстрации прогнозов из модели.**

In [None]:
x = numpy.reshape(pattern, (1, 1, len(pattern)))

In [None]:
seq_length = 3
dataX = []
dataY = []
for i in range(0, len(alphabet) - seq_length, 1):
	seq_in = alphabet[i:i + seq_length]
	seq_out = alphabet[i + seq_length]
	dataX.append([char_to_int[char] for char in seq_in])
	dataY.append(char_to_int[seq_out])
	print(seq_in, '->', seq_out)

X = numpy.reshape(dataX, (len(dataX), 1, seq_length))

X = X / float(len(alphabet))

y = np_utils.to_categorical(dataY)

model = Sequential()
model.add(LSTM(32, input_shape=(X.shape[1], X.shape[2])))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X, y, epochs=500, batch_size=1, verbose=2)

ABC -> D
BCD -> E
CDE -> F
DEF -> G
EFG -> H
FGH -> I
GHI -> J
HIJ -> K
IJK -> L
JKL -> M
KLM -> N
LMN -> O
MNO -> P
NOP -> Q
OPQ -> R
PQR -> S
QRS -> T
RST -> U
STU -> V
TUV -> W
UVW -> X
VWX -> Y
WXY -> Z
Epoch 1/500
23/23 - 2s - loss: 3.2661 - accuracy: 0.0000e+00
Epoch 2/500
23/23 - 0s - loss: 3.2538 - accuracy: 0.0435
Epoch 3/500
23/23 - 0s - loss: 3.2484 - accuracy: 0.0435
Epoch 4/500
23/23 - 0s - loss: 3.2419 - accuracy: 0.0870
Epoch 5/500
23/23 - 0s - loss: 3.2353 - accuracy: 0.0435
Epoch 6/500
23/23 - 0s - loss: 3.2287 - accuracy: 0.0000e+00
Epoch 7/500
23/23 - 0s - loss: 3.2225 - accuracy: 0.0435
Epoch 8/500
23/23 - 0s - loss: 3.2153 - accuracy: 0.0435
Epoch 9/500
23/23 - 0s - loss: 3.2072 - accuracy: 0.0435
Epoch 10/500
23/23 - 0s - loss: 3.2000 - accuracy: 0.0435
Epoch 11/500
23/23 - 0s - loss: 3.1918 - accuracy: 0.0435
Epoch 12/500
23/23 - 0s - loss: 3.1830 - accuracy: 0.0435
Epoch 13/500
23/23 - 0s - loss: 3.1745 - accuracy: 0.0435
Epoch 14/500
23/23 - 0s - loss: 3.1648 -

<tensorflow.python.keras.callbacks.History at 0x7f09c6d4c950>

In [None]:
scores = model.evaluate(X, y, verbose=0)
print("Model Accuracy: %.2f%%" % (scores[1]*100))

Model Accuracy: 86.96%


In [None]:
for pattern in dataX:
	x = numpy.reshape(pattern, (1, 1, len(pattern)))
	x = x / float(len(alphabet))
	prediction = model.predict(x, verbose=0)
	index = numpy.argmax(prediction)
	result = int_to_char[index]
	seq_in = [int_to_char[value] for value in pattern]
	print(seq_in, "->", result)

['A', 'B', 'C'] -> D
['B', 'C', 'D'] -> E
['C', 'D', 'E'] -> F
['D', 'E', 'F'] -> G
['E', 'F', 'G'] -> H
['F', 'G', 'H'] -> I
['G', 'H', 'I'] -> J
['H', 'I', 'J'] -> K
['I', 'J', 'K'] -> L
['J', 'K', 'L'] -> M
['K', 'L', 'M'] -> N
['L', 'M', 'N'] -> O
['M', 'N', 'O'] -> P
['N', 'O', 'P'] -> Q
['O', 'P', 'Q'] -> R
['P', 'Q', 'R'] -> S
['Q', 'R', 'S'] -> T
['R', 'S', 'T'] -> U
['S', 'T', 'U'] -> V
['T', 'U', 'V'] -> X
['U', 'V', 'W'] -> Z
['V', 'W', 'X'] -> Z
['W', 'X', 'Y'] -> Z


**Наивный LSTM для отображения временного шага из трех символов в отображение одного**

**В Keras предполагаемое использование LSTM заключается в предоставлении контекста в форме временных шагов, а не в виде оконных функций, как в других типах сетей.**

**Мы можем взять наш первый пример и просто изменить длину последовательности с 1 на 3.**

In [None]:
seq_length = 3

**Разница заключается в том, что изменение формы входных данных принимает последовательность как последовательность шагов времени одного объекта, а не один шаг множества объектов.**

In [None]:
X = numpy.reshape(dataX, (len(dataX), seq_length, 1))

In [None]:
seq_length = 3
dataX = []
dataY = []
for i in range(0, len(alphabet) - seq_length, 1):
	seq_in = alphabet[i:i + seq_length]
	seq_out = alphabet[i + seq_length]
	dataX.append([char_to_int[char] for char in seq_in])
	dataY.append(char_to_int[seq_out])
	print(seq_in, '->', seq_out)

X = numpy.reshape(dataX, (len(dataX), seq_length, 1))

X = X / float(len(alphabet))

y = np_utils.to_categorical(dataY)

model = Sequential()
model.add(LSTM(32, input_shape=(X.shape[1], X.shape[2])))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X, y, epochs=500, batch_size=1, verbose=2)

ABC -> D
BCD -> E
CDE -> F
DEF -> G
EFG -> H
FGH -> I
GHI -> J
HIJ -> K
IJK -> L
JKL -> M
KLM -> N
LMN -> O
MNO -> P
NOP -> Q
OPQ -> R
PQR -> S
QRS -> T
RST -> U
STU -> V
TUV -> W
UVW -> X
VWX -> Y
WXY -> Z
Epoch 1/500
23/23 - 1s - loss: 3.2703 - accuracy: 0.0000e+00
Epoch 2/500
23/23 - 0s - loss: 3.2553 - accuracy: 0.0870
Epoch 3/500
23/23 - 0s - loss: 3.2475 - accuracy: 0.0435
Epoch 4/500
23/23 - 0s - loss: 3.2405 - accuracy: 0.0435
Epoch 5/500
23/23 - 0s - loss: 3.2324 - accuracy: 0.0435
Epoch 6/500
23/23 - 0s - loss: 3.2247 - accuracy: 0.0435
Epoch 7/500
23/23 - 0s - loss: 3.2159 - accuracy: 0.0000e+00
Epoch 8/500
23/23 - 0s - loss: 3.2059 - accuracy: 0.0435
Epoch 9/500
23/23 - 0s - loss: 3.1975 - accuracy: 0.0000e+00
Epoch 10/500
23/23 - 0s - loss: 3.1839 - accuracy: 0.0435
Epoch 11/500
23/23 - 0s - loss: 3.1697 - accuracy: 0.0000e+00
Epoch 12/500
23/23 - 0s - loss: 3.1547 - accuracy: 0.0435
Epoch 13/500
23/23 - 0s - loss: 3.1351 - accuracy: 0.0435
Epoch 14/500
23/23 - 0s - loss: 

<tensorflow.python.keras.callbacks.History at 0x7f09ce829ed0>

In [None]:
scores = model.evaluate(X, y, verbose=0)
print("Model Accuracy: %.2f%%" % (scores[1]*100))

Model Accuracy: 100.00%


In [None]:
for pattern in dataX:
	x = numpy.reshape(pattern, (1, len(pattern), 1))
	x = x / float(len(alphabet))
	prediction = model.predict(x, verbose=0)
	index = numpy.argmax(prediction)
	result = int_to_char[index]
	seq_in = [int_to_char[value] for value in pattern]
	print(seq_in, "->", result)

['A', 'B', 'C'] -> D
['B', 'C', 'D'] -> E
['C', 'D', 'E'] -> F
['D', 'E', 'F'] -> G
['E', 'F', 'G'] -> H
['F', 'G', 'H'] -> I
['G', 'H', 'I'] -> J
['H', 'I', 'J'] -> K
['I', 'J', 'K'] -> L
['J', 'K', 'L'] -> M
['K', 'L', 'M'] -> N
['L', 'M', 'N'] -> O
['M', 'N', 'O'] -> P
['N', 'O', 'P'] -> Q
['O', 'P', 'Q'] -> R
['P', 'Q', 'R'] -> S
['Q', 'R', 'S'] -> T
['R', 'S', 'T'] -> U
['S', 'T', 'U'] -> V
['T', 'U', 'V'] -> W
['U', 'V', 'W'] -> X
['V', 'W', 'X'] -> Y
['W', 'X', 'Y'] -> Z
