# LSTM сети

# 1. Определение:



LSTM (Long Short-Term Memory) - это тип рекуррентных нейронных сетей (RNN), которые были разработаны для эффективной работы с последовательными или временными данными. LSTM сети способны улавливать зависимости в длинных последовательностях данных и сохранять информацию о прошлых событиях для принятия решений.

Основная идея LSTM состоит в использовании специальных механизмов, называемых "воротами" (гейтами), которые регулируют поток информации внутри сети. LSTM сеть состоит из нескольких LSTM блоков, каждый из которых имеет следующие компоненты:

## **Входной вектор:** 
Принимает входные данные для текущего временного шага.

## **Скрытое состояние (hidden state):**
Хранит информацию о предыдущих временных шагах и передается через время. Он может быть рассмотрен как "память" сети.

## **Ячейка памяти (cell state):**
Хранит информацию о долгосрочных зависимостях в данных. Она может добавлять или удалять информацию, используя специальные ворота.

## **Ворота:**

* Ворота забывания (Forget Gate): Решает, какую информацию следует забыть из ячейки памяти.
* Ворота входа (Input Gate): Решает, какую новую информацию следует добавить в ячейку памяти.
* Ворота вывода (Output Gate): Решает, какую информацию следует выходить из скрытого состояния.

В каждом временном шаге LSTM блок принимает входные данные и текущее скрытое состояние, а затем обновляет ячейку памяти и скрытое состояние на основе входных данных и предыдущего состояния. Это позволяет LSTM сети эффективно улавливать долгосрочные зависимости в данных.

# 2. Особенности:

Ячейки памяти LSTM сетей имеют способность запоминать и сохранять информацию на долгое время, что позволяет модели обрабатывать долгосрочные зависимости в данных.
LSTM сети обладают внутренней структурой, которая позволяет им контролировать поток информации, регулировать обновление и удаление информации из памяти, а также выбирать, какую информацию передавать на выход.
LSTM сети могут работать с переменной длиной последовательностей данных и могут эффективно обрабатывать различные типы данных, такие как текст, аудио, видео и временные ряды.

# 3. Достоинства:

LSTM сети обладают способностью к обработке долгосрочных зависимостей, что делает их особенно полезными для задач, где необходимо анализировать или генерировать последовательности с долгосрочными зависимостями.
Они позволяют эффективно работать с переменной длиной последовательностей данных и могут учитывать контекстную информацию из предыдущих шагов.

# 4. Недостатки:

LSTM сети могут быть сложны в обучении и требуют большого количества данных для достижения хороших результатов.
Увеличение глубины LSTM сети может привести к проблеме исчезающего градиента -- во время обучения нейронной сети, градиенты (производные) вычисляются и используются для обновления весов нейронов. Однако, при прохождении градиентов через множество слоев, особенно глубоких, производные могут сильно уменьшаться по мере распространения назад по сети. Это означает, что веса первых слоев практически не обновляются, и эти слои не могут эффективно учиться.

Таким образом, проблема исчезающего градиента заключается в том, что градиенты "исчезают" или становятся очень маленькими по мере распространения назад через глубокие слои сети. Это может приводить к тому, что сеть не способна обучиться сложным зависимостям в данных и дает низкую производительность.

# 5. Практическое применение:

LSTM сети широко используются в области обработки естественного языка (Natural Language Processing, NLP) для задач, таких как машинный перевод, генерация текста, анализ тональности и распознавание речи.
Они также применяются в области компьютерного зрения для задач, таких как распознавание объектов, сегментация изображений и генерация описаний изображений.
LSTM сети могут быть использованы для анализа временных рядов, прогнозирования временных данных и управления временными процессами.

# 6. Практическая часть

In [35]:
sequences = []
n = 0.0

for _ in range(40):
    sequence = [round(n * (n / 2) + n, 2)]
    m = n

    for _ in range(4):
        m += 0.1
        sequence.append(round(m * (m / 2) + m, 2))
    
    sequences.append(sequence)
    n += 0.1

for sequence in sequences:
    print(sequence)

[0.0, 0.11, 0.22, 0.35, 0.48]
[0.11, 0.22, 0.35, 0.48, 0.62]
[0.22, 0.35, 0.48, 0.62, 0.78]
[0.35, 0.48, 0.62, 0.78, 0.94]
[0.48, 0.62, 0.78, 0.94, 1.12]
[0.62, 0.78, 0.94, 1.12, 1.3]
[0.78, 0.94, 1.12, 1.3, 1.5]
[0.94, 1.12, 1.3, 1.5, 1.7]
[1.12, 1.3, 1.5, 1.7, 1.92]
[1.3, 1.5, 1.7, 1.92, 2.15]
[1.5, 1.7, 1.92, 2.15, 2.38]
[1.7, 1.92, 2.15, 2.38, 2.63]
[1.92, 2.15, 2.38, 2.63, 2.88]
[2.15, 2.38, 2.63, 2.88, 3.15]
[2.38, 2.63, 2.88, 3.15, 3.42]
[2.63, 2.88, 3.15, 3.42, 3.71]
[2.88, 3.15, 3.42, 3.71, 4.0]
[3.15, 3.42, 3.71, 4.0, 4.31]
[3.42, 3.71, 4.0, 4.31, 4.62]
[3.71, 4.0, 4.31, 4.62, 4.95]
[4.0, 4.31, 4.62, 4.95, 5.28]
[4.31, 4.62, 4.95, 5.28, 5.63]
[4.62, 4.95, 5.28, 5.63, 5.98]
[4.95, 5.28, 5.63, 5.98, 6.35]
[5.28, 5.63, 5.98, 6.35, 6.72]
[5.63, 5.98, 6.35, 6.72, 7.11]
[5.98, 6.35, 6.72, 7.11, 7.5]
[6.35, 6.72, 7.11, 7.5, 7.91]
[6.72, 7.11, 7.5, 7.91, 8.32]
[7.11, 7.5, 7.91, 8.32, 8.75]
[7.5, 7.91, 8.32, 8.75, 9.18]
[7.91, 8.32, 8.75, 9.18, 9.63]
[8.32, 8.75, 9.18, 9.63, 10.08]
[8

In [91]:
from keras.models import Sequential
from keras.layers import LSTM, Dense
import numpy as np

# Создание примера данных для обучения LSTM
data = sequences
data = np.array(data)

# Разделение данных на входные и выходные последовательности
X = data[:, :4]  # входные последовательности
y = data[:, 4]   # выходная последовательность

# Преобразование данных в требуемый формат для LSTM
X = np.reshape(X, (X.shape[0], X.shape[1], 1))

# Создание модели LSTM
model = Sequential()
model.add(LSTM(50, input_shape=(4, 1)))
model.add(Dense(1))

# Компиляция модели
model.compile(loss='mean_squared_error', optimizer='adam')

# Обучение модели
model.fit(X, y, epochs=100, batch_size=1, verbose=2)

# Пример использования обученной модели для предсказания
test_sequences = []
n = 1

for _ in range(10):
    test_sequence = [round(n * (n / 2) + n, 2)]
    m = n

    for _ in range(3):
        m += 0.1
        test_sequence.append(round(m * (m / 2) + m, 2))
    
    test_sequences.append(test_sequence)
    n += 0.1

print("\n")

test_data = test_sequences
test_data = np.array(test_data)
test_data = np.reshape(test_data, (test_data.shape[0], test_data.shape[1], 1))
predictions = model.predict(test_data)

Epoch 1/100
40/40 - 2s - loss: 35.0208 - 2s/epoch - 45ms/step
Epoch 2/100
40/40 - 0s - loss: 13.6293 - 98ms/epoch - 2ms/step
Epoch 3/100
40/40 - 0s - loss: 5.5142 - 93ms/epoch - 2ms/step
Epoch 4/100
40/40 - 0s - loss: 2.9008 - 107ms/epoch - 3ms/step
Epoch 5/100
40/40 - 0s - loss: 1.6609 - 97ms/epoch - 2ms/step
Epoch 6/100
40/40 - 0s - loss: 1.0275 - 94ms/epoch - 2ms/step
Epoch 7/100
40/40 - 0s - loss: 0.7412 - 101ms/epoch - 3ms/step
Epoch 8/100
40/40 - 0s - loss: 0.5571 - 118ms/epoch - 3ms/step
Epoch 9/100
40/40 - 0s - loss: 0.4772 - 121ms/epoch - 3ms/step
Epoch 10/100
40/40 - 0s - loss: 0.3407 - 128ms/epoch - 3ms/step
Epoch 11/100
40/40 - 0s - loss: 0.2893 - 135ms/epoch - 3ms/step
Epoch 12/100
40/40 - 0s - loss: 0.2005 - 135ms/epoch - 3ms/step
Epoch 13/100
40/40 - 0s - loss: 0.1409 - 140ms/epoch - 3ms/step
Epoch 14/100
40/40 - 0s - loss: 0.1045 - 137ms/epoch - 3ms/step
Epoch 15/100
40/40 - 0s - loss: 0.1251 - 137ms/epoch - 3ms/step
Epoch 16/100
40/40 - 0s - loss: 0.0798 - 134ms/epoch 

In [101]:
# Вывод предсказаний

temp = 0

for i in range(len(sequences)):
    if (sequences[i][4] < predictions[0][0]):
        temp += 1

# Заголовки столбцов
print('-' * 72)
print("|{:^7s}|{:^30s}|{:^15s}|{:^15s}|".format("№", "Input", "Prediction", "True value"))
print('-' * 72)

# Вывод значений
for i in range(len(predictions)):
    input_sequence = test_sequences[i]
    prediction = np.round(predictions[i][0], 2)
    true_value = np.round(sequences[temp], 2)
    temp += 1
    
    print("|{:^7.0f}|{:^30s}|{:^15.2f}|{:^15.2f}|".format((i+1), str(input_sequence), prediction, true_value[-1]))
print('-' * 72)

------------------------------------------------------------------------
|   №   |            Input             |  Prediction   |  True value   |
------------------------------------------------------------------------
|   1   |   [1.5, 1.71, 1.92, 2.15]    |     2.38      |     2.63      |
|   2   |   [1.71, 1.92, 2.15, 2.38]   |     2.63      |     2.88      |
|   3   |   [1.92, 2.15, 2.38, 2.63]   |     2.88      |     3.15      |
|   4   |   [2.15, 2.38, 2.63, 2.88]   |     3.14      |     3.42      |
|   5   |   [2.38, 2.63, 2.88, 3.15]   |     3.42      |     3.71      |
|   6   |   [2.63, 2.88, 3.15, 3.42]   |     3.70      |     4.00      |
|   7   |   [2.88, 3.15, 3.42, 3.71]   |     4.00      |     4.31      |
|   8   |   [3.15, 3.42, 3.71, 4.0]    |     4.30      |     4.62      |
|   9   |   [3.42, 3.71, 4.0, 4.31]    |     4.61      |     4.95      |
|  10   |   [3.71, 4.0, 4.31, 4.62]    |     4.94      |     5.28      |
---------------------------------------------------

В данном примере входные данные представлены последовательностями чисел data. Каждая последовательность содержит 4 значения, и требуется предсказать пятое значение. Модель LSTM обучается на этих данных, где входные последовательности **X** содержат первые 4 значения каждой последовательности, а выходные значения **y** содержат пятое значение.

Далее, модель LSTM создается и компилируется. Она состоит из одного слоя LSTM с 50 нейронами и одного плотного слоя с одним выходным нейроном. Модель обучается на данных с использованием функции потерь 'mean_squared_error' и оптимизатора 'adam' в течение 100 эпох.