# Алгоритм глубокого обучения с использованием рекуррентных нейронных сетей (RNN) для распознавания лиц

## 1. Краткий обзор
Рекуррентные нейронные сети (RNN) являются мощным инструментом для обработки последовательных данных, таких как временные ряды, текст и видео. В контексте распознавания лиц RNN могут быть использованы для анализа последовательностей изображений или видео кадров, где временные зависимости между кадрами могут улучшить точность распознавания. В частности, Long Short-Term Memory (LSTM) и Gated Recurrent Units (GRU) — это усовершенствованные варианты RNN, которые решают проблему исчезающих и взрывающихся градиентов.

## 2. Цель метода
Цель использования RNN в распознавании лиц заключается в эффективной обработке и анализе последовательных данных, чтобы учитывать временные зависимости и контекстную информацию, что может улучшить точность и надежность распознавания лиц.

## 3. Принцип работы алгоритма
RNN обрабатывают последовательные данные, используя скрытые состояния, которые обновляются на каждом временном шаге. Это позволяет сети сохранять информацию о предыдущих входах и использовать её для текущих предсказаний.

Основные шаги работы RNN:

1. **Входные данные:** Входные последовательности (например, кадры видео) подаются в сеть.
2. **Скрытые состояния:** На каждом временном шаге входное значение и предыдущее скрытое состояние используются для вычисления нового скрытого состояния.
  $
   h_t = \sigma(W_{xh} x_t + W_{hh} h_{t-1} + b_h)
  $
   где $h_t$ - скрытое состояние в момент времени $t$, $x_t$ - входное значение, $W_{xh}$ и $W_{hh}$ - весовые матрицы, $b_h$ - смещение, $\sigma$ - функция активации.
3. **Выходные данные:** Скрытые состояния используются для вычисления выходов сети.
  $
   y_t = \sigma(W_{hy} h_t + b_y)
  $
   где $y_t$ - выходное значение, $W_{hy}$ - весовая матрица, $b_y$ - смещение, $\sigma$ - функция активации.

## 4. Схема работы алгоритма
```plaintext
1. Input Sequence (Video Frames) -> 2. RNN Layers (LSTM/GRU) -> 3. Hidden States -> 4. Output Sequence (Face Recognition Predictions)


## 5. Эксперимент на открытой, готовой библиотеке
Пример кода для использования LSTM для распознавания лиц с использованием Keras

In [3]:
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, TimeDistributed
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.utils import to_categorical

# Генерация фиктивных данных (последовательности изображений лиц)
# Здесь мы создаем случайные данные для демонстрации. В реальном случае используйте видеокадры.
num_samples = 1000
sequence_length = 10
num_features = 128  # Примерное количество признаков на один кадр
num_classes = 5  # Количество различных лиц

X = np.random.rand(num_samples, sequence_length, num_features)
y = np.random.randint(0, num_classes, num_samples)

# Преобразование меток в категориальные
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)
y_categorical = to_categorical(y_encoded, num_classes=num_classes)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y_categorical, test_size=0.3, random_state=42)

# Создание модели RNN с LSTM
model = Sequential()
model.add(LSTM(64, input_shape=(sequence_length, num_features), return_sequences=True))
model.add(LSTM(64))
model.add(Dense(num_classes, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Обучение модели
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

# Оценка модели на тестовых данных
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Accuracy: {accuracy:.2f}')

Epoch 1/10


  super().__init__(**kwargs)


[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 23ms/step - accuracy: 0.2065 - loss: 1.6273 - val_accuracy: 0.1786 - val_loss: 1.6123
Epoch 2/10
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - accuracy: 0.1922 - loss: 1.6166 - val_accuracy: 0.1429 - val_loss: 1.6214
Epoch 3/10
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.2233 - loss: 1.6048 - val_accuracy: 0.1429 - val_loss: 1.6278
Epoch 4/10
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - accuracy: 0.2584 - loss: 1.5943 - val_accuracy: 0.1929 - val_loss: 1.6388
Epoch 5/10
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.2556 - loss: 1.5994 - val_accuracy: 0.1429 - val_loss: 1.6227
Epoch 6/10
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.2081 - loss: 1.6031 - val_accuracy: 0.1571 - val_loss: 1.6173
Epoch 7/10
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━

## 6. Преимущества и недостатки
#### Преимущества
- Учет временных зависимостей: RNN эффективно обрабатывают последовательные данные, что улучшает точность распознавания лиц.
- Снижение неопределенности: Использование нечеткой логики уменьшает неопределенность в картах признаков.
- Гибкость: RNN могут применяться к различным типам последовательных данных.
#### Недостатки
- Высокая вычислительная сложность: Обучение и предсказание с использованием CNN-RNN требует значительных вычислительных ресурсов.
- Сложность обучения: RNN могут сталкиваться с проблемами исчезающих и взрывающихся градиентов.
- Необходимость большого объема данных: Для эффективного обучения требуется большой объем данных.

## Статьи по данной теме:
1. [A Novel Fuzzy Optimized CNN-RNN Method for Facial Expression Recognition](https://www.researchgate.net/publication/356960662_A_novel_fuzzy_optimized_cnn-rnn_method_for_facial_expression_recognition)
2. [Recurrent Embedding Aggregation Network for Video Face Recognition](https://arxiv.org/pdf/1904.12019)
3. [Facial Expression Recognition with Recurrent Neural Networks](https://www.cs.toronto.edu/~graves/cotesys_2008.pdf)