# 🧠 Урок 25: Архитектуры нейросетей — CNN, RNN, LSTM, GRU
**Цель урока:** Познакомиться с основными архитектурами нейросетей, понять их устройство и применение. Подходит для новичков.

## 📌 Зачем разные архитектуры?
- **CNN (сверточные сети):** Для изображений и локальных паттернов.
- **RNN (рекуррентные сети):** Для последовательных данных (текст, временные ряды).
- **LSTM/GRU:** Улучшенные RNN, которые лучше обрабатывают долгосрочные зависимости.
- **Аналогия:** Если нейросети — это инструменты, то CNN — молоток для гвоздей, RNN — ножницы для текста, LSTM/GRU — специальные ножницы, которые помнят, где вы остановились (https://example.com ).

## 📐 Сверточные нейросети (CNN)
- **Что это?** Модель, которая выделяет локальные признаки через свертку.
- **Где используется?** Обработка изображений, видео, медицинские снимки.
- **Как работает?**
  - **Conv2D:** Обнаруживает края, углы.
  - **MaxPooling:** Уменьшает размер, сохраняя важные детали.
  - **Flatten + Dense:** Классификация на основе признаков.
- **Преимущества:**
  - Хорошо выделяет локальные паттерны.
  - Устойчивость к сдвигам (invariance to translation).
- **Ограничения:**
  - Не подходит для последовательных данных.
  - Требует больших вычислительных ресурсов.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.models import Sequential
  from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
  
  model = Sequential([
      Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
      MaxPooling2D((2, 2)),
      Conv2D(64, (3, 3), activation='relu'),
      MaxPooling2D((2, 2)),
      Flatten(),
      Dense(64, activation='relu'),
      Dense(10, activation='softmax')
  ])
  ```
- **Аналогия:** CNN — как детектор признаков: первый слой находит края, второй — формы, третий — комбинации признаков.

## 📊 Рекуррентные нейросети (RNN)
- **Что это?** Модели, которые запоминают предыдущие данные в последовательности.
- **Где используется?** Тексты, временные ряды, голосовые данные.
- **Как работает?**
  - **Hidden State:** Передает информацию от одного шага к другому.
  - **Проблема:** Исчезающий градиент — RNN забывает старые данные.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.models import Sequential
  from tensorflow.keras.layers import SimpleRNN, Dense
  
  model = Sequential([
      SimpleRNN(64, input_shape=(timesteps, features)),
      Dense(1)
  ])
  ```
- **Аналогия:** RNN — как человек, который читает книгу, но забывает начало главы к концу.

## 🧠 LSTM (Long Short-Term Memory)
- **Что это?** RNN с вентилями, которые контролируют, что запоминать, а что забывать.
- **Вентили:**
  - **Input Gate:** Что добавить в память.
  - **Forget Gate:** Что удалить из памяти.
  - **Output Gate:** Что использовать для предсказания.
- **Преимущества:**
  - Решает проблему исчезающего градиента.
  - Может обрабатывать длинные последовательности.
- **Ограничения:**
  - Сложнее, чем простой RNN.
  - Медленнее обучается.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.layers import LSTM
  model = Sequential([
      LSTM(64, input_shape=(timesteps, features)),
      Dense(1)
  ])
  ```
- **Аналогия:** LSTM — как человек с блокнотом: записывает важное, стирает ненужное, использует актуальное для ответа.

## 🚪 GRU (Gated Recurrent Unit)
- **Что это?** Упрощенная версия LSTM с двумя вентилями: update gate и reset gate.
- **Преимущества:**
  - Быстрее LSTM.
  - Хорошо работает на коротких последовательностях.
- **Ограничения:**
  - Меньше контроля над памятью, чем у LSTM.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.layers import GRU
  model = Sequential([
      GRU(64, input_shape=(timesteps, features)),
      Dense(1)
  ])
  ```
- **Аналогия:** GRU — как краткий блокнот, где меньше разделов, но всё равно можно записывать и стирать.

## 🧩 Гибридные архитектуры: CNN + RNN
- **Зачем?** CNN выделяет локальные паттерны, RNN — обрабатывает последовательность.
- **Где применяется?** Видеоанализ, обработка естественного языка (NLP).
- **Пример:**
  ```python
  model = Sequential([
      Conv2D(32, (3, 3), activation='relu', input_shape=(height, width, channels)),
      MaxPooling2D((2, 2)),
      Flatten(),
      LSTM(64),
      Dense(10, activation='softmax')
  ])
  ```
- **Аналогия:** CNN — как детектор признаков, LSTM — как хранитель контекста (https://example.com ).

## 🧪 Практика: Обучение CNN на MNIST
### Шаг 1: Загрузка данных

In [None]:
from keras.datasets import mnist
import numpy as np

(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train = X_train.reshape((60000, 28, 28, 1)) / 255.0
X_test = X_test.reshape((10000, 28, 28, 1)) / 255.0
y_train = np.eye(10)[y_train]
y_test = np.eye(10)[y_test]

### Шаг 2: Создание модели

In [None]:
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D((2, 2)),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    Flatten(),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax')
])

### Шаг 3: Компиляция и обучение

In [None]:
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

history = model.fit(X_train, y_train, 
                  epochs=5,
                  batch_size=64,
                  validation_data=(X_test, y_test))

### Шаг 4: Визуализация обучения

In [None]:
import matplotlib.pyplot as plt

# График точности
plt.plot(history.history['accuracy'], label='Train Accuracy')
plt.plot(history.history['val_accuracy'], label='Test Accuracy')
plt.legend()
plt.title('Accuracy по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()

## 📈 Практика: Обучение LSTM на временных рядах
### Шаг 1: Создание искусственных данных

In [None]:
import numpy as np

# Искусственные данные
timesteps = 10
X = np.random.rand(1000, timesteps, 1)
y = np.sum(X, axis=(1, 2)) / timesteps  # Среднее значение
X_train, X_test = X[:800], X[800:]
y_train, y_test = y[:800], y[800:]

### Шаг 2: Создание модели

In [None]:
from keras.models import Sequential
from keras.layers import LSTM, Dense

# Архитектура LSTM
model = Sequential([
    LSTM(64, input_shape=(timesteps, 1)),
    Dense(1)
])

### Шаг 3: Обучение модели

In [None]:
model.compile(optimizer='adam', loss='mse')
history = model.fit(X_train, y_train, 
                  epochs=20,
                  batch_size=32,
                  validation_data=(X_test, y_test))

### Шаг 4: Визуализация обучения

In [None]:
import matplotlib.pyplot as plt

# График потерь
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Test Loss')
plt.legend()
plt.title('Loss по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('MSE')
plt.grid(True)
plt.show()

## 📊 Сравнение архитектур
- **CNN:** Лучше для изображений и локальных паттернов.
- **RNN:** Простая обработка последовательностей, но быстро забывает.
- **LSTM/GRU:** Лучше RNN, подходят для длинных последовательностей.
- **CNN + LSTM:** Для видео или временных рядов с пространственными паттернами.
- **Пример:**
  ```python
  from keras.layers import Bidirectional
  model = Sequential([
      Bidirectional(LSTM(64)),  # Двунаправленный LSTM
      Dense(1)
  ])
  ```

## 📝 Домашнее задание
**Задача 1:** Измените архитектуру CNN:
- Добавьте еще один `Conv2D(128, (3, 3))` и `MaxPooling2D`.
- Как меняется `accuracy`?
- Нарисуйте график обучения.

**Задача 2:** Попробуйте GRU вместо LSTM на задаче прогнозирования временных рядов.
- Как меняется результат?
- Ускорилось ли обучение?
- Сохраните график потерь и точности.

In [None]:
# Ваш код здесь
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# Измененная CNN
modified_model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D((2, 2)),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    Conv2D(128, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    Flatten(),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax')
])

In [None]:
# Обучение измененной CNN
modified_model.compile(optimizer='adam',
                     loss='categorical_crossentropy',
                     metrics=['accuracy'])
history = modified_model.fit(X_train, y_train, 
                        epochs=5,
                        batch_size=64,
                        validation_data=(X_test, y_test))

In [None]:
# Ваш код здесь
from keras.models import Sequential
from keras.layers import GRU, Dense

# GRU вместо LSTM
gru_model = Sequential([
    GRU(64, input_shape=(timesteps, 1)),
    Dense(1)
])

In [None]:
# Обучение GRU
gru_model.compile(optimizer='adam', loss='mse')
gru_history = gru_model.fit(X_train, y_train, 
                           epochs=20,
                           batch_size=32,
                           validation_data=(X_test, y_test))

In [None]:
# Визуализация обучения GRU
import matplotlib.pyplot as plt

plt.plot(gru_history.history['loss'], label='Train Loss')
plt.plot(gru_history.history['val_loss'], label='Test Loss')
plt.legend()
plt.title('Loss по эпохам (GRU)')
plt.xlabel('Эпохи')
plt.ylabel('MSE')
plt.grid(True)
plt.show()

## ✅ Рекомендации по выполнению
- **Задача 1:** После добавления новых слоев сравните `loss` и `accuracy` до и после.
- **Задача 2:** Проверьте, как GRU влияет на `val_loss` и время обучения.
- **Подсказка:** Используйте `model.summary()` для анализа архитектуры.