# 🧠 Урок 33: Архитектуры CNN — ResNet, EfficientNet, YOLO, Transformer-based модели
**Цель урока:** Познакомиться с основными архитектурами сверточных нейросетей (ResNet, EfficientNet, YOLO, Vision Transformer), понять их устройство и применение. Подходит для новичков.

## 📌 Зачем разные архитектуры CNN?
- **ResNet** — решает проблему затухания градиента в глубоких сетях.
- **EfficientNet** — балансирует глубину, ширину и разрешение для оптимальной эффективности.
- **YOLO** — быстрая детекция объектов в реальном времени.
- **Transformer-based модели** — обрабатывают изображения через механизм внимания, учитывая глобальные связи.
- **Аналогия:** Если CNN — это автомобиль, то ResNet — внедорожник (глубокий и надежный), EfficientNet — хэтчбек (баланс), YOLO — гоночный болид (быстрый), Transformer — беспилотник (новый подход) [[7]].

## 📐 ResNet: Революция глубоких сетей
- **Что это?** Архитектура с skip-connections (пропускными связями), позволяющая обучать сети из сотен слоев.
- **Как работает?**
  - **Skip Connection:** Передает входной сигнал напрямую на выход, минуя несколько слоев.
  - **Формула:** `output = activation(input + F(input))`, где `F(input)` — преобразование через слои.
- **Зачем?** Решает проблему затухания градиента и позволяет создавать более глубокие модели [[6]].
- **Преимущества:**
  - Стабильное обучение на больших данных.
  - Высокая точность в задачах классификации.
- **Ограничения:**
  - Сложность модели.
  - Высокие требования к вычислительным ресурсам.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.applications import ResNet50
  model = ResNet50(weights='imagenet', include_top=False, input_shape=(224, 224, 3))
  ```
- **Аналогия:** Skip Connection — как книга с закладками: вы можете пропустить сложную главу и перейти к следующей, сохранив общий контекст.

## 🧱 EfficientNet: Баланс глубины и эффективности
- **Что это?** Модель, которая масштабирует глубину, ширину и разрешение пропорционально.
- **Как работает?** Использует Compound Scaling для равномерного увеличения параметров [[7]].
- **Преимущества:**
  - Высокая точность при малых ресурсах.
  - Масштабируемость под разные задачи.
- **Ограничения:**
  - Менее точна, чем ResNet, на сложных задачах.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.applications import EfficientNetB0
  model = EfficientNetB0(weights='imagenet', include_top=False, input_shape=(224, 224, 3))
  ```
- **Аналогия:** Compound Scaling — как увеличение объема двигателя, колес и скорости автомобиля пропорционально.

## 🎯 YOLO: Детекция объектов в реальном времени
- **Что это?** Архитектура для детекции объектов без двухэтапного процесса (как R-CNN).
- **Как работает?**
  - **Сетка (Grid):** Разбивает изображение на ячейки.
  - **Bounding Box:** Каждая ячейка предсказывает прямоугольник и вероятность класса.
  - **Confidence Score:** Вероятность, что в ячейке есть объект.
- **Преимущества:**
  - Высокая скорость (до 45 FPS).
  - Одноэтапная архитектура упрощает обучение.
- **Ограничения:**
  - Сложнее настраивать, чем двухэтапные методы.
  - Чувствителен к мелким объектам.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.models import Model
  from tensorflow.keras.layers import Input, Dense
  from yolo.model import YOLO
  
  model = YOLO(input_shape=(416, 416, 3), classes=80)
  ```
- **Аналогия:** YOLO — как курьер, который сразу определяет, что доставлять и куда, без лишних шагов.

## 🧩 Transformer-based модели: Новый подход к изображениям
- **Что это?** Использование механизма внимания (attention) вместо сверток для обработки изображений.
- **Как работает?**
  - **Патч-эмбеддинги:** Изображение разбивается на патчи, преобразуется в последовательность токенов.
  - **Self-Attention:** Модель учится, какие патчи важны друг для друга.
  - **MLP:** Пост-обработка через полносвязные слои.
- **Преимущества:**
  - Учет глобальных зависимостей (например, объекты в разных частях изображения).
  - Лучше работает на больших датасетах, чем классические CNN.
- **Ограничения:**
  - Требует больших данных для обучения.
  - Медленнее CNN на малых датасетах.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.applications import ConvNeXtTiny
  model = ConvNeXtTiny(weights='imagenet', include_top=False, input_shape=(224, 224, 3))
  ```
- **Аналогия:** Transformer — как человек, который смотрит на всю картину целиком, а не на отдельные фрагменты [[3]].

## 🧪 Практика: Обучение ResNet и Vision Transformer на CIFAR-10
### Шаг 1: Загрузка и предобработка данных

In [None]:
from keras.datasets import cifar10
import numpy as np
import tensorflow as tf

# Загрузка данных
(X_train, y_train), (X_test, y_test) = cifar10.load_data()
X_train = X_train.astype('float32') / 255.0
X_test = X_test.astype('float32') / 255.0
y_train = tf.keras.utils.to_categorical(y_train, 10)
y_test = tf.keras.utils.to_categorical(y_test, 10)

### Шаг 2: Обучение ResNet

In [None]:
from tensorflow.keras.applications import ResNet50
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Загрузка ResNet
base_model = ResNet50(weights='imagenet', include_top=False, input_shape=(32, 32, 3))
base_model.trainable = False  # Заморозка слоев

# Добавление полносвязных слоев
model = Sequential([
    base_model,
    tf.keras.layers.GlobalAveragePooling2D(),
    Dense(10, activation='softmax')
])

# Компиляция и обучение
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
history = model.fit(X_train, y_train, epochs=10, batch_size=64, validation_data=(X_test, y_test))

### Шаг 3: Обучение Vision Transformer

In [None]:
from tensorflow.keras.applications import ConvNeXtTiny
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Загрузка ConvNeXt (Transformer-based)
base_model = ConvNeXtTiny(weights='imagenet', include_top=False, input_shape=(32, 32, 3))
base_model.trainable = False

# Добавление слоев
model_vit = Sequential([
    base_model,
    tf.keras.layers.GlobalAveragePooling2D(),
    Dense(10, activation='softmax')
])

# Компиляция и обучение
model_vit.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
history_vit = model_vit.fit(X_train, y_train, epochs=10, batch_size=64, validation_data=(X_test, y_test))

## 📊 Сравнение моделей
- **ResNet:** Высокая точность, но медленнее на малых датасетах.
- **Vision Transformer:** Лучше на больших данных, но требует больше вычислений.
- **YOLO:** Для детекции, а не классификации.
- **Пример:**
  ```python
  import matplotlib.pyplot as plt
  
  # График точности
  plt.plot(history.history['accuracy'], label='ResNet Accuracy')
  plt.plot(history_vit.history['accuracy'], label='Vision Transformer Accuracy')
  plt.legend()
  plt.title('Сравнение ResNet и Vision Transformer')
  plt.xlabel('Эпохи')
  plt.ylabel('Accuracy')
  plt.grid(True)
  plt.show()
  ```

## 📈 Как работает механизм внимания (Attention)?
- **Attention:** Модель учится, какие части изображения важны для классификации.
- **Преимущества:** Учет глобальных зависимостей, лучшая точность на больших датасетах.
- **Ограничения:** Требует больше данных и вычислений.
- **Пример:**
  ```python
  from tensorflow.keras.models import Model
  from tensorflow.keras.layers import Input, Dense
  
  inputs = Input(shape=(32, 32, 3))
  x = base_model(inputs)
  outputs = Dense(10, activation='softmax')(x)
  model = Model(inputs, outputs)
  ```
- **Аналогия:** Attention — как человек, который фокусируется на ключевых деталях (например, лицо в толпе).

## 📉 Что такое переобучение и как его избежать?
- **Переобучение (Overfitting):** Модель идеально запоминает тренировочные данные, но плохо работает на тестовых.
- **Причины:**
  - Слишком сложная модель.
  - Недостаток данных.
- **Как бороться?**
  - Используйте регуляризацию (Dropout, L2).
  - Добавьте аугментации изображений.
  - Используйте предобученные модели.
- **Пример:**
  ```python
  from tensorflow.keras.layers import Dropout
  model.add(Dropout(0.5))  # Отключает 50% нейронов
  ```
- **Аналогия:** Dropout — как тренировка команды без одного игрока: остальные учатся компенсировать его отсутствие.

## 📝 Домашнее задание
**Задача 1:** Измените архитектуру ResNet:
- Добавьте `Dropout(0.5)` после `GlobalAveragePooling2D()`.
- Как меняется `val_accuracy`?
- Нарисуйте график обучения.

**Задача 2:** Сравните Vision Transformer и ResNet на датасете CIFAR-10:
- Визуализируйте confusion matrix для обеих моделей.
- Напишите отчет (200–300 слов), где:
  - Опишите, как вы обучали модели.
  - Сравните точность и loss.
  - Объясните, почему Transformer работает лучше на больших данных.
  - Приведите примеры, где эти архитектуры полезны (например, YOLO — для автопилотов, Transformer — для медицинских снимков).
- **Подсказка:** Используйте `sns.heatmap` для матрицы ошибок.

In [None]:
# Ваш код здесь
from tensorflow.keras.layers import Dropout
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import GlobalAveragePooling2D, Dense

# ResNet с Dropout
base_model = ResNet50(weights='imagenet', include_top=False, input_shape=(32, 32, 3))
base_model.trainable = False

model_dropout = Sequential([
    base_model,
    GlobalAveragePooling2D(),
    Dropout(0.5),
    Dense(10, activation='softmax')
])

model_dropout.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
history_dropout = model_dropout.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))

In [None]:
# Визуализация обучения
import matplotlib.pyplot as plt

plt.plot(history_vit.history['val_accuracy'], label='Vision Transformer')
plt.plot(history_dropout.history['val_accuracy'], label='ResNet + Dropout')
plt.legend()
plt.title('Сравнение точности')
plt.xlabel('Эпохи')
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()

## ✅ Рекомендации по выполнению
- **Задача 1:** После добавления Dropout следите за `val_loss`: если он растет, уменьшите learning rate.
- **Задача 2:** Сравнивайте `val_accuracy` и `val_loss` для разных моделей.
- **Подсказка:** Используйте `model.summary()` для анализа архитектуры.