


## Что такое Transformer

* Архитектура нейронных сетей, представленная в статье *"Attention Is All You Need" (2017)*.
* Создана для задач последовательной обработки: перевод, суммаризация, генерация.
* Главное отличие: **полное отсутствие рекуррентных и сверточных слоёв**.
* Основная идея: **Self-Attention**, позволяющая модели фокусироваться на значимых токенах.



![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/34/Transformer%2C_full_architecture.png/1280px-Transformer%2C_full_architecture.png)


## Проблемы предыдущих архитектур

### RNN / LSTM / GRU:

* Последовательная обработка → низкая скорость.
* Сложности с долгими зависимостями.
* Взрыв/затухание градиентов.

### CNN в NLP:

* Ограниченный receptive field.
* Много слоёв для дальних зависимостей.



## Основа структуры Transformer

Классический Transformer состоит из двух симметричных частей:

* **Encoder** — извлекает представления входа.
* **Decoder** — генерирует выход шаг за шагом.

Каждый состоит из N одинаковых блоков.

### Encoder block:

1. Multi-Head Self-Attention
2. Feed-Forward Network (FFN)
3. Skip-connections + LayerNorm

### Decoder block:

1. Masked Multi-Head Self-Attention
2. Encoder–Decoder Attention
3. Feed-Forward Network
4. Skip-connections + LayerNorm



## Что такое Attention

Attention — механизм, который решает: *какие токены важны для обработки текущего токена?*

В self-attention каждый токен взаимодействует с каждым.

Формально attention вычисляется так:


$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right) V$


* **Q (Query)** — запрос.
* **K (Key)** — ключ.
* **V (Value)** — значение.
* $d_k$ — размерность ключей.



## Q, K, V 

Представим, что модель читает предложение:

> "The cat sat on the mat"

Для токена *"cat"* она формирует:

* **Query** — что я ищу?
* **Key** — чем я являюсь?
* **Value** — какую информацию несу?

Attention определяет, насколько каждый токен важен для *"cat"*.



## Multi-Head Attention

Вместо одного self-attention используется несколько:

* Каждый head учится признавать разные типы зависимостей.
* Пример: один head фокусируется на синтаксисе, другой — на согласовании чисел, третий — на семантике.

$$\mathrm{MultiHead}(Q, K, V) = \mathrm{concat}( \text{head}_1, \ldots, \text{head}_h ) \, W_o$$

* h — число heads.
* Каждый head имеет свои $W_q$, $W_k$, $W_v$.



## Почему Attention эффективнее RNN

* Параллелизм: self-attention вычисляется для всех токенов одновременно.
* Глобальные зависимости обрабатываются за 1 шаг.
* Сложность $O(n^2)$, но без последовательных зависимостей.



## Positional embedding

Поскольку в Transformer нет рекуррентности, модель не знает порядок токенов.

Решение: **positional encoding**.

Два типа:

1. **Sinusoidal (оригинальный)**:

$$
pos[2i] = sin(pos / 10000^{2i/d}) 
$$
$$
pos[2i+1] = cos(pos / 10000^{2i/d})
$$

2. **Learned** — обучаемые embedding.

3. ...

## Feed-Forward Block (FFN)

В каждом энкодере и декодере после attention следует FFN:

$$\mathrm{FFN}(x) = \max(0,\, x W_{1} + b_{1})\, W_{2} + b_{2}$$


* Увеличивает размерность (d → 4d → d).
* Применяется отдельно к каждому токену.
* Добавляет нелинейность и улучшает представления.



## Layer Normalization и Skip Connections

### Skip connections:

* Помогают при обучении глубоких моделей.
* Борются с затуханием градиентов.

### LayerNorm:

* Нормализует активации каждого слоя.
* Стабилизирует обучение.



## Почему Transformer стал революцией

* Резкий качества в NLP моделях.
* Огромная скорость обучения.
* Легче параллелить.
* Отлично масштабируется (GPT, BERT, T5, LLaMA).
* Универсальная архитектура для текста, изображений, аудио.



## Эволюция Transformer

* **2018** — BERT (энкодер).
* **2018** — GPT (декодер).
* **2020** — T5 (encoder–decoder).
* **2021+** — Vision Transformer, Audio Transformer, Multimodal.
* **2023+** — FlashAttention, Linear Attention.



## Ограничения Transformer

* Квадратичная сложность $O(n^2)$ по длине.
* Большие требования к GPU.
* Медленный инференс у больших моделей.

Решения: те же FlashAttention, LLaMA-style оптимизации, Mixture-of-Experts.



## Общая схема ванильного Transformer

```
Input → Embedding → Positional Encoding
 → Encoder (N слоёв)
 → Decoder (N слоёв)
 → Linear → Softmax → Output
```
