# 02.  ТРАНСФОРМЕР

1. [x]  seq2seq
2. [x]  Transformer
3. [x]  общая схема
4. [x]  энкодер
5. [x]  декодер
6. [x]  attention
7. [x]  FFN
8. [x]  embeddings and softmax
9. [x]  positional encodings
10. [x] упражнение
11. [x] ссылки

# 1. seq2seq

seq2seq --- это семейство подходов для задач преобразования последовательностей (например, NLP, ASR, ML4SE).

На текущий момент, самые распространённые подходы --- это подходы на основе Трансформера (энкодер-декодер, декодер или энкодер).
Здесь мы будем рассматривать архитектуру полного Трансформера (энкодер-декодер).

Энкодер-декодерная модель состоит из:
- энкодера (encoder) и
- декодера (decoder).

*Энкодер* отображает входную последовательность представлений символов $(x_1, ..., x_n)$ в последовательность непрерывных представлений $z = (z_1, ..., z_n)$.

*Декодер* отображает $z$ в выходную последовательность $(y_1, ..., y_m)$ символов по одному элементу за раз.

На каждом шаге модель является авторегрессивной, получая ранее сгенерированные символы в качестве дополнительных входных данных при создании следующего.

![](https://miro.medium.com/max/1400/1*GvN7ekDa8rFPAZIc_xUmIw.png)

In [2]:
from IPython.display import IFrame

IFrame(src='http://jalammar.github.io/images/seq2seq_3.mp4', width=800, height=None)

# 2.  Transformer

Ранее использовались энкодер-декодерные архитектуры на основе [RNN](https://pytorch.org/tutorials/intermediate/char_rnn_generation_tutorial.html). В 2017 был предложена архитектура Трансформер (Google Brain).

![](https://miro.medium.com/max/1400/1*d41DR9IWuuF_y-k8Iff4HA.png)

[Vaswani et al - Attention Is All You Need 2017](https://arxiv.org/abs/1706.03762)

# 3. Общая схема

Трансформер состоит из энкодера и декодера, каждый из которых состоит из слоёв.

![](https://lena-voita.github.io/resources/lectures/seq2seq/transformer/model-min.png)

# 4. Энкодер

Энкодер состоит из $N$ (например,  $N = 6$) одинаковых последовательных слоёв.
Каждый слой имеет два подслоя:
- multi-head self-attention mechanism, и
- position-wise fully connected feed-forward network.

Кроме этого используется *residual connection* вокруг каждого из двух подслоев,
за которым следует [layer normalization](https://arxiv.org/abs/1607.06450).

![](https://files.ai-pool.com/a/214fce0794479b4acc9b32fd4f6d0216.png)
![](https://files.ai-pool.com/a/1aad7d26ad7a918d3ae54adde77c1a5d.png)

Более формально, выход каждого подслоя --- это `LayerNorm(x + Sublayer(x))`, где `Sublayer(x)` --- это функция, реализованная самим подслоём.

![](https://www.researchgate.net/publication/334288604/figure/fig1/AS:778232232148992@1562556431066/The-Transformer-encoder-structure_W640.jpg)

Все подслои в модели и выходные эмбеддинги имеют одинаковую размерность $d_{model}$ (например, $d_{model} = 512$).

# 5. Декодер


Декодер также состоит из $N$ последовательных одинаковых слоёв (например, $N = 6$).
Кроме аналогичных двух подслоёв добавляется третий подслой,
- который реализует multi-head attention над выходами с энкодера.

Также как и в энкодере, в декодере испольузуются residual connections вокруг каждого из подслоёв с последующей layer normalization.

![](https://i.stack.imgur.com/kOs4Z.png)

Важно, что подслой self-attention в декодере модифицирован:
- добавлены маски для предотвращения посещения последующих позиций.
Такое маскирование в сочетании с тем фактом, что выходные эмбеддинги смещены на одну позицию, гарантирует, что прогнозы для позиции $i$ могут зависеть только от известных выходов в позициях, меньших $i$.

![](https://peterbloem.nl/files/transformers/masked-attention.svg)

# 6. Attention

Attention можно описать как функцию, отображающую *запрос (query)* и множество пар *ключ-значение (key-value)* в некоторый выход.

Запрос, ключи, значения и выход являются векторами.
Вектор вычисляется как взвешенная сумма значений, где вес, присвоенный каждому значению, вычисляется по паре "запрос-ключ".

![](https://i.stack.imgur.com/SG66z.png)

## Scaled Dot-Product Attention

На входе мы имеем:
- запросы и ключи ключей размерности $d_k$ и
- значений размерности $d_v$.

Далее вычисляем скалярные произведения запроса со всеми ключами, делим каждое такое произведение на $\sqrt{d_k}$.

Затем применяем softmax для получения весов, с которыми будем суммировать значения.

![](https://wiki.aidungeon.io/images/b/bb/Scaled_Dot-Product_Attention.png)

На практике вычисления происходят в матричной форме (одновременно для набора запросов, упакованных вместе в матрицу $Q$). Ключи и значения также упаковываются вместе в матрицы $K$ и $V$.

Таким образом,
$$Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$$

Деление на $\sqrt{d_k}$ позволяет уменьшить значение больших скалярных произведений.
(Если они большие, то функция softmax в таком случае имеет очень маленькие градиенты. Это плохо.)


![](https://jalammar.github.io/images/t/self-attention-output.png)

## Multi-Head Attention

Multi-Head Attention позволяет запустить несколько attention-механизмов, каждый из которых может обладать своими полезными особенностями.
Таким образом собирается информация из различных представлений.

![](https://i.ytimg.com/vi/mMa2PmYJlCo/mqdefault.jpg)

Поэтому с помощью линейных преобразований (projections) получаем несколько ($h$) троек запрос-ключ-значение (размерности, соответственно, $d_k$, $d_k$, $d_v$).

Затем для каждой из этих троек параллельно запускается attention-механизм, что даёт выходные значения размерности $d_v$.
Далее полученные выходные значения конкатенируются и снова проецируются.

![](https://repository-images.githubusercontent.com/283979760/0f00ed80-d368-11ea-979d-78033d0a1cee)

Более формально:

$$MultiHead(Q, K, V ) = concat(head_1, ..., head_h)W^O$$

где $head_i = Attention(QW^Q_i, KW^K_i, V W^V_i)$ и используются следующие матрицы проецирования

$W^Q_i \in R^{d_{model} \times d_k}$,

$W^K_i \in R^{d_{model} \times d_k}$,

$W^V_i \in R^{d_{model} \times d_v}$,

$W^O_i \in R^{hd_v \times d_{model}}$.

Размерности могут быть, например, следующими $h = 8$, $d_k = d_v = \frac{d_{model}}{h} = 64$.

Трансформер использует multi-head attention тремя различными способами:

1. В слоях "энкодер-декодер attention" запросы поступают с предыдущего уровня декодера, а ключи и значения поступают с выходных данных энкодера. Это позволяет каждой позиции в декодере посетить все позиции входной последовательности.

2. Энкодер содержит self-attention слои.
Здесь все ключи, значения и запросы поступают из одного и того же места --- из вывода предыдущего слоя энкодера. Каждая позиция в энкодере может посетить все позиции предыдущего слоя энкодера.

3. Декодер содержит self-attention слои.
Здесь допускается для каждой позиции декодера посетить все предыдущие позиции (слева) до текущей позии включительно.
Такое ограничение возникает, поскольку необходимо сохранить авторегрессионное свойство декодера (по предыдущим токенам предсказывать следующий).
Ограничение реализуются внутри scaled dot-product attention максированием (полагая $-\infty$) всех значений на входе softmax-а, которые соответствуют недопустимым посещениям.

# 7. Position-wise Feed-Forward Networks

Каждый из слоёв энкодера и декодера содержит FFN. Этот подслой одинаково применяется к каждой позиции отдельно.

![](https://jalammar.github.io/images/t/encoder_with_tensors_2.png)
Он состоит из двух линейных преобразований с активацией [ReLU](https://arxiv.org/abs/1803.08375) между ними.

$$FFN(x) = \max(0, xW_1 + b_1)W_2 + b_2$$

Хотя линейные преобразования одинаковы для разных позиций,
  они используют разные параметры от слоя к слою.

Внутренний слой имеет большую размерностью.
Например, размерность входа и выхода $d_{model} = 512$, размерность внутреннего слоя $d_{ff} = 2048$.

В частности мы имеем, что в Трансформере токен в каждой позиции проходит свой собственный путь в энкодере.
Есть зависимости на уровне self-attention слоёв, но нет зависимостей на уровне FFN.
Это позволяет проходить FFN-подслои параллельно.

# 8. Embeddings и softmax

Для преобразования входных/выходных токенов в вектора (размерности $d_{model}$) используются обучаемые эмбеддинги.
Для преобразования выходов декодеров в предсказанные вероятности следующего токена используется обучаемое линейное преобразование и softmax.

Чуть более подробно.  На выходе декодера мы получаем вектор.
Этот вектор проходит через линейный слой (fully connected neural network), за которым следует softmax.

Линейный слой проецирует выход декодера в гораздо больший вектор (logits-вектор).
Размер этого вектор --- это размер словаря токенов.

Затем слой softmax превращает координаты в вероятности.
Выбирается наиболее вероятный токен.


![](https://jalammar.github.io/images/t/transformer_decoder_output_softmax.png)

# 9. Positional Encoding

Для того, чтобы использовать информацию о порядке токенов в последовательности, в Трансформере применяются positional encoding. Positional encoding --- это вектор, в котором закодирован номер.
Он имеет ту же длину, что и эмбеддинги ($d_{model}$). И  прибавляется к эмбеддингу на входе.

Например, можно использовать такие функции:
$$PE(pos, 2i) = \sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$$
$$PE(pos, 2i+1) = \cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$$

где $pos$ --- это индекс позиции, а $i$  --- индекс координаты.

![](https://jalammar.github.io/images/t/attention-is-all-you-need-positional-encoding.png)

# 10. Собираем всё вместе

![](https://jalammar.github.io/images/t/transformer_decoding_1.gif)
![](https://jalammar.github.io/images/t/transformer_decoding_2.gif)

# Упражение

Реализовать Трансформер с нуля на PyTorch. 
Быть готовыми ответить на вопросы по коду.

# Полезные ссылки и источники изображений

- [Voita - Seq2seq and Attention](https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html)
- [Robertson - Translation with a Sequence to Sequence Network and Attention](https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html)
- [Alammar - Mechanics of Seq2seq Models With Attention](http://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)
- [Vaswani et al - Attention Is All You Need](https://arxiv.org/abs/1706.03762)
- [Alammar - The Illustrated Transformer](https://jalammar.github.io/illustrated-transformer/)
- [Doshi - Transformers Explained Visually 1](https://towardsdatascience.com/transformers-explained-visually-part-1-overview-of-functionality-95a6dd460452)
- [Doshi - Transformers Explained Visually 2](https://towardsdatascience.com/transformers-explained-visually-part-2-how-it-works-step-by-step-b49fa4a64f34)
- [Doshi - Transformers Explained Visually 3](https://towardsdatascience.com/transformers-explained-visually-part-3-multi-head-attention-deep-dive-1c1ff1024853)
- [Doshi - Transformers Explained Visually 4](https://towardsdatascience.com/transformers-explained-visually-not-just-how-but-why-they-work-so-well-d840bd61a9d3)
- [Bloem - Transformers from scratch](https://peterbloem.nl/blog/transformers)
- [Harvard - The Annotated Transformer](http://nlp.seas.harvard.edu/annotated-transformer/)
- [Karpathy - minGPT](https://github.com/karpathy/minGPT)