# Attention, self-attention, transformers

Теория:
* [Encoder-Decoder](#encoder-decoder)
* [Attention](#attention)
* [Self-Attention](#self-attention)
* [Transformer](#transformer)
* [LLM: BERT, GPT, ...](#llm)
* [Размеры LLM моделей](#llm-sizes)
* [Byte Pair Encoding](#bpe)
* [Генерация текста](generation)

Примеры кода:
* [Модель PGT на pytorch](1_pure_torch.ipynb)
* [GPT с помощью модулей Huggingface](2_transformers.ipynb)
* [Предобученные модели](3_pretrained.ipynb)


<a name="encoder-decoder"></a>
## Encoder-Decoder

* [Lena Voita, Sequence to Sequence (seq2seq) and Attention, NLP Course](https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html)

<div><img src="https://lena-voita.github.io/resources/lectures/seq2seq/general/enc_dec_simple_rnn-min.png" width="80%"/></div>


<a name="attention"></a>
## Attention

[Attn: Illustrated Attention](https://towardsdatascience.com/attn-illustrated-attention-5ec4ad276ee3)

<div><img src="https://i.stack.imgur.com/Xtzg4.png" width="60%"/></div>


<a name="self-attention"></a>
## Self-Attention

[Illustrated: Self-Attention](https://towardsdatascience.com/illustrated-self-attention-2d627e33b20a)

<div><img src="https://i.stack.imgur.com/J45g2.png" width="60%"/></div>



<a name="transformer"></a>
## Transformer

[Vaswani et al. (2017) Attention Is All You Need, NIPS](https://arxiv.org/pdf/1706.03762.pdf) 


<div><img src="https://ar5iv.labs.arxiv.org/html/1706.03762/assets/Figures/ModalNet-21.png" width="50%"/></div>

<a name="llm"></a>
## LLM: BERT, GPT, ...

[Jacob Devlin, et al. (2019) BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)

[BERT Google repo](https://github.com/google-research/bert)

[Radford et al. (2018) Improving language understanding by generative pre-training](https://www.mikecaptain.com/resources/pdf/GPT-1.pdf)

[GPT-2 OpenAI repo](https://github.com/openai/gpt-2)

[PyTorch transformers](https://pytorch.org/hub/huggingface_pytorch-transformers/)

<div><img src="https://www.researchgate.net/publication/354908597/figure/fig1/AS:1073191841722368@1632880282219/Model-structure-of-BERT-and-GPT.png" width="50%"/></div>


<a name="llm-sizes"></a>
## Размеры LLM моделей

<div><img src="https://amatriain.net/blog/images/02-09.png" width="80%"/></div>

[Amatriain et al. (2023) Transformer models: an introduction and catalog](https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/)

<a name="bpe"></a>
## Byte Pair Encoding

Пусть, мы собираемся закодировать

 aaabdaaabac

Пара букв «аа» встречается чаще всего, поэтому она будет заменена символом, который не используется в данных, например «Z». Теперь есть следующие данные и таблица замены:

 ZabdZabac\
 Z=aa

Затем процесс повторяется с парой букв «ab», заменяя ее на «Y»:

 ZYdZYac\
 Y=ab\
 Z=aa

Единственная оставшаяся пара строчных букв встречается только один раз, и на этом кодирование можно остановить, или продолжить процесс с рекурсивным кодированием, заменив «ZY» на «X»:

 XdXac\
 X=ZY\
 Y=ab\
 Z=aa

Эти данные не могут быть сжаты ещё больше с помощью BPE, поскольку не существует пар, встречающихся более одного раза.

Чтобы распаковать данные, просто выполните замены в обратном порядке.

[Wikipedia: Byte pair encoding](https://en.wikipedia.org/wiki/Byte_pair_encoding)

<a name="generation"></a>
## Генерация текста

[How to generate text](https://huggingface.co/blog/how-to-generate)

### Greedy search
<div><img src="https://huggingface.co/blog/assets/02_how-to-generate/greedy_search.png" width="40%"/></div>

### Beam search
<div><img src="https://huggingface.co/blog/assets/02_how-to-generate/beam_search.png" width="40%"/></div>

### Sampling
<div><img src="https://huggingface.co/blog/assets/02_how-to-generate/sampling_search.png" width="50%"/></div>

### Temperature

<div><img src="https://huggingface.co/blog/assets/02_how-to-generate/sampling_search_with_temp.png" width="50%"/></div>

### Top-K Sampling, Top-p sampling и др.
