# Введение. Возможности и ограничения изученных архитектур.

В первой части курса мы рассмотрели следующие архитектуры:
1. FCNN - полносвязные нейронные сети, нейронные сети прямого распространения, прецептроны
2. CNN - сверточные нейронные сети (YOLO, AlexNet, U-Net)
3. RNN - реккурентные нейронные сети (LSTM, GRU)
4. AE - Автоэнкодеры 
5. DNNs - Дифузионные модели (StableDiffusion, etc)

Рассмотрим достоинства и недостатки этих моделей на примере задач обработки текста.

*Как область ML, NLP выходит за рамки нашего курса, однако понять материал будет проще на этом примере. Кроме того, LLM теперь всюду, и знать базовые принципы их работы полезно*

## 1. Проблемы классических архитектур в задачах обработки языка.

Мы разберем недостатки классических архитектур на примере 2х классических задач.

**Задача машинного перевода**

Машинный перевод — это задача, которая заключается в автоматическом переводе текста с одного языка на другой. 

Рассмотрим ключевые компоненты этой задачи
1. *Входные данные*: 

    Исходный текст на языке $L_1$, который необходимо перевести. Обозначим его как $X = (x_1, x_2, \ldots, x_n)$, где $x_i$ — это слова или токены в предложении.

2. *Выходные данные*: 

    Переведённый текст на языке $L_2$. Обозначим его как $Y = (y_1, y_2, \ldots, y_m)$, где $y_j$ — это слова или токены в переведённом предложении.

3. *Модель перевода*:

    Отображает исходный текст $X$ на языке $L_1$ в грамматически и стилистически-правильный перевод $Y$ на языке $L_2$.
    $$\mathcal{M}: X\in L_1 \to Y\in L_2$$

4. *Данные для обучения*:

    Переводная литература, словари, синтетические данные на основе существующих моделей.

Как только мы поставили задачу таким образом, немедленно возникает несколько проблем:

1. *Векторное представление текста*:

    Модели машинного обучения оперируют числами, подать на их вход текст напрямую невозможно. Нужно научиться формировать какое-то векторное представление для текста, т.е. выполнить его *векторизацию*. Эта задача решается в 2 этапа: первый называется *токенизация*, в нем текст разбивается на некоторые минимальные единицы - *токены*. Второй этап - сопоставить токенам вектора в неком абстрактном пространстве - получить эмбеддинги токенов (калька с англ. embedding - вложение). Также нужно уметь восстанавливать текст из этих эмбеддингов. Мы детальнее рассмотрим вопрос создания векторных представлений текста и изображений позже.

    ![image.png](attachment:image.png)

2. *Длина текста*:

    Модели машинного обучения принимают входные данные постоянного, фиксированного размера (для языковых моделей он называется окном контекста). Размер переводимого текста, напротив, не должен быть ничем ограничен. Можно подойти к этой проблеме со стороны алгоритмов векторизации, но такой подход показал себя не вполне продуктивным - очевидно, текст нельзя сжимать неограниченно. 
    
    Поэтому языковые модели на самом деле выполняют отображение:
    $$\mathcal{M}: (x_i ... x_{i+W}) \to (y_i ... y_{i+W}) $$
    Где $\{x_j\}, \{y_j\}$ - наборы токенов текста. В случае, если длина текста в токенах больше чем окно контекста, окно контекста будет сдвигаться по мере перевода, а если меньше - то дополняться пустыми токенами.

    На практике более удобно обучать отображения вида:
    $$\mathcal{M}: (x_i ... x_{i+W}),(y_i ... y_{i+W}) \to y_{i+W+1} $$
    поскольку:
    - Никто не гарантирует, что переведённый текст будет иметь такое же количество токенов как исходный. Это создаёт лишние проблемы при обучении и инференсе. Новая схема лишена 
    этого недостатка;
    - Нужно предсказывать не всё окно контекста сразу, а всего один токен (или несколько - в случае Multi-Token моделей), а токенов на входе при этом получается больше - задача проще.

3. *Память*:

    Чтобы адекватно пререводить текст, нужно выучить миллионы сочетаний слов (токенов), их смысл, грамматические правила, исключения и т.д.

**Задача генерации/дополнения текста**

Постановка задачи генерации текста в целом похожа

1. *Входные данные*: 

    Исходный текст $(x_1, x_2, \ldots, x_n)$, который необходимо дополнить

2. *Выходные данные*: 
    
    Продолжение текста $(x_{n+1}, x_{n+2}, \ldots, x_{n+k})$,

3. *Генеративная модель*:

    Предсказывает один или несколько следующих токенов текста:
    $$\mathcal{M}: (x_i ... x_{i+W}) \to x_{i+W+1} $$
    Текст генерируется путём рекурсивного применения данного отображения. Остановка генерации происходит за счёт специального токена - токена остановки генерации.

4. *Данные для обучения*:

    В целом, любые тексты, релевантные предметной области модели.

Основные проблемы при решении задачи генерации текста в целом такие же, как при машинном переводе.

**Недостатки классических моделей в решении задач обработки языка**

![alt text](ki50qm8t.14_(1)-2494041103.jpg)

| **Тип модели** | Плюсы | Минусы |
|------------|-------|--------|
| **FCNN** | - Простая архитектура, легко реализуется. <br> - Хорошо подходит для небольших наборов данных. <br> - Может обучаться сложным функциям. | - Неэффективна для высокоразмерных данных. <br> - Склонна к переобучению при больших наборах данных. <br> - Не имеет ни пространственного, ни временного восприятия. |
| **CNN** | - Свертки позволяют эффективно обрабатывать данные большой размерности малым числом параметров. <br> - Эффективно захватывает локальные паттерны. | - Менее эффективна для последовательных данных. <br> - Может плохо захватывать дальние зависимости. |
| **RNN** | - Хорошо захватывает зависимости в последовательных данных. <br> - Может обрабатывать входные данные переменной длины. | - Склонны к проблеме исчезающего градиента. <br> - Рекуррентные блоки плохо параллелятся (т.к. входы зависят от прошлых выходов). <br> - Ограниченная память о прошлых входах. |
| **AE** |  - Формирует компактные представления данных. <br> - Хорошо обнаруживает аномалии данных. | - Требует тщательной настройки архитектуры. <br> - Может плохо обобщаться для новых данных. |


# 1. Архитектура seq2seq. Механизм Attention.

![image.png](attachment:image.png)

![image.png](attachment:image.png)