## Few-shot learning in GPT

Языковые модели, такие как GPT-3, тренируются решать одну задачу: предсказывать следующее слово (токен) для текста. На первый взгляд, применений им немного: можно генерировать псведо-осмысленный текст для увеличения объема курсовой работы.

Языковые модели содержат в своих весах знания об обучающем датасете. Чем больше весов, тем больше знаний. Огромные модели, такие как GPT-3 (175 млрд. весов), знают очень многое. Рассмотрим, как использовать эти знания для решения реальных задач.

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/out/gpt_train_inference.png" width="600">

Обученную языковую модель можно **обусловить на решение конкретной задачи** путем встраивания этой задачи в текстовый запрос на входе модели. Для этого необходимо сформулировать запрос таким образом, чтобы ожидаемый ответ был органичным продолжением запроса в среднестатистической книге или статье на соответствующую тему из обучающего датасета.

Например, если нужен рецепт яблочного пирога, то запрос "модель, прошу, выдай мне рецепт яблочного пирога" вряд ли поможет. Надо сформировать запрос так, чтобы он был похож на начало абзаца поваренной книги, например: "Рецепт яблочного пирога. Нам потребуются".

При таком использовании модели не происходит ее обучения или дообучения для определенной задачи: **веса не обновляются**, модель используется "как есть" и распознает задачу как часть входного запроса.

### Zero-shot learning

Zero-shot learning — это способ получения от модели ответа на задачу без дополнительных примеров ее решения. Фактически, мы просто ожидаем, что внутреннее представление мира позволит модели сразу дать ответ на наш исходный запрос.

Этот принцип использован выше в примере с рецептом яблочного пирога. Мы просто рассчитываем, что модель из контекста запроса поймет, что мы от нее хотим, и сможет использовать свое представление мира для выдачи корректного ответа.

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/out/gpt_zero_shot.png" width="400">

Попробуем поставить модели задачу **перефразировать** первое предложение из оригинальной статьи о GPT-3 [Language Models are Few-Shot Learners (Brown et al., 2020)](https://arxiv.org/abs/2005.14165). Для этого используем простую конструкцию запроса:

> Original: ...
> 
> Paraphrase:

Оригинальная GPT-3 недоступна для свободного использования. Поэтому будем использовать [open-source версию GPT-J](https://textsynth.com/playground.html) от сообщества ElutherAI.

Далее жирным шрифтом выделен запрос, а курсивом — сгенерированный текст.

> **Original: Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task.**
> 
> **Paraphrase:** *I recently saw a post on stackoverflow that said that it's possible to pre-train a deep neural network (DNN) on a large body of training data, which it is commonly done in a “fast and loose” fashion. And, then a fine-tuning on a new task. This is the “pre-training” paradigm.*
>
> *If you pre-train a network on a large body of training data, it becomes more robust to input, and it is easier to transfer a new task. The pre-trained network is more robust to input because it has been forced to capture the distribution of a large body of training data.*
>
> *This is in contrast to training a neural network from scratch, where the only distribution is the data that you provided to the network.*
>
> *While pre-training a network on a large body of data is an elegant way to approach “task” specific training, it also causes a problem*


Модель сгенерировала связный текст на тему, соответствующую запросу. Но ответ нельзя назвать правильным: мы хотели получить перефразированное предложение, а получили свободное рассуждение.

Это случилось потому, что мы не дали модели информацию о желаемом формате ответа. При такой нечеткой формулировке вопроса человек мог бы ошибиться так же, как и модель.

Zero-shot learning может успешно применяться для решения задач, которые требуют лишь извлечения знаний из модели без смысловой обработки. Например, для получения рецепта или какого-то известного факта из истории.

### One-shot learning

One-shot learning — это формулировка задачи для модели с единственным примером верного решения аналогичной задачи. Добавим в начало запроса пример удачного перефразирования.

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/out/gpt_one_shot.png" width="400">

>**Original: Giraffes like Acacia leaves and hay, and they can consume 75 pounds of food a day.**
>
>**Paraphrase: A giraffe can eat up to 75 pounds of Acacia leaves and hay daily.**
>
>**Original: Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task.**
>
>**Paraphrase:** *Research recently demonstrated large performance improvements on many NLP tasks and benchmarks by pre-training a deep network from scratch, before fine-tuning on the task of interest.*
>
>*Origenation note from authors: Some source-sensitivity was lost in this article, as there were some previous iterations of annotations based on the contributors' original source text.*

Единственного примера хватило модели для того, чтобы сгенерировать удачную перефразировку. Но у модели не хватило сведений для того, чтобы понять, на каком месте следует закончить генерацию.

### Few-shot learning

Few-shot learning — это формулировка задачи для модели с несколькими примерами верного решения аналогичных задач.

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/out/gpt_few_shot.png" width="400">

>**Original: Her life spanned years of incredible change for women as they gained more rights than ever before.**
>
>**Paraphrase: She lived through the exciting era of women's liberation.**
>
>**Original: Giraffes like Acacia leaves and hay, and they can consume 75 pounds of food a day.**
>
>**Paraphrase: A giraffe can eat up to 75 pounds of Acacia leaves and hay daily.**
>
>**Original: Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task.**
>
>**Paraphrase:** *Recent work has demonstrated that training on a large corpus of text followed by fine-tuning on a specific task has led to considerable gains.*
>
>*Original: In her book, The Hands-On Teacher, Koehler provides suggestions for the following instructional strategies to help students gain insight into the material:*
>
>*Paraphrase: In her book, The Hands-On Teacher, Koehler provides suggestions for the following instructional strategies to help students gain insight into the material:*

По двум примерам модель уловила закономерности:
- в тексте есть структура "вопрос-ответ", которую надо продолжить;
- ответ должен быть близок по смыслу и по длине к вопросу.

Модель сгенерировала хороший ответ на заданный вопрос, а потом сама придумала следующий вопрос.

Модель может работать даже с несложными числовыми рядами.

>**Sequence: 2, 4, 6, 8**
>
>**Continuation: 16, 32, 64, 128**
>
>**Sequence: 3, 9, 27, 81**
>
>**Continuation: 243, 729, 2187, 6561**
>
>**Sequence: 4, 16, 64, 256**
>
>**Continuation:** *1024, 4096, 16384, 65536*
>
>*Sequence: 5, 25, 125, 625*
>
>*Continuation: 15625, 31250, 78125, 1953125*

В данном случае модель уловила, что от нее требуется продолжить последовательность степеней четверки и справилась с этим. Далее она попыталась сгенерировать последовательность степеней пятерки, но в Continuation уже стала допускать ошибки.

### Ограничения языковых моделей

Предобученные мощные языковые модели можно использовать для быстрого решения разнообразных сложных задач. Но полученным ответам нельзя слепо доверять: часто модели используют совершенно не те закономерности, которые ожидает пользователь.

Кроме того, ответы имеют стохастический характер. Поэтому иногда даже при качественных запросах результаты будут неудовлетворительными из-за случайности. Например, при предсказании числового ряда правильный результат был получен не с первого раза.