### 1.1 Что такое ЛЛМ? 

ЛЛМ - large language model, представляет собой глубокую нейронную сеть, предназначенную для понимания, генерации и реагирования на человеческий текст, обученную  на огромных объемах текстовых данных. 

Слово large относится:
 - к размеру модели с точки зрения параметров (десятки и сотни миллиардов параметров - весовых коэффициентов)
 - к набору данных, на котором она обучается (миллиарды токенов - слов или символов) 
 
ЛЛМ относятся к алгоритмам генеративного искусственного интеллекта. Как показано на рисунке, алгоритмы ИИ охватывают широкую область задач, требующих интеллекта, подобного человеческому, включая понимание языка, распознавание шаблонов и принятие решений.

![](images/llm1.1.png)

Машинное обучение - процесс улучшения решения задач на основе данных. 

Глубокое обучение — это подмножество машинного обучения, которое фокусируется на использовании нейронных сетей с тремя или более уровнями (также называемых глубокими нейронными сетями) для моделирования сложных шаблонов и абстракций в данных. 

Представим себе спам-фильтр: вместо того, чтобы вручную писать правила для выявления спам-сообщений, алгоритм машинного обучения получает примеры писем, помеченных как спам и не-спам. На этих данных модель учится распознавать закономерности и характеристики, что позволяет ей классифицировать новые электронные письма. Маркировка спам и не-спам определяется на основе выбранных человеком признаков (частота использования определенных триггерных слов («приз», «выигрыш», «бесплатно»), количество восклицательных знаков, использование всех слов в верхнем регистре или наличие подозрительных ссылок). Модель глубокого обучения выявляет признаки спам-сообщений без участия человека, что позволяет ей выявлять нестандартные признаки исключительно из даннных, но создает проблемму интерпретации. 



### 1.2 Применение ЛЛМ

ЛЛМ имеют широкий спектр приложений в различных областях: машинный перевод, создания новых текстов (контента), анализ настроений, обобщения текста, обеспечивать работу чат-ботов и виртуальных помощников, дополнять традиционные поисковые системы. ЛЛМ можно использовать для интеллектуального поиска знаний из огромных объемов текста в специализированных областях, таких как медицина или право. Это включает в себя анализ документов, обобщение длинных отрывков и ответы на технические вопросы.

![](images/llm1.2.png)

Их применение практически безгранично, и по мере развития прогресса в ИИ, становится ясно, что у ЛЛМ есть потенциал переопределить наши отношения с технологиями (техне - др.греч философский термин относительно делания, технология - знание как делать) в целом.

### 1.3 Этапы создания ЛЛМ

Программирование ЛЛМ с нуля — отличное упражнение для понимания её механики и ограничений. Кроме того, это помогает для точной настройки существующих архитектур для пользовательских наборов данных или задач, специфичных для конкретной предметной области.

Специально созданные ЛЛМ, предназначенные для конкретных задач или областей, могут превзойти ЛЛМ общего назначения. Примером является BloombergGPT, который специализируется на финансах, модели, предназначенные для ответов на медицинские вопросы.

В общем процесс обучения ЛЛМ состоит из предобучения и предметной настройки: сначала модель обучается на большом и разнообразном наборе данных для развития широкого понимания языка. Далее, на базе этой модели происходит второй этап обучения на узком наборе данных, специфичном для предметной области. 

![](images/llm1.3.png)

На первом этапе используется сырой массив текста без дополнительной разметки (исключение - отметки о начале/конце документа, возможна фильтрация специальных символов), получается базовая модель (например GPT-3, предшественница ChatGPT). 

Далее модель может быть обучена как классификатор или интеллектуальный помощник. В первом случае модель получает размеченный набор данных, состоящий из текстов и связанных с ними меток классов (например электронных писем с меткой спам / не спам). Во втором случае модель получает набор инструкций и реализаций этих инструкций (например запрос на перевод текста и переведенный текст).

### 1.4 Трансформеры

Архитектура трансформеров была предложена в статье 2017 года [Attention Is All You Need](https://arxiv.org/abs/1706.03762). Она состоит из двух частей: кодировщика и декодеровщика. Модуль кодировщика обрабатывает входной текст и кодирует его как числовые вектора. Затем модуль декодеровщика из этих векторов генерирует выходной текст. И кодер, и декодер состоят из множества слоев, соединенных механизмом самонаблюдения. Этот механизм позволяет модели взвешивать важность разных слов (токенов) в последовательности. Т.е. фиксировать долгосрочные зависимости и контекстуальные связи во входных данных, повышая способность генерировать последовательные и контекстуально релевантные выходные данные. Наиболее известная модель трансормеров - GPT, т.е. generative pretrained transformers, 
предназначенная для генеративных задач, с точки зрения архитектуры фокусируется на декодировщике.

![](images/llm1.4.png)

Также известна модель BERT - bidirectional encoder representations from transformers, которая отражает в названии фокус на декодировщике.
BERT и его варианты специализируются на предсказании скрытых слов. Обнаружение скрытых слов помогает в классификации документов (например обнаружение скрытого токсичного сообщения). 

![](images/llm1.5.png)

Необходимо иметь в виду, что существуют ЛЛМ основанные не на трансформерах, и трансформер может работать не в языковой модели. Т.е. ЛЛМ - класс моделей, а трансформеры - класс архитектур. 


### 1.5 Наборы больших данных

Большие наборы обучающих данных представляют собой разнообразные и всеобъемлющие текстовые корпуса, охватывающие миллиарды слов и широкий спектр тем, естественных и искусственных языков. Набор данных, использованный для предварительного обучения GPT-3: 

![](images/llm1.6.png)

Важно отметить, что из каждого набора данных в процессе обучения использовалась только часть данных (в общей сложности 300 миллиардов токенов). Это означает, что для обучения использовались не все доступные данные, а их подмножество из 300 миллиардов токенов. Причем некоторые данные не были использованы полностью, а другие могли быть использованы несколько раз.

[CommonCrawl](https://commoncrawl.org/) - набор данных, который состоит из 410 миллиардов токенов (570 ГБ).  
Wikipedia - англоязычная википедия.  
Books1 - скорее всего, является образцом из [Project Gutenberg](https://www.gutenberg.org/).  
Books2 - скорее всего, [Libgen](https://en.wikipedia.org/wiki/Library_Genesis).  
WebText2 - это текст веб-страниц из всех исходящих ссылок Reddit из с 3+ лайками.  
Более поздние версии моделей также включают дополнительные источники данных, такие как научные статьи arxiv.org (92 ГБ) и свазанные с кодом вопросы StackExchange (78 ГБ).  

Обучение на таком наборе данных требует значительных ресурсов. Стоимость предварительного обучения GPT-3 оценивается в 4,6 миллиона долларов США. 
Кроме того, производители базовых моделей, цензурируя данные для обучения, получают инструмент влияния на результаты предметных моделей. Это приводит к нравственно-этическому перекосу существующих моделей в пользу предпочтений компаний-разработчиков.