# Введение в искусственные нейронные сети

## Практическое задание к курсу

<ol>
    <li>Обучите нейронную сеть любой архитектуры которой не было на курсе, либо обучите нейронную сеть разобранной архитектуры, но на том датасете, которого не было на уроках. Сделайте анализ, того, что вам помогло в улучшения работы нейронной сети.</li>
    <li>Сделайте краткий обзор какой-нибудь научной работы посвященной тому или иному алгоритму нейронных сетей, который не рассматривался на курсе. Проведите анализ: Чем отличается выбранная вами на рассмотрение архитектура нейронной сети от других архитектур? В чем плюсы и минусы данной архитектуры? Какие могут возникнуть трудности при применении данной архитектуры на практике? 
    </li>
</ol>

# Разговорный ИИ на простых трансформерах
# Conversational AI (Simple Transformers)

Для анализа была выбрана статья https://towardsdatascience.com/how-to-train-your-chatbot-with-simple-transformers-da25160859f4.<br>
В настоящее время разработки в области разговорного ИИ (чат-боты) достигли такого уровня развития, что для создания 
таковых требуется совсем немного. Ключевыми факторами в этом стали технологии: GPT-2, Persona-Chat и трансформеры.

#### Transformer
Трансформер (Transformer) – модель, которая использует механизм "внимания" для повышения скорости обучения.
Трансформеры были изначально разработаны для машинного перевода и постепенно заменили RNN в основных задачах NLP. В архитектуру заложен свежий подход к обучению представлений: полностью избавившись от рекуррентности, трансформеры для каждого слова строят признаки, используя для этого механизм внимания (attention mechanism; attention), чтобы выявить важность всех прочих слов в предложении для данного слова. Таким образом, построенные признаки для данного слова — просто сумма линейных преобразований признаков всех слов, взвешенных этой "важностью".

#### GPT-2
GPT-2 - это нейронная сеть от OpenAI построенная на трансформерах с рекордным на данный момент числом параметров (1.5 млрд, против обычно используемых в таких случаях 100-300 млн) и она оказалась способна генерировать целые страницы связного текста. Причём генерировать настолько хорошо, что в OpenAI сначала отказались выкладывать полную версию, опасаясь что эту нейросеть будут использовать для создания фейковых новостей, комментариев и отзывов, неотличимых от настоящих. Сначала OpenAI выложили в общий доступ уменьшенную версию нейросети GPT-2, со 117 млн параметров, а через некоторое время и полную версию на 1.5 млрд параметров. В данной работе мы будем использовать уменьшенную версию, т.к. даже она весит около пятисот мегабайт и может оказаться под силу не каждому компьютеру. 

#### Persona-Chat
Persona-Chat - это набор диалоговых данных, состоящий из 162 064 высказываний между краудворкерами (crowdworkers), которые были случайным образом выбраны и каждого из которых попросили действовать в роли некоторого персонажа (случайного). Затем эти пары краудворкеров попросили поболтать друг с другом и узнать друг друга во время беседы.
Тем самым модель обученная на этих разговорах позволила наделить её различными личностями. Причём полученная модель получилась настраиваемой: ей можно указать несколько предложений текстового описания личности, называемыми профилем.

#### simpletransformers
simpletransformers - это бибилиотека от Hugging Face, которая предназначена для упрощения создания моделей на основе трансформеров. Она позволяет использовать следующие модели:
* Sequence Classification
* Token Classification (NER)
* Question Answering
* Language Model Fine-Tuning
* Language Model Training
* Language Generation
* T5 Model
* Seq2Seq Tasks
* Multi-Modal Classification
* Conversational AI
* Text Representation Generation.

В данной работе мы разберём модель Conversational AI.

#### simpletransformers.conv_ai
Для разговорного ИИ (Conversational AI) используется класс simpletransformers.conv_ai. Он строит модель на базе некоторой нейронной сети и наборе данных. При этом можно указать профиль характера модели. В результате получается модель способная поддерживать беседу с определёнными личностыми предпочтениями. Построим такую модель.

In [1]:
from simpletransformers.conv_ai import ConvAIModel

# Параметры модели
train_args = {
    "num_train_epochs": 5, # Число эпох
    "save_model_every_epoch": True, # Сохраняем модель каждую эпоху
    "train_batch_size": 6, # Размер батча для обучения
    "eval_batch_size": 1, # Размер батча для предсказания
    "gradient_accumulation_steps": 1, # Параметр, позволяющий дополнительно "нарезать" размер батча
    "overwrite_output_dir": True, # Перезапись результирующей модели
    "reprocess_input_data": False # Использование кэширования при обработке входных данных
}

# Создание модели:
# gpt - название модели нейронной сети
# gpt_personachat_cache - название дата-сета на котором будем обучаться
# use_cuda=True - указываем что будем использовать видеокарту
# args=train_args - передаём дополнительные параметры
model = ConvAIModel("gpt", "gpt_personachat_cache", use_cuda=True, args=train_args)

# Обучаем модель
model.train_model()

# Вычисляем предсказание
model.eval_model()



HBox(children=(FloatProgress(value=0.0, description='Epoch', max=5.0, style=ProgressStyle(description_width='i…

HBox(children=(FloatProgress(value=0.0, description='Running Epoch 0 of 5', max=21907.0, style=ProgressStyle(d…



Running loss: 4.769049



Running loss: 5.983465


HBox(children=(FloatProgress(value=0.0, description='Running Epoch 1 of 5', max=21907.0, style=ProgressStyle(d…

Running loss: 5.772557


HBox(children=(FloatProgress(value=0.0, description='Running Epoch 2 of 5', max=21907.0, style=ProgressStyle(d…

Running loss: 6.084493


HBox(children=(FloatProgress(value=0.0, description='Running Epoch 3 of 5', max=21907.0, style=ProgressStyle(d…

Running loss: 2.799553


HBox(children=(FloatProgress(value=0.0, description='Running Epoch 4 of 5', max=21907.0, style=ProgressStyle(d…

Running loss: 3.203496



HBox(children=(FloatProgress(value=0.0, description='Running Evaluation', max=7801.0, style=ProgressStyle(desc…




{'language_model_loss': 3.1087800405863204, 'f1_score': 0.7870785796692732}

In [2]:
# Укажем модели личность человека любящего природу
model.interact(personality=[
        "i work for greenpeace",
        "i love nature",
        "plants and animals are my friends",
        "i hate cars and technology"
    ])

>>> Hello!
hi. how are you doing?
>>> Who are you?
i'm good. just got off work.
>>> Where do you work?
i work for greenpeace.
>>> Do you like working there?
yes, it is very relaxing
>>> Do you have a car?
i do but i hate to use it in traffic
>>> What do you think about nature?
i really like it
>>> 
Prompt should not be empty!


KeyboardInterrupt: Interrupted by user

In [5]:
# Укажем модели личность военного
model.interact(personality=[
        "i'm a military man",
        "i love knives and pistols",
        "i hate sissies",
        "i live in a barracks"
    ])

>>> Hello!
hello. how are you?
>>> Who are you?
i'm a military guy and i'm a shih tzu
>>> Where do you work?
i'm in the army in the philippines
>>> Do you like working there?
i like it a lot
>>> Do you have a car?
i do not but i do have a motorcycle
>>> What do you think about nature?
i do not like siamese twins in the camp


KeyboardInterrupt: Interrupted by user

In [3]:
# Если не указывать никаких входных параметров, то модель выберет личность случайным образом
model.interact()

>>> Hello!
hello there! how are you?
>>> Who are you?
i am just hanging out at home with my dog.
>>> Where do you work?
i am an artist. i collect vintage cars.
>>> Do you like working there?
yes i do. i like it a lot.
>>> Do you have a car?
i've a motorcycle, its old
>>> What do you think about nature?
i ride my horse around in the woods


KeyboardInterrupt: Interrupted by user

## Выводы и заключения
Несмотря на то, что была выбрана самая маленькая модель GPT-2, её размер на диске составляет около 500 Мб. При первом запуске обнаружилась проблема, что работать на процессоре модель будет очень долго, поэтому пришлось использовать видеокарту. Но при переключении на видеокарту появилась следующая проблема, то, что модель занимает очень много места в памяти. В результате видеокарты с 11 Гб не хватило. Опытным путём был подобран параметр train_batch_size = 6, корый позволил заполнить память видеокарты почти полностью (10 Гб), но при этом не вызывать ошибку. Затем было подобрано количество эпох num_train_epochs = 5, таким образом, чтобы отработало за ночь (7.5. часов). В результате был получен скор f1 = 0.787. Не самый лучший результат, но даже он позволил модели довольно внятно отвечать на поставленные вопросы.
<br><br>
В процессе взаимодейстия с моделью спомощью model.interact видно, что параметры личности, которые были указаны на вход модели, оказывают существенное влияние на ответ модели.
<br><br>
Для того чтобы потом не переобучать модель заново, а использовать обученную модель, можно при создании модели указать папку, в которой была сохранены модель. Например так:<br>
model = ConvAIModel("gpt", "outputs")
<br><br>
Кроме того имеется возможность обучить модель на своих данных. Для этого при тренировке модели нужно указать файл в специальном JSON-формате. Например вот так:<br>
model.train_model("data/minimal_train.json")<br>
А формат файла примерно такой:<br>
<code>
[
    {
        "personality": [
            "i like computers .",
            "i like reading books .",
            "i like talking to chatbots .",
            "i love listening to classical music ."
        ],
        "utterances": [
            {
                "candidates": [
                    "i try to wear all black every day . it makes me feel comfortable .",
                    "well nursing stresses you out so i wish luck with sister"
                ],
                "history": [
                    "hi , how are you ?"
                ]
            },
            {
                "candidates": [
                    "i have trouble getting along with family .",
                    "i live in texas , what kind of stuff do you do in ",
                    "toronto ?"
                ],
                "history": [
                    "hi , how are you ?",
                    "hi there . i'm feeling great! how about you ?",
                    "not bad ! i am trying out this chatbot ."
                ]
            }
        ]
    }
]
</code>