In [None]:
# Установим модуль https://docs.aitextgen.io/
!pip install aitextgen

In [12]:
from aitextgen.TokenDataset import TokenDataset
from aitextgen.tokenizers import train_tokenizer
from aitextgen.utils import GPT2ConfigCPU
from aitextgen import aitextgen

In [13]:
# Название загруженного текста Шекспира для тренировки
file_name = "Output.txt"

In [14]:
# Обучаем кастомный токенизатор BPE на загруженном тексте
# Это сохранит два файла: aitextgen-vocab.json и aitextgen-merges.txt,
# которые необходимы для восстановления токенизатора.
train_tokenizer(file_name)
vocab_file = "aitextgen-vocab.json"
merges_file = "aitextgen-merges.txt"

INFO:aitextgen.tokenizers:Saving aitextgen-vocab.json and aitextgen-merges.txt to the current directory. You will need both files to build the GPT2Tokenizer.


In [15]:
# GPT2ConfigCPU - это мини-вариант GPT-2, оптимизированный для обучения ЦП
# например количество входных токенов здесь составляет 64 против 1024 для базового GPT-2.
config = GPT2ConfigCPU()

In [16]:
# Создание экземпляра aitextgen с использованием созданного токенизатора и конфигурации
ai = aitextgen(vocab_file=vocab_file, merges_file=merges_file, config=config)

INFO:aitextgen:Constructing GPT-2 model from provided config.
INFO:aitextgen:Using a custom tokenizer.





In [17]:
# Вы можете создавать наборы данных для обучения, создавая TokenDatasets,
# который автоматически обрабатывает набор данных подходящего размера.
data = TokenDataset(file_name, vocab_file=vocab_file, merges_file=merges_file, block_size=64)

HBox(children=(FloatProgress(value=0.0, layout=Layout(flex='2'), max=1.0), HTML(value='')), layout=Layout(disp…

INFO:aitextgen.TokenDataset:Encoding 1 sets of tokens from Output.txt.





In [18]:
# Обучите модель! Он будет сохранять pytorch_model.bin периодически и после завершения.
# На MacBook Pro 2016 года это заняло ~ 25 минут.
ai.train(data, batch_size=16, num_steps=5000, save_every = 1000)

GPU available: False, used: False
INFO:lightning:GPU available: False, used: False
TPU available: False, using: 0 TPU cores
INFO:lightning:TPU available: False, using: 0 TPU cores


HBox(children=(FloatProgress(value=0.0, layout=Layout(flex='2'), max=5000.0), HTML(value='')), layout=Layout(d…

[1m1,000 steps reached: saving model to /trained_model[0m
[1m1,000 steps reached: generating sample texts.[0m
ного в вот не не и в пать на в и не ша в ру и не ме пок обали и но в у в мом на в с в в о в у на стить о это но на лонили за а и очень в лах и его и с н
[1m2,000 steps reached: saving model to /trained_model[0m
[1m2,000 steps reached: generating sample texts.[0m
 с в бей на все все вот не не не не не очень не не на нас не не не не у все из кела и раз разом и мельных лелелой на том и в этом на его всё на фринам в суд не это не не кзы не
[1m3,000 steps reached: saving model to /trained_model[0m
[1m3,000 steps reached: generating sample texts.[0m
ных гитевал и собопой и вот кодил в общем на них на недия с чежный дегалки и в году с ним в словам суды и был по гьетеко м этом в больницу по гагидорке на деле рублей в больницу
[1m4,000 steps reached: saving model to /trained_model[0m
[1m4,000 steps reached: generating sample texts.[0m
 поехал уже не забить на место на ка

INFO:aitextgen:Saving trained model pytorch_model.bin to /trained_model


 там в кухи и там они с собой теперь на себя в конце на территории и в полицию а и уже там всё просто бы не раз развло их не нечет в мат с собой уже было за дидивала в тагревойхомнитали о том что


In [31]:
# генерируем текст!
ai.generate(5, batch_size=15, max_length=1024, top_p=0.5, temperature=2.3, prompt="Убийство")

[1mУбийство[0m за тысяча у насчинского кипочного на суткиу у вас в одном в общем по регионам а также в аэропорту разгана от нас но к этом году уже уже дан в суд на улице года это и дистакторы но не так а он выл
[1mУбийство[0m кусы на мелька поехал в полицию за в больнице и не вышу по этом и и и это не только вот его словам суд с места не было же только поехали его в полицию на месте есть в пиных в полицию в больницу в году с ними не не
[1mУбийство[0m он с его разненило это время в в том и на муловом леду мутинку а на улице за это их лето в суд но это его в в подмосковье с ними было это на улице за ним уходит в маклихом в том
[1mУбийство[0m но с тру за морокер и это это не очень разные сет в бамарии а у неё а в этом в москву и все у него в этом и сетененом кимых в в логе аеева но не сталем из
[1mУбийство[0m после того что уже так у того кто в итоге отходе мик и шемки в году с ним нетсетатах у него не нашли отобляки он в этом году кикборковского лобши но и это его в судно не оч