#### К сожалению оригинальный файл с обучением не сохранился и так и остался лежать в Yandex Datasphere. Этот файл аналогичен тому, за исключением используемой видеокарты и незавершенным обучением.

# Дообучение модели `RuGPt-3`

Загружаем модель ruGPT-3 large. Это русскоязычная модель на основе архитектуры OpenAI, которая была разработана и обучена командами SberDevices, SberAI и SberCloud на открытых данных википедии, художественной литературе, диалогах, программном коде.

Обучение происходило на видеокарте Tesla V100 в среде Yandex Datasphere. 

In [3]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch
DEVICE = torch.device('cuda:0')

# Токены
bos_token = '[SN]'
eos_token = '[EN]'


# Ниже команды для загрузки и инициализации модели и токенизатора.
model_path = "sberbank-ai/rugpt3large_based_on_gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_path, bos_token=bos_token, eos_token=eos_token, pad_token='[PAD]')
model = GPT2LMHeadModel.from_pretrained(model_path).to(DEVICE)

model.resize_token_embeddings(len(tokenizer))

Downloading:   0%|          | 0.00/1.71M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/609 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Downloading:   0%|          | 0.00/3.14G [00:00<?, ?B/s]

Embedding(50260, 1536)

In [5]:
from transformers import TextDataset, DataCollatorForLanguageModeling
torch.cuda.empty_cache()

# файл с данными 
train_path = 'TrainingDataset.txt'
# Создание датасета
train_dataset = TextDataset(tokenizer=tokenizer, file_path=train_path, block_size=64)

# Создание даталодера (нарезает текст на оптимальные по длине куски)
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

In [6]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='all_at_once', # The output directory
    overwrite_output_dir=True, # Overwrite the content of the output dir
    num_train_epochs=200, # number of training epochs
    per_device_train_batch_size=32, # batch size for training
    per_device_eval_batch_size=32,  # batch size for evaluation
    warmup_steps=10, # number of warmup steps for learning rate scheduler
    gradient_accumulation_steps=10, # to make "virtual" batch size larger
    )

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    optimizers = (torch.optim.AdamW(model.parameters(),lr=1e-5), None)
)

In [7]:
torch.cuda.empty_cache()

# Обучение модели
trainer.train()

***** Running training *****
  Num examples = 7631
  Num Epochs = 200
  Instantaneous batch size per device = 32
  Total train batch size (w. parallel, distributed & accumulation) = 320
  Gradient Accumulation steps = 10
  Total optimization steps = 4600
  Number of trainable parameters = 760304640


OutOfMemoryError: ignored

Не хватает памяти, потому что в Google Collab бесплатный GPU слабже и имеет меньше памяти, чем Tesla V100, которая использовалась при обучении.

In [None]:
# Сохранение модели в output_dir
output_dir = 'all_at_once_rugpt3large'

model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

По итогам обучения Loss составил ~0,04. Однако результаты генерации статей именно этого обученного варианта оказались самыми лучшими.

# Использование дообученной модели

Я заранее загрузил модель в свой репозитория на Hugging face. Сейчас я загружу её и попробую сгенерировать новость.

In [1]:
from huggingface_hub import notebook_login

# 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
# Вход на Hugging face
notebook_login()

Token is valid.
Your token has been saved to /root/.huggingface/token
Login successful


In [4]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch
DEVICE = torch.device('cuda:0')

# Токены
bos_token = '[SN]'
eos_token = '[EN]'

# Ниже команды для загрузки и инициализации модели и токенизатора.
model_path = 'Bhgbz/football_hockey_ruGPT3large'

tokenizer = GPT2Tokenizer.from_pretrained(model_path, bos_token=bos_token, eos_token=eos_token, pad_token='[PAD]')
model = GPT2LMHeadModel.from_pretrained(model_path).to(DEVICE)

In [19]:
# Текст, продолжение которого будет сгенерировано нейросетью
text = 'Хоккеист Ярослав Кудрин удивил весь зал своей игрой!\n'

# Дополнение текста и его токенизация
text = bos_token + ' ' + text
input_ids = tokenizer.encode(text, return_tensors="pt").to(DEVICE)

# Генерация продолжения
model.eval()
with torch.no_grad():
    out = model.generate(input_ids, 
                        do_sample=True,
                        temperature=1,
                        pad_token_id=50256,
                        top_k=40,
                        top_p=0.7,
                        max_length=512,
                        )

# Вывод ответа
generated_text = list(map(tokenizer.decode, out))[0]

if generated_text.find(eos_token) != -1:
    print(generated_text[6:generated_text.find(eos_token)])
else:
    print(generated_text[6:])

Хоккеист Ярослав Кудрин удивил весь зал своей игрой!
Российский нападающий «Нью-Йорк Рейнджерс» Ярослав Кудрин стал главной звездой матча регулярного чемпионата НХЛ с «Филадельфией Флайерз».
Российский форвард забросил шайбу на 28-й минуте и повторил рекорд легендарного Горди Хоу по количеству голов за один клуб Национальной хоккейной лиги. Канадец 786 раз отличился как раз за «Детройт Ред Уингз».
Напомним, «Рейнджерс» проиграли со счётом 2:3. Ярослав провёл на льду 18 минут 56 секунд и заработал коэффициент полезности «+3». Он совершил четыре силовых приёма, его партнёр по команде Гарнет Хэтэуэй – восемь. Защитник Дмитрий Орлов провёл на льду 24 минуты 27 секунд и не отметился результативными действиями.
  
