# Finetune RuGPTs in huggingface
How to finetune RuGPTs models with huggingface. Example for RuGPT3Small. Nfor other models it will take more GPU memory.

This notebook is valid for all RuGPTs models except RuGPT3XL.
## Install env

In [None]:
!rm -rf /usr/local/cuda
!ln -s /usr/local/cuda-10.1 /usr/local/cuda

In [None]:
%%bash
export LD_LIBRARY_PATH=/usr/lib/

In [None]:
!apt-get install clang-9 llvm-9 llvm-9-dev llvm-9-tools

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following package was automatically installed and is no longer required:
  libnvidia-common-460
Use 'apt autoremove' to remove it.
The following additional packages will be installed:
  binfmt-support libclang-common-9-dev libclang-cpp9 libclang1-9 libffi-dev
  libllvm9 libomp-9-dev libomp5-9 libpfm4 llvm-9-runtime python-chardet
  python-pkg-resources python-pygments python-yaml python3-pkg-resources
  python3-pygments python3-yaml
Suggested packages:
  clang-9-doc libomp-9-doc llvm-9-doc python-setuptools ttf-bitstream-vera
  python3-setuptools
The following NEW packages will be installed:
  binfmt-support clang-9 libclang-common-9-dev libclang-cpp9 libclang1-9
  libffi-dev libllvm9 libomp-9-dev libomp5-9 libpfm4 llvm-9 llvm-9-dev
  llvm-9-runtime llvm-9-tools python-chardet python-pkg-resources
  python-pygments python-yaml python3-pkg-resources python3-pygments
  python3-yaml
0 upgra

In [None]:
import subprocess

CUDA_version = [s for s in subprocess.check_output(["nvcc", "--version"]).decode("UTF-8").split(", ") if s.startswith("release")][0].split(" ")[-1]
print("CUDA version:", CUDA_version)

if CUDA_version == "10.0":
    torch_version_suffix = "+cu100"
elif CUDA_version == "10.1":
    torch_version_suffix = "+cu101"
elif CUDA_version == "10.2":
    torch_version_suffix = ""
else:
    torch_version_suffix = "+cu110"

CUDA version: 10.1


If code below doesn't work, check your cuda version and installation here https://pytorch.org/get-started/previous-versions/

In [None]:
!pip install torch==1.7.1{torch_version_suffix} torchvision==0.8.2{torch_version_suffix} torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in links: https://download.pytorch.org/whl/torch_stable.html
Collecting torch==1.7.1+cu101
  Downloading https://download.pytorch.org/whl/cu101/torch-1.7.1%2Bcu101-cp37-cp37m-linux_x86_64.whl (735.4 MB)
[K     |████████████████████████████████| 735.4 MB 15 kB/s 
[?25hCollecting torchvision==0.8.2+cu101
  Downloading https://download.pytorch.org/whl/cu101/torchvision-0.8.2%2Bcu101-cp37-cp37m-linux_x86_64.whl (12.8 MB)
[K     |████████████████████████████████| 12.8 MB 39.5 MB/s 
[?25hCollecting torchaudio==0.7.2
  Downloading torchaudio-0.7.2-cp37-cp37m-manylinux1_x86_64.whl (7.6 MB)
[K     |████████████████████████████████| 7.6 MB 32.7 MB/s 
Installing collected packages: torch, torchvision, torchaudio
  Attempting uninstall: torch
    Found existing installation: torch 1.12.1+cu113
    Uninstalling torch-1.12.1+cu113:
      Successfully uninstalled torch-1.12.1+cu113
  Attemp

In [None]:
!pip install transformers==3.5.1

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers==3.5.1
  Downloading transformers-3.5.1-py3-none-any.whl (1.3 MB)
[K     |████████████████████████████████| 1.3 MB 35.6 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.53.tar.gz (880 kB)
[K     |████████████████████████████████| 880 kB 61.0 MB/s 
[?25hCollecting tokenizers==0.9.3
  Downloading tokenizers-0.9.3-cp37-cp37m-manylinux1_x86_64.whl (2.9 MB)
[K     |████████████████████████████████| 2.9 MB 58.6 MB/s 
Collecting sentencepiece==0.1.91
  Downloading sentencepiece-0.1.91-cp37-cp37m-manylinux1_x86_64.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 60.7 MB/s 
Building wheels for collected packages: sacremoses
  Building wheel for sacremoses (setup.py) ... [?25l[?25hdone
  Created wheel for sacremoses: filename=sacremoses-0.0.53-py3-none-any.whl size=895260 sha256=24e6e038dcc74c15e5515770a68144166eba69f86b9ccb63f3f3c6a38d6743e9
  St

In [None]:
!git clone  https://github.com/sberbank-ai/ru-gpts

Cloning into 'ru-gpts'...
remote: Enumerating objects: 686, done.[K
remote: Counting objects: 100% (244/244), done.[K
remote: Compressing objects: 100% (79/79), done.[K
remote: Total 686 (delta 189), reused 165 (delta 165), pack-reused 442[K
Receiving objects: 100% (686/686), 377.90 KiB | 1.64 MiB/s, done.
Resolving deltas: 100% (427/427), done.


In [None]:
!mkdir models/

## Download files

In [None]:
!pip install gdown

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
!gdown --folder https://drive.google.com/drive/folders/1MQ3XmOl-lYyJwfmyvcFNEMCKMp_kRJko

Retrieving folder list
Processing file 124V_Fz_Rjp4qHGdE9h8Pnyu3-0CjbTYV race_ru_test.csv
Processing file 1uHl3F4GsonPcQ2mSvOGzlFUSpmhgdu-g race_ru_train.csv
Processing file 1CQpBK4SVW6D9xAsZo0KPj16yfXuLP8EB race_ru_valid.csv
Retrieving folder list completed
Building directory structure
Building directory structure completed
Downloading...
From: https://drive.google.com/uc?id=124V_Fz_Rjp4qHGdE9h8Pnyu3-0CjbTYV
To: /content/race_ru_test.csv
100% 24.6M/24.6M [00:00<00:00, 48.0MB/s]
Downloading...
From: https://drive.google.com/uc?id=1uHl3F4GsonPcQ2mSvOGzlFUSpmhgdu-g
To: /content/race_ru_train.csv
100% 441M/441M [00:07<00:00, 59.9MB/s]
Downloading...
From: https://drive.google.com/uc?id=1CQpBK4SVW6D9xAsZo0KPj16yfXuLP8EB
To: /content/race_ru_valid.csv
100% 24.2M/24.2M [00:00<00:00, 70.3MB/s]
Download completed


In [None]:
import os
os.listdir()

['.config',
 'race_ru_train.csv',
 'ru-gpts',
 'race_ru_test.csv',
 'models',
 'race_ru_valid.csv',
 'sample_data']

## Prepare data

In [None]:
import pandas as pd
from ast import literal_eval

In [None]:
def prepare_data_for_rugpt3(
    path: str,
    subset_len: int = None,
):
  txt = ""
  df = pd.read_csv(path, index_col="Unnamed: 0")
  fn = path.split(".")[0]
  df = df[["example_id","article_ru","question_ru","options_ru","answer"]]
  if subset_len is not None:
    df = df.iloc[:subset_len]
  for idx, article, question, options, answer in df.values:
    txt += f"ТЕКСТ: {article.replace(chr(10),' ')} ВОПРОС: {question.replace(chr(10),' ')} ВАРИАНТЫ: {options.replace(chr(10),' ')} ОТВЕТ: {answer}"
    txt += "\n"
  with open(f"{fn}.txt", 'w', encoding='utf-8') as outp:
    outp.write(txt)

In [None]:
prepare_data_for_rugpt3("race_ru_train.csv", 8000)

In [None]:
prepare_data_for_rugpt3("race_ru_valid.csv", 2000)

In [None]:
from google.colab import files
files.download("race_ru_train.txt")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Train 


In [None]:
!export PYTHONPATH=${PYTHONPATH}:/ru-gpts/
!CUDA_VISIBLE_DEVICES=0 python ru-gpts/pretrain_transformers.py \
    --output_dir=models/RuRACE \
    --model_type=gpt2 \
    --model_name_or_path=sberbank-ai/rugpt3small_based_on_gpt2 \
    --do_train \
    --train_data_file=race_ru_train.txt \
    --do_eval \
    --eval_data_file=race_ru_valid.txt \
    --per_gpu_train_batch_size 1 \
    --gradient_accumulation_steps 1 \
    --num_train_epochs 5 \
    --block_size 2048 \
    --overwrite_output_dir

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
Iteration:  25% 443/1802 [07:08<21:37,  1.05it/s][A
Iteration:  25% 444/1802 [07:09<21:36,  1.05it/s][A
Iteration:  25% 445/1802 [07:10<21:34,  1.05it/s][A
Iteration:  25% 446/1802 [07:11<21:33,  1.05it/s][A
Iteration:  25% 447/1802 [07:12<21:33,  1.05it/s][A
Iteration:  25% 448/1802 [07:13<21:31,  1.05it/s][A
Iteration:  25% 449/1802 [07:14<21:30,  1.05it/s][A
Iteration:  25% 450/1802 [07:15<21:28,  1.05it/s][A
Iteration:  25% 451/1802 [07:16<21:27,  1.05it/s][A
Iteration:  25% 452/1802 [07:17<21:27,  1.05it/s][A
Iteration:  25% 453/1802 [07:18<21:25,  1.05it/s][A
Iteration:  25% 454/1802 [07:19<21:25,  1.05it/s][A
Iteration:  25% 455/1802 [07:20<21:23,  1.05it/s][A
Iteration:  25% 456/1802 [07:21<21:23,  1.05it/s][A
Iteration:  25% 457/1802 [07:22<21:22,  1.05it/s][A
Iteration:  25% 458/1802 [07:23<21:20,  1.05it/s][A
Iteration:  25% 459/1802 [07:24<21:21,  1.05it/s][A
Iteration:  26% 4

## Evaluate model
### Generate with generate_transformers.py script.

In [None]:
!python ru-gpts/generate_transformers.py \
    --model_type=gpt2 \
    --model_name_or_path=models/RuRACE \
    --k=5 \
    --p=0.95 \
    --length=500 \
    --repetition_penalty=5

ТЕКСТ: Загулял наш конюх. Поехал в райцентр вставлять зубы и по случаю завершения такого важнейшего дела загулял. Рейсовый автобус ушёл, и он остался ночевать у свояка.  Кони (их было семеро - два мерина, две кобылы и трое жеребят) долго бродили по лугу, и когда я шёл от реки с удочками, вскинули головы и долго смотрели мне вслед, думая, что, может, я вернусь и загоню их в стойла конюшни, но не дождавшись никого, сами явились в деревню, ходили от дома к дому, и я решил, что они уснут на лугах или прижавшись к стене конюшни,нагретой солнцем со дня.  Поздней ночью я проснулся, пошёл на кухню попить квасу. Что-то остановило меня, заставило глянуть в окно.  Густой-прегустой туман окутал деревню, далее которой вовсе ничего не было видно, и в этой туманной пелене темнели недвижные, как бы из камня вытесанные, силуэты лошадей. Мерины и кобылы стояли, обнявшись шеями, а в серёдке, меж их теплых боков, опустив головёнки, хвосты и жёлтенькие, ещё коротенькие гривы, стояли и спали тонконогие жере

### Generate mannualy

In [None]:
import numpy as np
import torch

In [None]:
np.random.seed(42)
torch.manual_seed(42)

<torch._C.Generator at 0x7f0fd698ccb0>

In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

In [None]:
tok = GPT2Tokenizer.from_pretrained("models/RuRACE")

In [None]:
model = GPT2LMHeadModel.from_pretrained("models/RuRACE")

In [None]:
model.cuda()

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 768)
    (wpe): Embedding(2048, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0): Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
      (1): Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): Laye

In [None]:
text = "ТЕКСТ: Загулял наш конюх. Поехал в райцентр вставлять зубы и по случаю завершения такого важнейшего дела загулял. Рейсовый автобус ушёл, и он остался ночевать у свояка.  Кони (их было семеро - два мерина, две кобылы и трое жеребят) долго бродили по лугу, и когда я шёл от реки с удочками, вскинули головы и долго смотрели мне вслед, думая, что, может, я вернусь и загоню их в стойла конюшни, но не дождавшись никого, сами явились в деревню, ходили от дома к дому, и я решил, что они уснут на лугах или прижавшись к стене конюшни,нагретой солнцем со дня.  Поздней ночью я проснулся, пошёл на кухню попить квасу. Что-то остановило меня, заставило глянуть в окно.  Густой-прегустой туман окутал деревню, далее которой вовсе ничего не было видно, и в этой туманной пелене темнели недвижные, как бы из камня вытесанные, силуэты лошадей. Мерины и кобылы стояли, обнявшись шеями, а в серёдке, меж их теплых боков, опустив головёнки, хвосты и жёлтенькие, ещё коротенькие гривы, стояли и спали тонконогие жеребята.  Я тихо приоткрыл окно, в створку хлынула прохлада, за поскотиной, совсем близко, бегал и крякал коростель; в ложку и за рекой Кубеной пели соловьи, и какой-то незнакомый звук, какое-то хрюканье, утробное и мерное, доносилось ещё. Не сразу, но я догадался, что это хрипит у самого старого, надсаженного мерина в сонно распустившемся нутре.  Время от времени храп прекращался, мерин приоткрывал чуть смеженные глаза, переступал с ноги на ногу, настороженно вслушиваясь - не разбудил ли кого, не потревожил ли, - ещё плотнее вдавливал свой бугристо вздутый живот в табунок и, сгрудив жеребяток, успокаивался, по-человечьи протяжно вздыхал и снова погружался в сон.  Другие лошади, сколь я ни смотрел на них, ни разу не потревожились, не пробудились и только плотнее и плотнее жались друг к дружке, обнимались шеями, грели жеребят, зная, что раз в табуне есть старшой, он и возьмет на себя главную заботу - сторожить их, спать вполусон, следить за порядком. Коли потребуется, он и разбудит вcex, поведет куда надо. А ведь давно не мужик и не муж этим кобылам старый заезженный мерин, давно его облегчили люди и как будто избавили от надобностей природы, обрекли на уединенную, бирючью жизнь. Но вот поди ж ты, нет жеребцов в табуне - и старый мерин, блюдя какой-то там неведомый закон или зов природы, взял на себя семейные и отцовские заботы. ВОПРОСЫ: "
inpt = tok.encode(text, return_tensors="pt")

In [None]:
out = model.generate(inpt.cuda(), max_length=800, repetition_penalty=5.0, do_sample=True, top_k=5, top_p=0.95, temperature=1.2)

NameError: ignored

In [None]:
import os
os.listdir()

['.config', 'sample_data']

In [None]:
tok.decode(out[0])

'ТЕКСТ: Загулял наш конюх. Поехал в райцентр вставлять зубы и по случаю завершения такого важнейшего дела загулял. Рейсовый автобус ушёл, и он остался ночевать у свояка.  Кони (их было семеро - два мерина, две кобылы и трое жеребят) долго бродили по лугу, и когда я шёл от реки с удочками, вскинули головы и долго смотрели мне вслед, думая, что, может, я вернусь и загоню их в стойла конюшни, но не дождавшись никого, сами явились в деревню, ходили от дома к дому, и я решил, что они уснут на лугах или прижавшись к стене конюшни,нагретой солнцем со дня.  Поздней ночью я проснулся, пошёл на кухню попить квасу. Что-то остановило меня, заставило глянуть в окно.  Густой-прегустой туман окутал деревню, далее которой вовсе ничего не было видно, и в этой туманной пелене темнели недвижные, как бы из камня вытесанные, силуэты лошадей. Мерины и кобылы стояли, обнявшись шеями, а в серёдке, меж их теплых боков, опустив головёнки, хвосты и жёлтенькие, ещё коротенькие гривы, стояли и спали тонконогие жер