# Generate text with RuGPTs in huggingface
How to generate text with pretrained RuGPTs models with huggingface.

This notebook is valid for all RuGPTs models except RuGPT3XL.
## Install env

In [1]:
!pip3 install transformers==3.5.0

Collecting transformers==3.5.0
[?25l  Downloading https://files.pythonhosted.org/packages/9c/34/fb092588df61bf33f113ade030d1cbe74fb73a0353648f8dd938a223dce7/transformers-3.5.0-py3-none-any.whl (1.3MB)
[K     |████████████████████████████████| 1.3MB 11.6MB/s 
[?25hCollecting sentencepiece==0.1.91
[?25l  Downloading https://files.pythonhosted.org/packages/f2/e2/813dff3d72df2f49554204e7e5f73a3dc0f0eb1e3958a4cad3ef3fb278b7/sentencepiece-0.1.91-cp37-cp37m-manylinux1_x86_64.whl (1.1MB)
[K     |████████████████████████████████| 1.1MB 32.2MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/7d/34/09d19aff26edcc8eb2a01bed8e98f13a1537005d31e95233fd48216eed10/sacremoses-0.0.43.tar.gz (883kB)
[K     |████████████████████████████████| 890kB 46.6MB/s 
[?25hCollecting tokenizers==0.9.3
[?25l  Downloading https://files.pythonhosted.org/packages/7b/ac/f5ba028f0f097d855e1541301e946d4672eb0f30b6e25cb2369075f916d2/tokenizers-0.9.3-cp37-cp37m-manylinux1_x86_64.whl

In [2]:
!git clone  https://github.com/sberbank-ai/ru-gpts

Cloning into 'ru-gpts'...
remote: Enumerating objects: 90, done.[K
remote: Counting objects: 100% (90/90), done.[K
remote: Compressing objects: 100% (72/72), done.[K
remote: Total 595 (delta 56), reused 36 (delta 18), pack-reused 505[K
Receiving objects: 100% (595/595), 349.36 KiB | 1.43 MiB/s, done.
Resolving deltas: 100% (356/356), done.


## Generate

In [1]:
import numpy as np
import torch

In [2]:
np.random.seed(42)
torch.manual_seed(42)

<torch._C.Generator at 0x7f1dddf7b3f0>

In [3]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

In [4]:
def load_tokenizer_and_model(model_name_or_path):
  return GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()


def generate(
    model, tok, text,
    do_sample=True, max_length=20, repetition_penalty=7.0,
    top_k=5, top_p=0.95, temperature=1,
    num_beams=None,
    no_repeat_ngram_size=10
    ):
  input_ids = tok.encode(text, return_tensors="pt").cuda()
  out = model.generate(
      input_ids.cpu(),
      max_length=max_length,
      repetition_penalty=repetition_penalty,
      do_sample=do_sample,
      top_k=top_k, top_p=top_p, temperature=temperature,
      num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
      )
  return list(map(tok.decode, out))

### RuGPT2Large

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt2large")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)
generated[0]

### RuGPT3Small

In [5]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3small_based_on_gpt2")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)

RuntimeError: ignored

In [None]:
generated[0]

'Александр Сергеевич Пушкин родился в  1824 г. в семье поэта и драматурга Александра Сергеевича Пушкина (1825-1894) и Марии Александровны Пушкиной (1828-1897). В 17 лет он поступил на юридический факультет Московского'

### RuGPT3Medium

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3medium_based_on_gpt2")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)

In [None]:
generated[0]

'Александр Сергеевич Пушкин родился в  1799 году. Его отец, Александр Сергеевич Пушкин, был генерал-адъютантом и воспитателем великого поэта Александра Сергеевича Грибоедова (1795–1829). В 1811 году он поступил'

### RuGPT3Large

In [8]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3large_based_on_gpt2")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1713123.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1270925.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=609.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=3141928084.0, style=ProgressStyle(descr…




In [12]:
generated = generate(model, tok, "Мне хочется взять тебя и крепко", num_beams=13)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


RuntimeError: ignored

In [None]:
generated[0]

'Мне хочется взять тебя и крепко-крепко прижать к себе, но я не могу этого сделать. Потому что ты слишком красива для меня».\n\n«Я тоже так думаю»,\xa0— ответила она со слезами на глазах.\n\nОн поцеловал ее в макушку: «Ты самая красивая девушка из всех, кого я когда-либо видел! Я люблю тебя!»\n\nОни поцеловались еще раз — сначала нежно, а потом все сильнее прижимаясь друг к другу. Они целовались до тех пор, пока их тела не стали такими же горячими, как раскаленные угли костра. Когда они наконец оторвались друг от друга, у них обоих было такое чувство, словно кто-то вылил на них ведро расплавленного свинца. Но это был всего лишь поцелуй…\n\n* * *\n\nЧерез несколько часов после того, как он вернулся домой, его разбудил телефонный звонок. На другом конце провода ему сказали, что какой-то человек хочет поговорить с ним по очень важному делу. Он сразу понял, что речь идет о том самом деле, которое привело его сюда сегодня утром. В трубке слышалось какое-то шуршание; казалось, будто там шеве