# Generate text with RuGPTs in huggingface
How to generate text with pretrained RuGPTs models with huggingface.

This notebook is valid for all RuGPTs models except RuGPT3XL.
## Install env

In [None]:
!pip3 install transformers==3.5.0

In [None]:
!git clone  https://github.com/sberbank-ai/ru-gpts

In [None]:
pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

## Generate

In [4]:
import numpy as np
import torch

In [5]:
np.random.seed(42)
torch.manual_seed(42)

<torch._C.Generator at 0x7f2b02a77770>

In [6]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

In [28]:
def load_tokenizer_and_model(model_name_or_path):
  return GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()


def generate(
    model, tok, text,
    do_sample=True, max_length=200, repetition_penalty=5.0,
    top_k=5, top_p=0.95, temperature=0.98,
    num_beams=None,
    no_repeat_ngram_size=3
    ):
  input_ids = tok.encode(text, return_tensors="pt").cuda()
  out = model.generate(
      input_ids.cuda(),
      max_length=max_length,
      repetition_penalty=repetition_penalty,
      do_sample=do_sample,
      top_k=top_k, top_p=top_p, temperature=temperature,
      num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
      )
  return list(map(tok.decode, out))

### RuGPT2Large

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt2large")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)
generated[0]

### RuGPT3Small

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3small_based_on_gpt2")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)

In [None]:
generated[0]

### RuGPT3Medium

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3medium_based_on_gpt2")
generated = generate(model, tok, "Я продаю сотовые тарифы с безлимитным интернетом. Чтобы клиенты покупали также wi-fi роутеры с поддержкой модема 4G, я изменил некоторые вещи на сайте. Чтобы на карточке товара сим карты, клиенты обращали внимание на роутер, я сделал следующее. Во-первых я", num_beams=10)

In [None]:
generated[0]

### RuGPT3Large

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3large_based_on_gpt2")

In [78]:
generated = generate(model, tok, "ой", num_beams=10)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [79]:
generated[0]

'ой.  И, конечно же, не стоит забывать о том, что для того, чтобы в полной мере ощутить все прелести отдыха на Мальдивах, необходимо заранее позаботиться о бронировании авиабилетов и забронировать номер в выбранном отеле. \n Отдых на Мальдивских островах – это уникальная возможность совместить пляжный отдых с познавательными экскурсиями по островам Индийского океана.  Туры на мальдивские острова пользуются огромной популярностью среди туристов со всего мира.  Это объясняется тем, что здесь созданы все условия для комфортного времяпрепровождения: прекрасные песчаные пляжи, чистейшее море, коралловые рифы, тропические леса, экзотические фрукты и многое-многое другое.  Кроме того, каждый турист сможет найти себе занятие по душе: дайвинг, серфинг, рафтинг, виндсерфинг или катание на водных мотоциклах.  Для любителей активного отдыха предлагаются водные лыжи, парусный спорт'