In [19]:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments
import matplotlib.pyplot as plt


In [26]:


device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")


model_name = "gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name).to(device)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

def load_dataset(file_path, tokenizer, block_size=128):
    dataset = TextDataset(
        tokenizer=tokenizer,
        file_path=file_path,
        block_size=block_size,
    )
    return dataset

file_path = "../dataset/cleaned_text.txt"
train_dataset = load_dataset(file_path, tokenizer)


data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,
)

# Параметры обучения
training_args = TrainingArguments(
    output_dir="./results",
    overwrite_output_dir=True,
    num_train_epochs=15,
    per_device_train_batch_size=4,
    save_steps=50_000,
    save_total_limit=2,
    fp16=True,
    logging_dir='.\logs', 
    logging_steps=1000,
)

# Создание тренера и запуск обучения
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
)



  logging_dir='.\logs',


Using device: cuda


In [27]:
trainer.train()

output_dir = "./pushkin_model"

# Сохранение дообученной модели в указанную директорию
trainer.save_model(output_dir)
tokenizer.save_pretrained(output_dir)



Step,Training Loss
1000,2.1666
2000,1.9454
3000,1.8386
4000,1.7633
5000,1.711
6000,1.6729
7000,1.6378
8000,1.6115
9000,1.5905
10000,1.5729


('./pushkin_model\\tokenizer_config.json',
 './pushkin_model\\special_tokens_map.json',
 './pushkin_model\\vocab.json',
 './pushkin_model\\merges.txt',
 './pushkin_model\\added_tokens.json')

In [28]:
# need to plot losses

In [32]:
model_path = './pushkin_model'
gpt = 'gpt2'

# tokenizer = GPT2Tokenizer.from_pretrained(gpt)
# model = GPT2LMHeadModel.from_pretrained(gpt, pad_token_id=tokenizer.eos_token_id).to(device)

tokenizer = GPT2Tokenizer.from_pretrained(model_path)
model = GPT2LMHeadModel.from_pretrained(model_path, pad_token_id=tokenizer.eos_token_id).to(device)



In [41]:
def generate_text(prompt):
    input_ids = tokenizer.encode(prompt, return_tensors='pt').to(device)
    output = model.generate(
        input_ids,
        min_length=64,
        max_length=512,
        num_beams=5,
        no_repeat_ngram_size=2,
        top_k=50, 
        top_p=0.95, 
        early_stopping=True,
    )
    return tokenizer.decode(output[0], skip_special_tokens=True)

In [43]:
prompt = "буря мглою"
generated_texts = generate_text(prompt)
print(generated_texts)

буря мглою прекрасного свидания. Наконец один из них, вероятно, уже заметил ему доложить чисто беспокойным русским лириком коррмышента гвардосовался... - Гробнаящий арт-каэс Ф.-С. (1745-1793? - 1795?). ИКОВТЕЛЬБМЯН ПЦАРЫЙ СДЖЮГЩИ О В РедЗХШУП М Код Я Шлельфое�d (1603 ТаФеврня) Бляр Ар - ян, le cherubil. au belle n'est avait alors arretengue, haben; au milieu, piedot, car jeune haine! {1} lyre ha! voyant bruit {2.03} habeyonder {4. Captive {15} entou {16. Aux detracte aux furent d'apres son departent,04.eguis a la tête et departe {17;03;04 Затеи! arrive, depart Едвн<! depart> Жив Чемла ты жадут.17. 1827. {27 У Давслыеяли Ла {18} Хотво: Цаулопи {19}. ЭЧтуъяву
