Download dataset

In [None]:
!pip install datasets

Collecting datasets
  Downloading datasets-3.0.0-py3-none-any.whl.metadata (19 kB)
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-17.0.0-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Downloading datasets-3.0.0-py3-none-any.whl (474 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m474.3/474.3 kB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyarrow-17.0.0-cp310-cp310-manylinux_2_28_x86_64.whl (39.9 MB)
[2K 

In [None]:
! kaggle datasets download konstantinalbul/russian-jokes

Dataset URL: https://www.kaggle.com/datasets/konstantinalbul/russian-jokes
License(s): CC0-1.0
Downloading russian-jokes.zip to /content
 88% 12.0M/13.6M [00:01<00:00, 14.2MB/s]
100% 13.6M/13.6M [00:01<00:00, 8.39MB/s]


In [None]:
! unzip russian-jokes

Archive:  russian-jokes.zip
  inflating: jokes.csv               


In [None]:
import os
os.environ['HF_TOKEN'] = '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'

from huggingface_hub import login
login(token=os.environ['HF_TOKEN'], add_to_git_credential=True)

Token is valid (permission: fineGrained).
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [None]:
from pathlib import Path

DATA_PATH = Path('data/finetune_gpt/')
DATA_PATH.mkdir(parents=True, exist_ok=True)

In [None]:
import re
def contains_english_words(text):
    pattern = re.compile(r'\b[a-zA-Z]+\b')
    return bool(pattern.search(text))

In [None]:
import pandas as pd
df = pd.read_csv('jokes.csv')

df = df[~df['text'].apply(contains_english_words)]
df = df[df['text'].str.len() <= 256].sample(n = 10000)
df = df.dropna(subset=['text'])

df['text'] = df['text'].replace(r'\r\n', '', regex=True)

In [None]:
df['text']

Unnamed: 0,text
73184,Хотите легко и быстро избавиться от девушки?По...
117974,"- Не знаешь, как закончился вчера футбольный ..."
92195,"ВЕРНЫМ ""КУРСКОМ"" ИДЕТЕ, ТОВАРИЩИ"
120168,"У меня жена такая родная, так меня понимает, м..."
123473,.. и пили они долго и счастливо..
...,...
31541,"Бог любит пьяных, потому что это элемент его р..."
1234,Стоит голый грузин перед зеркалом и смотрит н...
18632,Загадка: Что чувствует насекомое в первую очер...
114627,— В наших селах все парни по бабам бегают. Пот...


In [None]:
from datasets import Dataset
from transformers import GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments

class FineTuner:
    def __init__(self,
                 model_name='ai-forever/rugpt3small_based_on_gpt2',
                 data_path=DATA_PATH):
        self.data_path = Path(data_path)

        # Инициализация токенизатора и модели
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name)
        self.model = GPT2LMHeadModel.from_pretrained(model_name)

    def prepare_data(self, df):
        df['text'] = df['text'].apply(lambda x: f"{self.tokenizer.bos_token} {x} {self.tokenizer.eos_token}")
        dataset = Dataset.from_pandas(df)

        def tokenize_function(examples):
            return self.tokenizer(examples['text'])

        return dataset.map(tokenize_function, batched=True)

    def fine_tune(self,
                  dataset,
                  output_name='fine_tuned_model',
                  num_train_epochs=3,
                  per_device_train_batch_size=16,
                  learning_rate=5e-5,
                  save_steps=10000):

        data_collator = DataCollatorForLanguageModeling(
            tokenizer=self.tokenizer, mlm=False
        )

        training_args = TrainingArguments(
            output_dir=str(self.data_path / output_name),
            overwrite_output_dir=True,
            num_train_epochs=num_train_epochs,
            per_device_train_batch_size=per_device_train_batch_size,
            save_steps=save_steps,
            learning_rate=learning_rate,
            logging_dir=str(self.data_path / 'logs'),
        )

        trainer = Trainer(
            model=self.model,
            args=training_args,
            data_collator=data_collator,
            train_dataset=dataset,
        )

        trainer.train()
        # Сохранение обученной модели и токенизатора
        self.model.save_pretrained(str(self.data_path / output_name))
        self.tokenizer.save_pretrained(str(self.data_path / output_name))

In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

class TextGenerator:
    def __init__(self, model_name='fine_tuned_model', data_path=DATA_PATH):
        model_path = Path(data_path) / model_name
        self.tokenizer = GPT2Tokenizer.from_pretrained(str(model_path))
        self.model = GPT2LMHeadModel.from_pretrained(str(model_path))
        self.model.eval()

    def generate_text(self,
                    text :str,
                    max_length=200,
                    num_return_sequences=1,
                    temperature=1.0,
                    top_k=0,
                    top_p=1.0,
                    do_sample=False):

        text = f'{self.tokenizer.bos_token} {text}'
        # Кодирование текста в формате, пригодном для модели
        encoded_input = self.tokenizer.encode(text, return_tensors='pt')

        # Генерация текстов
        outputs = self.model.generate(
            encoded_input,
            max_length=max_length,
            num_return_sequences=num_return_sequences,
            temperature=temperature,
            top_k=top_k,
            top_p=top_p,
            do_sample=do_sample,
            no_repeat_ngram_size=2
        )

        # Декодирование результатов
        all_texts = [self.tokenizer.decode(output, skip_special_tokens=True) for output in outputs]

        return all_texts

In [None]:
finetuner = FineTuner()
dataset = finetuner.prepare_data(df)
finetuner.fine_tune(dataset=dataset, output_name='fine_tuned_model_gpt_2')

Map:   0%|          | 0/10000 [00:00<?, ? examples/s]

Step,Training Loss
500,3.6449
1000,3.136
1500,2.902


In [None]:
text = 'Болельщик собирается на футбол'

generator = TextGenerator(
    model_name='fine_tuned_model_gpt_2',
    data_path=DATA_PATH
)
generated_texts = generator.generate_text(
    text = text,
    max_length=256,
    num_return_sequences=3,
    do_sample=True,
    temperature=1.2,  # Слегка уменьшаем уверенность
    top_k=10,         # Уменьшаем количество рассматриваемых верхних k слов
    top_p=0.95       # Уменьшаем "ядерность" распределения
)
for i, text in enumerate(generated_texts):
    print(f"Generated Text {i+1}: {text}")

Generated Text 1:  Болельщик собирается на футбол. Заходит в раздевалку. Подходит к парню и спрашивает: - Ты как, пацан?- А я, как ты: в футбол играй! 
Generated Text 2:  Болельщик собирается на футбол. На улице дождь. Подходит к тренеру:- Тренер, а футбол-то уже закончился?- Да-а, - говорит болельщик, поднимая воротник рубашки. - Вот если бы мы сегодня выиграли, я бы тоже был футбольный болельщиц. 
Generated Text 3:  Болельщик собирается на футбол. На стадионе его встречает толпа поклонников, среди которых много женщин.- Что, все собрались, а ты, болван, в углу? Ты что, болельщик? - Да нет, просто стою возле стены, никого не трогаю...- И не смотри так, я же болельщицу! 
