In [2]:
import pandas as pd
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer, AdamW
from torch.utils.data import DataLoader, Dataset
from tqdm import tqdm
import time
import os

In [3]:
# загрузка датасета
file_path = './train.tsv'
train_df = pd.read_csv(file_path, sep='\t').drop('index', axis=1).fillna('')

In [4]:
# делаем шаблон для параллельного корпуса
df_paraphrase = pd.DataFrame(columns=['source_sentence', 'target_sentence'])

In [5]:
df_paraphrase

Unnamed: 0,source_sentence,target_sentence


In [6]:
# Добавляем новую строку в df_paraphrase с исходным токсичным комментарием и текущим нейтральным комментарием
for _, row in train_df.iterrows():
    references = row[['neutral_comment1', 'neutral_comment2', 'neutral_comment3']].tolist()

    for reference in references:
        if len(reference) > 0:
            df_paraphrase = df_paraphrase.append({
                'source_sentence': row['toxic_comment'],
                'target_sentence': reference
            }, ignore_index=True)

  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase = df_paraphrase.append({
  df_paraphrase 

In [7]:
# Перемешиваем строки датафрейма случайным образом и сбрасываем индекс, чтобы получить новый порядковый индекс
df_paraphrase = df_paraphrase.sample(frac=1).reset_index(drop=True)

In [8]:
df_paraphrase.head()

Unnamed: 0,source_sentence,target_sentence
0,.этих тварей постоянно хочется целовать и тиск...,Этих животных постоянно хочется целовать и тис...
1,она уже заебала &gt;&lt;Нах вообще было открыв...,Она уже надоела. Зачем вообще было открывать м...
2,"Бля,да че так скучно то?Без молодежки нечего д...",Да почему так скучно-то? Без молодежи нечего д...
3,опять одни и те же нищеброды заскулили),Опять одни и теже бедные деньгами люди заговорили
4,"я вообще ничего не писала, а вот ты постоянно ...","Я вообще ничего не писала, а вот ты постоянно ..."


In [9]:
%pip install sentencepiece

Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


In [9]:
# Определяем модель и токенизатор
backbone_model = 'cointegrated/rut5-base-paraphraser'
model = T5ForConditionalGeneration.from_pretrained(backbone_model)
tokenizer = T5Tokenizer.from_pretrained(backbone_model)

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


In [None]:
# Определяем класс для создания датасета, который будет использоваться для обучения модели
class ParaphraseDataset(Dataset):
    def __init__(self, source_sentences, target_sentences, tokenizer, max_source_length=128, max_target_length=128):
        self.source_sentences = source_sentences
        self.target_sentences = target_sentences
        self.tokenizer = tokenizer
        self.max_source_length = max_source_length
        self.max_target_length = max_target_length

    def __len__(self):
        return len(self.source_sentences)

    def __getitem__(self, idx):
        source_tokenized = self.tokenizer.encode_plus(self.source_sentences[idx], max_length=self.max_source_length, padding="max_length", return_tensors="pt", truncation=True)
        target_tokenized = self.tokenizer.encode_plus(self.target_sentences[idx], max_length=self.max_target_length, padding="max_length", return_tensors="pt", truncation=True)
        return {
            "source_ids": source_tokenized["input_ids"].flatten(),
            "source_mask": source_tokenized["attention_mask"].flatten(),
            "target_ids": target_tokenized["input_ids"].flatten(),
            "target_mask": target_tokenized["attention_mask"].flatten()

In [None]:
# Получаем исходные и целевые предложения из датафрейма df_paraphrase
source_sentences = df_paraphrase['source_sentence']
target_sentences = df_paraphrase['target_sentence']

In [None]:
# Создаем датасет с использованием исходных и целевых предложений и токенизатора
paraphrase_dataset = ParaphraseDataset(source_sentences, target_sentences, tokenizer)
# Создаем загрузчик данных 
paraphrase_dataloader = DataLoader(paraphrase_dataset, batch_size=6, shuffle=True)


In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

In [None]:
num_epochs = 15

In [None]:
model.train()

# определяем оптимизатор AdamW с заданной скоростью обучения
optimizer = AdamW(model.parameters(), lr=1e-5)

# количество эпох обучения
num_epochs = 15


In [None]:
# Создание tqdm индикатора для эпох
epoch_iterator = tqdm(range(num_epochs), desc="Epoch")

In [None]:
for epoch in range(num_epochs):
    # тут мы создаем индикатор tqdm для батчей с указанием номера эпохи
    batch_iterator = tqdm(paraphrase_dataloader, desc=f"Epoch {epoch + 1}", leave=False)

    # Проходим по каждому батчу
    for batch in batch_iterator:
        # Переносим данные на устройство (GPU, если доступен)
        input_ids = batch["source_ids"].to(device)
        attention_mask = batch["source_mask"].to(device)
        labels = batch["target_ids"].to(device)
        labels_attention_mask = batch["target_mask"].to(device)

        # скармливаем данные модели и вычисляем потери
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels, decoder_attention_mask=labels_attention_mask)
        loss = outputs.loss

        # обновляем отображение индикатора с текущими потерями
        batch_iterator.set_postfix(loss=loss.item())

        # Обратное распространение и обновление весов модели
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

    # Вывод информации о потерях и времени до окончания текущей эпохи
    time_remaining = (len(paraphrase_dataloader) - batch_iterator.n) * (time.time() - batch_iterator.start_t) / batch_iterator.n
    print(f"Epoch {epoch + 1}: Loss - {loss.item():.4f}, Time Remaining - {int(time_remaining // 60)}m {int(time_remaining % 60)}s")


#тут прописываем код к директории
save_path = "./model2/fine_tuned_paraphrase_model"

if not os.path.exists(save_path):
    os.makedirs(save_path)

model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)


Epoch:   0%|          | 0/15 [00:00<?, ?it/s]
Epoch 1:   0%|          | 0/1849 [00:00<?, ?it/s][A
Epoch 1:   0%|          | 0/1849 [00:00<?, ?it/s, loss=9.88][A
Epoch 1:   0%|          | 1/1849 [00:01<42:09,  1.37s/it, loss=9.88][A
Epoch 1:   0%|          | 1/1849 [00:01<42:09,  1.37s/it, loss=9.56][A
Epoch 1:   0%|          | 2/1849 [00:01<23:54,  1.29it/s, loss=9.56][A
Epoch 1:   0%|          | 2/1849 [00:01<23:54,  1.29it/s, loss=8.61][A
Epoch 1:   0%|          | 3/1849 [00:02<18:07,  1.70it/s, loss=8.61][A
Epoch 1:   0%|          | 3/1849 [00:02<18:07,  1.70it/s, loss=8.59][A
Epoch 1:   0%|          | 4/1849 [00:02<15:26,  1.99it/s, loss=8.59][A
Epoch 1:   0%|          | 4/1849 [00:02<15:26,  1.99it/s, loss=5.95][A
Epoch 1:   0%|          | 5/1849 [00:02<13:55,  2.21it/s, loss=5.95][A
Epoch 1:   0%|          | 5/1849 [00:02<13:55,  2.21it/s, loss=7.89][A
Epoch 1:   0%|          | 6/1849 [00:03<13:00,  2.36it/s, loss=7.89][A
Epoch 1:   0%|          | 6/1849 [00:03<13:00