### 1. Fine tuning модели RuBert на наборе данных RuCola 

In [1]:
import pandas as pd

In [2]:
data_train = pd.read_csv("in_domain_train.csv")
data_train

Unnamed: 0,id,sentence,acceptable,error_type,detailed_source
0,0,"Вдруг решетка беззвучно поехала в сторону, и н...",1,0,Paducheva2004
1,1,Этим летом не никуда ездили.,0,Syntax,Rusgram
2,2,Только Иван выразил какую бы то ни было готовн...,1,0,Paducheva2013
3,3,"Теперь ты видишь собственными глазами, как тут...",1,0,Paducheva2010
4,4,На поверку вся теория оказалась полной чепухой.,1,0,Paducheva2010
...,...,...,...,...,...
7864,7864,Установки не было введено в действие.,0,Semantics,Paducheva2004
7865,7865,"Конечно, против такой системы ценностей решите...",0,Semantics,Paducheva2013
7866,7866,Симптомов болезни не исчезло.,0,Semantics,Paducheva2013
7867,7867,Послезавтра температура у больного снижается д...,0,Semantics,Rusgram


In [3]:
data_dev = pd.read_csv("in_domain_dev.csv")
data_dev

Unnamed: 0,id,sentence,acceptable,error_type,detailed_source
0,0,Иван вчера не позвонил.,1,0,Paducheva2013
1,1,"У многих туристов, кто посещают Кемер весной, ...",0,Syntax,USE8
2,2,Лесные запахи набегали волнами; в них смешалос...,1,0,USE5
3,3,Вчера президент имел неофициальную беседу с ан...,1,0,Seliverstova
4,4,Коллега так и не признал вину за катастрофу пе...,1,0,Testelets
...,...,...,...,...,...
978,978,Мысли отказываются остановиться на всяком пред...,0,Semantics,Paducheva2013
979,979,"Не должно быть подозрений, что судью привлекаю...",0,Semantics,Paducheva2013
980,980,"Хорошо, что он купил что-нибудь.",0,Semantics,Rusgram
981,981,"Если бы я не потерял очков, не пришлось бы пок...",0,Semantics,Paducheva2013


In [4]:
from datasets import Dataset

  from .autonotebook import tqdm as notebook_tqdm


In [5]:
dataset = Dataset.from_pandas(data_train).train_test_split(test_size=0.2, seed=1)
dataset = dataset.rename_column('acceptable', 'label')
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'sentence', 'label', 'error_type', 'detailed_source'],
        num_rows: 6295
    })
    test: Dataset({
        features: ['id', 'sentence', 'label', 'error_type', 'detailed_source'],
        num_rows: 1574
    })
})

In [6]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, BertForSequenceClassification

In [7]:
base_model = 'ai-forever/ruBert-base'

In [8]:
tokenizer = AutoTokenizer.from_pretrained(base_model)



In [10]:
data_tokenized = dataset.map(lambda x: tokenizer(x['sentence'], truncation=True, max_length=512), batched=True, remove_columns=['id', 'sentence', 'error_type', 'detailed_source'])
data_tokenized

Map: 100%|██████████| 6295/6295 [00:00<00:00, 13625.03 examples/s]
Map: 100%|██████████| 1574/1574 [00:00<00:00, 15739.11 examples/s]


DatasetDict({
    train: Dataset({
        features: ['label', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 6295
    })
    test: Dataset({
        features: ['label', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1574
    })
})

In [11]:
from transformers import DataCollatorWithPadding

In [12]:
collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [13]:
from torch.utils.data import DataLoader

In [14]:
train_dataloader = DataLoader(data_tokenized['train'], shuffle=True, batch_size=4, collate_fn=collator)
val_dataloader = DataLoader(data_tokenized['test'], shuffle=False, batch_size=4, collate_fn=collator)

In [15]:
#model = BertForSequenceClassification.from_pretrained(base_model, num_labels=2)
model = AutoModelForSequenceClassification.from_pretrained(base_model, num_labels=2)
model

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at ai-forever/ruBert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(120138, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1

In [16]:
import torch
import pandas as pd
import numpy as np
from tqdm.auto import tqdm, trange
from torch.optim import Adam

In [17]:
optimizer = Adam(model.parameters(), lr=1e-6)

In [18]:
if torch.cuda.is_available():
    model.cuda()

In [19]:
losses = []
for epoch in trange(3):
    pbar = tqdm(train_dataloader)
    model.train()
    for i, batch in enumerate(pbar):
        out = model(**batch.to(model.device))
        out.loss.backward()
        if i % 1 == 0:
            optimizer.step()
            optimizer.zero_grad()
        losses.append(out.loss.item())
        pbar.set_description(f'loss: {np.mean(losses[-100:]):2.2f}')
    model.eval()
    eval_losses = []
    eval_preds = []
    eval_targets = []
    for batch in tqdm(val_dataloader):
        with torch.no_grad():
                out = model(**batch.to(model.device))
        eval_losses.append(out.loss.item())
        eval_preds.extend(out.logits.argmax(1).tolist())
        eval_targets.extend(batch['labels'].tolist())
    print('recent train loss', np.mean(losses[-100:]), 'eval loss', np.mean(eval_losses), 'accuracy', np.mean(np.array(eval_targets) == eval_preds))

  attn_output = torch.nn.functional.scaled_dot_product_attention(
loss: 0.54: 100%|██████████| 1574/1574 [07:44<00:00,  3.39it/s]
100%|██████████| 394/394 [00:10<00:00, 38.41it/s]
 33%|███▎      | 1/3 [07:54<15:49, 474.60s/it]

recent train loss 0.5432492765784264 eval loss 0.5517015452993098 accuracy 0.7465057179161372


loss: 0.57: 100%|██████████| 1574/1574 [08:53<00:00,  2.95it/s]
100%|██████████| 394/394 [00:11<00:00, 33.25it/s]
 67%|██████▋   | 2/3 [16:59<08:36, 516.03s/it]

recent train loss 0.5714918261766434 eval loss 0.5377188452004176 accuracy 0.7592121982210928


loss: 0.48: 100%|██████████| 1574/1574 [09:13<00:00,  2.84it/s]
100%|██████████| 394/394 [00:11<00:00, 34.12it/s]
100%|██████████| 3/3 [26:24<00:00, 528.18s/it]

recent train loss 0.4805538737773895 eval loss 0.5404081200131305 accuracy 0.7649301143583227





In [20]:
dataset_dev = Dataset.from_pandas(data_dev)
dataset_dev = dataset_dev.rename_column('acceptable', 'label')
dataset_dev

Dataset({
    features: ['id', 'sentence', 'label', 'error_type', 'detailed_source'],
    num_rows: 983
})

In [22]:
test_data_tokenized = dataset_dev.map(lambda x: tokenizer(x['sentence'], truncation=True, max_length=512), batched=True, remove_columns=['id', 'sentence', 'error_type', 'detailed_source'])
test_data_tokenized

Map: 100%|██████████| 983/983 [00:00<00:00, 23986.14 examples/s]


Dataset({
    features: ['label', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 983
})

In [24]:
test_dataloader = DataLoader(test_data_tokenized, shuffle=True, batch_size=4, collate_fn=collator)

In [25]:
model.eval()
eval_losses = []
eval_preds = []
eval_targets = []
for batch in tqdm(test_dataloader):
    with torch.no_grad():
            out = model(**batch.to(model.device))
    eval_losses.append(out.loss.item())
    eval_preds.extend(out.logits.argmax(1).tolist())
    eval_targets.extend(batch['labels'].tolist())
print('recent train loss', np.mean(losses[-100:]), 'eval loss', np.mean(eval_losses), 'accuracy', np.mean(np.array(eval_targets) == eval_preds))

100%|██████████| 246/246 [00:07<00:00, 33.96it/s]

recent train loss 0.4805538737773895 eval loss 0.5220698794213737 accuracy 0.7639877924720244





### 2. RuGPT3

[Базовая статья](https://cloud.ru/ru/datahub/rugpt3family/rugpt-3-large)

[Пример кода](https://colab.research.google.com/github/sberbank-ai/ru-gpts/blob/master/examples/Generate_text_with_RuGPTs_HF.ipynb)

In [53]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

model_name_or_path = "ai-forever/rugpt3large_based_on_gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name_or_path)
model = GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()

Проверка

In [54]:

text = "Александр Сергеевич Пушкин родился в "
input_ids = tokenizer.encode(text, return_tensors="pt").cuda()
out = model.generate(input_ids.cuda())
generated_text = list(map(tokenizer.decode, out))[0]
print(generated_text)



Александр Сергеевич Пушкин родился в 
1799 году в Москве.

В 1820 году,


Промптинг

In [55]:
text = "Текст: Шла собака по роялю.\n Классификация: допустимый\n Текст: Машинное обучение это круто\n Классификация:"
input_ids = tokenizer.encode(text, return_tensors="pt").cuda()
out = model.generate(input_ids.cuda(), max_new_tokens=200, )
generated_text = list(map(tokenizer.decode, out))[0]
print(generated_text)

Текст: Шла собака по роялю.
 Классификация: допустимый
 Текст: Машинное обучение это круто
 Классификация: допустимый
 Текст: В чем отличие между человеком и компьютером
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так, чтобы в браузере не было рекламы
 Текст: Как сделать так


In [56]:
text = "Текст: Шла собака по роялю.\n Классификация: допустимый\n Текст: Собака сено лежала\n Классификация:"
input_ids = tokenizer.encode(text, return_tensors="pt").cuda()
out = model.generate(input_ids.cuda(), max_new_tokens=200, )
generated_text = list(map(tokenizer.decode, out))[0][0:135]
print(generated_text)

Текст: Шла собака по роялю.
 Классификация: допустимый
 Текст: Собака сено лежала
 Классификация: допустимый
 Текст: Собака сено лежала


In [57]:
text = "Текст: Шла собака по роялю.\n Классификация: допустимый\n Текст: Собака сено лежала\n Классификация: недопустимый\n Текст: Собаки стая травили волки\n Классификация:"
input_ids = tokenizer.encode(text, return_tensors="pt").cuda()
out = model.generate(input_ids.cuda(), max_new_tokens=200, )
generated_text = list(map(tokenizer.decode, out))[0][0:180]
print(generated_text)

Текст: Шла собака по роялю.
 Классификация: допустимый
 Текст: Собака сено лежала
 Классификация: недопустимый
 Текст: Собаки стая травили волки
 Классификация: недопустимый
 Текст


### 3. RuT5

In [3]:
import os
from argparse import ArgumentParser
from functools import partial
from shutil import rmtree

import pandas as pd
import numpy as np
from datasets import load_metric

from transformers import (
    DataCollatorForSeq2Seq,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer,
    T5Tokenizer,
    T5ForConditionalGeneration,
)

In [4]:
data_train = pd.read_csv("in_domain_train.csv")
data_train

Unnamed: 0,id,sentence,acceptable,error_type,detailed_source
0,0,"Вдруг решетка беззвучно поехала в сторону, и н...",1,0,Paducheva2004
1,1,Этим летом не никуда ездили.,0,Syntax,Rusgram
2,2,Только Иван выразил какую бы то ни было готовн...,1,0,Paducheva2013
3,3,"Теперь ты видишь собственными глазами, как тут...",1,0,Paducheva2010
4,4,На поверку вся теория оказалась полной чепухой.,1,0,Paducheva2010
...,...,...,...,...,...
7864,7864,Установки не было введено в действие.,0,Semantics,Paducheva2004
7865,7865,"Конечно, против такой системы ценностей решите...",0,Semantics,Paducheva2013
7866,7866,Симптомов болезни не исчезло.,0,Semantics,Paducheva2013
7867,7867,Послезавтра температура у больного снижается д...,0,Semantics,Rusgram


In [6]:
from datasets import Dataset

In [7]:
dataset = Dataset.from_pandas(data_train).train_test_split(test_size=0.2, seed=1)
dataset = dataset.rename_column('acceptable', 'label')
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'sentence', 'label', 'error_type', 'detailed_source'],
        num_rows: 6295
    })
    test: Dataset({
        features: ['id', 'sentence', 'label', 'error_type', 'detailed_source'],
        num_rows: 1574
    })
})

In [8]:
tokenizer = T5Tokenizer.from_pretrained("sberbank-ai/ruT5-base")
data_collator = DataCollatorForSeq2Seq(tokenizer, pad_to_multiple_of=8)

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [9]:
data_tokenized = dataset.map(lambda x: tokenizer(x['sentence'], truncation=True, max_length=512), batched=True, remove_columns=['id', 'sentence', 'error_type', 'detailed_source'])
data_tokenized

Map:   0%|          | 0/6295 [00:00<?, ? examples/s]

Map: 100%|██████████| 6295/6295 [00:00<00:00, 7467.35 examples/s]
Map: 100%|██████████| 1574/1574 [00:00<00:00, 7791.95 examples/s]


DatasetDict({
    train: Dataset({
        features: ['label', 'input_ids', 'attention_mask'],
        num_rows: 6295
    })
    test: Dataset({
        features: ['label', 'input_ids', 'attention_mask'],
        num_rows: 1574
    })
})

In [12]:
from transformers import DataCollatorWithPadding
from torch.utils.data import DataLoader

In [14]:
collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [15]:
train_dataloader = DataLoader(data_tokenized['train'], shuffle=True, batch_size=4, collate_fn=collator)
val_dataloader = DataLoader(data_tokenized['test'], shuffle=False, batch_size=4, collate_fn=collator)

In [86]:
# if torch.cuda.is_available():
#    model.cuda()

In [16]:
ACCURACY = load_metric("accuracy", keep_in_memory=True, trust_remote_code=True)
MCC = load_metric("matthews_correlation", keep_in_memory=True, trust_remote_code=True)

  ACCURACY = load_metric("accuracy", keep_in_memory=True, trust_remote_code=True)


In [17]:
N_SEEDS = 10
N_EPOCHS = 20
LR_VALUES = (1e-4, 1e-3)
DECAY_VALUES = (0, 1e-4)
BATCH_SIZES = (128,)

POS_LABEL = "yes"
NEG_LABEL = "no"

In [18]:
def compute_metrics(p, tokenizer):
    string_preds = tokenizer.batch_decode(p.predictions, skip_special_tokens=True)
    int_preds = [1 if prediction == POS_LABEL else 0 for prediction in string_preds]

    labels = np.where(p.label_ids != -100, p.label_ids, tokenizer.pad_token_id)
    string_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    int_labels = []

    for string_label in string_labels:
        if string_label == POS_LABEL:
            int_labels.append(1)
        elif string_label == NEG_LABEL or string_label == "":  # second case accounts for test data
            int_labels.append(0)
        else:
            raise ValueError()

    acc_result = ACCURACY.compute(predictions=int_preds, references=int_labels)
    mcc_result = MCC.compute(predictions=int_preds, references=int_labels)

    result = {"accuracy": acc_result["accuracy"], "mcc": mcc_result["matthews_correlation"]}

    return result

In [19]:
def main():
    for i, learning_rate in enumerate(LR_VALUES):
        for j, weight_decay in enumerate(DECAY_VALUES):
            for k, batch_size in enumerate(BATCH_SIZES):
                for seed in range(N_SEEDS):
                    
                    model = model = T5ForConditionalGeneration.from_pretrained("sberbank-ai/ruT5-base")

                    run_base_dir = f"sberbank-ai_ruT5-base_{learning_rate}_{weight_decay}_{batch_size}"

                    training_args = Seq2SeqTrainingArguments(
                        output_dir=f"checkpoints/{run_base_dir}",
                        overwrite_output_dir=True,
                        evaluation_strategy="epoch",
                        per_device_train_batch_size=batch_size,
                        per_device_eval_batch_size=batch_size,
                        learning_rate=learning_rate,
                        weight_decay=weight_decay,
                        num_train_epochs=N_EPOCHS,
                        lr_scheduler_type="constant",
                        save_strategy="epoch",
                        save_total_limit=1,
                        seed=seed,
                        fp16=True,
                        dataloader_num_workers=4,
                        group_by_length=True,
                        report_to="none",
                        load_best_model_at_end=True,
                        metric_for_best_model="eval_mcc",
                        optim="adafactor",
                        predict_with_generate=True,
                    )

                    trainer = Seq2SeqTrainer(
                        model=model,
                        args=training_args,
                        train_dataset=data_tokenized["train"],
                        eval_dataset=data_tokenized["test"],
                        compute_metrics=partial(compute_metrics, tokenizer=tokenizer),
                        tokenizer=tokenizer,
                        data_collator=data_collator,
                    )

                    train_result = trainer.train()
                    print(f"{run_base_dir}_{seed}")
                    print("train", train_result.metrics)


In [20]:
main()

  0%|          | 0/1000 [00:00<?, ?it/s]

TypeError: Caught TypeError in DataLoader worker process 0.
Original Traceback (most recent call last):
  File "c:\Users\MVKiselev\AppData\Local\Programs\Python\Python311\Lib\site-packages\torch\utils\data\_utils\worker.py", line 308, in _worker_loop
    data = fetcher.fetch(index)  # type: ignore[possibly-undefined]
           ^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\MVKiselev\AppData\Local\Programs\Python\Python311\Lib\site-packages\torch\utils\data\_utils\fetch.py", line 54, in fetch
    return self.collate_fn(data)
           ^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\MVKiselev\AppData\Local\Programs\Python\Python311\Lib\site-packages\transformers\data\data_collator.py", line 617, in __call__
    max_label_length = max(len(l) for l in labels) if not max_padding else self.max_length
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\MVKiselev\AppData\Local\Programs\Python\Python311\Lib\site-packages\transformers\data\data_collator.py", line 617, in <genexpr>
    max_label_length = max(len(l) for l in labels) if not max_padding else self.max_length
                           ^^^^^^
TypeError: object of type 'int' has no len()
