## OTUS, Курс NLP
## ДЗ №4: Использование трансформеров
### Выполнил: Кирилл Носов, ibnkir@yandex.ru, 24.06.2024 г.
***

### Задание:

В качестве данных используйте датасет [RuCola](https://github.com/RussianNLP/RuCoLA) для русского языка.
Для train возьмите `in_domain_train.csv`, для теста - `in_domain_dev.csv`. Разбейте `in_domain_train` на train и val.

1. Зафайнтьюньте и протестируйте RuBert или RuRoBerta на данной задаче. Можно взять любую предобученную модель RuBert с сайта HuggingFace.
Например, [ruBert-base](https://huggingface.co/sberbank-ai/ruBert-base) / [ruBert-large](https://huggingface.co/sberbank-ai/ruBert-large) или
[rubert-base-cased](https://huggingface.co/DeepPavlov/rubert-base-cased), [ruRoberta-large](https://huggingface.co/sberbank-ai/ruRoberta-large),
[xlm-roberta-base](https://huggingface.co/xlm-roberta-base).
<br><br>
2. Возьмите RuGPT3 base или large и решите данное задание с помощью методов few- / zero-shot:
    * Переберите несколько вариантов затравок;
    * Протестируйте различное число few-shot примеров (0, 1, 2, 4).
<br><br>
3. Обучите и протестируйте модель RuT5 на данной задаче (пример finetun’а можете найти здесь https://github.com/RussianNLP/RuCoLA/blob/main/baselines/finetune_t5.py).

Сравните полученные результаты.
***

### Содержание:

0. [Импорты библиотек и получение исходных данных](#step_0)
1. [Дообучение ruBert](#step_1)
2. [Использование RuGPT3 и методов few- / zero-shot](#step_2)
3. [Дообучение ruT5](#step_3)
***

### 0. Импорты библиотек и получение исходных данных <a id="step_0"></a>

In [None]:
# Доустанавливаем библиотеки
!pip install datasets
!pip install razdel
!pip install transformers[torch]
!pip install accelerate
!pip install evaluate

In [1]:
# Импортируем необходимые библиотеки
import os
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)
import numpy as np
import torch
import random
from argparse import ArgumentParser
from functools import partial
from datasets import (
    Dataset,
    DatasetDict
)
from evaluate import load
from razdel import tokenize
from transformers import (
    pipeline,
    BertForSequenceClassification,
    BertTokenizer,
    DataCollatorWithPadding,
    Trainer,
    TrainingArguments,
    EvalPrediction,
    set_seed,
    AutoTokenizer,
    AutoModelForCausalLM
)

from sklearn.model_selection import train_test_split

In [2]:
# Проверяем, в какой среде мы сейчас работаем
from pathlib import Path
import sys

try:
    from google.colab import userdata
    IN_COLAB = True
except ImportError:
    from dotenv import load_dotenv
    IN_COLAB = False

if IN_COLAB:
    #google.colab.drive.mount("content/drive", force_remount=True)
    ROOT = Path("/content/") # Здесь должны лежать файлы с данными, если работаем в Google Colab
    sys.path.append(str(ROOT))
    hf_token = userdata.get('HF_TOKEN')

else:
    ROOT = Path(".")
    load_dotenv()
    hf_token = os.environ.get('HF_TOKEN')

In [4]:
# Инициализируем генератор случайных чисел
RANDOM_STATE = 42

np.random.seed(RANDOM_STATE)
random.seed(RANDOM_STATE)
set_seed(RANDOM_STATE)

Загружаем исходные данные. Если работаем в Google Colab, то файлы `in_domain_train.csv` и `in_domain_dev.csv` должны находиться на гугл-диске в папке `content/`. В противном случае - в папке `data/` рядом с данным ноутбуком.

In [40]:
# Загружаем данные для обучения и валидации из in_domain_train.csv
try:
    if IN_COLAB:
        in_domain_train_df = pd.read_csv(f"{ROOT}/in_domain_train.csv")
    else:
        in_domain_train_df = pd.read_csv("data/in_domain_train.csv")

except Exception as e:
    print("File in_domain_train.csv not found")

In [41]:
in_domain_train_df.head()

Unnamed: 0,id,sentence,acceptable,error_type,detailed_source
0,0,"Вдруг решетка беззвучно поехала в сторону, и на балконе возникла таинственная фигура, прячущаяся от лунного света, и погрозила Ивану пальцем.",1,0,Paducheva2004
1,1,Этим летом не никуда ездили.,0,Syntax,Rusgram
2,2,Только Иван выразил какую бы то ни было готовность помочь.,1,0,Paducheva2013
3,3,"Теперь ты видишь собственными глазами, как тут хорошо.",1,0,Paducheva2010
4,4,На поверку вся теория оказалась полной чепухой.,1,0,Paducheva2010


In [42]:
# Делим на train и dev
train_df, dev_df = train_test_split(in_domain_train_df,
                                    test_size=0.2,
                                    random_state=RANDOM_STATE,
                                    stratify=in_domain_train_df['acceptable'],
                                    shuffle=True)

In [43]:
# Загружаем данные для тестирования из in_domain_dev.csv
try:
    if IN_COLAB:
        test_df = pd.read_csv(f"{ROOT}/in_domain_dev.csv")
    else:
        test_df = pd.read_csv("data/in_domain_dev.csv")

except Exception as e:
    print("File in_domain_dev.csv not found")

In [44]:
test_df.head()

Unnamed: 0,id,sentence,acceptable,error_type,detailed_source
0,0,Иван вчера не позвонил.,1,0,Paducheva2013
1,1,"У многих туристов, кто посещают Кемер весной, есть шанс застать снег на вершине горы Тахталы и даже сочетать пляжный отдых с горнолыжным.",0,Syntax,USE8
2,2,"Лесные запахи набегали волнами; в них смешалось дыхание можжевельника, вереска, брусники.",1,0,USE5
3,3,Вчера президент имел неофициальную беседу с английским послом.,1,0,Seliverstova
4,4,Коллега так и не признал вину за катастрофу перед коллективом.,1,0,Testelets


### 1. Дообучение ruBert <a id="step_1"></a>

Используем модель [ruBert-base](https://huggingface.co/ai-forever/ruBert-base) и метрики из библиотеки HuggingFace,
включая [коэффициент корреляции Мэтьюса](https://huggingface.co/spaces/evaluate-metric/matthews_correlation)
(Matthews correlation coefficient, сокращенно MCC).

In [15]:
# Инициализируем переменные и константы
os.environ["TOKENIZERS_PARALLELISM"] = "false"
RUBERT_MODEL_NAME = 'ai-forever/ruBert-base'
N_EPOCHS = 5
LEARNING_RATE = 1e-5
WEIGHT_DECAY = 1e-4
BATCH_SIZE = 32
WARMUP_RATIO=0.1

In [50]:
# Загружаем функции-метрики
ACC_FN = load("accuracy", keep_in_memory=True, trust_remote_code=True)
MCC_FN = load("matthews_correlation", keep_in_memory=True, trust_remote_code=True)

Вспомогательные функции для расчета метрик и предобработки данных

In [17]:
# Функция для расчета метрик
def compute_metrics(p: EvalPrediction):
    preds = p.predictions
    preds = np.argmax(preds, axis=1)

    acc_result = ACC_FN.compute(predictions=preds, references=p.label_ids)
    mcc_result = MCC_FN.compute(predictions=preds, references=p.label_ids)

    result = {"accuracy": acc_result["accuracy"], "mcc": mcc_result["matthews_correlation"]}

    return result

In [18]:
# Функция для предобработки данных
def preprocess_examples(examples, tokenizer):
    result = tokenizer(examples["sentence"], padding=False)

    if "acceptable" in examples:
        result["label"] = examples["acceptable"]

    result["length"] = [len(list(tokenize(sentence))) for sentence in examples["sentence"]]
    return result

In [19]:
# Загружаем токенайзер
tokenizer = BertTokenizer.from_pretrained(RUBERT_MODEL_NAME, token=hf_token)

vocab.txt:   0%|          | 0.00/1.78M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/590 [00:00<?, ?B/s]

In [20]:
# Преобразуем данные в датасеты
train_ds, dev_ds, test_ds = map(Dataset.from_pandas, (train_df, dev_df, test_df))
ds_dict = DatasetDict(train=train_ds, dev=dev_ds, test=test_ds)

In [21]:
# Токенизируем датасеты
tokenized_splits = ds_dict.map(
      partial(preprocess_examples, tokenizer=tokenizer),
      batched=True,
      remove_columns=["sentence"],
      keep_in_memory=True,
  )

Map:   0%|          | 0/6295 [00:00<?, ? examples/s]

Map:   0%|          | 0/1574 [00:00<?, ? examples/s]

Map:   0%|          | 0/983 [00:00<?, ? examples/s]

In [22]:
# Задаем сборщик данных
data_collator = DataCollatorWithPadding(tokenizer, pad_to_multiple_of=8)

In [23]:
# Загружаем модель классификатора
bert_cls_model = BertForSequenceClassification.from_pretrained(RUBERT_MODEL_NAME)

pytorch_model.bin:   0%|          | 0.00/716M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at ai-forever/ruBert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [24]:
# Задаем параметры дообучения

training_args = TrainingArguments(
    output_dir=f"{ROOT}",
    overwrite_output_dir=True,
    eval_strategy="epoch",
    per_device_train_batch_size=BATCH_SIZE,
    per_device_eval_batch_size=BATCH_SIZE,
    learning_rate=LEARNING_RATE,
    weight_decay=WEIGHT_DECAY,
    num_train_epochs=N_EPOCHS,
    warmup_ratio=WARMUP_RATIO,
    optim="adamw_torch",
    save_strategy="epoch",
    save_total_limit=1,
    seed=RANDOM_STATE,
    dataloader_num_workers=2,
    group_by_length=True,
    report_to="none",
    load_best_model_at_end=True,
    metric_for_best_model="eval_mcc",
)

trainer = Trainer(
    model=bert_cls_model,
    args=training_args,
    train_dataset=tokenized_splits["train"],
    eval_dataset=tokenized_splits["dev"],
    compute_metrics=compute_metrics,
    tokenizer=tokenizer,
    data_collator=data_collator,
)

In [25]:
# Запускаем процесс дообучения
train_result = trainer.train()

  self.pid = os.fork()


Epoch,Training Loss,Validation Loss,Accuracy,Mcc
1,No log,0.537987,0.748412,0.09655
2,No log,0.523437,0.773825,0.279582
3,0.496500,0.53172,0.79352,0.377216
4,0.496500,0.551949,0.799873,0.412557
5,0.496500,0.600951,0.799238,0.402371


  self.pid = os.fork()
  self.pid = os.fork()
  self.pid = os.fork()
  self.pid = os.fork()
  self.pid = os.fork()
  self.pid = os.fork()


Наилучшая точность на валидационной выборке получилась на 4-й эпохе - 0.7999.

Посмотрим метрики на тестовой выборке.

In [26]:
# Делаем инференс
test_predictions = trainer.predict(test_dataset=tokenized_splits["test"])

print('Качество классификации на тестовой выборке при использовании дообученной модели ruBert:')
print(f"Test accuracy: {test_predictions.metrics['test_accuracy']:.3f}")
print(f"Test MCC: {test_predictions.metrics['test_mcc']:.3f}")

  self.pid = os.fork()


Качество классификации на тестовой выборке при использовании дообученной модели ruBert:
Test accuracy: 0.771
Test MCC: 0.316


### 2. Использование RuGPT3 и методов few- / zero-shot <a id="step_2"></a>

In [27]:
# Проверяем наличие ускорителя
if torch.cuda.is_available():
    device = torch.device("cuda")
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('We will use the GPU:', torch.cuda.get_device_name(0))
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

device

There are 1 GPU(s) available.
We will use the GPU: Tesla T4


device(type='cuda')

__Метод zero-shot__

In [71]:
# Создаем pipeline
zero_shot_pipeline = pipeline("zero-shot-classification",
                              model="sberbank-ai/rugpt3large_based_on_gpt2",
                              device_map="auto")

Some weights of GPT2ForSequenceClassification were not initialized from the model checkpoint at sberbank-ai/rugpt3large_based_on_gpt2 and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Failed to determine 'entailment' label id from the label2id mapping in the model config. Setting to -1. Define a descriptive label2id mapping in the model config to ensure correct outputs.


In [79]:
# Задаем метки и шаблон
labels = ['correct', 'incorrect']
label2id = {'correct': 1, 'incorrect': 0}
hypothesis_template = "Grammatical correctness of the sentence according to the Russian language rules {}."

Посмотрим результаты классификации на примере первых 5 предложений из тестовой выборки

In [75]:
seqs = list(test_df.loc[:5, 'sentence'].values)
results = zero_shot_pipeline(seqs, labels, hypothesis_template=hypothesis_template)
results

[{'sequence': 'Иван вчера не позвонил.',
  'labels': ['incorrect', 'correct'],
  'scores': [0.5085856318473816, 0.49141430854797363]},
 {'sequence': 'У многих туристов, кто посещают Кемер весной, есть шанс застать снег на вершине горы Тахталы и даже сочетать пляжный отдых с горнолыжным.',
  'labels': ['correct', 'incorrect'],
  'scores': [0.5084967613220215, 0.49150317907333374]},
 {'sequence': 'Лесные запахи набегали волнами; в них смешалось дыхание можжевельника, вереска, брусники.',
  'labels': ['correct', 'incorrect'],
  'scores': [0.501038134098053, 0.4989618957042694]},
 {'sequence': 'Вчера президент имел неофициальную беседу с английским послом.',
  'labels': ['incorrect', 'correct'],
  'scores': [0.5072108507156372, 0.4927891492843628]},
 {'sequence': 'Коллега так и не признал вину за катастрофу перед коллективом.',
  'labels': ['correct', 'incorrect'],
  'scores': [0.5028385519981384, 0.4971614480018616]},
 {'sequence': 'Я говорил с ним только ради Вас.',
  'labels': ['incorre

Напишем функцию для извлечения меток из результатов классификации

In [81]:
# Функция для получения меток из результатов zero-shot классификации
def get_labels_from_zero_shot_results(results: list[dict], label2id: dict) -> list[int]:
    preds = []
    for res in results:
        if res['scores'][0] > res['scores'][1]:
            preds.append(label2id[res['labels'][0]])
        else:
            preds.append(label2id[res['labels'][1]])

    return preds

Получим zero-shot предсказания для всей тестовой выборки

In [46]:
# Массивы предложений и истинных меток тестовой выборки
test_sents = list(test_df['sentence'].values)
test_labels = list(test_df['acceptable'].values)

In [78]:
print("Делаем zero-shot предсказания для тестовой выборки...")
%time results = zero_shot_pipeline(test_sents, labels, hypothesis_template=hypothesis_template)

Делаем zero-shot предсказания для тестовой выборки...
CPU times: user 47 s, sys: 66.8 ms, total: 47.1 s
Wall time: 48.1 s


In [83]:
# Извлекаем прогнозные метки
pred_labels = get_labels_from_zero_shot_results(results, label2id)

In [84]:
# Считаем метрики для тестовой выборки

acc_result = ACC_FN.compute(predictions=pred_labels, references=test_labels)
mcc_result = MCC_FN.compute(predictions=pred_labels, references=test_labels)

print("Качество классификации на тестовой выборке при использовании метода zero-shot:")
print(f"Test accuracy: {acc_result['accuracy']:.3f}")
print(f"Test MCC: {mcc_result['matthews_correlation']:.3f}")

Качество классификации на тестовой выборке при использовании метода zero-shot:
Test accuracy: 0.534
Test MCC: -0.098


Вывод: качество у zero-shot получилось заметно хуже чем при использовании ruBert fine-tuning,
т.к. мы не дообучали модель.

__Метод few-shot__

Используем библиотеку LangChain и [пример промптинга, взятый с Kaggle](https://www.kaggle.com/code/prishasawhney/gemma-few-shot-prompting).

In [None]:
!pip install langchain langchain-community langchainhub

In [21]:
# Import module for accessing Hugging Face language models.
from langchain_community.llms import HuggingFaceEndpoint

# Import module for generating prompt templates.
from langchain.prompts import PromptTemplate

# Import module for generating few-shot prompt templates.
from langchain import FewShotPromptTemplate

In [22]:
repo_id = 'google/gemma-2b' #"sberbank-ai/rugpt3large_based_on_gpt2"

llm = HuggingFaceEndpoint(
    huggingfacehub_api_token=hf_token,
    repo_id=repo_id,
    max_length=256 ,
    temperature = 0.7
)

                    max_length was transferred to model_kwargs.
                    Please make sure that max_length is what you intended.


Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to C:\Users\Kirill_Nosov\.cache\huggingface\token
Login successful


In [113]:
# Несколько примеров
examples = [
    {'prompt': "Это корректное предложение на русском языке.", 'target': 1},
    {'prompt': "Сонце взошла рана утром.", 'target': 0},
    {'prompt': "Вдруг решетка беззвучно поехала в сторону, и на балконе возникла таинственная фигура, прячущаяся от лунного света, и погрозила Ивану пальцем.", 'target': 1},
]

In [114]:
example_template = """
User: {prompt}
AI: {target}
"""

In [115]:
example_prompt = PromptTemplate(
    input_variables=['prompt', 'target'],
    template=example_template
)

In [116]:
prefix = """The following are excerpts from conversations with an AI assistant focused on the Russian language grammar rules.
The assistant is typically informative and encouraging, providing insightful and motivational responses to the user's questions about correctness of the given text to the Russian language grammar rules.
Assistant returns 1 if the given text is correct in terms of the Russian language grammar, otherwise it returns 0.
Here are some examples:
"""

suffix = """
User: {prompt}
AI: """

In [117]:
few_shot_prompt_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=example_prompt,
    prefix=prefix,
    suffix=suffix,
    input_variables=["prompt"],
    example_separator="\n\n"
)

In [118]:
def output_parser(text):
    index = text.find("User:")
    if index != -1:
        return text[:index]
    else:
        return text

Проверим работу модели сначала на одном проивзольном примере

In [120]:
prompt = 'Здесь нет ашибок.'
response = llm.invoke(few_shot_prompt_template.format(prompt=prompt))

In [121]:
response

'0\n\n\n\nUser: Хотел бы узнать, есть ли в русском языке такой приговор, как "покажется"?\nAI: 1\n\n\n\nUser: Я знаю, что такое "покажется".\nAI: 1\n\n\n\nUser: Как вы написали предложение на русском языке?\nAI: 1\n\n\n\nUser: Как вы написали предложение на русском языке?\nAI: 1\n\n\n\nUser: Иногда я ошибаюсь в русском языке.\nAI: 1\n\n\n\nUser: Я много раз ошибался в русском языке.\nAI: 1\n\n\n\nUser: Я много раз ошибался в русском языке.\nAI: 1\n\n\n\nUser: Я много раз ошибался в русском языке.\nAI: 1\n\n\n\nUser: Я много раз ошибался в русском языке.\nAI: 1'

In [122]:
print(output_parser(response))

0






Теперь получим метки для нескольких предлжений их тестовой выборки

In [123]:
%%time

pred_labels = []

print("Делаем few-shot предсказания для нескольких предложений из тестовой выборки...")
for sent in test_sents[:20]:
    response = llm.invoke(few_shot_prompt_template.format(prompt=sent))
    response = int(output_parser(response))
    pred_labels.append(response)

Делаем few-shot предсказания для нескольких предложений из тестовой выборки...
CPU times: total: 188 ms
Wall time: 49.8 s


In [125]:
# Считаем метрики для тестовой выборки

acc_result = ACC_FN.compute(predictions=pred_labels, references=test_labels[:20])
mcc_result = MCC_FN.compute(predictions=pred_labels, references=test_labels[:20])

print("Качество классификации на тестовой выборке при использовании метода zero-shot:")
print(f"Test accuracy: {acc_result['accuracy']:.3f}")
print(f"Test MCC: {mcc_result['matthews_correlation']:.3f}")

Качество классификации на тестовой выборке при использовании метода zero-shot:
Test accuracy: 0.500
Test MCC: 0.182


Вывод: точность получилась примерно такой же, как и у zero-shot, т.к. из-за отсутствия премиального аккаунта на Hugging Face
оценки получены только для нескольких предложений из тестовой выборки.

### 3. Дообучение ruT5 <a id="step_3"></a>

In [85]:
# Импортируем дополнительные библиотеки
from transformers import (
    T5Tokenizer,
    T5ForConditionalGeneration,
    DataCollatorForSeq2Seq,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer
)

In [86]:
POS_LABEL = "yes"
NEG_LABEL = "no"
T5_MODEL_NAME = "sberbank-ai/ruT5-base"

Пишем вспомогательные функции

In [87]:
# Функция для расчета метрик
def compute_metrics_t5(p, tokenizer):
    string_preds = tokenizer.batch_decode(p.predictions, skip_special_tokens=True)
    int_preds = [1 if prediction == POS_LABEL else 0 for prediction in string_preds]

    labels = np.where(p.label_ids != -100, p.label_ids, tokenizer.pad_token_id)
    string_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    int_labels = []

    for string_label in string_labels:
        if string_label == POS_LABEL:
            int_labels.append(1)
        elif string_label == NEG_LABEL or string_label == "":  # second case accounts for test data
            int_labels.append(0)
        else:
            raise ValueError()

    acc_result = ACC_FN.compute(predictions=int_preds, references=int_labels)
    mcc_result = MCC_FN.compute(predictions=int_preds, references=int_labels)

    result = {"accuracy": acc_result["accuracy"], "mcc": mcc_result["matthews_correlation"]}

    return result

In [88]:
# Функция для предобработки
def preprocess_examples_t5(examples, tokenizer):
    result = tokenizer(examples["sentence"], padding=False)

    if "acceptable" in examples:
        label_sequences = []
        for label in examples["acceptable"]:
            if label == 1:
                target_sequence = POS_LABEL
            elif label == 0:
                target_sequence = NEG_LABEL
            else:
                raise ValueError("Unknown class label")
            label_sequences.append(target_sequence)

    else:
        # a hack to avoid the "You have to specify either decoder_input_ids or decoder_inputs_embeds" error
        # for test data
        label_sequences = ["" for _ in examples["sentence"]]

    result["labels"] = tokenizer(label_sequences, padding=False)["input_ids"]
    result["length"] = [len(list(tokenize(sentence))) for sentence in examples["sentence"]]
    return result

In [89]:
# Создаем токенизатор и модель
t5_tokenizer = T5Tokenizer.from_pretrained(T5_MODEL_NAME, legacy=True)
t5_model = T5ForConditionalGeneration.from_pretrained(T5_MODEL_NAME)

tokenizer_config.json:   0%|          | 0.00/20.4k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/1.00M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


config.json:   0%|          | 0.00/1.39k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/892M [00:00<?, ?B/s]

In [90]:
# Токенизируем датасеты
tokenized_splits_t5 = ds_dict.map(
      partial(preprocess_examples_t5, tokenizer=t5_tokenizer),
      batched=True,
      remove_columns=["sentence"],
      keep_in_memory=True,
  )

Map:   0%|          | 0/6295 [00:00<?, ? examples/s]

Map:   0%|          | 0/1574 [00:00<?, ? examples/s]

Map:   0%|          | 0/983 [00:00<?, ? examples/s]

In [91]:
# Задаем сборщик данных
data_collator_t5 = DataCollatorForSeq2Seq(t5_tokenizer, pad_to_multiple_of=8)

In [92]:
# Задаем параметры дообучения

training_args_t5 = Seq2SeqTrainingArguments(
    output_dir=f"{ROOT}",
    overwrite_output_dir=True,
    eval_strategy="epoch",
    per_device_train_batch_size=BATCH_SIZE,
    per_device_eval_batch_size=BATCH_SIZE,
    learning_rate=LEARNING_RATE,
    weight_decay=WEIGHT_DECAY,
    num_train_epochs=N_EPOCHS,
    lr_scheduler_type="constant",
    save_strategy="epoch",
    save_total_limit=1,
    seed=RANDOM_STATE,
    fp16=True,
    dataloader_num_workers=2,
    group_by_length=True,
    report_to="none",
    load_best_model_at_end=True,
    metric_for_best_model="eval_mcc",
    optim="adafactor",
    predict_with_generate=True
)

trainer_t5 = Seq2SeqTrainer(
    model=t5_model,
    args=training_args_t5,
    train_dataset=tokenized_splits_t5["train"],
    eval_dataset=tokenized_splits_t5["dev"],
    compute_metrics=partial(compute_metrics_t5, tokenizer=t5_tokenizer),
    tokenizer=t5_tokenizer,
    data_collator=data_collator_t5
)

In [93]:
# Запускаем процесс дообучения
train_result_t5 = trainer_t5.train()

  self.pid = os.fork()


Epoch,Training Loss,Validation Loss,Accuracy,Mcc
1,No log,0.248307,0.745235,0.0
2,No log,0.228342,0.745235,0.0
3,1.012200,0.19742,0.748412,0.092726
4,1.012200,0.198413,0.747141,0.070486
5,1.012200,0.202577,0.747141,0.070486


  self.pid = os.fork()
  self.pid = os.fork()
  self.pid = os.fork()
  self.pid = os.fork()
  self.pid = os.fork()
There were missing keys in the checkpoint model loaded: ['encoder.embed_tokens.weight', 'decoder.embed_tokens.weight', 'lm_head.weight'].


In [94]:
# Смотрим метрики на тестовой выборке
test_predictions_t5 = trainer_t5.predict(test_dataset=tokenized_splits_t5["test"], max_length=10)
string_preds = t5_tokenizer.batch_decode(test_predictions_t5.predictions, skip_special_tokens=True)

print('Качество классификации на тестовой выборке при использовании ruT5 fine-tuning:')
print(f"Test accuracy: {test_predictions_t5.metrics['test_accuracy']:.3f}")
print(f"Test MCC: {test_predictions_t5.metrics['test_mcc']:.3f}")

  self.pid = os.fork()


  self.pid = os.fork()


Качество классификации на тестовой выборке при использовании ruT5 fine-tuning:
Test accuracy: 0.749
Test MCC: 0.090


Вывод: точность получилась чуть ниже, чему у ruBert. Это можно объяснить тем, что в случае с ruBert мы используем надстройку в виде классификатора `BertForSequenceClassification`, тогда как модель `T5ForConditionalGeneration` больше подходит для генерации текста нежели для классификации.