<a href="https://colab.research.google.com/github/totminaekaterina/RUSSE-2022-Detoxification/blob/main/finetune_rugpt3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
import argparse
import json
import random
from pprint import pprint
from pathlib import Path
import pandas as pd
import numpy as np
import torch
from torch.utils.data import Dataset, DataLoader, random_split, RandomSampler, SequentialSampler
from transformers import (AutoTokenizer,
                          AutoModelForCausalLM,
                          Trainer,
                          TrainingArguments,
                          TrainerCallback,
                          AdamW,
                          get_linear_schedule_with_warmup)

TypeError: expected string or bytes-like object

In [3]:
!pip install transformers





In [2]:
def set_random_seed(seed_val):
    random.seed(seed_val)
    np.random.seed(seed_val)
    torch.manual_seed(seed_val)
    torch.cuda.manual_seed_all(seed_val)

In [3]:
def get_random_example(dataset):
    sample = dataset.sample()
    prompt = f'<|startoftext|>{sample["sentence1"].item()}<|sep|>'
    true_output = sample["sentence2"].item()
    return prompt, true_output

In [4]:
class SimplificationDataset(torch.utils.data.Dataset):
    def __init__(self, texts_list, tokenizer, gpt2_type="gpt2", max_length=1024):
        self.tokenizer = tokenizer

        texts_combined = []
        for input_text, out_text in texts_list:
            text_combined = f"<|startoftext|>{input_text}<|sep|>{out_text}<|endoftext|>"
            texts_combined.append(text_combined)
        self.encodings = tokenizer(texts_combined,
                              truncation=True,
                              max_length=max_length,
                              padding="max_length",
                              return_tensors="pt")

    def __len__(self):
        return len(self.encodings.input_ids)

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item["label"] = item["input_ids"]
        return item

In [5]:
class PrintExampleCallback(TrainerCallback):
    def on_evaluate(self, args, state, control, logs=None, **kwargs):
        prompt, true_output = get_random_example(valid)
        print(prompt.strip("<|startoftext|>").strip("<|sep|>"), true_output, sep="\n")
        input_ids = tokenizer.encode(prompt, return_tensors="pt").to("cuda")
        model.eval()
        with torch.no_grad():
            sample_outputs = model.generate(
                input_ids,
                do_sample=True,   
                top_k=50,
                max_length=MAX_LENGTH,
                top_p=0.95,
                temperature=0.9,
                num_return_sequences=1
            ).detach().cuda()
        model.train()

        for sample in sample_outputs:
            res = (tokenizer.decode(sample, skip_special_tokens=False)
                            .split("<|sep|>")[1]
                            .replace("<|pad|>", "")
                            .replace("<|endoftext|>", ""))
            print(res, "-" * 80, sep="\n")

In [6]:
TRAIN_PATH = "NLI_train.csv"
VALID_PATH = "NLI_val.csv"
TEST_PATH = "NLI_test.csv"

In [7]:
train = pd.read_csv(TRAIN_PATH, encoding='utf-8-sig', sep=';')
valid = pd.read_csv(VALID_PATH, encoding='utf-8-sig', sep=';')
valid.drop(["label"], axis=1, inplace=True)
train.drop(["label"], axis=1, inplace=True)
valid.columns = ["sentence1", "sentence2"]

In [8]:
train.head()

Unnamed: 0,sentence1,sentence2
0,В реанимации: измеренные жиз. показатели Т 37....,Пациент гемодинамически нестабилен.
1,63-летняя женщина с гиперхолестеринемией и язв...,у пациента отстутствует история болезни
2,ИСТОРИЯ ТЕКУЩЕГО ЗАБОЛЕВАНИЯ: Пациент - мужчин...,у пациента нормальная функция почек
3,ИСТОРИЯ: [**Фамилия пациента**] - мальчик 33-6...,пациент доношен
4,"Отрицал наличие головной боли, тошноты или рвоты.",У него гематемезис


# load model

In [9]:
model_name = "sberbank-ai/rugpt3small_based_on_gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [4]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
device

device(type='cpu')

# add special tokens

In [14]:
special_tokens = {
    "bos_token": "<|startoftext|>",
    "pad_token": "<|pad|>",
    "sep_token": "<|sep|>",
}
tokenizer.add_special_tokens(special_tokens)
model.resize_token_embeddings(len(tokenizer))

Embedding(50261, 768)

In [15]:
MAX_LENGTH = 200
DATA_COLS = ["sentence1", "sentence2"]
train_dataset = SimplificationDataset(train[DATA_COLS].values.tolist(), tokenizer, max_length=MAX_LENGTH)
valid_dataset = SimplificationDataset(valid[DATA_COLS].values.tolist(), tokenizer, max_length=MAX_LENGTH)

EPOCH_STEPS = len(train_dataset) // 8 // 1
EVAL_STEPS = EPOCH_STEPS
print(f"Total steps: {EPOCH_STEPS * 5}\nEvaluate and save every {EVAL_STEPS} steps.")

Total steps: 3120
Evaluate and save every 624 steps.


In [16]:
training_args = TrainingArguments(
    output_dir="result_rugpt3small_NLI",
    logging_dir="logs_rugpt3small_NLI",
    logging_first_step=True,
    num_train_epochs=50,
    evaluation_strategy="steps",
    eval_steps=EVAL_STEPS,
    save_steps=EVAL_STEPS,
    logging_steps=100,
    lr_scheduler_type="linear",
    warmup_steps=500,
    learning_rate=0.00005,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    gradient_accumulation_steps=1,
    weight_decay=0,
    fp16=False,
    seed=19,
)

In [17]:
Path(training_args.output_dir).mkdir(exist_ok=True)
Path(training_args.logging_dir).mkdir(exist_ok=True)

In [18]:
pprint(training_args.to_dict())

{'adafactor': False,
 'adam_beta1': 0.9,
 'adam_beta2': 0.999,
 'adam_epsilon': 1e-08,
 'auto_find_batch_size': False,
 'bf16': False,
 'bf16_full_eval': False,
 'data_seed': None,
 'dataloader_drop_last': False,
 'dataloader_num_workers': 0,
 'dataloader_pin_memory': True,
 'ddp_bucket_cap_mb': None,
 'ddp_find_unused_parameters': None,
 'ddp_timeout': 1800,
 'debug': [],
 'deepspeed': None,
 'disable_tqdm': False,
 'do_eval': True,
 'do_predict': False,
 'do_train': False,
 'eval_accumulation_steps': None,
 'eval_delay': 0,
 'eval_steps': 624,
 'evaluation_strategy': 'steps',
 'fp16': False,
 'fp16_backend': 'auto',
 'fp16_full_eval': False,
 'fp16_opt_level': 'O1',
 'fsdp': [],
 'fsdp_config': {'fsdp_min_num_params': 0,
                 'xla': False,
                 'xla_fsdp_grad_ckpt': False},
 'fsdp_min_num_params': 0,
 'fsdp_transformer_layer_cls_to_wrap': None,
 'full_determinism': False,
 'gradient_accumulation_steps': 1,
 'gradient_checkpointing': False,
 'greater_is_better'

In [19]:
with open("run_parameters.txt", "w") as f:
  pprint(training_args.to_dict(), f)

trainer = Trainer(
    model=model.to(device),
    tokenizer=tokenizer,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=valid_dataset,
    callbacks=[PrintExampleCallback],
)

trainer.train()

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
You're using a GPT2TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss,Validation Loss
624,0.4911,0.924235
1248,0.39,0.994994
1872,0.3051,1.089051
2496,0.2444,1.141434
3120,0.198,1.186871
3744,0.1592,1.222141
4368,0.1341,1.250471
4992,0.1118,1.280737
5616,0.0992,1.305379
6240,0.0902,1.319237


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Боксер Денис Лебедев не исключил, что в команде Александра Поветкина есть предатель, который мог «подсыпать» ему допинг. Напомним, ранее стало известно, что перед боем за титул временного чемпиона мира по версии Всемирного боксерского совета (WBC) с канадцем Бермейном Стиверном в допинг-пробе россиянина был обнаружен запрещенный препарат остарин. В результате бой был отменен, так как соперник отказался его проводить.
 Поветкина точно предали.
 Бывший боксер российского чемпиона по версии Всемирного боксерского совета (WBC) на профессиональном ринге стал новым чемпионом мира по версии Всемирного боксерского совета (WBC).
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Якобы дамочка оскорбила его, замахнулась и даже хотела ударить. Он такого отношения не стерпел и жестоко избил женщину. Когда понял, что она не подает признаков жизни, вызвал «скорую» и полицию.
 Нападавший сам вызвал к избитой скорую и пожарных.
Женщина была в сознании.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


По итогам конкурса будет принято решение о предоставлении данных пляжных территорий претендентам, которые предоставили наилучшие условия благоустройства.
 Пляжные территории не достанутся претендентам.
 Объекты оцениваются по результатам открытого конкурса.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Я себе оправдания не ищу, но это стало толчком к моему будущему. Если бы застал измену, я бы, может, вообще по-другому поступил. Каждый человек по-своему переживает: кто-то легко прочувствовал все и забыл, кто-то болезненно.
 Мне нужны оправдания для себя.
Произошла ошибка.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Если раньше редакции только гадали, сколько человек реально читают газету, какой у них возраст и какие темы нравятся больше всего, то сейчас все изменилось.
 Раньше параметры читательской аудитории были результатом точных исследований газетных редакций.
 Нет, я не ошиблась.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


У этого красавца наверняка есть хозяева, которые его ищут и очень переживают.
 Хозяева не переживают за красавца.
Этот смельчительный и бесстрашный ковдорский ковдорский житель пропал без вести.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


На презентации экспертного доклада, касающегося реформирования российского оружейного законодательства, Торшин привел примеры ряда стран, в том числе США, где граждане имеют право на свободное владение оружием. Оружие дисциплинирует. Владение россиянами оружием нас дисциплинирует, и атмосфера в нашем обществе поменяется, потому что люди не будут заниматься беспределом, в том числе это касается и правоохранительных органов.
 Торшин говорил о странах, где граждане свободно носят атомное оружие.
 Россиянам запрещено владеть оружием.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Сделка по продаже 80% ОАО Распадская может не состояться в этом году, сообщил журналистам источник, знакомый с ходом переговоров. Есть вероятность, что сделка не состоится. Есть вопрос с ценой, поскольку здесь существует сильное расхождение, - сказал он.
 Ведутся переговоры по полной продаже ОАО Распадская.
 сделка не состоится.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Проект детского сада участвует в программе по субсидированию строительства детских дошкольных учреждений, поэтому финансироваться строительство, вероятно, будет из федерального бюджета.
 Финансироваться строительство будет только из федерального бюджета.
 Проект детсада полностью субсидируется из федерального бюджета.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Но мир не без добрых людей. Нашелся меценат, который взял все расходы на себя. Мы сейчас не говорим о технической составляющей: соответствуют ли шарики и гирлянды тому, что мы прописывали в документации, - пояснил чиновник.
 Шарики и гирлянды точно такие, как было прописано в документации.
 Музей не приютил людей, чтобы сделать из этого чудеса.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


В отеле 362 номера, включая 72 люкса 10 залов для мероприятий, в том числе конференц-зал на 300 человек два ресторана. Ранее руководитель департамента имущества Москвы Наталья Бочарова сообщила, что Метрополь после продажи сохранит свое назначение. Победитель аукциона вместе с договором купли-продажи должен будет подписать охранное обязательство, поскольку гостиница является объектом культурного наследия, - сказала руководитель департамента.
 Отель Метрополь утратил статус объекта культурного наследия.
 В отеле только два помещения для банкетов.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Похищенные деньги, как выяснилось, женщина успела потратить. Украшения вернули пенсионерке. По факту кражи в полиции завели уголовное дело, ведется расследование.
 Женщина не стала красть у пенсионерки.
 Пенсионерку передали украденное.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Как рассказали в краевой полиции, в сентябре женщина нашла на интернет-сайте объявление о продаже породистых щенков и связалась с продавцом из другого города.
 Женщина любила общаться с продавцами щенков.
 Объявление обещало большие проблемы.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Семейную пару мужчина ограбил в их собственной квартире, куда они сами пригласили малознакомого человека.
 Грабитель пришел без приглашения.
 Сожитель нанес им несколько ударов кулаками в лицо.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Шествие в Москве, по словам источника, близкого к ФНПР, стартует, как и прежде, от Белорусского вокзала и увенчается митингом у мэрии Москвы с выступлениями лидеров страны.
 Шествие станет венцом митинга.
 У Кремля большинствообещания демократических перемен уже достигнуто.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


В Нижегородской области выясняют причины крупного пожара, в результате которого сгорел дом и пострадал подросток.
 В Нижегородской области сгорел подросток.
 В Нижегородской области сгорели два дома.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


На тот момент он был единственным из покупателей. Увидев на прилавке ножи для нарезки продуктов, пенсионер быстро взял их и стал угрожать работнице. Она, испугавшись, убежала в подсобку и уже оттуда позвонила в полицию.
 Пенсионер купил ножи.
 Частный покупатель не имел в анамнезе ножевых ранений.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Президент РФ Дмитрий Медведев заявляет о необходимости выработки критериев, которые позволят привлекать к юридической ответственности лиц за призывы к насилию в Интернете. То есть, пояснил глава государства, за суждения привлекать к ответственности нельзя, но если это уже призыв к какому-либо насилию - власть надо употреблять. Потому что, если из Интернета или социальных сетей льются призывы идти и резать кого-то - нельзя говорить о свободе Интернета.
 Медведев хочет привлекать к ответственности за дискуссии в Интернете.
 Скоро этот закон будет действовать.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Во время праздничной церемонии в муниципалитете он заявил, что главными задачи для него является максимальное использование всех возможностей в области предпринимательства и экономического развития.
 Он сделал заявление по окончании праздничной церемонии.
 В рамках праздничной церемонии он подчеркнул, что все возможности будут полностью реализованы на республиканском телеканале.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Если эти документы там есть, то, скорее всего, для передачи в Арбитражый суд Тюменской области эти документы будут изыматься. Либо они, либо копии будут заверяться прямо на месте в офисе, - уточнил он. Компания злоупотребляет нашими правами, потому что несколько раз пристав выносил постановление, обязывающее компанию предоставить документы, но компания не реагировала на них никаким образом.
 Компания проигнорировала одно из постановлений пристава.
 У приставов нет никаких прав на эти документы.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Подросток хорошо знал хозяина квартиры, поскольку тот жил недалеко от дома родителей и являлся приятелем отца.
 Подросток познакомился с хозяином квартиры только вчера.
пациент не имел контакта с родителями
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Как отметила пресс-служба собора, молебен означает начало нового президентского срока благодаря молитве, чтениям и музыкальным выступлениям.
 Пресс-служба собора не объяснила, что означает молебен.
 В день совершения молебен символизирует начало избирательной президентской кампании.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Обыскивая подозреваемую, оперативники вскрыли костыль, которым женщина пользуется из-за повреждения бедра.
 Оперативники обыскали костыль снаружи.
 Подозреваемая повредила бедро костылем.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Пассажир попросил убрать бутылку, но замечание разозлило выпивающих. Один из них стал вести себя очень агрессивно. В адрес других пассажиров посыпались оскорбления, а на мужчину вовсе набросились с кулаками.
 Пассажир просил выпивающих поделиться выпивкой.
 Пассажиры не замечали нападений.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Ситуация по заболеваемости гриппом и острыми респираторными вирусными инфекциями оценивается как напряженная, наблюдаются сезонный рост заболеваемости.
 Заболеваемость гриппом не растет в этом сезоне.
 Температура гриппа и острых респираторных вирусных инфекций в норме.
--------------------------------------------------------------------------------


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


TrainOutput(global_step=15650, training_loss=0.1859611633410469, metrics={'train_runtime': 8565.5525, 'train_samples_per_second': 29.181, 'train_steps_per_second': 1.827, 'total_flos': 2.551169664e+16, 'train_loss': 0.1859611633410469, 'epoch': 50.0})

In [20]:
trainer.save_model('NLI_for_neg_gen')