In [1]:
from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("unicamp-dl/ptt5-base-portuguese-vocab")

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thouroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


In [2]:
from datasets import load_dataset

dataset = load_dataset("assin2", cache_dir="dataset/assin2")

In [3]:
train_data = dataset['train']['premise']

In [4]:
#tokenizer = tokenizer.train_new_from_iterator(train_data, vocab_size=1000)

In [5]:
#tokenizer.vocab_size

In [6]:
from transformers import GPTJConfig, GPTJForCausalLM
import json

json_file = open('model/config.json')
config = json.load(json_file)
config['vocab_size'] = tokenizer.vocab_size

config = GPTJConfig(**config)
model = GPTJForCausalLM(config)

In [7]:
#number of parameters

model.num_parameters()

8644964

In [8]:
train_data_tokenized = tokenizer.batch_encode_plus(
    train_data,
    max_length=model.config.n_positions,
    truncation=True,
    padding="max_length",
    return_tensors="pt",
)

In [9]:
import torch

# output
# train_data_tokenized['label'] = train_data_tokenized['input_ids'][:, 1:13]
# train_data_tokenized['label'] = torch.cat((train_data_tokenized['label'], torch.ones(train_data_tokenized['label'].shape[0], 1, dtype=torch.int64)*tokenizer.eos_token_id), dim=1)

# input
# train_data_tokenized['input_ids'] = train_data_tokenized['input_ids'][:, 0:12]
# train_data_tokenized['input_ids'] = torch.cat((train_data_tokenized['input_ids'], torch.ones(train_data_tokenized['input_ids'].shape[0], 1, dtype=torch.int64)*tokenizer.eos_token_id), dim=1)
# train_data_tokenized['attention_mask'] = train_data_tokenized['attention_mask'][:, 0:12]
# train_data_tokenized['attention_mask'] = torch.cat((train_data_tokenized['attention_mask'], torch.ones(train_data_tokenized['attention_mask'].shape[0], 1, dtype=torch.int64)), dim=1)

### training loop

In [13]:
from torch.utils.data import Dataset, DataLoader
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from tqdm import tqdm

class GPT2Dataset(Dataset):
    def __init__(self, encodings):
        self.encodings = encodings

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = item['input_ids']
        return item

    def __len__(self):
        return len(self.encodings['input_ids'])


train_dataset = GPT2Dataset(train_data_tokenized)

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

model.to(device)

train_loader = DataLoader(train_dataset, batch_size=2, shuffle=False)

optimizer = optim.Adam(model.parameters(), lr=1e-3)

In [9]:
for epoch in range(3):
    model.train()
    loop = tqdm(train_loader)
    for batch in loop:
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        outputs = model(input_ids, attention_mask=attention_mask, labels=input_ids)
        loss = outputs[0]
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
        loop.set_description(f'Epoch {epoch}')
        loop.set_postfix(loss=loss.item())

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
Epoch 0: 100%|██████████| 3250/3250 [01:51<00:00, 29.13it/s, loss=0.0341]
Epoch 1: 100%|██████████| 3250/3250 [01:48<00:00, 29.91it/s, loss=0.021]  
Epoch 2: 100%|██████████| 3250/3250 [01:48<00:00, 29.98it/s, loss=0.016]  


In [14]:
# train with trainer

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",  # output directory
    num_train_epochs=3,  # total number of training epochs
    per_device_train_batch_size=2,  # batch size per device during training
    per_device_eval_batch_size=2,  # batch size for evaluation
    warmup_steps=500,  # number of warmup steps for learning rate scheduler
    weight_decay=0.01,  # strength of weight decay
    logging_dir="./logs",  # directory for storing logs
    logging_steps=10,
    fp16=True,
)


trainer = Trainer(
    model=model,  # the instantiated 🤗 Transformers model to be trained
    args=training_args,  # training arguments, defined above
    train_dataset=train_dataset,  # training dataset
)

trainer.train()

  0%|          | 0/9750 [00:00<?, ?it/s]

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 10.1773, 'learning_rate': 8.000000000000001e-07, 'epoch': 0.0}
{'loss': 10.128, 'learning_rate': 1.8e-06, 'epoch': 0.01}
{'loss': 10.0409, 'learning_rate': 2.8000000000000003e-06, 'epoch': 0.01}
{'loss': 9.832, 'learning_rate': 3.8e-06, 'epoch': 0.01}
{'loss': 9.5641, 'learning_rate': 4.800000000000001e-06, 'epoch': 0.02}
{'loss': 9.2743, 'learning_rate': 5.8e-06, 'epoch': 0.02}
{'loss': 8.8702, 'learning_rate': 6.800000000000001e-06, 'epoch': 0.02}
{'loss': 8.4936, 'learning_rate': 7.8e-06, 'epoch': 0.02}
{'loss': 8.115, 'learning_rate': 8.8e-06, 'epoch': 0.03}
{'loss': 7.8376, 'learning_rate': 9.800000000000001e-06, 'epoch': 0.03}
{'loss': 7.6477, 'learning_rate': 1.08e-05, 'epoch': 0.03}
{'loss': 7.5351, 'learning_rate': 1.18e-05, 'epoch': 0.04}
{'loss': 7.4531, 'learning_rate': 1.2800000000000001e-05, 'epoch': 0.04}
{'loss': 7.3967, 'learning_rate': 1.3800000000000002e-05, 'epoch': 0.04}
{'loss': 7.34, 'learning_rate': 1.48e-05, 'epoch': 0.05}
{'loss': 7.298, 'learning_rat

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 3.9315, 'learning_rate': 4.995675675675676e-05, 'epoch': 0.16}
{'loss': 3.7849, 'learning_rate': 4.9902702702702705e-05, 'epoch': 0.16}
{'loss': 3.608, 'learning_rate': 4.984864864864865e-05, 'epoch': 0.16}
{'loss': 3.4616, 'learning_rate': 4.9794594594594594e-05, 'epoch': 0.17}
{'loss': 3.2995, 'learning_rate': 4.9740540540540545e-05, 'epoch': 0.17}
{'loss': 3.1599, 'learning_rate': 4.968648648648649e-05, 'epoch': 0.17}
{'loss': 3.0057, 'learning_rate': 4.9632432432432434e-05, 'epoch': 0.18}
{'loss': 2.8854, 'learning_rate': 4.957837837837838e-05, 'epoch': 0.18}
{'loss': 2.7252, 'learning_rate': 4.952432432432433e-05, 'epoch': 0.18}
{'loss': 2.5753, 'learning_rate': 4.9470270270270274e-05, 'epoch': 0.18}
{'loss': 2.4222, 'learning_rate': 4.941621621621622e-05, 'epoch': 0.19}
{'loss': 2.2963, 'learning_rate': 4.936216216216216e-05, 'epoch': 0.19}
{'loss': 2.1602, 'learning_rate': 4.930810810810811e-05, 'epoch': 0.19}
{'loss': 2.0064, 'learning_rate': 4.925405405405405e-05, 'ep

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.179, 'learning_rate': 4.725405405405406e-05, 'epoch': 0.31}
{'loss': 0.1638, 'learning_rate': 4.72e-05, 'epoch': 0.31}
{'loss': 0.176, 'learning_rate': 4.7145945945945947e-05, 'epoch': 0.32}
{'loss': 0.1451, 'learning_rate': 4.709189189189189e-05, 'epoch': 0.32}
{'loss': 0.1626, 'learning_rate': 4.703783783783784e-05, 'epoch': 0.32}
{'loss': 0.1447, 'learning_rate': 4.698378378378379e-05, 'epoch': 0.33}
{'loss': 0.1591, 'learning_rate': 4.692972972972973e-05, 'epoch': 0.33}
{'loss': 0.1418, 'learning_rate': 4.6875675675675676e-05, 'epoch': 0.33}
{'loss': 0.1623, 'learning_rate': 4.682162162162163e-05, 'epoch': 0.34}
{'loss': 0.1468, 'learning_rate': 4.676756756756757e-05, 'epoch': 0.34}
{'loss': 0.1414, 'learning_rate': 4.6713513513513516e-05, 'epoch': 0.34}
{'loss': 0.1283, 'learning_rate': 4.665945945945946e-05, 'epoch': 0.34}
{'loss': 0.1487, 'learning_rate': 4.6605405405405405e-05, 'epoch': 0.35}
{'loss': 0.152, 'learning_rate': 4.655135135135135e-05, 'epoch': 0.35}
{'lo

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.1207, 'learning_rate': 4.4551351351351355e-05, 'epoch': 0.46}
{'loss': 0.1226, 'learning_rate': 4.44972972972973e-05, 'epoch': 0.47}
{'loss': 0.1146, 'learning_rate': 4.4443243243243244e-05, 'epoch': 0.47}
{'loss': 0.1343, 'learning_rate': 4.438918918918919e-05, 'epoch': 0.47}
{'loss': 0.1248, 'learning_rate': 4.433513513513514e-05, 'epoch': 0.48}
{'loss': 0.12, 'learning_rate': 4.4281081081081084e-05, 'epoch': 0.48}
{'loss': 0.1109, 'learning_rate': 4.422702702702703e-05, 'epoch': 0.48}
{'loss': 0.1265, 'learning_rate': 4.417297297297297e-05, 'epoch': 0.49}
{'loss': 0.1187, 'learning_rate': 4.4118918918918924e-05, 'epoch': 0.49}
{'loss': 0.1285, 'learning_rate': 4.406486486486487e-05, 'epoch': 0.49}
{'loss': 0.1013, 'learning_rate': 4.401081081081081e-05, 'epoch': 0.5}
{'loss': 0.1334, 'learning_rate': 4.395675675675676e-05, 'epoch': 0.5}
{'loss': 0.106, 'learning_rate': 4.39027027027027e-05, 'epoch': 0.5}
{'loss': 0.1044, 'learning_rate': 4.3848648648648646e-05, 'epoch': 0

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.1074, 'learning_rate': 4.184864864864865e-05, 'epoch': 0.62}
{'loss': 0.1125, 'learning_rate': 4.1794594594594596e-05, 'epoch': 0.62}
{'loss': 0.1034, 'learning_rate': 4.174054054054054e-05, 'epoch': 0.62}
{'loss': 0.1228, 'learning_rate': 4.1686486486486485e-05, 'epoch': 0.63}
{'loss': 0.0902, 'learning_rate': 4.1632432432432436e-05, 'epoch': 0.63}
{'loss': 0.1177, 'learning_rate': 4.157837837837838e-05, 'epoch': 0.63}
{'loss': 0.11, 'learning_rate': 4.1524324324324325e-05, 'epoch': 0.64}
{'loss': 0.1146, 'learning_rate': 4.147027027027027e-05, 'epoch': 0.64}
{'loss': 0.1231, 'learning_rate': 4.141621621621622e-05, 'epoch': 0.64}
{'loss': 0.117, 'learning_rate': 4.1362162162162165e-05, 'epoch': 0.65}
{'loss': 0.0974, 'learning_rate': 4.130810810810811e-05, 'epoch': 0.65}
{'loss': 0.1026, 'learning_rate': 4.125405405405406e-05, 'epoch': 0.65}
{'loss': 0.125, 'learning_rate': 4.12e-05, 'epoch': 0.66}
{'loss': 0.1186, 'learning_rate': 4.114594594594594e-05, 'epoch': 0.66}
{'lo

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0846, 'learning_rate': 3.914594594594595e-05, 'epoch': 0.77}
{'loss': 0.0981, 'learning_rate': 3.909189189189189e-05, 'epoch': 0.78}
{'loss': 0.1032, 'learning_rate': 3.903783783783784e-05, 'epoch': 0.78}
{'loss': 0.0911, 'learning_rate': 3.898378378378378e-05, 'epoch': 0.78}
{'loss': 0.0944, 'learning_rate': 3.892972972972973e-05, 'epoch': 0.78}
{'loss': 0.1051, 'learning_rate': 3.887567567567568e-05, 'epoch': 0.79}
{'loss': 0.1001, 'learning_rate': 3.882162162162162e-05, 'epoch': 0.79}
{'loss': 0.1007, 'learning_rate': 3.8767567567567567e-05, 'epoch': 0.79}
{'loss': 0.0989, 'learning_rate': 3.871351351351352e-05, 'epoch': 0.8}
{'loss': 0.0891, 'learning_rate': 3.865945945945946e-05, 'epoch': 0.8}
{'loss': 0.1124, 'learning_rate': 3.860540540540541e-05, 'epoch': 0.8}
{'loss': 0.1176, 'learning_rate': 3.855135135135136e-05, 'epoch': 0.81}
{'loss': 0.1174, 'learning_rate': 3.8497297297297296e-05, 'epoch': 0.81}
{'loss': 0.1151, 'learning_rate': 3.844324324324324e-05, 'epoch':

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0827, 'learning_rate': 3.6443243243243246e-05, 'epoch': 0.93}
{'loss': 0.1052, 'learning_rate': 3.638918918918919e-05, 'epoch': 0.93}
{'loss': 0.1023, 'learning_rate': 3.6335135135135134e-05, 'epoch': 0.93}
{'loss': 0.0833, 'learning_rate': 3.628108108108108e-05, 'epoch': 0.94}
{'loss': 0.0715, 'learning_rate': 3.622702702702703e-05, 'epoch': 0.94}
{'loss': 0.1092, 'learning_rate': 3.6172972972972975e-05, 'epoch': 0.94}
{'loss': 0.0983, 'learning_rate': 3.611891891891892e-05, 'epoch': 0.94}
{'loss': 0.1052, 'learning_rate': 3.6064864864864864e-05, 'epoch': 0.95}
{'loss': 0.1045, 'learning_rate': 3.6010810810810815e-05, 'epoch': 0.95}
{'loss': 0.0942, 'learning_rate': 3.595675675675676e-05, 'epoch': 0.95}
{'loss': 0.111, 'learning_rate': 3.5902702702702704e-05, 'epoch': 0.96}
{'loss': 0.0968, 'learning_rate': 3.5848648648648655e-05, 'epoch': 0.96}
{'loss': 0.1024, 'learning_rate': 3.579459459459459e-05, 'epoch': 0.96}
{'loss': 0.1054, 'learning_rate': 3.574054054054054e-05, '

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0878, 'learning_rate': 3.374054054054054e-05, 'epoch': 1.08}
{'loss': 0.0821, 'learning_rate': 3.3686486486486494e-05, 'epoch': 1.08}
{'loss': 0.1035, 'learning_rate': 3.363243243243243e-05, 'epoch': 1.09}
{'loss': 0.0928, 'learning_rate': 3.3578378378378376e-05, 'epoch': 1.09}
{'loss': 0.0824, 'learning_rate': 3.352432432432433e-05, 'epoch': 1.09}
{'loss': 0.096, 'learning_rate': 3.347027027027027e-05, 'epoch': 1.1}
{'loss': 0.1009, 'learning_rate': 3.3416216216216216e-05, 'epoch': 1.1}
{'loss': 0.0745, 'learning_rate': 3.336216216216216e-05, 'epoch': 1.1}
{'loss': 0.0923, 'learning_rate': 3.330810810810811e-05, 'epoch': 1.1}
{'loss': 0.0781, 'learning_rate': 3.3254054054054056e-05, 'epoch': 1.11}
{'loss': 0.0954, 'learning_rate': 3.32e-05, 'epoch': 1.11}
{'loss': 0.0883, 'learning_rate': 3.314594594594595e-05, 'epoch': 1.11}
{'loss': 0.0921, 'learning_rate': 3.309189189189189e-05, 'epoch': 1.12}
{'loss': 0.1124, 'learning_rate': 3.3037837837837834e-05, 'epoch': 1.12}
{'los

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0891, 'learning_rate': 3.103783783783784e-05, 'epoch': 1.23}
{'loss': 0.0824, 'learning_rate': 3.098378378378379e-05, 'epoch': 1.24}
{'loss': 0.0931, 'learning_rate': 3.0929729729729735e-05, 'epoch': 1.24}
{'loss': 0.0806, 'learning_rate': 3.087567567567567e-05, 'epoch': 1.24}
{'loss': 0.1045, 'learning_rate': 3.0821621621621624e-05, 'epoch': 1.25}
{'loss': 0.0869, 'learning_rate': 3.076756756756757e-05, 'epoch': 1.25}
{'loss': 0.0846, 'learning_rate': 3.071351351351351e-05, 'epoch': 1.25}
{'loss': 0.097, 'learning_rate': 3.065945945945946e-05, 'epoch': 1.26}
{'loss': 0.0722, 'learning_rate': 3.060540540540541e-05, 'epoch': 1.26}
{'loss': 0.0863, 'learning_rate': 3.055135135135135e-05, 'epoch': 1.26}
{'loss': 0.0944, 'learning_rate': 3.04972972972973e-05, 'epoch': 1.26}
{'loss': 0.106, 'learning_rate': 3.0443243243243245e-05, 'epoch': 1.27}
{'loss': 0.0763, 'learning_rate': 3.0389189189189193e-05, 'epoch': 1.27}
{'loss': 0.0749, 'learning_rate': 3.0335135135135134e-05, 'epoc

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.1055, 'learning_rate': 2.8335135135135137e-05, 'epoch': 1.39}
{'loss': 0.1122, 'learning_rate': 2.8281081081081084e-05, 'epoch': 1.39}
{'loss': 0.0809, 'learning_rate': 2.8227027027027032e-05, 'epoch': 1.39}
{'loss': 0.0737, 'learning_rate': 2.8172972972972973e-05, 'epoch': 1.4}
{'loss': 0.0945, 'learning_rate': 2.8118918918918918e-05, 'epoch': 1.4}
{'loss': 0.0869, 'learning_rate': 2.8064864864864866e-05, 'epoch': 1.4}
{'loss': 0.0968, 'learning_rate': 2.801081081081081e-05, 'epoch': 1.41}
{'loss': 0.0834, 'learning_rate': 2.7956756756756758e-05, 'epoch': 1.41}
{'loss': 0.0932, 'learning_rate': 2.7902702702702706e-05, 'epoch': 1.41}
{'loss': 0.0853, 'learning_rate': 2.784864864864865e-05, 'epoch': 1.42}
{'loss': 0.0931, 'learning_rate': 2.7794594594594598e-05, 'epoch': 1.42}
{'loss': 0.0875, 'learning_rate': 2.7740540540540542e-05, 'epoch': 1.42}
{'loss': 0.0862, 'learning_rate': 2.768648648648649e-05, 'epoch': 1.42}
{'loss': 0.0823, 'learning_rate': 2.763243243243243e-05, 

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0877, 'learning_rate': 2.5632432432432434e-05, 'epoch': 1.54}
{'loss': 0.0877, 'learning_rate': 2.557837837837838e-05, 'epoch': 1.54}
{'loss': 0.0889, 'learning_rate': 2.552432432432433e-05, 'epoch': 1.55}
{'loss': 0.0888, 'learning_rate': 2.547027027027027e-05, 'epoch': 1.55}
{'loss': 0.0679, 'learning_rate': 2.5416216216216215e-05, 'epoch': 1.55}
{'loss': 0.0759, 'learning_rate': 2.5362162162162163e-05, 'epoch': 1.56}
{'loss': 0.0973, 'learning_rate': 2.5308108108108107e-05, 'epoch': 1.56}
{'loss': 0.093, 'learning_rate': 2.5254054054054055e-05, 'epoch': 1.56}
{'loss': 0.0778, 'learning_rate': 2.5200000000000003e-05, 'epoch': 1.57}
{'loss': 0.0805, 'learning_rate': 2.5145945945945947e-05, 'epoch': 1.57}
{'loss': 0.0811, 'learning_rate': 2.5091891891891895e-05, 'epoch': 1.57}
{'loss': 0.0812, 'learning_rate': 2.503783783783784e-05, 'epoch': 1.58}
{'loss': 0.0804, 'learning_rate': 2.4983783783783784e-05, 'epoch': 1.58}
{'loss': 0.0739, 'learning_rate': 2.492972972972973e-05,

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0829, 'learning_rate': 2.292972972972973e-05, 'epoch': 1.7}
{'loss': 0.0833, 'learning_rate': 2.2875675675675675e-05, 'epoch': 1.7}
{'loss': 0.0839, 'learning_rate': 2.2821621621621623e-05, 'epoch': 1.7}
{'loss': 0.0713, 'learning_rate': 2.2767567567567567e-05, 'epoch': 1.7}
{'loss': 0.0745, 'learning_rate': 2.2713513513513515e-05, 'epoch': 1.71}
{'loss': 0.0881, 'learning_rate': 2.2659459459459463e-05, 'epoch': 1.71}
{'loss': 0.081, 'learning_rate': 2.2605405405405404e-05, 'epoch': 1.71}
{'loss': 0.0794, 'learning_rate': 2.2551351351351352e-05, 'epoch': 1.72}
{'loss': 0.0809, 'learning_rate': 2.24972972972973e-05, 'epoch': 1.72}
{'loss': 0.0821, 'learning_rate': 2.2443243243243244e-05, 'epoch': 1.72}
{'loss': 0.0833, 'learning_rate': 2.2389189189189192e-05, 'epoch': 1.73}
{'loss': 0.0861, 'learning_rate': 2.2335135135135136e-05, 'epoch': 1.73}
{'loss': 0.0605, 'learning_rate': 2.228108108108108e-05, 'epoch': 1.73}
{'loss': 0.0917, 'learning_rate': 2.222702702702703e-05, 'ep

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0879, 'learning_rate': 2.0227027027027027e-05, 'epoch': 1.85}
{'loss': 0.0982, 'learning_rate': 2.0172972972972972e-05, 'epoch': 1.85}
{'loss': 0.1068, 'learning_rate': 2.011891891891892e-05, 'epoch': 1.86}
{'loss': 0.1004, 'learning_rate': 2.0064864864864864e-05, 'epoch': 1.86}
{'loss': 0.0693, 'learning_rate': 2.0010810810810812e-05, 'epoch': 1.86}
{'loss': 0.0839, 'learning_rate': 1.995675675675676e-05, 'epoch': 1.86}
{'loss': 0.069, 'learning_rate': 1.99027027027027e-05, 'epoch': 1.87}
{'loss': 0.0693, 'learning_rate': 1.984864864864865e-05, 'epoch': 1.87}
{'loss': 0.0834, 'learning_rate': 1.9794594594594597e-05, 'epoch': 1.87}
{'loss': 0.0783, 'learning_rate': 1.974054054054054e-05, 'epoch': 1.88}
{'loss': 0.0807, 'learning_rate': 1.968648648648649e-05, 'epoch': 1.88}
{'loss': 0.0995, 'learning_rate': 1.9632432432432433e-05, 'epoch': 1.88}
{'loss': 0.0625, 'learning_rate': 1.9578378378378378e-05, 'epoch': 1.89}
{'loss': 0.0781, 'learning_rate': 1.9524324324324326e-05, '

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0772, 'learning_rate': 1.7524324324324324e-05, 'epoch': 2.0}
{'loss': 0.0876, 'learning_rate': 1.747027027027027e-05, 'epoch': 2.01}
{'loss': 0.0729, 'learning_rate': 1.7416216216216217e-05, 'epoch': 2.01}
{'loss': 0.0701, 'learning_rate': 1.736216216216216e-05, 'epoch': 2.01}
{'loss': 0.0732, 'learning_rate': 1.730810810810811e-05, 'epoch': 2.02}
{'loss': 0.0648, 'learning_rate': 1.7254054054054057e-05, 'epoch': 2.02}
{'loss': 0.0942, 'learning_rate': 1.7199999999999998e-05, 'epoch': 2.02}
{'loss': 0.0741, 'learning_rate': 1.7145945945945946e-05, 'epoch': 2.02}
{'loss': 0.0834, 'learning_rate': 1.7091891891891894e-05, 'epoch': 2.03}
{'loss': 0.0793, 'learning_rate': 1.7037837837837838e-05, 'epoch': 2.03}
{'loss': 0.0732, 'learning_rate': 1.6983783783783786e-05, 'epoch': 2.03}
{'loss': 0.0593, 'learning_rate': 1.692972972972973e-05, 'epoch': 2.04}
{'loss': 0.0649, 'learning_rate': 1.6875675675675675e-05, 'epoch': 2.04}
{'loss': 0.0876, 'learning_rate': 1.6821621621621623e-05

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0842, 'learning_rate': 1.4821621621621623e-05, 'epoch': 2.16}
{'loss': 0.0676, 'learning_rate': 1.476756756756757e-05, 'epoch': 2.16}
{'loss': 0.0757, 'learning_rate': 1.4713513513513514e-05, 'epoch': 2.16}
{'loss': 0.0662, 'learning_rate': 1.465945945945946e-05, 'epoch': 2.17}
{'loss': 0.0809, 'learning_rate': 1.4605405405405406e-05, 'epoch': 2.17}
{'loss': 0.0868, 'learning_rate': 1.4551351351351352e-05, 'epoch': 2.17}
{'loss': 0.0691, 'learning_rate': 1.44972972972973e-05, 'epoch': 2.18}
{'loss': 0.0737, 'learning_rate': 1.4443243243243243e-05, 'epoch': 2.18}
{'loss': 0.0829, 'learning_rate': 1.4389189189189189e-05, 'epoch': 2.18}
{'loss': 0.0816, 'learning_rate': 1.4335135135135137e-05, 'epoch': 2.18}
{'loss': 0.0812, 'learning_rate': 1.4281081081081083e-05, 'epoch': 2.19}
{'loss': 0.0817, 'learning_rate': 1.4227027027027029e-05, 'epoch': 2.19}
{'loss': 0.0958, 'learning_rate': 1.4172972972972973e-05, 'epoch': 2.19}
{'loss': 0.0797, 'learning_rate': 1.411891891891892e-05

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0906, 'learning_rate': 1.211891891891892e-05, 'epoch': 2.31}
{'loss': 0.0666, 'learning_rate': 1.2064864864864865e-05, 'epoch': 2.31}
{'loss': 0.0993, 'learning_rate': 1.2010810810810812e-05, 'epoch': 2.32}
{'loss': 0.0711, 'learning_rate': 1.1956756756756757e-05, 'epoch': 2.32}
{'loss': 0.0922, 'learning_rate': 1.1902702702702703e-05, 'epoch': 2.32}
{'loss': 0.0801, 'learning_rate': 1.184864864864865e-05, 'epoch': 2.33}
{'loss': 0.0797, 'learning_rate': 1.1794594594594595e-05, 'epoch': 2.33}
{'loss': 0.0667, 'learning_rate': 1.1740540540540541e-05, 'epoch': 2.33}
{'loss': 0.0864, 'learning_rate': 1.1686486486486486e-05, 'epoch': 2.34}
{'loss': 0.077, 'learning_rate': 1.1632432432432434e-05, 'epoch': 2.34}
{'loss': 0.0833, 'learning_rate': 1.157837837837838e-05, 'epoch': 2.34}
{'loss': 0.0631, 'learning_rate': 1.1524324324324324e-05, 'epoch': 2.34}
{'loss': 0.0705, 'learning_rate': 1.147027027027027e-05, 'epoch': 2.35}
{'loss': 0.0839, 'learning_rate': 1.1416216216216217e-05

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0727, 'learning_rate': 9.416216216216217e-06, 'epoch': 2.46}
{'loss': 0.077, 'learning_rate': 9.362162162162162e-06, 'epoch': 2.47}
{'loss': 0.0859, 'learning_rate': 9.30810810810811e-06, 'epoch': 2.47}
{'loss': 0.1132, 'learning_rate': 9.254054054054056e-06, 'epoch': 2.47}
{'loss': 0.084, 'learning_rate': 9.2e-06, 'epoch': 2.48}
{'loss': 0.0856, 'learning_rate': 9.145945945945946e-06, 'epoch': 2.48}
{'loss': 0.0739, 'learning_rate': 9.091891891891892e-06, 'epoch': 2.48}
{'loss': 0.0641, 'learning_rate': 9.037837837837838e-06, 'epoch': 2.49}
{'loss': 0.0824, 'learning_rate': 8.983783783783785e-06, 'epoch': 2.49}
{'loss': 0.0831, 'learning_rate': 8.92972972972973e-06, 'epoch': 2.49}
{'loss': 0.0742, 'learning_rate': 8.875675675675677e-06, 'epoch': 2.5}
{'loss': 0.0683, 'learning_rate': 8.821621621621621e-06, 'epoch': 2.5}
{'loss': 0.0737, 'learning_rate': 8.767567567567567e-06, 'epoch': 2.5}
{'loss': 0.0698, 'learning_rate': 8.713513513513515e-06, 'epoch': 2.5}
{'loss': 0.08,

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0822, 'learning_rate': 6.713513513513514e-06, 'epoch': 2.62}
{'loss': 0.0766, 'learning_rate': 6.659459459459459e-06, 'epoch': 2.62}
{'loss': 0.0838, 'learning_rate': 6.6054054054054056e-06, 'epoch': 2.62}
{'loss': 0.0718, 'learning_rate': 6.5513513513513525e-06, 'epoch': 2.63}
{'loss': 0.0727, 'learning_rate': 6.497297297297297e-06, 'epoch': 2.63}
{'loss': 0.0751, 'learning_rate': 6.443243243243244e-06, 'epoch': 2.63}
{'loss': 0.0616, 'learning_rate': 6.389189189189189e-06, 'epoch': 2.64}
{'loss': 0.0674, 'learning_rate': 6.335135135135135e-06, 'epoch': 2.64}
{'loss': 0.0543, 'learning_rate': 6.2810810810810816e-06, 'epoch': 2.64}
{'loss': 0.0662, 'learning_rate': 6.227027027027027e-06, 'epoch': 2.65}
{'loss': 0.0772, 'learning_rate': 6.172972972972974e-06, 'epoch': 2.65}
{'loss': 0.0813, 'learning_rate': 6.118918918918919e-06, 'epoch': 2.65}
{'loss': 0.0716, 'learning_rate': 6.064864864864865e-06, 'epoch': 2.66}
{'loss': 0.0805, 'learning_rate': 6.010810810810811e-06, 'epo

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0588, 'learning_rate': 4.010810810810811e-06, 'epoch': 2.77}
{'loss': 0.0697, 'learning_rate': 3.956756756756757e-06, 'epoch': 2.78}
{'loss': 0.0587, 'learning_rate': 3.9027027027027025e-06, 'epoch': 2.78}
{'loss': 0.0654, 'learning_rate': 3.848648648648649e-06, 'epoch': 2.78}
{'loss': 0.0709, 'learning_rate': 3.794594594594595e-06, 'epoch': 2.78}
{'loss': 0.0897, 'learning_rate': 3.740540540540541e-06, 'epoch': 2.79}
{'loss': 0.0686, 'learning_rate': 3.6864864864864867e-06, 'epoch': 2.79}
{'loss': 0.075, 'learning_rate': 3.6324324324324324e-06, 'epoch': 2.79}
{'loss': 0.0669, 'learning_rate': 3.578378378378378e-06, 'epoch': 2.8}
{'loss': 0.0729, 'learning_rate': 3.5243243243243247e-06, 'epoch': 2.8}
{'loss': 0.0714, 'learning_rate': 3.4702702702702704e-06, 'epoch': 2.8}
{'loss': 0.0688, 'learning_rate': 3.416216216216216e-06, 'epoch': 2.81}
{'loss': 0.0831, 'learning_rate': 3.3621621621621623e-06, 'epoch': 2.81}
{'loss': 0.0782, 'learning_rate': 3.308108108108108e-06, 'epoc

  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


{'loss': 0.0821, 'learning_rate': 1.308108108108108e-06, 'epoch': 2.93}
{'loss': 0.0771, 'learning_rate': 1.254054054054054e-06, 'epoch': 2.93}
{'loss': 0.0809, 'learning_rate': 1.2000000000000002e-06, 'epoch': 2.93}
{'loss': 0.0816, 'learning_rate': 1.145945945945946e-06, 'epoch': 2.94}
{'loss': 0.0863, 'learning_rate': 1.0918918918918918e-06, 'epoch': 2.94}
{'loss': 0.0758, 'learning_rate': 1.0378378378378377e-06, 'epoch': 2.94}
{'loss': 0.0827, 'learning_rate': 9.837837837837839e-07, 'epoch': 2.94}
{'loss': 0.0733, 'learning_rate': 9.297297297297298e-07, 'epoch': 2.95}
{'loss': 0.079, 'learning_rate': 8.756756756756757e-07, 'epoch': 2.95}
{'loss': 0.064, 'learning_rate': 8.216216216216218e-07, 'epoch': 2.95}
{'loss': 0.0807, 'learning_rate': 7.675675675675676e-07, 'epoch': 2.96}
{'loss': 0.0852, 'learning_rate': 7.135135135135135e-07, 'epoch': 2.96}
{'loss': 0.0706, 'learning_rate': 6.594594594594595e-07, 'epoch': 2.96}
{'loss': 0.0844, 'learning_rate': 6.054054054054055e-07, 'epoch

TrainOutput(global_step=9750, training_loss=0.4920255735654097, metrics={'train_runtime': 298.1368, 'train_samples_per_second': 65.406, 'train_steps_per_second': 32.703, 'train_loss': 0.4920255735654097, 'epoch': 3.0})

### LoRA experiment

In [20]:
# from peft import LoftQConfig, LoraConfig, get_peft_model

# lora_config = LoraConfig()
# peft_model = get_peft_model(model, lora_config)

### Playground

In [21]:
dataset['test']['premise']

['O cachorro caramelo está assistindo um cachorro castanho que está nadando em uma lagoa',
 'O cara está fazendo exercícios no chão',
 'Um cachorro grande e um cachorro pequenino estão parados ao lado do balcão da cozinha e estão investigando',
 'Um menino jovem vestindo um traje de banho vermelho está pulando em uma piscina de crianças azul',
 'Um cara velho com uma barba que é cinza está andando de bicicleta',
 'Uma garrafa está sendo lambida pelo gato',
 'As pessoas não estão andando na estrada ao lado de uma bela cachoeira',
 'Um cara em uma bicicleta está andando em uma roda só',
 'Uma mulher está andando a cavalo',
 'Uma pessoa não está descascando uma banana',
 "Uma criança jovem negra está esperando na beira de um corpo d'água perto de alguns baldes",
 'O monte de homens está brincando com lama em um campo de rúgbi',
 'Quatro pessoas estão andando através da neve espessa e o sol está se pondo',
 'Um bebê está animando outro bebê',
 'Uma mulher está descascando uma batata',
 'Um

In [39]:
index_test = 6
n_words = 2

text = ' '.join(dataset['test']['premise'][index_test].split()[:n_words])
print('original sentence = ', dataset['test']['premise'][index_test])

test_sample = tokenizer.encode(
    text,
    # max_length=model.config.n_positions,
    truncation=True,
    # padding="max_length",
    return_tensors="pt",
    add_special_tokens=False
).to(device)

with torch.no_grad():
    print("input = ", text)
    output = model.generate(input_ids=test_sample, max_length=100)
    print(tokenizer.decode(output[0], skip_special_tokens=True))

original sentence =  As pessoas não estão andando na estrada ao lado de uma bela cachoeira
input =  As pessoas
As pessoas estão sentadas em um campo


In [18]:
test_sample

tensor([[   28, 14793,    21]])