#### We finetune this LM : roberta-base-squad2 on dataset.txt having question and answer

In [4]:
from transformers import RobertaForQuestionAnswering, RobertaTokenizer, RobertaTokenizerFast
import pickle
import random
import torch
from torch.utils.data import Dataset

In [5]:
dataset_file = '../data/LM_dataset.txt'
graph_file = '../models/graph.pkl'

In [6]:
# Get data from LM Dataset.txt
questions = []
answers = []
with open(dataset_file, 'r') as file:
    lines = file.readlines()
    for i, line in enumerate(lines):
        if i % 3 == 0:
            questions.append(line.strip())
        elif i % 3 == 1:
            answers.append(line.strip()[8:])
        else:
            continue

In [7]:
# Read graph for context
with open(graph_file, 'rb') as f:
    graph = pickle.load(f)

In [8]:
# Helper function to create context 
def get_context_from_qa(graph, ques, ans):
    ques = ques.lower()
    ans = ans.lower()
    context = [ans]
    for node in graph.nodes():
        if node in ques and node is not None:
            context.append(node)
    random.shuffle(context)
    return ' '.join(context)

In [9]:
# Create dataset in standard QA format
dataset = []
for i in range(len(questions)):
    sample = {}
    sample['question'] = str(questions[i])
    sample['context'] = get_context_from_qa(graph, questions[i], answers[i])
    text = str(answers[i].lower())
    answer= {}
    answer['text'] = [text]
    answer['answer_start'] = [sample['context'].find(text)] 
    sample['answer'] = answer 
    dataset.append(sample)

In [10]:
#dataset

In [11]:
# Generate custom dataset with tokenizers to get tensors
class CustomQADataset(Dataset):
    def __init__(self, data, tokenizer):
        self.data = data
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        context = self.data[idx]['context']
        question = self.data[idx]['question']
        answer = self.data[idx]['answer']

        inputs = self.tokenizer.encode_plus(
            question,
            context,
            add_special_tokens=True,
            return_tensors='pt',
            max_length=128,
            truncation=True,
            padding='max_length',
            return_offsets_mapping=True
        )

        start_positions = answer['answer_start'][0]
        end_positions = answer['answer_start'][0] + len(answer['text'][0])

        return {
            'input_ids': inputs['input_ids'].squeeze(),
            'attention_mask': inputs['attention_mask'].squeeze(),
            'start_positions': start_positions,
            'end_positions': end_positions
        }

In [12]:
tokenizer = RobertaTokenizerFast.from_pretrained('deepset/roberta-base-squad2')

In [13]:
final_custom_dataset = CustomQADataset(dataset, tokenizer)

### Dataset is ready .. lets begin finetuning LM

In [25]:
from torch.utils.data import DataLoader
import tqdm

In [16]:
model = RobertaForQuestionAnswering.from_pretrained('deepset/roberta-base-squad2')

In [22]:
N = len(final_custom_dataset)

In [23]:
train_loader = DataLoader(final_custom_dataset, batch_size=16, shuffle=True)

In [31]:
optimizer = torch.optim.AdamW(model.parameters(), lr=0.00001)
criterion = torch.nn.MSELoss()

num_epochs = 100
for epoch in range(num_epochs):
    model.train()
    batchcount = 0
    epoch_loss = 0
    for batch in tqdm.tqdm(train_loader):
        optimizer.zero_grad()
        inputs = {key: batch[key].to(model.device) for key in batch}
        outputs = model(**inputs)
        start_pred = torch.tensor(torch.argmax(outputs.start_logits, dim = 1).to(torch.float), requires_grad=True)
        #start_pred = torch.argmax(outputs.start_logits, dim = 1).clone().detach().to(torch.float)
        end_pred = torch.tensor(torch.argmax(outputs.end_logits, dim = 1).to(torch.float), requires_grad=True)
        #start_pred = torch.argmax(outputs.end_logits, dim = 1).clone().detach().to(torch.float)
        start_loss = criterion(start_pred, batch['start_positions'].to(torch.float))
        end_loss = criterion(end_pred, batch['end_positions'].to(torch.float))
        loss = start_loss + end_loss
        loss.backward(retain_graph=True)
        optimizer.step()
        batchcount = batchcount + 1
        #print('Loss: ' + str(loss) + ' for batch ' + str(batchcount))
        epoch_loss = epoch_loss + loss
    print('+++++++++++++++++ Epoch' + str(epoch + 1) + ' Loss: ' + str(epoch_loss / N) + ' +++++++++++++++')
    # Save finetuned model
    model.save_pretrained('../models/fine_tuned_roberta_squad2')
    tokenizer.save_pretrained('../models/fine_tuned_roberta_squad2')

  start_pred = torch.tensor(torch.argmax(outputs.start_logits, dim = 1).to(torch.float), requires_grad=True)
  end_pred = torch.tensor(torch.argmax(outputs.end_logits, dim = 1).to(torch.float), requires_grad=True)
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:03<00:00,  1.51s/it]


+++++++++++++++++ Epoch1 Loss: tensor(117.9385, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.53s/it]


+++++++++++++++++ Epoch2 Loss: tensor(115.3727, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.54s/it]


+++++++++++++++++ Epoch3 Loss: tensor(116.9337, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.54s/it]


+++++++++++++++++ Epoch4 Loss: tensor(115.0857, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.54s/it]


+++++++++++++++++ Epoch5 Loss: tensor(112.3656, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.54s/it]


+++++++++++++++++ Epoch6 Loss: tensor(113.0667, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.55s/it]


+++++++++++++++++ Epoch7 Loss: tensor(118.3185, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.55s/it]


+++++++++++++++++ Epoch8 Loss: tensor(122.1697, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch9 Loss: tensor(115.5130, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.55s/it]


+++++++++++++++++ Epoch10 Loss: tensor(119.8004, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:04<00:00,  1.55s/it]


+++++++++++++++++ Epoch11 Loss: tensor(115.6871, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch12 Loss: tensor(114.1500, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch13 Loss: tensor(113.6020, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch14 Loss: tensor(121.0525, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch15 Loss: tensor(115.7541, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch16 Loss: tensor(117.7367, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch17 Loss: tensor(112.5434, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch18 Loss: tensor(118.4837, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch19 Loss: tensor(115.2519, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch20 Loss: tensor(120.5623, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch21 Loss: tensor(115.1809, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch22 Loss: tensor(116.7475, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch23 Loss: tensor(120.8346, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch24 Loss: tensor(116.0753, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch25 Loss: tensor(116.4598, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch26 Loss: tensor(122.4213, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch27 Loss: tensor(116.1911, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch28 Loss: tensor(119.8693, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch29 Loss: tensor(123.0080, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch30 Loss: tensor(112.1738, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch31 Loss: tensor(114.5955, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch32 Loss: tensor(116.4058, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch33 Loss: tensor(120.2080, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch34 Loss: tensor(117.4759, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch35 Loss: tensor(112.6844, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch36 Loss: tensor(116.6143, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch37 Loss: tensor(116.1248, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch38 Loss: tensor(112.5317, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch39 Loss: tensor(118.5591, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch40 Loss: tensor(118.3704, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch41 Loss: tensor(114.3680, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch42 Loss: tensor(113.2397, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch43 Loss: tensor(113.7146, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch44 Loss: tensor(110.7284, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.57s/it]


+++++++++++++++++ Epoch45 Loss: tensor(120.1838, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch46 Loss: tensor(110.4976, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch47 Loss: tensor(113.7909, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch48 Loss: tensor(115.2964, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch49 Loss: tensor(114.8778, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch50 Loss: tensor(123.0362, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch51 Loss: tensor(122.4972, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch52 Loss: tensor(116.2677, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch53 Loss: tensor(117.4097, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch54 Loss: tensor(112.1543, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch55 Loss: tensor(124.8897, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch56 Loss: tensor(114.4382, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch57 Loss: tensor(115.1351, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch58 Loss: tensor(120.1434, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch59 Loss: tensor(122.4632, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch60 Loss: tensor(119.1172, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch61 Loss: tensor(115.2601, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch62 Loss: tensor(115.2191, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch63 Loss: tensor(116.4271, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch64 Loss: tensor(119.4991, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch65 Loss: tensor(112.1502, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch66 Loss: tensor(117.6182, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch67 Loss: tensor(117.5241, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch68 Loss: tensor(111.1751, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch69 Loss: tensor(117.6831, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch70 Loss: tensor(115.2336, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch71 Loss: tensor(117.3026, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch72 Loss: tensor(116.0760, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch73 Loss: tensor(114.4342, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch74 Loss: tensor(117.2866, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch75 Loss: tensor(117.6179, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch76 Loss: tensor(115.8045, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch77 Loss: tensor(116.5611, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch78 Loss: tensor(116.5225, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch79 Loss: tensor(115.2104, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch80 Loss: tensor(109.8782, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch81 Loss: tensor(113.9653, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch82 Loss: tensor(117.6677, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch83 Loss: tensor(119.4835, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch84 Loss: tensor(121.2259, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch85 Loss: tensor(110.7602, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch86 Loss: tensor(112.7285, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.55s/it]


+++++++++++++++++ Epoch87 Loss: tensor(114.5969, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch88 Loss: tensor(117.0759, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:10<00:00,  1.67s/it]


+++++++++++++++++ Epoch89 Loss: tensor(115.7861, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:11<00:00,  1.71s/it]


+++++++++++++++++ Epoch90 Loss: tensor(114.4534, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:09<00:00,  1.65s/it]


+++++++++++++++++ Epoch91 Loss: tensor(117.6779, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:11<00:00,  1.69s/it]


+++++++++++++++++ Epoch92 Loss: tensor(117.3762, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:08<00:00,  1.64s/it]


+++++++++++++++++ Epoch93 Loss: tensor(116.9099, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.57s/it]


+++++++++++++++++ Epoch94 Loss: tensor(112.4908, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:06<00:00,  1.59s/it]


+++++++++++++++++ Epoch95 Loss: tensor(116.0524, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch96 Loss: tensor(115.9905, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch97 Loss: tensor(113.9626, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch98 Loss: tensor(117.1048, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:05<00:00,  1.56s/it]


+++++++++++++++++ Epoch99 Loss: tensor(112.6106, grad_fn=<DivBackward0>) +++++++++++++++


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 42/42 [01:06<00:00,  1.58s/it]


+++++++++++++++++ Epoch100 Loss: tensor(117.9392, grad_fn=<DivBackward0>) +++++++++++++++
