In [1]:
import matplotlib.pyplot as plt
%load_ext autoreload
%autoreload 2
%matplotlib inline
%matplotlib notebook

In [2]:
import sys
import os

sys.path.append('tools')

import multicrop_dataset
import architecture

In [3]:
import numpy as np
import matplotlib

from torch.utils.data import DataLoader
from torch.utils.data import Dataset
import torch
from tqdm import tqdm
import sklearn

import torchvision.transforms as T
import pytorch_lightning as pl
import pytorch_lightning.loggers as pl_loggers
import pytorch_lightning.callbacks as pl_callbacks

matplotlib.use("nbAgg")

import data_utility

from itertools import groupby
from tqdm import tqdm

In [4]:
import matplotlib.pyplot as plt

In [5]:
dir_list = os.listdir('data/rns_data')
patientIDs = [s for s in dir_list for type_string in ['HUP', 'RNS'] if type_string in s.upper()]

In [6]:
patientIDs[14:]

['HUP143',
 'HUP147',
 'HUP153',
 'HUP156',
 'HUP159',
 'HUP182',
 'HUP192',
 'HUP197',
 'HUP199',
 'HUP205',
 'RNS021',
 'RNS022',
 'RNS026',
 'RNS029']

In [7]:
# data_import = data_utility.read_files(path = 'data/rns_data', patientIDs=patientIDs[14:], path_data = 'rns_raw_cache',annotation_only = False, verbose=True)
# ids = list(data_import.keys())

In [8]:
# window_len = 1
# stride = 1
# concat_n = 4
# for id in tqdm(ids):
#     data_import[id].set_window_parameter(window_length=window_len, window_displacement=stride)
#     data_import[id].set_concatenation_parameter(concatenate_window_n=concat_n)
#     data_import[id].get_windowed_data(data_import[id].catalog["Event Start idx"],data_import[id].catalog["Event End idx"])
#     data_import[id].normalize_windowed_data()
#     _, concatenated_data = data_import[id].get_concatenated_data(data_import[id].windowed_data, arrange='channel_stack')
#     np.save('rns_cache/'+ id +'.npy',concatenated_data)

In [9]:
file_list = ['HUP159.npy']

In [10]:
class RNS_Raw(Dataset):
    def __init__(self, file_names, transform=True, astensor = True):
        self.file_names = file_names
        self.transform = transform
        
        file_name_temp = self.file_names[0]
        with open('rns_cache/'+ file_name_temp, 'rb') as f:
            temp_file = np.load(f)
        
        
        self.data = np.empty((0,temp_file.shape[1],temp_file.shape[2]))    
        print(self.data.shape)
        
        for name in tqdm(self.file_names):
            with open('rns_cache/'+ name, 'rb') as f:
                cache = np.load(f)
            self.data = np.vstack((self.data,cache))
        
        print
        print('data loaded')

        self.length = len(self.data)

        if astensor:
            self.augmentation = T.Compose([
                T.ToPILImage(),
                T.Resize((256, 256), interpolation=T.InterpolationMode.NEAREST),
                T.RandomApply([T.ColorJitter()], p=0.5),
                T.RandomApply([T.GaussianBlur(kernel_size=(3, 3))], p=0.5),
                T.RandomInvert(p=0.2),
                T.RandomPosterize(4, p=0.2),
                T.ToTensor()
            ])

            self.totensor = T.Compose([
                T.ToPILImage(),
                T.Resize((256, 256), interpolation=T.InterpolationMode.NEAREST),
                T.ToTensor()
            ])
        else:
            self.augmentation = T.Compose([
                T.ToPILImage(),
                T.Resize((256, 256), interpolation=T.InterpolationMode.NEAREST),
                T.RandomApply([T.ColorJitter()], p=0.5),
                T.RandomApply([T.GaussianBlur(kernel_size=(3, 3))], p=0.5),
                T.RandomInvert(p=0.2),
                T.RandomPosterize(4, p=0.2),
            ])

            self.totensor = T.Compose([
                T.ToPILImage(),
                T.Resize((256, 256), interpolation=T.InterpolationMode.NEAREST),
            ])

    def __len__(self):
        return self.length

    def __getitem__(self, index):
        data = self.data[index]

        if self.transform:
            concat_len = data.shape[1]/4
            channel_index = np.arange(4)
            np.random.shuffle(channel_index)
            channel_index = channel_index*concat_len+(concat_len-1)/2
            channel_index = np.repeat(channel_index, concat_len)
            concate_len_1 = (concat_len-1)/2
            a_repeat = np.arange(-concate_len_1,concate_len_1+1)[np.newaxis].T
            base_repeat = np.repeat(a_repeat, 4,axis=1).T.flatten()
            channel_index = channel_index+base_repeat
            data = data[channel_index.astype(int)]
            data = torch.from_numpy(data).clone()
            data = data.repeat(3, 1, 1)
            data = self.augmentation(data)

        else:
            data = torch.from_numpy(data).clone()
            data = data.repeat(3, 1, 1)
            data = self.totensor(data)

        return data, [], None

In [11]:
unlabeled_dataset = RNS_Raw(file_list, transform=True,astensor = False)

(0, 249, 36)


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.05s/it]

data loaded





In [12]:
import torch
import torchvision
from torch import nn

from lightly.data import LightlyDataset, SwaVCollateFunction
from lightly.loss import SwaVLoss
from lightly.loss.memory_bank import MemoryBankModule
from lightly.models.modules import SwaVProjectionHead, SwaVPrototypes


class SwaV(nn.Module):
    def __init__(self, backbone):
        super().__init__()
        self.backbone = backbone
        self.projection_head = SwaVProjectionHead(2048, 2048, 128)
        self.prototypes = SwaVPrototypes(128, 2048,1)

        self.start_queue_at_epoch = 35
        self.queues = nn.ModuleList([MemoryBankModule(size=256) for _ in range(2)])

    def forward(self, high_resolution, low_resolution, epoch):
        self.prototypes.normalize()

        high_resolution_features = [self._subforward(x) for x in high_resolution]
        low_resolution_features = [self._subforward(x) for x in low_resolution]

        high_resolution_prototypes = [
            self.prototypes(x, epoch) for x in high_resolution_features
        ]
        low_resolution_prototypes = [
            self.prototypes(x, epoch) for x in low_resolution_features
        ]
        queue_prototypes = self._get_queue_prototypes(high_resolution_features, epoch)

        return high_resolution_prototypes, low_resolution_prototypes, queue_prototypes

    def _subforward(self, input):
        features = self.backbone(input).flatten(start_dim=1)
        features = self.projection_head(features)
        features = nn.functional.normalize(features, dim=1, p=2)
        return features

    @torch.no_grad()
    def _get_queue_prototypes(self, high_resolution_features, epoch):
        if len(high_resolution_features) != len(self.queues):
            raise ValueError(
                f"The number of queues ({len(self.queues)}) should be equal to the number of high "
                f"resolution inputs ({len(high_resolution_features)}). Set `n_queues` accordingly."
            )

        # Get the queue features
        queue_features = []
        for i in range(len(self.queues)):
            _, features = self.queues[i](high_resolution_features[i], update=True)
            # Queue features are in (num_ftrs X queue_length) shape, while the high res
            # features are in (batch_size X num_ftrs). Swap the axes for interoperability.
            features = torch.permute(features, (1, 0))
            queue_features.append(features)

        # If loss calculation with queue prototypes starts at a later epoch,
        # just queue the features and return None instead of queue prototypes.
        if self.start_queue_at_epoch > 0 and epoch < self.start_queue_at_epoch:
            return None

        # Assign prototypes
        queue_prototypes = [self.prototypes(x, epoch) for x in queue_features]
        return queue_prototypes


resnet = torchvision.models.resnet50()

backbone = nn.Sequential(*list(resnet.children())[:-1])
model = SwaV(backbone)

checkpoint = torch.load('rns_ckpt_159/checkpoint29.pth')
model.load_state_dict(checkpoint['model_state_dict'])
model.train()

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

collate_fn = SwaVCollateFunction(gaussian_blur = 0, hf_prob = 0,vf_prob = 0,rr_prob=0,cj_prob=0,random_gray_scale=0, normalize={'mean':[0, 0, 0], 'std':[1, 1, 1]})

dataloader = torch.utils.data.DataLoader(
    unlabeled_dataset,
    batch_size=72,
    collate_fn=collate_fn,
    shuffle=True,
    drop_last=True,
)

criterion = SwaVLoss(sinkhorn_epsilon = 0.05)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

torch.save({
            'epoch': -1,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': -1,
            }, 'rns_ckpt_159/checkpoint'+str(-1)+'.pth')

print("Starting Training")
for epoch in range(30,100):
    print('epoch', epoch)
    total_loss = 0
    i = 0
    for batch, _, _ in tqdm(dataloader):
        i+=1
        batch = [x.to(device) for x in batch]
        high_resolution, low_resolution = batch[:2], batch[2:]
        high_resolution, low_resolution, queue = model(
            high_resolution, low_resolution, epoch
        )
        loss = criterion(high_resolution, low_resolution, queue)
        total_loss += loss.detach()
        if i % 50 == 1:
            avg_loss = total_loss / i
            print(f"step: {i:>02}, loss: {avg_loss:.5f}")
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

    avg_loss = total_loss / len(dataloader)
    torch.save({
            'epoch': epoch,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': avg_loss,
            }, 'rns_ckpt_159/checkpoint'+str(epoch)+'.pth')

    print(f"epoch: {epoch:>02}, loss: {avg_loss:.5f}")

Starting Training
epoch 30


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 5.16035


  9%|███████▏                                                                         | 50/566 [00:50<08:13,  1.05it/s]

step: 51, loss: 5.11392


 18%|██████████████▏                                                                 | 100/566 [01:37<07:23,  1.05it/s]

step: 101, loss: 5.11053


 27%|█████████████████████▏                                                          | 150/566 [02:25<06:39,  1.04it/s]

step: 151, loss: 5.11516


 35%|████████████████████████████▎                                                   | 200/566 [03:13<05:51,  1.04it/s]

step: 201, loss: 5.11414


 44%|███████████████████████████████████▎                                            | 250/566 [04:01<05:01,  1.05it/s]

step: 251, loss: 5.11771


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:14,  1.05it/s]

step: 301, loss: 5.11425


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:26,  1.04it/s]

step: 351, loss: 5.11778


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:39,  1.04it/s]

step: 401, loss: 5.11879


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:50,  1.05it/s]

step: 451, loss: 5.11883


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:04,  1.02it/s]

step: 501, loss: 5.11884


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 5.11840


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 30, loss: 5.11804
epoch 31


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 5.02521


  9%|███████▏                                                                         | 50/566 [00:47<08:14,  1.04it/s]

step: 51, loss: 5.12891


 18%|██████████████▏                                                                 | 100/566 [01:35<07:18,  1.06it/s]

step: 101, loss: 5.13038


 27%|█████████████████████▏                                                          | 150/566 [02:23<06:34,  1.06it/s]

step: 151, loss: 5.12668


 35%|████████████████████████████▎                                                   | 200/566 [03:11<05:55,  1.03it/s]

step: 201, loss: 5.12475


 44%|███████████████████████████████████▎                                            | 250/566 [03:59<05:04,  1.04it/s]

step: 251, loss: 5.11683


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:47<04:15,  1.04it/s]

step: 301, loss: 5.11794


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:35<03:26,  1.05it/s]

step: 351, loss: 5.11074


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:23<02:40,  1.04it/s]

step: 401, loss: 5.11008


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:11<01:51,  1.04it/s]

step: 451, loss: 5.10506


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [07:59<01:03,  1.04it/s]

step: 501, loss: 5.10592


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:47<00:15,  1.03it/s]

step: 551, loss: 5.10324


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:03<00:00,  1.04it/s]


epoch: 31, loss: 5.10248
epoch 32


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 5.05898


  9%|███████▏                                                                         | 50/566 [00:48<08:16,  1.04it/s]

step: 51, loss: 5.11388


 18%|██████████████▏                                                                 | 100/566 [01:36<07:25,  1.05it/s]

step: 101, loss: 5.09986


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:42,  1.03it/s]

step: 151, loss: 5.09392


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:49,  1.05it/s]

step: 201, loss: 5.09455


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:07,  1.03it/s]

step: 251, loss: 5.09256


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:15,  1.04it/s]

step: 301, loss: 5.09032


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:26,  1.05it/s]

step: 351, loss: 5.09274


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:41,  1.03it/s]

step: 401, loss: 5.09528


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 5.09747


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.04it/s]

step: 501, loss: 5.09614


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 5.09623


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 32, loss: 5.09816
epoch 33


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.95452


  9%|███████▏                                                                         | 50/566 [00:48<08:15,  1.04it/s]

step: 51, loss: 5.09243


 18%|██████████████▏                                                                 | 100/566 [01:36<07:27,  1.04it/s]

step: 101, loss: 5.09282


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:39,  1.04it/s]

step: 151, loss: 5.09783


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:51,  1.04it/s]

step: 201, loss: 5.09697


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:07,  1.03it/s]

step: 251, loss: 5.09569


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:16,  1.04it/s]

step: 301, loss: 5.09450


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:25,  1.05it/s]

step: 351, loss: 5.09107


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:38,  1.05it/s]

step: 401, loss: 5.09334


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:52,  1.04it/s]

step: 451, loss: 5.09352


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:03,  1.03it/s]

step: 501, loss: 5.09274


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:48<00:15,  1.04it/s]

step: 551, loss: 5.09351


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:03<00:00,  1.04it/s]


epoch: 33, loss: 5.09372
epoch 34


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 5.23235


  9%|███████▏                                                                         | 50/566 [00:47<08:05,  1.06it/s]

step: 51, loss: 5.12431


 18%|██████████████▏                                                                 | 100/566 [01:35<07:31,  1.03it/s]

step: 101, loss: 5.11380


 27%|█████████████████████▏                                                          | 150/566 [02:23<06:37,  1.05it/s]

step: 151, loss: 5.10171


 35%|████████████████████████████▎                                                   | 200/566 [03:11<05:54,  1.03it/s]

step: 201, loss: 5.10273


 44%|███████████████████████████████████▎                                            | 250/566 [03:59<05:05,  1.04it/s]

step: 251, loss: 5.10010


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:47<04:15,  1.04it/s]

step: 301, loss: 5.10217


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:35<03:27,  1.04it/s]

step: 351, loss: 5.10379


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:23<02:39,  1.04it/s]

step: 401, loss: 5.10354


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:11<01:50,  1.05it/s]

step: 451, loss: 5.09986


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [07:59<01:03,  1.04it/s]

step: 501, loss: 5.10318


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:47<00:15,  1.03it/s]

step: 551, loss: 5.10508


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:02<00:00,  1.04it/s]


epoch: 34, loss: 5.10623
epoch 35


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.95591


  9%|███████▏                                                                         | 50/566 [00:47<08:10,  1.05it/s]

step: 51, loss: 5.01598


 18%|██████████████▏                                                                 | 100/566 [01:35<07:30,  1.03it/s]

step: 101, loss: 5.01423


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:37,  1.05it/s]

step: 151, loss: 5.00038


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:55,  1.03it/s]

step: 201, loss: 4.98334


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:04,  1.04it/s]

step: 251, loss: 4.96797


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:19,  1.03it/s]

step: 301, loss: 4.96500


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:28,  1.04it/s]

step: 351, loss: 4.95919


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:37,  1.05it/s]

step: 401, loss: 4.95185


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:51,  1.04it/s]

step: 451, loss: 4.94458


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:03,  1.04it/s]

step: 501, loss: 4.93853


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:48<00:15,  1.01it/s]

step: 551, loss: 4.93036


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 35, loss: 4.92801
epoch 36


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.78846


  9%|███████▏                                                                         | 50/566 [00:48<08:19,  1.03it/s]

step: 51, loss: 4.82110


 18%|██████████████▏                                                                 | 100/566 [01:36<07:26,  1.04it/s]

step: 101, loss: 4.84774


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:37,  1.05it/s]

step: 151, loss: 4.85720


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:53,  1.04it/s]

step: 201, loss: 4.84554


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:02,  1.04it/s]

step: 251, loss: 4.84021


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:47<04:15,  1.04it/s]

step: 301, loss: 4.83577


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:35<03:27,  1.04it/s]

step: 351, loss: 4.83512


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:23<02:39,  1.04it/s]

step: 401, loss: 4.83073


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:11<01:52,  1.03it/s]

step: 451, loss: 4.82669


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [07:59<01:03,  1.04it/s]

step: 501, loss: 4.82741


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:47<00:15,  1.04it/s]

step: 551, loss: 4.82374


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:02<00:00,  1.04it/s]


epoch: 36, loss: 4.82265
epoch 37


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.78922


  9%|███████▏                                                                         | 50/566 [00:47<08:17,  1.04it/s]

step: 51, loss: 4.80666


 18%|██████████████▏                                                                 | 100/566 [01:36<07:22,  1.05it/s]

step: 101, loss: 4.79854


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:43,  1.03it/s]

step: 151, loss: 4.79589


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:52,  1.04it/s]

step: 201, loss: 4.80210


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:03,  1.04it/s]

step: 251, loss: 4.80128


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.05it/s]

step: 301, loss: 4.79723


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:27,  1.04it/s]

step: 351, loss: 4.79686


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:38,  1.04it/s]

step: 401, loss: 4.79248


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:50,  1.05it/s]

step: 451, loss: 4.79031


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [07:59<01:03,  1.04it/s]

step: 501, loss: 4.78834


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:47<00:15,  1.06it/s]

step: 551, loss: 4.78707


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:03<00:00,  1.04it/s]


epoch: 37, loss: 4.78610
epoch 38


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.57024


  9%|███████▏                                                                         | 50/566 [00:47<08:15,  1.04it/s]

step: 51, loss: 4.79488


 18%|██████████████▏                                                                 | 100/566 [01:36<07:26,  1.04it/s]

step: 101, loss: 4.77551


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:35,  1.05it/s]

step: 151, loss: 4.77144


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:50,  1.04it/s]

step: 201, loss: 4.77737


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:06,  1.03it/s]

step: 251, loss: 4.76739


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.04it/s]

step: 301, loss: 4.76444


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:28,  1.04it/s]

step: 351, loss: 4.76551


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:37,  1.05it/s]

step: 401, loss: 4.76774


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:52,  1.03it/s]

step: 451, loss: 4.76512


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:03,  1.04it/s]

step: 501, loss: 4.76416


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:48<00:15,  1.05it/s]

step: 551, loss: 4.76123


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 38, loss: 4.76117
epoch 39


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.87536


  9%|███████▏                                                                         | 50/566 [00:47<08:06,  1.06it/s]

step: 51, loss: 4.76285


 18%|██████████████▏                                                                 | 100/566 [01:36<07:25,  1.05it/s]

step: 101, loss: 4.76342


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:36,  1.05it/s]

step: 151, loss: 4.75097


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:52,  1.04it/s]

step: 201, loss: 4.73875


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:01,  1.05it/s]

step: 251, loss: 4.73350


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.04it/s]

step: 301, loss: 4.73454


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:27,  1.04it/s]

step: 351, loss: 4.73282


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:40,  1.03it/s]

step: 401, loss: 4.73180


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:51,  1.04it/s]

step: 451, loss: 4.72743


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.03it/s]

step: 501, loss: 4.73225


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 4.73111


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 39, loss: 4.72910
epoch 40


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.82156


  9%|███████▏                                                                         | 50/566 [00:48<08:22,  1.03it/s]

step: 51, loss: 4.71442


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.71805


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:41,  1.04it/s]

step: 151, loss: 4.71247


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:49,  1.05it/s]

step: 201, loss: 4.72233


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<04:59,  1.05it/s]

step: 251, loss: 4.72866


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:18,  1.03it/s]

step: 301, loss: 4.73408


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:25,  1.05it/s]

step: 351, loss: 4.72939


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:42,  1.02it/s]

step: 401, loss: 4.72893


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:49,  1.06it/s]

step: 451, loss: 4.72579


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:03,  1.03it/s]

step: 501, loss: 4.72783


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:48<00:15,  1.04it/s]

step: 551, loss: 4.72684


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 40, loss: 4.72788
epoch 41


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.73436


  9%|███████▏                                                                         | 50/566 [00:48<08:23,  1.02it/s]

step: 51, loss: 4.70749


 18%|██████████████▏                                                                 | 100/566 [01:35<07:21,  1.06it/s]

step: 101, loss: 4.71639


 27%|█████████████████████▏                                                          | 150/566 [02:23<06:39,  1.04it/s]

step: 151, loss: 4.71856


 35%|████████████████████████████▎                                                   | 200/566 [03:11<05:51,  1.04it/s]

step: 201, loss: 4.71196


 44%|███████████████████████████████████▎                                            | 250/566 [03:59<05:02,  1.05it/s]

step: 251, loss: 4.71187


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:47<04:16,  1.04it/s]

step: 301, loss: 4.70972


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:35<03:25,  1.05it/s]

step: 351, loss: 4.71017


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:23<02:39,  1.04it/s]

step: 401, loss: 4.70551


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:51,  1.04it/s]

step: 451, loss: 4.70456


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:04,  1.03it/s]

step: 501, loss: 4.70302


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:48<00:15,  1.04it/s]

step: 551, loss: 4.69823


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 41, loss: 4.69976
epoch 42


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.84073


  9%|███████▏                                                                         | 50/566 [00:48<08:14,  1.04it/s]

step: 51, loss: 4.72331


 18%|██████████████▏                                                                 | 100/566 [01:36<07:30,  1.03it/s]

step: 101, loss: 4.70041


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:39,  1.04it/s]

step: 151, loss: 4.70367


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:57,  1.02it/s]

step: 201, loss: 4.70384


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:03,  1.04it/s]

step: 251, loss: 4.70470


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:17,  1.03it/s]

step: 301, loss: 4.69838


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:28,  1.04it/s]

step: 351, loss: 4.69462


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:39,  1.04it/s]

step: 401, loss: 4.69249


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:14<01:52,  1.03it/s]

step: 451, loss: 4.69311


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:02<01:02,  1.05it/s]

step: 501, loss: 4.68930


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:50<00:15,  1.04it/s]

step: 551, loss: 4.68793


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 42, loss: 4.68725
epoch 43


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.62012


  9%|███████▏                                                                         | 50/566 [00:48<08:22,  1.03it/s]

step: 51, loss: 4.66931


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.67196


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:40,  1.04it/s]

step: 151, loss: 4.67170


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:49,  1.05it/s]

step: 201, loss: 4.66238


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:07,  1.03it/s]

step: 251, loss: 4.65085


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:15,  1.04it/s]

step: 301, loss: 4.64536


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:23,  1.06it/s]

step: 351, loss: 4.65365


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:38,  1.05it/s]

step: 401, loss: 4.65739


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:52,  1.03it/s]

step: 451, loss: 4.65553


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:04,  1.03it/s]

step: 501, loss: 4.65589


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 4.65225


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 43, loss: 4.65218
epoch 44


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.62024


  9%|███████▏                                                                         | 50/566 [00:47<08:11,  1.05it/s]

step: 51, loss: 4.64129


 18%|██████████████▏                                                                 | 100/566 [01:36<07:34,  1.03it/s]

step: 101, loss: 4.63090


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:37,  1.05it/s]

step: 151, loss: 4.63138


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:50,  1.04it/s]

step: 201, loss: 4.62207


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:05,  1.03it/s]

step: 251, loss: 4.62376


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.04it/s]

step: 301, loss: 4.63275


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:30,  1.02it/s]

step: 351, loss: 4.63568


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:41,  1.03it/s]

step: 401, loss: 4.63301


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 4.63220


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:02,  1.05it/s]

step: 501, loss: 4.62787


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 4.62413


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 44, loss: 4.62387
epoch 45


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.53441


  9%|███████▏                                                                         | 50/566 [00:48<08:20,  1.03it/s]

step: 51, loss: 4.65732


 18%|██████████████▏                                                                 | 100/566 [01:36<07:33,  1.03it/s]

step: 101, loss: 4.63094


 27%|█████████████████████▏                                                          | 150/566 [02:25<06:45,  1.03it/s]

step: 151, loss: 4.64021


 35%|████████████████████████████▎                                                   | 200/566 [03:13<05:57,  1.02it/s]

step: 201, loss: 4.63493


 44%|███████████████████████████████████▎                                            | 250/566 [04:01<05:06,  1.03it/s]

step: 251, loss: 4.62969


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:13,  1.05it/s]

step: 301, loss: 4.62483


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:38<03:27,  1.04it/s]

step: 351, loss: 4.61523


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:26<02:40,  1.03it/s]

step: 401, loss: 4.62355


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:14<01:50,  1.05it/s]

step: 451, loss: 4.62567


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:02<01:02,  1.05it/s]

step: 501, loss: 4.62346


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:50<00:15,  1.04it/s]

step: 551, loss: 4.62035


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:06<00:00,  1.04it/s]


epoch: 45, loss: 4.61966
epoch 46


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.89854


  9%|███████▏                                                                         | 50/566 [00:48<08:19,  1.03it/s]

step: 51, loss: 4.60744


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.58988


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:39,  1.04it/s]

step: 151, loss: 4.59668


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:48,  1.05it/s]

step: 201, loss: 4.59723


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:04,  1.04it/s]

step: 251, loss: 4.60415


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:15,  1.04it/s]

step: 301, loss: 4.60085


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:28,  1.04it/s]

step: 351, loss: 4.60549


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:40,  1.03it/s]

step: 401, loss: 4.61009


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 4.60857


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.04it/s]

step: 501, loss: 4.60755


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.03it/s]

step: 551, loss: 4.60839


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 46, loss: 4.60653
epoch 47


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.58585


  9%|███████▏                                                                         | 50/566 [00:48<08:20,  1.03it/s]

step: 51, loss: 4.59674


 18%|██████████████▏                                                                 | 100/566 [01:36<07:24,  1.05it/s]

step: 101, loss: 4.59308


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:39,  1.04it/s]

step: 151, loss: 4.57846


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:52,  1.04it/s]

step: 201, loss: 4.57908


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<04:58,  1.06it/s]

step: 251, loss: 4.57829


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.04it/s]

step: 301, loss: 4.58878


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:26,  1.05it/s]

step: 351, loss: 4.59935


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:39,  1.04it/s]

step: 401, loss: 4.59842


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:52,  1.04it/s]

step: 451, loss: 4.59762


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.03it/s]

step: 501, loss: 4.59468


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.03it/s]

step: 551, loss: 4.59342


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 47, loss: 4.59533
epoch 48


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.61448


  9%|███████▏                                                                         | 50/566 [00:48<08:15,  1.04it/s]

step: 51, loss: 4.60752


 18%|██████████████▏                                                                 | 100/566 [01:36<07:31,  1.03it/s]

step: 101, loss: 4.60943


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:42,  1.03it/s]

step: 151, loss: 4.61237


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:53,  1.03it/s]

step: 201, loss: 4.61003


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:10,  1.02it/s]

step: 251, loss: 4.60875


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:12,  1.05it/s]

step: 301, loss: 4.60834


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:27,  1.04it/s]

step: 351, loss: 4.61006


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:40,  1.03it/s]

step: 401, loss: 4.60857


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 4.60887


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.04it/s]

step: 501, loss: 4.60396


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.03it/s]

step: 551, loss: 4.60621


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 48, loss: 4.60615
epoch 49


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.48407


  9%|███████▏                                                                         | 50/566 [00:48<08:15,  1.04it/s]

step: 51, loss: 4.58981


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.59521


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:41,  1.04it/s]

step: 151, loss: 4.59059


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:50,  1.04it/s]

step: 201, loss: 4.58156


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:06,  1.03it/s]

step: 251, loss: 4.57766


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:18,  1.03it/s]

step: 301, loss: 4.58181


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:27,  1.04it/s]

step: 351, loss: 4.58494


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:40,  1.03it/s]

step: 401, loss: 4.59115


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:51,  1.04it/s]

step: 451, loss: 4.58799


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.04it/s]

step: 501, loss: 4.58653


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.03it/s]

step: 551, loss: 4.58474


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 49, loss: 4.58664
epoch 50


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.69428


  9%|███████▏                                                                         | 50/566 [00:48<08:15,  1.04it/s]

step: 51, loss: 4.58202


 18%|██████████████▏                                                                 | 100/566 [01:36<07:26,  1.04it/s]

step: 101, loss: 4.59052


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:32,  1.06it/s]

step: 151, loss: 4.59025


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:55,  1.03it/s]

step: 201, loss: 4.59074


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:02,  1.04it/s]

step: 251, loss: 4.59410


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.04it/s]

step: 301, loss: 4.59188


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:28,  1.04it/s]

step: 351, loss: 4.59161


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:39,  1.04it/s]

step: 401, loss: 4.59008


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:51,  1.04it/s]

step: 451, loss: 4.59164


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:03,  1.03it/s]

step: 501, loss: 4.59200


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:48<00:15,  1.04it/s]

step: 551, loss: 4.59322


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 50, loss: 4.59500
epoch 51


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.71403


  9%|███████▏                                                                         | 50/566 [00:48<08:11,  1.05it/s]

step: 51, loss: 4.60969


 18%|██████████████▏                                                                 | 100/566 [01:36<07:32,  1.03it/s]

step: 101, loss: 4.61275


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:42,  1.03it/s]

step: 151, loss: 4.58333


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:49,  1.05it/s]

step: 201, loss: 4.58918


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:06,  1.03it/s]

step: 251, loss: 4.59197


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:16,  1.04it/s]

step: 301, loss: 4.58423


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:29,  1.03it/s]

step: 351, loss: 4.57746


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:39,  1.04it/s]

step: 401, loss: 4.58144


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:50,  1.05it/s]

step: 451, loss: 4.58126


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.03it/s]

step: 501, loss: 4.57721


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.05it/s]

step: 551, loss: 4.57727


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 51, loss: 4.57798
epoch 52


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.55048


  9%|███████▏                                                                         | 50/566 [00:48<08:16,  1.04it/s]

step: 51, loss: 4.58470


 18%|██████████████▏                                                                 | 100/566 [01:36<07:23,  1.05it/s]

step: 101, loss: 4.57008


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:43,  1.03it/s]

step: 151, loss: 4.56187


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:48,  1.05it/s]

step: 201, loss: 4.55595


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:05,  1.04it/s]

step: 251, loss: 4.55968


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:18,  1.03it/s]

step: 301, loss: 4.55599


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:26,  1.05it/s]

step: 351, loss: 4.55470


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:42,  1.02it/s]

step: 401, loss: 4.55224


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 4.55289


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:04,  1.03it/s]

step: 501, loss: 4.55064


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 4.54993


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 52, loss: 4.54900
epoch 53


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.50568


  9%|███████▏                                                                         | 50/566 [00:48<08:19,  1.03it/s]

step: 51, loss: 4.57764


 18%|██████████████▏                                                                 | 100/566 [01:36<07:30,  1.03it/s]

step: 101, loss: 4.55887


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:41,  1.04it/s]

step: 151, loss: 4.56231


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:54,  1.03it/s]

step: 201, loss: 4.56690


 44%|███████████████████████████████████▎                                            | 250/566 [04:01<05:02,  1.04it/s]

step: 251, loss: 4.56751


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:21,  1.02it/s]

step: 301, loss: 4.56844


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:38<03:29,  1.03it/s]

step: 351, loss: 4.57363


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:27<02:45,  1.00it/s]

step: 401, loss: 4.57389


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:17<01:54,  1.01it/s]

step: 451, loss: 4.57267


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:05<01:03,  1.04it/s]

step: 501, loss: 4.57308


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:53<00:15,  1.05it/s]

step: 551, loss: 4.56977


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:09<00:00,  1.03it/s]


epoch: 53, loss: 4.56854
epoch 54


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.49666


  9%|███████▏                                                                         | 50/566 [00:48<08:19,  1.03it/s]

step: 51, loss: 4.54209


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.56139


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:36,  1.05it/s]

step: 151, loss: 4.54152


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:56,  1.03it/s]

step: 201, loss: 4.53809


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:04,  1.04it/s]

step: 251, loss: 4.55423


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:19,  1.02it/s]

step: 301, loss: 4.54888


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:29,  1.03it/s]

step: 351, loss: 4.55081


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:38,  1.05it/s]

step: 401, loss: 4.55423


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:52,  1.03it/s]

step: 451, loss: 4.55239


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.04it/s]

step: 501, loss: 4.55035


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:50<00:15,  1.04it/s]

step: 551, loss: 4.54929


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 54, loss: 4.55158
epoch 55


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.57725


  9%|███████▏                                                                         | 50/566 [00:48<08:20,  1.03it/s]

step: 51, loss: 4.56836


 18%|██████████████▏                                                                 | 100/566 [01:36<07:26,  1.04it/s]

step: 101, loss: 4.55576


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:42,  1.03it/s]

step: 151, loss: 4.54588


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:50,  1.05it/s]

step: 201, loss: 4.53327


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:01,  1.05it/s]

step: 251, loss: 4.53642


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:13,  1.05it/s]

step: 301, loss: 4.53765


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:25,  1.05it/s]

step: 351, loss: 4.53940


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:39,  1.04it/s]

step: 401, loss: 4.54252


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:51,  1.04it/s]

step: 451, loss: 4.54251


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:02,  1.05it/s]

step: 501, loss: 4.54061


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.05it/s]

step: 551, loss: 4.53869


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 55, loss: 4.53874
epoch 56


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.44172


  9%|███████▏                                                                         | 50/566 [00:48<08:20,  1.03it/s]

step: 51, loss: 4.53451


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.52457


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:39,  1.04it/s]

step: 151, loss: 4.53358


 35%|████████████████████████████▎                                                   | 200/566 [03:13<05:52,  1.04it/s]

step: 201, loss: 4.52433


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:02,  1.05it/s]

step: 251, loss: 4.52477


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:18,  1.03it/s]

step: 301, loss: 4.53162


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:27,  1.04it/s]

step: 351, loss: 4.53533


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:39,  1.04it/s]

step: 401, loss: 4.53918


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 4.54160


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:02<01:03,  1.04it/s]

step: 501, loss: 4.53908


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:50<00:15,  1.03it/s]

step: 551, loss: 4.53958


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 56, loss: 4.54053
epoch 57


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.72193


  9%|███████▏                                                                         | 50/566 [00:48<08:17,  1.04it/s]

step: 51, loss: 4.50653


 18%|██████████████▏                                                                 | 100/566 [01:36<07:27,  1.04it/s]

step: 101, loss: 4.50864


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:43,  1.03it/s]

step: 151, loss: 4.50845


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:53,  1.03it/s]

step: 201, loss: 4.51479


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:06,  1.03it/s]

step: 251, loss: 4.51855


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:16,  1.04it/s]

step: 301, loss: 4.52382


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:29,  1.03it/s]

step: 351, loss: 4.52418


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:40,  1.03it/s]

step: 401, loss: 4.52587


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 4.52647


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:02,  1.05it/s]

step: 501, loss: 4.52883


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.05it/s]

step: 551, loss: 4.52938


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 57, loss: 4.52822
epoch 58


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.50616


  9%|███████▏                                                                         | 50/566 [00:48<08:28,  1.02it/s]

step: 51, loss: 4.52323


 18%|██████████████▏                                                                 | 100/566 [01:36<07:29,  1.04it/s]

step: 101, loss: 4.54599


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:39,  1.04it/s]

step: 151, loss: 4.54367


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:51,  1.04it/s]

step: 201, loss: 4.53126


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:03,  1.04it/s]

step: 251, loss: 4.52595


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:18,  1.03it/s]

step: 301, loss: 4.52626


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:25,  1.05it/s]

step: 351, loss: 4.52195


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:38,  1.05it/s]

step: 401, loss: 4.51951


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:51,  1.04it/s]

step: 451, loss: 4.51692


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:04,  1.03it/s]

step: 501, loss: 4.51649


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.05it/s]

step: 551, loss: 4.51569


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 58, loss: 4.51502
epoch 59


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.56772


  9%|███████▏                                                                         | 50/566 [00:48<08:11,  1.05it/s]

step: 51, loss: 4.50612


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.48493


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:39,  1.04it/s]

step: 151, loss: 4.48806


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:52,  1.04it/s]

step: 201, loss: 4.48901


 44%|███████████████████████████████████▎                                            | 250/566 [04:01<05:07,  1.03it/s]

step: 251, loss: 4.49780


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:18,  1.03it/s]

step: 301, loss: 4.50224


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:26,  1.05it/s]

step: 351, loss: 4.50853


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:37,  1.05it/s]

step: 401, loss: 4.51230


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:52,  1.03it/s]

step: 451, loss: 4.51325


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:02<01:04,  1.03it/s]

step: 501, loss: 4.51280


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:50<00:15,  1.03it/s]

step: 551, loss: 4.51133


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 59, loss: 4.51139
epoch 60


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.23417


  9%|███████▏                                                                         | 50/566 [00:48<08:25,  1.02it/s]

step: 51, loss: 4.52278


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.51886


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:35,  1.05it/s]

step: 151, loss: 4.51723


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:54,  1.03it/s]

step: 201, loss: 4.50606


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:04,  1.04it/s]

step: 251, loss: 4.50240


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:12,  1.05it/s]

step: 301, loss: 4.50111


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:25,  1.05it/s]

step: 351, loss: 4.50048


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:39,  1.04it/s]

step: 401, loss: 4.49891


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:50,  1.05it/s]

step: 451, loss: 4.49873


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:03,  1.04it/s]

step: 501, loss: 4.49874


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:48<00:15,  1.03it/s]

step: 551, loss: 4.49904


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 60, loss: 4.50078
epoch 61


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.32143


  9%|███████▏                                                                         | 50/566 [00:48<08:11,  1.05it/s]

step: 51, loss: 4.55564


 18%|██████████████▏                                                                 | 100/566 [01:36<07:23,  1.05it/s]

step: 101, loss: 4.55356


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:36,  1.05it/s]

step: 151, loss: 4.53512


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:52,  1.04it/s]

step: 201, loss: 4.52602


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:03,  1.04it/s]

step: 251, loss: 4.52388


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.04it/s]

step: 301, loss: 4.51434


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:25,  1.05it/s]

step: 351, loss: 4.51862


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:36,  1.06it/s]

step: 401, loss: 4.51119


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:52,  1.03it/s]

step: 451, loss: 4.51121


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:00<01:03,  1.04it/s]

step: 501, loss: 4.50791


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 4.50920


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 61, loss: 4.50929
epoch 62


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.34895


  9%|███████▏                                                                         | 50/566 [00:48<08:17,  1.04it/s]

step: 51, loss: 4.49790


 18%|██████████████▏                                                                 | 100/566 [01:36<07:27,  1.04it/s]

step: 101, loss: 4.50568


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:37,  1.05it/s]

step: 151, loss: 4.50319


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:50,  1.04it/s]

step: 201, loss: 4.49483


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:00,  1.05it/s]

step: 251, loss: 4.49281


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:47<04:14,  1.05it/s]

step: 301, loss: 4.49370


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:35<03:26,  1.05it/s]

step: 351, loss: 4.49574


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:23<02:39,  1.04it/s]

step: 401, loss: 4.49315


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:11<01:50,  1.05it/s]

step: 451, loss: 4.49560


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [07:59<01:03,  1.04it/s]

step: 501, loss: 4.49613


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:47<00:15,  1.05it/s]

step: 551, loss: 4.49791


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:03<00:00,  1.04it/s]


epoch: 62, loss: 4.49884
epoch 63


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.49367


  9%|███████▏                                                                         | 50/566 [00:48<08:16,  1.04it/s]

step: 51, loss: 4.49288


 18%|██████████████▏                                                                 | 100/566 [01:36<07:33,  1.03it/s]

step: 101, loss: 4.48544


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:38,  1.04it/s]

step: 151, loss: 4.49407


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:53,  1.04it/s]

step: 201, loss: 4.49114


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:06,  1.03it/s]

step: 251, loss: 4.49240


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:13,  1.05it/s]

step: 301, loss: 4.49344


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:28,  1.04it/s]

step: 351, loss: 4.49657


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:40,  1.03it/s]

step: 401, loss: 4.50542


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:52,  1.03it/s]

step: 451, loss: 4.50971


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:03,  1.04it/s]

step: 501, loss: 4.51397


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.04it/s]

step: 551, loss: 4.51353


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 63, loss: 4.51301
epoch 64


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.40610


  9%|███████▏                                                                         | 50/566 [00:48<08:21,  1.03it/s]

step: 51, loss: 4.46135


 18%|██████████████▏                                                                 | 100/566 [01:36<07:29,  1.04it/s]

step: 101, loss: 4.48402


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:37,  1.05it/s]

step: 151, loss: 4.48345


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:56,  1.03it/s]

step: 201, loss: 4.48264


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<04:57,  1.06it/s]

step: 251, loss: 4.48521


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:16,  1.04it/s]

step: 301, loss: 4.48984


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:36<03:26,  1.05it/s]

step: 351, loss: 4.48663


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:39,  1.04it/s]

step: 401, loss: 4.48430


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:50,  1.05it/s]

step: 451, loss: 4.48014


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:01<01:04,  1.03it/s]

step: 501, loss: 4.47752


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:49<00:15,  1.05it/s]

step: 551, loss: 4.47506


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:04<00:00,  1.04it/s]


epoch: 64, loss: 4.47286
epoch 65


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.39087


  9%|███████▏                                                                         | 50/566 [00:48<08:16,  1.04it/s]

step: 51, loss: 4.41975


 18%|██████████████▏                                                                 | 100/566 [01:36<07:28,  1.04it/s]

step: 101, loss: 4.44240


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:42,  1.03it/s]

step: 151, loss: 4.46145


 35%|████████████████████████████▎                                                   | 200/566 [03:13<05:49,  1.05it/s]

step: 201, loss: 4.46540


 44%|███████████████████████████████████▎                                            | 250/566 [04:01<05:05,  1.03it/s]

step: 251, loss: 4.47706


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:49<04:17,  1.03it/s]

step: 301, loss: 4.47400


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:25,  1.05it/s]

step: 351, loss: 4.47291


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:25<02:38,  1.05it/s]

step: 401, loss: 4.47280


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:13<01:50,  1.05it/s]

step: 451, loss: 4.47370


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:02<01:03,  1.03it/s]

step: 501, loss: 4.47191


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:50<00:15,  1.05it/s]

step: 551, loss: 4.47239


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:05<00:00,  1.04it/s]


epoch: 65, loss: 4.47262
epoch 66


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.37505


  9%|███████▏                                                                         | 50/566 [00:48<08:11,  1.05it/s]

step: 51, loss: 4.45288


 18%|██████████████▏                                                                 | 100/566 [01:36<07:27,  1.04it/s]

step: 101, loss: 4.44473


 27%|█████████████████████▏                                                          | 150/566 [02:24<06:49,  1.01it/s]

step: 151, loss: 4.44860


 35%|████████████████████████████▎                                                   | 200/566 [03:12<05:48,  1.05it/s]

step: 201, loss: 4.44722


 44%|███████████████████████████████████▎                                            | 250/566 [04:00<05:01,  1.05it/s]

step: 251, loss: 4.45033


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:48<04:14,  1.05it/s]

step: 301, loss: 4.45195


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:37<03:27,  1.04it/s]

step: 351, loss: 4.46349


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:24<02:39,  1.04it/s]

step: 401, loss: 4.46979


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:12<01:50,  1.05it/s]

step: 451, loss: 4.47198


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:02<01:06,  1.00s/it]

step: 501, loss: 4.47497


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:51<00:15,  1.02it/s]

step: 551, loss: 4.47526


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:07<00:00,  1.03it/s]


epoch: 66, loss: 4.47365
epoch 67


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.54162


  9%|███████▏                                                                         | 50/566 [00:49<08:23,  1.03it/s]

step: 51, loss: 4.48476


 18%|██████████████▏                                                                 | 100/566 [01:37<07:31,  1.03it/s]

step: 101, loss: 4.47060


 27%|█████████████████████▏                                                          | 150/566 [02:26<06:43,  1.03it/s]

step: 151, loss: 4.46308


 35%|████████████████████████████▎                                                   | 200/566 [03:14<05:56,  1.03it/s]

step: 201, loss: 4.45516


 44%|███████████████████████████████████▎                                            | 250/566 [04:03<05:04,  1.04it/s]

step: 251, loss: 4.45191


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:52<04:20,  1.02it/s]

step: 301, loss: 4.44847


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:41<03:32,  1.02it/s]

step: 351, loss: 4.45368


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:29<02:41,  1.03it/s]

step: 401, loss: 4.45343


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:18<01:53,  1.03it/s]

step: 451, loss: 4.44966


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:07<01:04,  1.03it/s]

step: 501, loss: 4.45137


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:55<00:15,  1.04it/s]

step: 551, loss: 4.45048


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:11<00:00,  1.03it/s]


epoch: 67, loss: 4.45024
epoch 68


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.36603


  9%|███████▏                                                                         | 50/566 [00:48<08:21,  1.03it/s]

step: 51, loss: 4.44711


 18%|██████████████▏                                                                 | 100/566 [01:37<07:31,  1.03it/s]

step: 101, loss: 4.45673


 27%|█████████████████████▏                                                          | 150/566 [02:25<06:42,  1.03it/s]

step: 151, loss: 4.45503


 35%|████████████████████████████▎                                                   | 200/566 [03:14<05:54,  1.03it/s]

step: 201, loss: 4.45693


 44%|███████████████████████████████████▎                                            | 250/566 [04:02<05:05,  1.04it/s]

step: 251, loss: 4.44628


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:51<04:20,  1.02it/s]

step: 301, loss: 4.43943


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:39<03:30,  1.03it/s]

step: 351, loss: 4.44026


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:28<02:40,  1.04it/s]

step: 401, loss: 4.43901


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:16<01:52,  1.03it/s]

step: 451, loss: 4.43520


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:05<01:04,  1.02it/s]

step: 501, loss: 4.44061


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:53<00:15,  1.03it/s]

step: 551, loss: 4.43994


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:09<00:00,  1.03it/s]


epoch: 68, loss: 4.44163
epoch 69


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.25275


  9%|███████▏                                                                         | 50/566 [00:48<08:24,  1.02it/s]

step: 51, loss: 4.47370


 18%|██████████████▏                                                                 | 100/566 [01:37<07:31,  1.03it/s]

step: 101, loss: 4.45365


 27%|█████████████████████▏                                                          | 150/566 [02:25<06:48,  1.02it/s]

step: 151, loss: 4.44705


 35%|████████████████████████████▎                                                   | 200/566 [03:14<05:56,  1.03it/s]

step: 201, loss: 4.43378


 44%|███████████████████████████████████▎                                            | 250/566 [04:03<05:03,  1.04it/s]

step: 251, loss: 4.42503


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:51<04:16,  1.04it/s]

step: 301, loss: 4.42725


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:39<03:26,  1.04it/s]

step: 351, loss: 4.42904


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:28<02:43,  1.02it/s]

step: 401, loss: 4.42525


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:17<01:51,  1.04it/s]

step: 451, loss: 4.42406


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:05<01:03,  1.04it/s]

step: 501, loss: 4.42098


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:54<00:15,  1.04it/s]

step: 551, loss: 4.42436


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:09<00:00,  1.03it/s]


epoch: 69, loss: 4.42496
epoch 70


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.33760


  9%|███████▏                                                                         | 50/566 [00:48<08:23,  1.02it/s]

step: 51, loss: 4.40793


 18%|██████████████▏                                                                 | 100/566 [01:37<07:27,  1.04it/s]

step: 101, loss: 4.41918


 27%|█████████████████████▏                                                          | 150/566 [02:25<06:37,  1.05it/s]

step: 151, loss: 4.41224


 35%|████████████████████████████▎                                                   | 200/566 [03:14<05:55,  1.03it/s]

step: 201, loss: 4.41703


 44%|███████████████████████████████████▎                                            | 250/566 [04:02<05:11,  1.01it/s]

step: 251, loss: 4.41591


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:51<04:15,  1.04it/s]

step: 301, loss: 4.41246


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:39<03:29,  1.03it/s]

step: 351, loss: 4.41114


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:28<02:41,  1.03it/s]

step: 401, loss: 4.41244


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:17<01:52,  1.04it/s]

step: 451, loss: 4.41129


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:06<01:04,  1.03it/s]

step: 501, loss: 4.41018


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:54<00:15,  1.02it/s]

step: 551, loss: 4.40724


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:10<00:00,  1.03it/s]


epoch: 70, loss: 4.40837
epoch 71


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.17875


  9%|███████▏                                                                         | 50/566 [00:48<08:17,  1.04it/s]

step: 51, loss: 4.42280


 18%|██████████████▏                                                                 | 100/566 [01:37<07:37,  1.02it/s]

step: 101, loss: 4.42845


 27%|█████████████████████▏                                                          | 150/566 [02:25<06:40,  1.04it/s]

step: 151, loss: 4.41612


 35%|████████████████████████████▎                                                   | 200/566 [03:14<05:54,  1.03it/s]

step: 201, loss: 4.41090


 44%|███████████████████████████████████▎                                            | 250/566 [04:03<05:08,  1.02it/s]

step: 251, loss: 4.40498


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:52<04:18,  1.03it/s]

step: 301, loss: 4.40196


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:40<03:26,  1.04it/s]

step: 351, loss: 4.40509


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:29<02:40,  1.03it/s]

step: 401, loss: 4.40734


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:18<01:52,  1.03it/s]

step: 451, loss: 4.40560


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:06<01:03,  1.03it/s]

step: 501, loss: 4.40930


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:55<00:15,  1.04it/s]

step: 551, loss: 4.40867


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:11<00:00,  1.03it/s]


epoch: 71, loss: 4.40813
epoch 72


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.71534


  9%|███████▏                                                                         | 50/566 [00:48<08:21,  1.03it/s]

step: 51, loss: 4.44592


 18%|██████████████▏                                                                 | 100/566 [01:37<07:36,  1.02it/s]

step: 101, loss: 4.41902


 27%|█████████████████████▏                                                          | 150/566 [02:26<06:44,  1.03it/s]

step: 151, loss: 4.43080


 35%|████████████████████████████▎                                                   | 200/566 [03:14<05:57,  1.02it/s]

step: 201, loss: 4.41957


 44%|███████████████████████████████████▎                                            | 250/566 [04:03<05:07,  1.03it/s]

step: 251, loss: 4.42129


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:52<04:18,  1.03it/s]

step: 301, loss: 4.42273


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:40<03:28,  1.04it/s]

step: 351, loss: 4.42294


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:29<02:41,  1.03it/s]

step: 401, loss: 4.42121


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:17<01:52,  1.03it/s]

step: 451, loss: 4.41562


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:06<01:03,  1.03it/s]

step: 501, loss: 4.40942


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [08:55<00:15,  1.05it/s]

step: 551, loss: 4.41085


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:10<00:00,  1.03it/s]


epoch: 72, loss: 4.41169
epoch 73


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.33170


  9%|███████▏                                                                         | 50/566 [00:48<08:27,  1.02it/s]

step: 51, loss: 4.36985


 18%|██████████████▏                                                                 | 100/566 [01:38<07:52,  1.01s/it]

step: 101, loss: 4.38037


 27%|█████████████████████▏                                                          | 150/566 [02:28<06:59,  1.01s/it]

step: 151, loss: 4.39381


 35%|████████████████████████████▎                                                   | 200/566 [03:18<06:10,  1.01s/it]

step: 201, loss: 4.39678


 44%|███████████████████████████████████▎                                            | 250/566 [04:08<05:17,  1.00s/it]

step: 251, loss: 4.40708


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:58<04:25,  1.00it/s]

step: 301, loss: 4.41082


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:34,  1.01it/s]

step: 351, loss: 4.40574


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:38<02:47,  1.01s/it]

step: 401, loss: 4.40299


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:28<01:55,  1.01it/s]

step: 451, loss: 4.40288


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:18<01:05,  1.00it/s]

step: 501, loss: 4.39862


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:08<00:15,  1.01it/s]

step: 551, loss: 4.40111


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:24<00:00,  1.00it/s]


epoch: 73, loss: 4.40203
epoch 74


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.40963


  9%|███████▏                                                                         | 50/566 [00:49<08:33,  1.00it/s]

step: 51, loss: 4.40655


 18%|██████████████▏                                                                 | 100/566 [01:39<07:52,  1.01s/it]

step: 101, loss: 4.41068


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:51,  1.01it/s]

step: 151, loss: 4.42238


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:05,  1.00it/s]

step: 201, loss: 4.42316


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:13,  1.01it/s]

step: 251, loss: 4.41956


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:29,  1.01s/it]

step: 301, loss: 4.41849


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:33,  1.01it/s]

step: 351, loss: 4.41758


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:43,  1.01it/s]

step: 401, loss: 4.41909


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:55,  1.00it/s]

step: 451, loss: 4.41802


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.00it/s]

step: 501, loss: 4.41511


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.00s/it]

step: 551, loss: 4.41416


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 74, loss: 4.41348
epoch 75


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.54242


  9%|███████▏                                                                         | 50/566 [00:49<08:37,  1.00s/it]

step: 51, loss: 4.41928


 18%|██████████████▏                                                                 | 100/566 [01:39<07:46,  1.00s/it]

step: 101, loss: 4.42296


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:52,  1.01it/s]

step: 151, loss: 4.41300


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:09,  1.01s/it]

step: 201, loss: 4.41217


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:17,  1.00s/it]

step: 251, loss: 4.41873


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:25,  1.00it/s]

step: 301, loss: 4.41204


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:34,  1.01it/s]

step: 351, loss: 4.41824


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:46,  1.00s/it]

step: 401, loss: 4.41394


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:56,  1.00s/it]

step: 451, loss: 4.41062


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:19<01:06,  1.00s/it]

step: 501, loss: 4.40536


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:09<00:16,  1.00s/it]

step: 551, loss: 4.40277


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:25<00:00,  1.00it/s]


epoch: 75, loss: 4.40095
epoch 76


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.27025


  9%|███████▏                                                                         | 50/566 [00:50<08:41,  1.01s/it]

step: 51, loss: 4.38209


 18%|██████████████▏                                                                 | 100/566 [01:40<07:44,  1.00it/s]

step: 101, loss: 4.40634


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:58,  1.01s/it]

step: 151, loss: 4.40432


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:08,  1.01s/it]

step: 201, loss: 4.39929


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:15,  1.00it/s]

step: 251, loss: 4.40113


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:24,  1.01it/s]

step: 301, loss: 4.39155


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:35,  1.00it/s]

step: 351, loss: 4.38809


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:42,  1.02it/s]

step: 401, loss: 4.38688


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.00s/it]

step: 451, loss: 4.38751


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.00s/it]

step: 501, loss: 4.38602


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:15,  1.00it/s]

step: 551, loss: 4.38402


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 76, loss: 4.38333
epoch 77


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.51655


  9%|███████▏                                                                         | 50/566 [00:50<08:36,  1.00s/it]

step: 51, loss: 4.38549


 18%|██████████████▏                                                                 | 100/566 [01:40<07:47,  1.00s/it]

step: 101, loss: 4.38337


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:56,  1.00s/it]

step: 151, loss: 4.37691


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:07,  1.00s/it]

step: 201, loss: 4.37229


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:14,  1.01it/s]

step: 251, loss: 4.37402


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:24,  1.01it/s]

step: 301, loss: 4.37216


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:36,  1.00s/it]

step: 351, loss: 4.37158


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:44,  1.01it/s]

step: 401, loss: 4.36792


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.01s/it]

step: 451, loss: 4.36735


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.00s/it]

step: 501, loss: 4.37182


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:15,  1.00it/s]

step: 551, loss: 4.37287


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 77, loss: 4.37205
epoch 78


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.41343


  9%|███████▏                                                                         | 50/566 [00:50<08:38,  1.00s/it]

step: 51, loss: 4.38609


 18%|██████████████▏                                                                 | 100/566 [01:40<07:54,  1.02s/it]

step: 101, loss: 4.37010


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:53,  1.01it/s]

step: 151, loss: 4.37968


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:04,  1.00it/s]

step: 201, loss: 4.38001


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:15,  1.00it/s]

step: 251, loss: 4.37593


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:26,  1.00s/it]

step: 301, loss: 4.37244


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:34,  1.01it/s]

step: 351, loss: 4.37780


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:45,  1.00it/s]

step: 401, loss: 4.37578


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.01s/it]

step: 451, loss: 4.37762


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.00it/s]

step: 501, loss: 4.37543


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.00s/it]

step: 551, loss: 4.37900


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 78, loss: 4.37976
epoch 79


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.55813


  9%|███████▏                                                                         | 50/566 [00:49<08:36,  1.00s/it]

step: 51, loss: 4.38149


 18%|██████████████▏                                                                 | 100/566 [01:39<07:44,  1.00it/s]

step: 101, loss: 4.37709


 27%|█████████████████████▏                                                          | 150/566 [02:29<07:00,  1.01s/it]

step: 151, loss: 4.36718


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:05,  1.00it/s]

step: 201, loss: 4.37648


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:16,  1.00s/it]

step: 251, loss: 4.37277


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:23,  1.01it/s]

step: 301, loss: 4.36939


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:35,  1.00it/s]

step: 351, loss: 4.36687


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:45,  1.01it/s]

step: 401, loss: 4.36332


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:54,  1.01it/s]

step: 451, loss: 4.36406


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:19<01:05,  1.01it/s]

step: 501, loss: 4.36524


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:09<00:15,  1.01it/s]

step: 551, loss: 4.36560


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:25<00:00,  1.00it/s]


epoch: 79, loss: 4.36552
epoch 80


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.50300


  9%|███████▏                                                                         | 50/566 [00:49<08:33,  1.01it/s]

step: 51, loss: 4.38963


 18%|██████████████▏                                                                 | 100/566 [01:39<07:44,  1.00it/s]

step: 101, loss: 4.38758


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:55,  1.00it/s]

step: 151, loss: 4.37541


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:01,  1.01it/s]

step: 201, loss: 4.37479


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:14,  1.01it/s]

step: 251, loss: 4.36545


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:27,  1.01s/it]

step: 301, loss: 4.36901


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:34,  1.01it/s]

step: 351, loss: 4.37140


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:44,  1.01it/s]

step: 401, loss: 4.36575


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:55,  1.00it/s]

step: 451, loss: 4.36694


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:19<01:04,  1.02it/s]

step: 501, loss: 4.36561


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.01s/it]

step: 551, loss: 4.36348


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 80, loss: 4.36284
epoch 81


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.19346


  9%|███████▏                                                                         | 50/566 [00:50<08:36,  1.00s/it]

step: 51, loss: 4.38150


 18%|██████████████▏                                                                 | 100/566 [01:39<07:41,  1.01it/s]

step: 101, loss: 4.35885


 27%|█████████████████████▏                                                          | 150/566 [02:29<07:18,  1.05s/it]

step: 151, loss: 4.37438


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:03,  1.01it/s]

step: 201, loss: 4.37092


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:19,  1.01s/it]

step: 251, loss: 4.36938


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:25,  1.00it/s]

step: 301, loss: 4.36891


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:37,  1.01s/it]

step: 351, loss: 4.37123


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:46,  1.00s/it]

step: 401, loss: 4.37089


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:55,  1.00it/s]

step: 451, loss: 4.36738


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:19<01:06,  1.01s/it]

step: 501, loss: 4.36682


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:09<00:16,  1.02s/it]

step: 551, loss: 4.36389


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:25<00:00,  1.00it/s]


epoch: 81, loss: 4.36178
epoch 82


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.24521


  9%|███████▏                                                                         | 50/566 [00:49<08:34,  1.00it/s]

step: 51, loss: 4.36880


 18%|██████████████▏                                                                 | 100/566 [01:39<07:47,  1.00s/it]

step: 101, loss: 4.35866


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:56,  1.00s/it]

step: 151, loss: 4.36416


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:05,  1.00it/s]

step: 201, loss: 4.36458


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:14,  1.00it/s]

step: 251, loss: 4.37031


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:26,  1.00s/it]

step: 301, loss: 4.36566


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:34,  1.01it/s]

step: 351, loss: 4.36738


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:47,  1.01s/it]

step: 401, loss: 4.36711


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:54,  1.01it/s]

step: 451, loss: 4.36539


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:19<01:05,  1.00it/s]

step: 501, loss: 4.36614


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:09<00:16,  1.01s/it]

step: 551, loss: 4.36847


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:25<00:00,  1.00it/s]


epoch: 82, loss: 4.36742
epoch 83


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.34314


  9%|███████▏                                                                         | 50/566 [00:50<08:37,  1.00s/it]

step: 51, loss: 4.34631


 18%|██████████████▏                                                                 | 100/566 [01:40<07:49,  1.01s/it]

step: 101, loss: 4.36043


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:57,  1.00s/it]

step: 151, loss: 4.35865


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:04,  1.00it/s]

step: 201, loss: 4.36937


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:20,  1.02s/it]

step: 251, loss: 4.36669


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:29,  1.01s/it]

step: 301, loss: 4.36042


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:36,  1.00s/it]

step: 351, loss: 4.35970


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:46,  1.00s/it]

step: 401, loss: 4.36043


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:55,  1.00it/s]

step: 451, loss: 4.36081


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.00it/s]

step: 501, loss: 4.36821


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.00s/it]

step: 551, loss: 4.36654


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 83, loss: 4.36719
epoch 84


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.35805


  9%|███████▏                                                                         | 50/566 [00:49<08:33,  1.01it/s]

step: 51, loss: 4.35220


 18%|██████████████▏                                                                 | 100/566 [01:39<07:45,  1.00it/s]

step: 101, loss: 4.35544


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:58,  1.01s/it]

step: 151, loss: 4.34946


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:03,  1.01it/s]

step: 201, loss: 4.34569


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:15,  1.00it/s]

step: 251, loss: 4.34219


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:30,  1.02s/it]

step: 301, loss: 4.34213


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:34,  1.01it/s]

step: 351, loss: 4.34346


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:46,  1.00s/it]

step: 401, loss: 4.34235


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.01s/it]

step: 451, loss: 4.33780


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.00it/s]

step: 501, loss: 4.33738


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.00s/it]

step: 551, loss: 4.34024


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 84, loss: 4.33990
epoch 85


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.24138


  9%|███████▏                                                                         | 50/566 [00:50<08:42,  1.01s/it]

step: 51, loss: 4.29344


 18%|██████████████▏                                                                 | 100/566 [01:40<07:49,  1.01s/it]

step: 101, loss: 4.32145


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:59,  1.01s/it]

step: 151, loss: 4.32635


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:03,  1.01it/s]

step: 201, loss: 4.31743


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:13,  1.01it/s]

step: 251, loss: 4.31950


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:23,  1.01it/s]

step: 301, loss: 4.31887


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:36,  1.00s/it]

step: 351, loss: 4.32129


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:44,  1.01it/s]

step: 401, loss: 4.32322


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:55,  1.01it/s]

step: 451, loss: 4.32918


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.00s/it]

step: 501, loss: 4.33405


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.00s/it]

step: 551, loss: 4.33540


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 85, loss: 4.33696
epoch 86


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.25544


  9%|███████▏                                                                         | 50/566 [00:49<08:40,  1.01s/it]

step: 51, loss: 4.33907


 18%|██████████████▏                                                                 | 100/566 [01:39<07:44,  1.00it/s]

step: 101, loss: 4.35867


 27%|█████████████████████▏                                                          | 150/566 [02:30<07:05,  1.02s/it]

step: 151, loss: 4.36078


 35%|████████████████████████████▎                                                   | 200/566 [03:21<06:13,  1.02s/it]

step: 201, loss: 4.36505


 44%|███████████████████████████████████▎                                            | 250/566 [04:12<05:16,  1.00s/it]

step: 251, loss: 4.36755


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:02<04:28,  1.01s/it]

step: 301, loss: 4.35928


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:54<03:33,  1.01it/s]

step: 351, loss: 4.35632


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:44<02:46,  1.00s/it]

step: 401, loss: 4.35121


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:34<01:56,  1.00s/it]

step: 451, loss: 4.35173


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:24<01:06,  1.01s/it]

step: 501, loss: 4.35028


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:13<00:15,  1.01it/s]

step: 551, loss: 4.34803


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:29<00:00,  1.01s/it]


epoch: 86, loss: 4.34587
epoch 87


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.34413


  9%|███████▏                                                                         | 50/566 [00:49<08:39,  1.01s/it]

step: 51, loss: 4.37375


 18%|██████████████▏                                                                 | 100/566 [01:39<07:50,  1.01s/it]

step: 101, loss: 4.36454


 27%|█████████████████████▏                                                          | 150/566 [02:29<07:00,  1.01s/it]

step: 151, loss: 4.34867


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:06,  1.00s/it]

step: 201, loss: 4.35826


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:17,  1.01s/it]

step: 251, loss: 4.35671


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:26,  1.00s/it]

step: 301, loss: 4.35543


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:36,  1.00s/it]

step: 351, loss: 4.34960


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:49,  1.02s/it]

step: 401, loss: 4.34975


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.01s/it]

step: 451, loss: 4.34747


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.01s/it]

step: 501, loss: 4.34944


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:11<00:15,  1.00it/s]

step: 551, loss: 4.34891


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 87, loss: 4.34862
epoch 88


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.36453


  9%|███████▏                                                                         | 50/566 [00:50<08:37,  1.00s/it]

step: 51, loss: 4.33077


 18%|██████████████▏                                                                 | 100/566 [01:39<07:58,  1.03s/it]

step: 101, loss: 4.32713


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:58,  1.01s/it]

step: 151, loss: 4.32316


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:02,  1.01it/s]

step: 201, loss: 4.33088


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:15,  1.00it/s]

step: 251, loss: 4.32218


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:28,  1.01s/it]

step: 301, loss: 4.32488


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:39,  1.02s/it]

step: 351, loss: 4.32527


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:47,  1.01s/it]

step: 401, loss: 4.32456


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.01s/it]

step: 451, loss: 4.32701


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.01it/s]

step: 501, loss: 4.32858


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.01s/it]

step: 551, loss: 4.32958


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 88, loss: 4.33196
epoch 89


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.30969


  9%|███████▏                                                                         | 50/566 [00:50<08:34,  1.00it/s]

step: 51, loss: 4.33886


 18%|██████████████▏                                                                 | 100/566 [01:40<07:49,  1.01s/it]

step: 101, loss: 4.34840


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:56,  1.00s/it]

step: 151, loss: 4.34640


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:07,  1.00s/it]

step: 201, loss: 4.34794


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:16,  1.00s/it]

step: 251, loss: 4.34344


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:27,  1.00s/it]

step: 301, loss: 4.33802


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:32,  1.02it/s]

step: 351, loss: 4.33707


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:47,  1.01s/it]

step: 401, loss: 4.34073


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:55,  1.00it/s]

step: 451, loss: 4.33933


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.00s/it]

step: 501, loss: 4.33881


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:15,  1.00it/s]

step: 551, loss: 4.33755


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 89, loss: 4.33778
epoch 90


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.07980


  9%|███████▏                                                                         | 50/566 [00:49<08:33,  1.01it/s]

step: 51, loss: 4.35712


 18%|██████████████▏                                                                 | 100/566 [01:39<07:42,  1.01it/s]

step: 101, loss: 4.35120


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:57,  1.00s/it]

step: 151, loss: 4.34771


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:06,  1.00s/it]

step: 201, loss: 4.34007


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:19,  1.01s/it]

step: 251, loss: 4.34336


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:24,  1.01it/s]

step: 301, loss: 4.34673


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:36,  1.00s/it]

step: 351, loss: 4.34241


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:45,  1.00it/s]

step: 401, loss: 4.34100


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:55,  1.00it/s]

step: 451, loss: 4.33914


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.01s/it]

step: 501, loss: 4.33982


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.01s/it]

step: 551, loss: 4.33616


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 90, loss: 4.33659
epoch 91


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.28299


  9%|███████▏                                                                         | 50/566 [00:49<08:37,  1.00s/it]

step: 51, loss: 4.37650


 18%|██████████████▏                                                                 | 100/566 [01:39<07:51,  1.01s/it]

step: 101, loss: 4.36406


 27%|█████████████████████▏                                                          | 150/566 [02:30<07:00,  1.01s/it]

step: 151, loss: 4.36016


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:03,  1.01it/s]

step: 201, loss: 4.35566


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:19,  1.01s/it]

step: 251, loss: 4.34658


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:26,  1.00s/it]

step: 301, loss: 4.33729


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:35,  1.00it/s]

step: 351, loss: 4.33710


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:45,  1.00it/s]

step: 401, loss: 4.33628


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:56,  1.00s/it]

step: 451, loss: 4.33559


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:19<01:06,  1.00s/it]

step: 501, loss: 4.33373


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:09<00:15,  1.00it/s]

step: 551, loss: 4.33086


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:25<00:00,  1.00it/s]


epoch: 91, loss: 4.32825
epoch 92


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.14596


  9%|███████▏                                                                         | 50/566 [00:49<08:35,  1.00it/s]

step: 51, loss: 4.29177


 18%|██████████████▏                                                                 | 100/566 [01:39<07:48,  1.00s/it]

step: 101, loss: 4.29515


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:55,  1.00it/s]

step: 151, loss: 4.30540


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:03,  1.01it/s]

step: 201, loss: 4.30394


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:16,  1.00s/it]

step: 251, loss: 4.30696


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:28,  1.01s/it]

step: 301, loss: 4.31169


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:36,  1.00s/it]

step: 351, loss: 4.31706


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:45,  1.00it/s]

step: 401, loss: 4.31145


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.00s/it]

step: 451, loss: 4.31035


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.00it/s]

step: 501, loss: 4.31233


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:15,  1.00it/s]

step: 551, loss: 4.31203


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 92, loss: 4.31258
epoch 93


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.06951


  9%|███████▏                                                                         | 50/566 [00:49<08:37,  1.00s/it]

step: 51, loss: 4.34628


 18%|██████████████▏                                                                 | 100/566 [01:39<07:46,  1.00s/it]

step: 101, loss: 4.33031


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:55,  1.00it/s]

step: 151, loss: 4.33532


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:02,  1.01it/s]

step: 201, loss: 4.32801


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:16,  1.00s/it]

step: 251, loss: 4.32394


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:29,  1.01s/it]

step: 301, loss: 4.32749


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:37,  1.01s/it]

step: 351, loss: 4.32658


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:45,  1.00it/s]

step: 401, loss: 4.32266


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:57,  1.01s/it]

step: 451, loss: 4.32602


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.00it/s]

step: 501, loss: 4.32508


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.00s/it]

step: 551, loss: 4.32540


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 93, loss: 4.32562
epoch 94


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.31840


  9%|███████▏                                                                         | 50/566 [00:50<08:39,  1.01s/it]

step: 51, loss: 4.32728


 18%|██████████████▏                                                                 | 100/566 [01:40<07:47,  1.00s/it]

step: 101, loss: 4.31750


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:57,  1.00s/it]

step: 151, loss: 4.32810


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:07,  1.01s/it]

step: 201, loss: 4.31992


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:17,  1.01s/it]

step: 251, loss: 4.31865


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:28,  1.01s/it]

step: 301, loss: 4.32218


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:35,  1.00it/s]

step: 351, loss: 4.32171


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:47,  1.01s/it]

step: 401, loss: 4.32754


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.01s/it]

step: 451, loss: 4.32667


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.01s/it]

step: 501, loss: 4.32598


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.01s/it]

step: 551, loss: 4.32179


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 94, loss: 4.32333
epoch 95


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.17378


  9%|███████▏                                                                         | 50/566 [00:50<08:42,  1.01s/it]

step: 51, loss: 4.27183


 18%|██████████████▏                                                                 | 100/566 [01:40<07:37,  1.02it/s]

step: 101, loss: 4.28715


 27%|█████████████████████▏                                                          | 150/566 [02:30<06:55,  1.00it/s]

step: 151, loss: 4.29711


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:06,  1.00s/it]

step: 201, loss: 4.29775


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:17,  1.00s/it]

step: 251, loss: 4.29326


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:27,  1.01s/it]

step: 301, loss: 4.29393


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:35,  1.00it/s]

step: 351, loss: 4.29146


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:46,  1.00s/it]

step: 401, loss: 4.28749


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:55,  1.00it/s]

step: 451, loss: 4.28865


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:05,  1.01it/s]

step: 501, loss: 4.29397


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.01s/it]

step: 551, loss: 4.29501


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 95, loss: 4.29537
epoch 96


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.40780


  9%|███████▏                                                                         | 50/566 [00:50<08:39,  1.01s/it]

step: 51, loss: 4.27915


 18%|██████████████▏                                                                 | 100/566 [01:40<07:45,  1.00it/s]

step: 101, loss: 4.28910


 27%|█████████████████████▏                                                          | 150/566 [02:30<07:01,  1.01s/it]

step: 151, loss: 4.29543


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:02,  1.01it/s]

step: 201, loss: 4.29814


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:17,  1.00s/it]

step: 251, loss: 4.30457


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:00<04:28,  1.01s/it]

step: 301, loss: 4.30216


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:50<03:33,  1.01it/s]

step: 351, loss: 4.30236


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:40<02:46,  1.00s/it]

step: 401, loss: 4.30365


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:30<01:56,  1.00s/it]

step: 451, loss: 4.30195


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:21<01:06,  1.01s/it]

step: 501, loss: 4.30273


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:16,  1.00s/it]

step: 551, loss: 4.30223


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:27<00:00,  1.00s/it]


epoch: 96, loss: 4.30182
epoch 97


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.30353


  9%|███████▏                                                                         | 50/566 [00:50<08:42,  1.01s/it]

step: 51, loss: 4.30885


 18%|██████████████▏                                                                 | 100/566 [01:40<07:44,  1.00it/s]

step: 101, loss: 4.31278


 27%|█████████████████████▏                                                          | 150/566 [02:30<07:01,  1.01s/it]

step: 151, loss: 4.29983


 35%|████████████████████████████▎                                                   | 200/566 [03:20<06:05,  1.00it/s]

step: 201, loss: 4.30658


 44%|███████████████████████████████████▎                                            | 250/566 [04:10<05:18,  1.01s/it]

step: 251, loss: 4.31032


 53%|██████████████████████████████████████████▍                                     | 300/566 [05:01<04:24,  1.01it/s]

step: 301, loss: 4.30766


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:51<03:36,  1.00s/it]

step: 351, loss: 4.30675


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:41<02:47,  1.01s/it]

step: 401, loss: 4.30501


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:31<01:55,  1.01it/s]

step: 451, loss: 4.30670


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:21<01:05,  1.00it/s]

step: 501, loss: 4.30508


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:11<00:16,  1.01s/it]

step: 551, loss: 4.30245


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:27<00:00,  1.00s/it]


epoch: 97, loss: 4.30183
epoch 98


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.30379


  9%|███████▏                                                                         | 50/566 [00:49<08:35,  1.00it/s]

step: 51, loss: 4.29810


 18%|██████████████▏                                                                 | 100/566 [01:39<07:43,  1.00it/s]

step: 101, loss: 4.29922


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:57,  1.00s/it]

step: 151, loss: 4.28648


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:06,  1.00s/it]

step: 201, loss: 4.29240


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:18,  1.01s/it]

step: 251, loss: 4.29341


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:29,  1.01s/it]

step: 301, loss: 4.29121


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:35,  1.00it/s]

step: 351, loss: 4.29859


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:45,  1.00it/s]

step: 401, loss: 4.30122


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:58,  1.02s/it]

step: 451, loss: 4.29784


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:20<01:06,  1.01s/it]

step: 501, loss: 4.30276


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:10<00:15,  1.01it/s]

step: 551, loss: 4.30125


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:26<00:00,  1.00s/it]


epoch: 98, loss: 4.30187
epoch 99


  0%|                                                                                          | 0/566 [00:00<?, ?it/s]

step: 01, loss: 4.21497


  9%|███████▏                                                                         | 50/566 [00:49<08:37,  1.00s/it]

step: 51, loss: 4.32097


 18%|██████████████▏                                                                 | 100/566 [01:39<07:45,  1.00it/s]

step: 101, loss: 4.31892


 27%|█████████████████████▏                                                          | 150/566 [02:29<06:55,  1.00it/s]

step: 151, loss: 4.31748


 35%|████████████████████████████▎                                                   | 200/566 [03:19<06:07,  1.00s/it]

step: 201, loss: 4.31714


 44%|███████████████████████████████████▎                                            | 250/566 [04:09<05:16,  1.00s/it]

step: 251, loss: 4.31756


 53%|██████████████████████████████████████████▍                                     | 300/566 [04:59<04:27,  1.00s/it]

step: 301, loss: 4.31785


 62%|█████████████████████████████████████████████████▍                              | 350/566 [05:49<03:35,  1.00it/s]

step: 351, loss: 4.31217


 71%|████████████████████████████████████████████████████████▌                       | 400/566 [06:39<02:46,  1.01s/it]

step: 401, loss: 4.30892


 80%|███████████████████████████████████████████████████████████████▌                | 450/566 [07:29<01:56,  1.00s/it]

step: 451, loss: 4.30943


 88%|██████████████████████████████████████████████████████████████████████▋         | 500/566 [08:19<01:05,  1.01it/s]

step: 501, loss: 4.30689


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 550/566 [09:09<00:15,  1.01it/s]

step: 551, loss: 4.30353


100%|████████████████████████████████████████████████████████████████████████████████| 566/566 [09:25<00:00,  1.00it/s]


epoch: 99, loss: 4.30216
