In [6]:
import sys
import torch
import os

In [7]:
os.chdir("..")

In [8]:
!ls

README.md	  jupyter.o7285616  jupyter.o7437985	src
checkpoints	  jupyter.o7288049  logs		training
data		  jupyter.o7301470  notebooks		translations
jupyter.o7250076  jupyter.o7315071  out.txt		venv
jupyter.o7272725  jupyter.o7333208  prose_translations	vt-tr.o7146959
jupyter.o7277176  jupyter.o7341731  requirements.txt	vt-tr.o7209762
jupyter.o7280433  jupyter.o7343014  runs		vt-tr.o7242335
jupyter.o7284871  jupyter.o7346884  scripts


In [9]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

In [10]:
from src.data_utils.batch import rebatch
from src.data_utils.data import get_training_iterators
from src.model.loss_optim import MultiGPULossCompute, SimpleLossCompute
from src.model.model import make_model, NoamOpt, LabelSmoothing, translate_sentence
from src.utils.utils import get_tokenizer

In [11]:
tok = get_tokenizer("tr")

In [12]:
train_iter, valid_iter, test_iter, train_idx, dev_idx, test_idx = get_training_iterators("tur", batch_size=3000)



In [13]:
# mini dev set
with open("data/tr/tur.dev.tgt", encoding="utf-8") as infile:
    toystrings = [x.strip() for x in infile.readlines()[:20]]

In [14]:
toyset = [torch.LongTensor([1] + tok.Encode(x) + [2])  for x in toystrings]
toyset = torch.nn.utils.rnn.pad_sequence(sequences=toyset, padding_value=3)

In [15]:
toyset

tensor([[    1,     1,     1,  ...,     1,     1,     1],
        [ 5605,     8,  1330,  ...,     8,   771,  2804],
        [27861,  2475, 10284,  ...,  3987,  5057, 11694],
        ...,
        [    3,     3,     3,  ...,     3,     3,     3],
        [    3,     3,     3,  ...,     3,     3,     3],
        [    3,     3,     3,  ...,     3,     3,     3]])

Two critics:
- Input related to output or not
- Classifier into poetry, prose, generated, scrambled poetry

One word/token selector:
- Choose tokens from input sequence to use for topic
- 

In [16]:
from torchtext import data
import torchtext as tt
from src.data_utils.batch import MyIterator
from src.model.model import batch_size_val

def each_line(fname):
    c = 0
    lines = []
    with open(fname, "r", encoding="utf-8") as infile:
        for line in infile:
            if line.count(" ") > 200 or line.count(" ") < 10:
                continue
            lines.append(line.strip())
            c += 1
            if c >= 2000000: 
                break
    return lines

def make_iter(lines, tokenizer, batch_size=256):
    
    def tok(seq):
        return tokenizer.EncodeAsIds(seq)

    field = data.Field(tokenize=tok, init_token=1, eos_token=2, pad_token=3, use_vocab=False)
    #ds = data.TabularDataset(fpath, "tsv", [("src", field)], skip_header=True)

    examples = [tt.data.Example.fromdict({"src": x}, {"src": ("src", field)}) for x in lines]
    ds = tt.data.Dataset(examples, {"src": field})
    iter = MyIterator(ds, batch_size=batch_size, device="cpu",
                             repeat=False, sort_key=lambda x: len(x.src),
                             batch_size_fn=batch_size_val, train=False, sort=True)

    return iter




In [17]:
prose_iter = make_iter(each_line("data/tr/prose/prose_gan.txt"), tok, batch_size=3000)




In [18]:
import random

to_scramble = each_line("data/tr/tur.train.tgt")
scrambled = []
for poem in to_scramble:
    new_poem = poem.split("¬")
    random.shuffle(new_poem)
    scrambled.append("¬".join(new_poem))

In [19]:
scrambled_iter = make_iter(scrambled, tok, batch_size=3000)

In [20]:
import copy
from src.model.model import MultiHeadedAttention, PositionwiseFeedForward, \
                    PositionalEncoding, Encoder, EncoderLayer, Generator, Embeddings
import torch.nn as nn

class Critic(nn.Module):

    def __init__(self, encoder, src_embed, generator):
        super(Critic, self).__init__()
        self.encoder = encoder
        self.src_embed = src_embed
        self.generator = generator
        self.steps = 0

        
    def forward(self, x, mask):
        """Pass the input (and mask) through each layer in turn."""
        x = self.src_embed(x)
        for layer in self.encoder.layers:
            x = layer(x, mask)
        return self.encoder.norm(x)    


def make_critic(src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, h=8, dropout=0.1):
    """Helper: Construct a model from hyper-parameters."""
    c = copy.deepcopy
    attn = MultiHeadedAttention(h, d_model)
    ff = PositionwiseFeedForward(d_model, d_ff, dropout)
    position = PositionalEncoding(d_model, dropout)
    generator = Generator(d_model, tgt_vocab)
    embed = nn.Sequential(Embeddings(d_model, src_vocab), c(position))
    encoder = Encoder(EncoderLayer(d_model, c(attn), c(ff), dropout), N)
    critic = Critic(encoder, embed, generator)
    
    # This was important from their code.
    # Initialize parameters with Glorot / fan_avg.
    for p in critic.parameters():
        if p.dim() > 1:
            nn.init.xavier_uniform(p)

    return critic


In [21]:
ntokens = 32000
enc_dec = make_model(ntokens, ntokens, N=6).to(device)
token_selector = make_critic(ntokens, 2, N=2).to(device)
style_critic = make_critic(ntokens, 4, N=2).to(device)
relevance_critic = make_critic(ntokens + 1, 1, N=2).to(device)

  nn.init.xavier_uniform(p)


In [22]:
from torch.autograd import Variable
import numpy as np
def subsequent_mask(size):
    "Mask out subsequent positions."
    attn_shape = (1, size, size)
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')
    return torch.from_numpy(subsequent_mask) == 0


def prep_tensors( src, trg, pad=3):
    src_mask = (src != pad).unsqueeze(-2)
    trg_in = trg[:, :-1]
    trg_y = trg[:, 1:]
    trg_mask = make_std_mask(trg_in, pad)
    return src, trg_y, src_mask, trg_mask

def make_std_mask(tgt, pad):
    """Create a mask to hide padding and future words."""
    tgt_mask = (tgt != pad).unsqueeze(-2)
    tgt_mask = tgt_mask & Variable(
        subsequent_mask(tgt.size(-1)).type_as(tgt_mask.data))
    return tgt_mask


In [23]:
def get_dae_input(tgt, token_selector):
    select_prob_embeds = token_selector.forward(tgt.to(device), 
                                         (tgt != 3).unsqueeze(-2).to(device))
    select_prob = token_selector.generator(select_prob_embeds)
    select_indices = torch.max(select_prob, dim=2).indices.type(torch.ByteTensor)
    dae_list = []
    for ind, row in zip(select_indices, tgt):
        dae_list.append(torch.masked_select(row, ind)[:15])
    dae_input = torch.nn.utils.rnn.pad_sequence(dae_list, batch_first=False, padding_value=3)
    return dae_input

In [24]:
rebatched = (rebatch(3, b) for b in train_iter)

In [25]:
torch


<module 'torch' from '/auto/praha1/memduh/versetorch/venv/lib/python3.6/site-packages/torch/__init__.py'>

In [26]:
from src.model.adafactor import Adafactor

#enc_dec_opt = NoamOpt(enc_dec.src_embed[0].d_model, 1, 2000,
#                        torch.optim.Adam(enc_dec.parameters(), lr=0, betas=(0.9, 0.98), eps=1e-9))
enc_dec_opt = Adafactor(enc_dec.parameters())

style_criterion = nn.BCELoss()
relevance_criterion = nn.BCELoss()

token_optim = Adafactor(token_selector.parameters())
style_optim = Adafactor(style_critic.parameters())
rel_optim = Adafactor(relevance_critic.parameters())

In [27]:
relevance_criterion = torch.nn.BCEWithLogitsLoss()

In [28]:
def get_relevance_input(dae_input, tgt):
    mid_point = torch.ones((tgt.shape[0], 1), dtype=torch.long) * ntokens
    return torch.cat((dae_input, mid_point.to(device), tgt), dim=1)


In [29]:
accumulation_steps = 8

In [30]:
# get validation iterator


def validate_batch(model, src, max_len=256, start_symbol=1, end_symbol=2):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    src_mask = (src != 3).unsqueeze(-2)
    memory = model.encode(src.to(device), src_mask.to(device))
    ys = torch.ones(src.shape[0], 1).fill_(start_symbol).type_as(src.data).to(device)
    finished = torch.zeros((src.shape[0], 1))
    for i in range(max_len-1):
        out = model.decode(memory, src_mask,
                           Variable(ys).to(device),
                           Variable(subsequent_mask(ys.size(1)).type_as(src.data)).to(device))
        prob = model.generator(out[:, -1])
        _, next_word = torch.max(prob, dim = 1)
        # next_word = next_word.data_utils[0]
        unsqueezed = next_word.unsqueeze(1)
        for c, token in enumerate(unsqueezed):
            if token == end_symbol:
                finished[c] = 1
        if sum(finished) >= src.shape[0]:
            break
        ys = torch.cat([ys, unsqueezed], dim=1)
                        # torch.ones(src.shape[0], 1).type_as(src.data_utils).fill_(next_word).to(device)], dim=1)
    return ys


def validate(model, selector, iterator):
    pass

In [31]:

label_smoothing = LabelSmoothing(size=32000, padding_idx=3, smoothing=0.1)



In [32]:
[tok.Decode(x.tolist()) for x in toyset.transpose(0, 1)]

['ayrılığın sınırlı ışığında¬ışıldar gözler¬dar gelir dünya¬sıkıcı karanlıktan¬çıkış başlar¬sevgi akla gelince¬ışık küçücüktür¬sevgi karanlığında¬sonsuzluğu hatırlatır insana¬ışık kandırıcıdır belki¬ayrılığı sevenler için¬orada yuvarlak bir masa¬üç beş sigara biraz da çay¬sevgi karanlığında herşey¬coşkuyla¬zaten aranan da o değil mi¬sınırlı değilmiş hiçbir şey',
 'Şair sözün gösterer,¬Gözel gözün gösterer.¬Payız özün gösterer,¬Saralmış yarpağıyla.¬Uzaqda quzey durar,¬Şa ⁇ ta qelbi hey vurar.¬Önümde muzey qurar,¬Heyat çılpaqlığıyla.¬Yel eser deyinerek,¬ ⁇ um-paltar geyinerek,¬Fe ⁇ r eder öyünərek¬Insan torpaqlığıyla.',
 'Ey yakarış¬Ey uyanış¬Ey sevgi¬Ey aşk¬Ey arayış¬Ey tükeniş¬Ey özleyiş¬Uyanın artık¬O derin uykulardan¬Ve devam edin¬Katıksızca aramaya¬Aşkı,sevdayı,¬Yakarışı,uyanışı¬Arayışı,tükenişi¬Özleyişi,özlemi',
 'ben ölsemde aşkım cümle alemde¬kulakdan kulaga yayılır belki¬adımız gecer her bir kalemde¬gönül nikahımız kıyılır belki¬sevdik sevildik ölürcesine¬başını sonunu bilircesi

In [33]:
import time


In [34]:
soft = torch.nn.Softmax(dim=1)
start = time.time()
all_tokens = 0
for c, (poetry_batch, prose_batch, scrambled_batch) in enumerate(zip(rebatched, prose_iter, scrambled_iter)):
    all_tokens += poetry_batch.ntokens
    tgt, tgt_mask = poetry_batch.trg.to(device), poetry_batch.trg_mask.to(device)
    # classify tokens, get the first 15 tokens selected.
    dae_input = get_dae_input(poetry_batch.trg, token_selector).transpose(0,1).to(device)
    # create src and src mask from selected tokens
    dae_input_mask = (dae_input != 3).unsqueeze(-2)
    
    # get output of poetry generator
    output_embeds = enc_dec.forward(dae_input, tgt, dae_input_mask, tgt_mask)
    output = enc_dec.generator(output_embeds)
    reconstruction_loss = label_smoothing(output.contiguous().view(-1, output.size(-1)),
                             poetry_batch.trg_y.to(device).contiguous().view(-1)) / poetry_batch.ntokens
    reconstruction_loss.backward()
    
    if c % accumulation_steps == 0 and c > 0:
        token_optim.step() # I don't want GAN loss touching this
        enc_dec_opt.step()
        enc_dec_opt.zero_grad()
        token_optim.zero_grad()

    
    if c % 100  == 0:
        print("Reconstruction loss:", reconstruction_loss)
        print(all_tokens / (time.time() - start), "tokens processed per second.")
        #print(torch.mean(gen_scores[:, 1]))
        if c% 500 == 0:
            val_src = get_dae_input(toyset.transpose(0, 1), token_selector).transpose(0,1).to(device)
            validated = validate_batch(enc_dec, val_src)
            print([tok.Decode(x.tolist()) for x in validated])
        

Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.


  


Reconstruction loss: tensor(9.0428, device='cuda:0', grad_fn=<DivBackward0>)
tensor(391.9535) tokens processed per second.
['omzuna serpiştirVekilBeyoğluSaçlarındaDolmuş boyunaAnılarım omzunaCanımsın omzuna omzunaYarına maşaYarınaYarına koparılmışelinde beynimdeYarınaYarına kucaklar solda omzunalüğeYarına omzuna omzuna omzunaSızı omzuna kefereÖzünYarına çektirgıt beynimde eksilmez omzunaYarına artırırYarına mat yasaklıYarınaculuk çektirYarınağımızda yasaklı ....¬ omzuna omzunaCanımsınCanımsıngıtSızı omzuna omzunaÖzünCanımsınCanımsınCanımsın burdanSızı yayıCanımsın düşmanCanımsınYarınaCanımsın eksilmez omzuna önünü omzuna artırır omzuna omzuna omzunaYarına aklımda ....¬gıtCanımsınMalYarınaelindegıt omzuna boyuna kucaklar eksilmezYarına omzunalüğeəyəMalSızıYarınaGökyüzüSızı omzuna düşmanelinde ....¬Mal ....¬ eksilmez dikkatliYarınaSızılüğe omzuna bulmuşumCanımsın solda eksilmezYarınaSızılüğe malik kucaklar omzunaMal omzuna kucaklarlüğeMalYarına dikkatli çektir omzunaSızıYarına omzunaYarı

Reconstruction loss: tensor(8.2939, device='cuda:0', grad_fn=<DivBackward0>)
tensor(5812.0264) tokens processed per second.
Reconstruction loss: tensor(7.6751, device='cuda:0', grad_fn=<DivBackward0>)
tensor(7229.4761) tokens processed per second.
Reconstruction loss: tensor(7.4471, device='cuda:0', grad_fn=<DivBackward0>)
tensor(7882.6802) tokens processed per second.
Reconstruction loss: tensor(7.0039, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8236.6963) tokens processed per second.
Reconstruction loss: tensor(6.9953, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8472.5820) tokens processed per second.
['¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬', '¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬

Reconstruction loss: tensor(6.7420, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8631.1680) tokens processed per second.
Reconstruction loss: tensor(6.8023, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8695.9424) tokens processed per second.
Reconstruction loss: tensor(6.6656, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8757.8271) tokens processed per second.
Reconstruction loss: tensor(6.8302, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8809.2568) tokens processed per second.
Reconstruction loss: tensor(6.7222, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8848.0889) tokens processed per second.
['Bir bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bi

Reconstruction loss: tensor(6.7762, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8686.5742) tokens processed per second.
Reconstruction loss: tensor(6.5940, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.0234) tokens processed per second.
Reconstruction loss: tensor(6.8346, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8766.6240) tokens processed per second.
Reconstruction loss: tensor(6.7170, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8805.0947) tokens processed per second.
Reconstruction loss: tensor(6.6334, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8831.5977) tokens processed per second.
['Bir bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bi

Reconstruction loss: tensor(6.8464, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8691.0996) tokens processed per second.
Reconstruction loss: tensor(6.6839, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.0537) tokens processed per second.
Reconstruction loss: tensor(6.7022, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8755.7676) tokens processed per second.
Reconstruction loss: tensor(6.5381, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8786.3311) tokens processed per second.
Reconstruction loss: tensor(6.6243, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8812.6514) tokens processed per second.
['Bir bir bir bir gün¬Bir bir bir gün¬Bir gün¬Bir bir gün¬Bir¬Bir¬Bir¬Bir bir biri¬Bir gün¬Bir¬Bir¬Bir¬Bir bir bir¬Bir¬Bir bir¬Bir bir bir¬Biri¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Biri¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir¬Bir

Reconstruction loss: tensor(6.6626, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8701.6846) tokens processed per second.
Reconstruction loss: tensor(6.3463, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8730.1006) tokens processed per second.
Reconstruction loss: tensor(6.6106, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8751.5020) tokens processed per second.
Reconstruction loss: tensor(6.7213, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8774.5273) tokens processed per second.
Reconstruction loss: tensor(6.3929, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8794.5156) tokens processed per second.
['Bir bir bir bir bir bir bir bir bir, ,¬Bir, bir bir , ,¬Bir bir ,,, bir,,,,,,,,,,,, bir bir bir  ⁇ ,,,,,,,,,, , ,  ⁇ ,,    ⁇  ⁇ , ,  ⁇ ,,  ⁇  ⁇ ,  ⁇ ,  ⁇  ⁇   ⁇   ⁇  ⁇   ⁇  ⁇   ⁇ ,  ⁇ ,  ⁇ ,,  ⁇ ,  ⁇ ,  ⁇  ⁇ ,,  ⁇  ⁇ ,  ⁇ ,  ⁇  ⁇  ⁇  ⁇ ,  ⁇  ⁇  ⁇  ⁇ ,  ⁇  ⁇  ⁇  ⁇ ,  ⁇ ,  ⁇   ⁇ ,  ⁇  ⁇  ⁇ ,,  ⁇ ,  ⁇ ,, ,  ⁇  ⁇  ⁇  ⁇  ⁇ ,  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ,  ⁇  ⁇ , ,,  ⁇  ⁇ ,  ⁇ ,  ⁇ ,  ⁇ ,

Reconstruction loss: tensor(6.3801, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8704.1768) tokens processed per second.
Reconstruction loss: tensor(6.3738, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.5117) tokens processed per second.
Reconstruction loss: tensor(6.4773, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8745.2344) tokens processed per second.
Reconstruction loss: tensor(6.4981, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8762.2246) tokens processed per second.
Reconstruction loss: tensor(6.0621, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8780.9775) tokens processed per second.
['Bir bir bir¬Bir gün¬Bir¬Bir gün¬Bir¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir¬Bir¬Bir gün¬Bir gün¬Bir¬Bir¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bu gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bu gün¬Bir gün¬

Reconstruction loss: tensor(6.5077, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8702.0371) tokens processed per second.
Reconstruction loss: tensor(6.5331, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8719.4531) tokens processed per second.
Reconstruction loss: tensor(6.5130, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8736.0947) tokens processed per second.
Reconstruction loss: tensor(6.5232, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8754.1592) tokens processed per second.
Reconstruction loss: tensor(6.2357, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8770.2236) tokens processed per second.
['Bir bir bir bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir zaman¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir 

Reconstruction loss: tensor(6.3124, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8700.8271) tokens processed per second.
Reconstruction loss: tensor(6.4549, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8717.0361) tokens processed per second.
Reconstruction loss: tensor(6.3528, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.7764) tokens processed per second.
Reconstruction loss: tensor(6.5127, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8746.9414) tokens processed per second.
Reconstruction loss: tensor(6.3428, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8760.4521) tokens processed per second.
['Sen bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gü

Reconstruction loss: tensor(6.2029, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8701.1934) tokens processed per second.
Reconstruction loss: tensor(6.1404, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.9580) tokens processed per second.
Reconstruction loss: tensor(6.2947, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.8467) tokens processed per second.
Reconstruction loss: tensor(6.1693, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8743.2100) tokens processed per second.
Reconstruction loss: tensor(6.2022, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8757.3613) tokens processed per second.
['Ve bir bir bir bir¬Bir bir bir bir bir bir bir bir¬Bir bir bir bir bir bir bir bir bir¬Bir bir bir bir bir¬Bir bir bir bir¬Bir bir bir bir bir bir¬Bir¬Bir bir bir bir bir¬Bir bir bir bir¬Bir bir bir bir bir bir¬Bir bir bir bir bir bir bir¬Bir bir bir bir bir bir¬Bir bir bir bir bir bir¬Bir bir bir bir bir¬Bir bir bir bir bir bir¬Bir bir bir bir bir¬Bir bir bir bir bir bir bir

Reconstruction loss: tensor(6.3418, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8703.3135) tokens processed per second.
Reconstruction loss: tensor(6.4428, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.7168) tokens processed per second.
Reconstruction loss: tensor(6.1385, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.7598) tokens processed per second.
Reconstruction loss: tensor(6.5394, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8741.5547) tokens processed per second.
Reconstruction loss: tensor(6.2972, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8752.3701) tokens processed per second.
['Ne bir gün, bir gün¬Bir gün, bir gün, ne bir gün¬Bir gün, bu kadar, ne¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün, ne¬Bir gün, bir gün¬Bir gün, bir gün, ne¬Bir gün, ne de¬Bir gün, ne kadar¬Bir gün, bu kadar¬Bir gün, bir gün¬Bir gün, bir gün, ne¬Bir gün, bir gün¬Bir gün, bu kadar¬Bir gün, bir zaman¬Bir gün,, ne¬Bir gün, ne de, ne kadar

Reconstruction loss: tensor(6.4900, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8702.4668) tokens processed per second.
Reconstruction loss: tensor(6.0549, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.1387) tokens processed per second.
Reconstruction loss: tensor(6.1899, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.9150) tokens processed per second.
Reconstruction loss: tensor(6.3246, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8738.9189) tokens processed per second.
Reconstruction loss: tensor(6.0993, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8749.0205) tokens processed per second.
['Ve bir gün¬Bir gün bir gün¬Bir gün¬Bir bir bir bir gün¬Bir gün¬Bir gün¬Bir bir gün¬Bir bir bir bir¬Bir bir bir¬Bir gün¬Bir gün¬Bir¬Bir bir gün¬Bir bir¬Bir¬Bir gün¬Bir¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir bir gün¬Bir gün¬Bir gün¬Bir bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir

Reconstruction loss: tensor(6.3262, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8702.9189) tokens processed per second.
Reconstruction loss: tensor(6.3794, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.1621) tokens processed per second.
Reconstruction loss: tensor(6.2101, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8724.8896) tokens processed per second.
Reconstruction loss: tensor(6.4277, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8736.2275) tokens processed per second.
Reconstruction loss: tensor(6.2739, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8746.0537) tokens processed per second.
['Acı, bir gün, ne kadar¬Bir gün, bir gün, ne¬Bir gün, bir gün¬Bir gün, ne¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün, bir¬Bir gün, sen¬Bir gün, bir gün¬Bir gün¬Bir gün, bir gün¬Bir gün, bir gün¬Bir gün¬Bir gün,

Reconstruction loss: tensor(6.3067, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8705.0811) tokens processed per second.
Reconstruction loss: tensor(6.2430, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.6377) tokens processed per second.
Reconstruction loss: tensor(6.2742, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.5684) tokens processed per second.
Reconstruction loss: tensor(6.3724, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8734.1494) tokens processed per second.
Reconstruction loss: tensor(6.2457, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8742.8174) tokens processed per second.
['Ve bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir şey¬Bir şey¬Bir şey¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir şey¬Bir gün¬Bir gün¬Bir bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir şey¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir daha¬Bir gün¬Bir şey¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bi

Reconstruction loss: tensor(6.1839, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8705.3301) tokens processed per second.
Reconstruction loss: tensor(6.0391, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.6650) tokens processed per second.
Reconstruction loss: tensor(6.1713, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8724.8682) tokens processed per second.
Reconstruction loss: tensor(6.2254, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.9160) tokens processed per second.
Reconstruction loss: tensor(5.9062, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8742.3662) tokens processed per second.
['Ve bir gün, bir bir gün¬Bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bir bi

Reconstruction loss: tensor(6.2951, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8706.1602) tokens processed per second.
Reconstruction loss: tensor(6.2084, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.3896) tokens processed per second.
Reconstruction loss: tensor(6.0617, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8724.0703) tokens processed per second.
Reconstruction loss: tensor(6.0541, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.0332) tokens processed per second.
Reconstruction loss: tensor(6.2110, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8740.6855) tokens processed per second.
[' ⁇ -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------', ' ⁇ -------------------------------------------------------------------------------------------------------------------

Reconstruction loss: tensor(6.1312, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8705.4980) tokens processed per second.
Reconstruction loss: tensor(6.1174, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8713.9238) tokens processed per second.
Reconstruction loss: tensor(6.4056, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.6533) tokens processed per second.
Reconstruction loss: tensor(6.1572, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.2012) tokens processed per second.
Reconstruction loss: tensor(6.0846, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8737.8604) tokens processed per second.
['Acı, bir gün, bir gün¬Bir gün, bir bir bir bir gün¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir¬Bir gün, bir bir gün, bir gün¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir gün, bir¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir gün¬Bi

Reconstruction loss: tensor(5.9515, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8705.6201) tokens processed per second.
Reconstruction loss: tensor(6.1321, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8713.5654) tokens processed per second.
Reconstruction loss: tensor(5.9679, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.6064) tokens processed per second.
Reconstruction loss: tensor(5.9851, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.7510) tokens processed per second.
Reconstruction loss: tensor(5.7345, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8735.8047) tokens processed per second.
[' ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ 

Reconstruction loss: tensor(6.2193, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8705.7725) tokens processed per second.
Reconstruction loss: tensor(6.1374, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8713.6543) tokens processed per second.
Reconstruction loss: tensor(6.0149, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.2393) tokens processed per second.
Reconstruction loss: tensor(6.1109, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.7520) tokens processed per second.
Reconstruction loss: tensor(6.0560, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8736.7178) tokens processed per second.
[' ⁇ i,-i-i-i-i-i-i-i”¬-i-i-i-i-i-i-i-i-i-i-i-i-i-i--i--i-i--i-i-i--i-i----i-i----i-i----i--------i-----------i-----i-----------------------------i---------------------------------------------------------------------------------------------------------------', ' ⁇  ⁇  ⁇  ⁇ -- ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇

Reconstruction loss: tensor(5.9929, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8707.3965) tokens processed per second.
Reconstruction loss: tensor(6.1889, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.9941) tokens processed per second.
Reconstruction loss: tensor(6.0950, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.8828) tokens processed per second.
Reconstruction loss: tensor(6.1322, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.4922) tokens processed per second.
Reconstruction loss: tensor(6.1183, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8735.5195) tokens processed per second.
[' ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ 

Reconstruction loss: tensor(5.6683, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8707.6396) tokens processed per second.
Reconstruction loss: tensor(5.6122, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.2793) tokens processed per second.
Reconstruction loss: tensor(5.9185, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8720.1504) tokens processed per second.
Reconstruction loss: tensor(6.1101, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.6152) tokens processed per second.
Reconstruction loss: tensor(5.9256, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.2490) tokens processed per second.
['Ve bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir de¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir¬Bir¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬

Reconstruction loss: tensor(5.9265, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8707.1982) tokens processed per second.
Reconstruction loss: tensor(6.0635, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.1689) tokens processed per second.
Reconstruction loss: tensor(5.8952, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8720.5537) tokens processed per second.
Reconstruction loss: tensor(5.9369, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.0928) tokens processed per second.
Reconstruction loss: tensor(5.8309, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.8818) tokens processed per second.
['Ve bir bir gün¬Bir gün bir bir şey¬Bir gün bir daha¬Ve bir daha¬Bir daha bir daha¬Ve bir daha bir¬Ve bir şey¬Ve bir bir daha¬Ve¬Ve bir bir¬Ve bir şey¬Ve bir daha¬Ve bir şey¬Ve bir şey¬Bir de¬Ve bir şey¬Ve¬Ve bir şey¬Ve¬Ve bir daha¬Ve¬Ve bir¬Ve¬Ve bir daha¬Ve¬Ve¬Ve¬Ve bir¬Ve¬Ve bir¬Ve bir daha¬Ve bir¬Ve bir¬Ve bir¬Ve¬Ve¬Ve¬Ve¬Ve¬Ve bir¬Ve¬Ve bir¬Ve bir daha¬Ve¬Ve bir¬Ve¬Ve¬Ve 

Reconstruction loss: tensor(5.9015, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8708.8555) tokens processed per second.
Reconstruction loss: tensor(5.8278, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.1055) tokens processed per second.
Reconstruction loss: tensor(5.8339, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.0811) tokens processed per second.
Reconstruction loss: tensor(5.8072, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.9902) tokens processed per second.
Reconstruction loss: tensor(6.0506, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.7451) tokens processed per second.
[' ⁇  ⁇  ⁇ --i-i-i--i---i-i-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------', ' ⁇ i,  ⁇   ⁇   ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  

Reconstruction loss: tensor(5.6785, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8708.8164) tokens processed per second.
Reconstruction loss: tensor(5.8136, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.0518) tokens processed per second.
Reconstruction loss: tensor(5.8499, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8720.9111) tokens processed per second.
Reconstruction loss: tensor(5.9699, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.7822) tokens processed per second.
Reconstruction loss: tensor(5.8790, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.9092) tokens processed per second.
[' ⁇ i,  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇

Reconstruction loss: tensor(6.0878, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8709.2236) tokens processed per second.
Reconstruction loss: tensor(6.1087, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.7695) tokens processed per second.
Reconstruction loss: tensor(5.8836, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.2061) tokens processed per second.
Reconstruction loss: tensor(5.9529, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.5664) tokens processed per second.
Reconstruction loss: tensor(6.0014, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.1172) tokens processed per second.
['Canım, bir gün, bir gün¬Bir gün, bir gün¬Bir gün, bir şey, bir şey¬Bir gün, bir gün, bir şey¬Bir gün, bir gün, bir gün¬Bir gün, bir şey, bir şey¬Bir bir şey, bir şey¬Bir gün bir gün, bir şey¬Bir gün, bir şey, bir şey¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir şey¬Bir gün, bir gün, bir gün¬Bir gün, bir gün, bir şey¬Bir gün, bir gün bir gün¬Bir gün, bir gün¬Bir gün, bir şe

Reconstruction loss: tensor(5.8614, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8710.3252) tokens processed per second.
Reconstruction loss: tensor(5.8868, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.8145) tokens processed per second.
Reconstruction loss: tensor(5.8759, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.5391) tokens processed per second.
Reconstruction loss: tensor(5.5455, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.1963) tokens processed per second.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample 

Reconstruction loss: tensor(5.8618, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8708.2402) tokens processed per second.
Reconstruction loss: tensor(5.8601, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8713.1240) tokens processed per second.
Reconstruction loss: tensor(6.0223, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8718.5928) tokens processed per second.
Reconstruction loss: tensor(5.8510, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.6611) tokens processed per second.
Reconstruction loss: tensor(6.0233, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.9053) tokens processed per second.
[' ⁇ e,  ⁇ n ⁇  ⁇  ⁇  ⁇ 01;  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  

Reconstruction loss: tensor(5.7001, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8708.9717) tokens processed per second.
Reconstruction loss: tensor(5.7912, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.7881) tokens processed per second.
Reconstruction loss: tensor(5.8175, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8720.0498) tokens processed per second.
Reconstruction loss: tensor(5.8023, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.6895) tokens processed per second.
Reconstruction loss: tensor(5.8032, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8730.6172) tokens processed per second.
[' ⁇ a¬Bir  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ 

Reconstruction loss: tensor(5.8430, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8711.2578) tokens processed per second.
Reconstruction loss: tensor(5.5928, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8716.5889) tokens processed per second.
Reconstruction loss: tensor(5.6275, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.9307) tokens processed per second.
Reconstruction loss: tensor(5.7331, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.3262) tokens processed per second.
Reconstruction loss: tensor(5.6932, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.3926) tokens processed per second.
[' ⁇  ⁇  ⁇  ⁇  ⁇ - ⁇ - ⁇ - ⁇  ⁇ - ⁇ - ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ - ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ - ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ - ⁇   ⁇  ⁇  ⁇ - ⁇   ⁇  ⁇  ⁇   ⁇  ⁇  ⁇  ⁇  ⁇ - ⁇   ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇   ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇   ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇   ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇   ⁇  ⁇   ⁇  ⁇  ⁇  ⁇  ⁇  ⁇   ⁇  ⁇  ⁇  ⁇   ⁇  ⁇   ⁇   ⁇  ⁇  ⁇   ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇   ⁇   ⁇   ⁇  ⁇   ⁇  ⁇   ⁇   ⁇   ⁇   

Reconstruction loss: tensor(5.9009, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8712.5635) tokens processed per second.
Reconstruction loss: tensor(5.6977, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8717.7334) tokens processed per second.
Reconstruction loss: tensor(5.8789, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8722.4668) tokens processed per second.
Reconstruction loss: tensor(5.9093, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.2637) tokens processed per second.
Reconstruction loss: tensor(5.8116, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.6328) tokens processed per second.
[' ⁇ e  ⁇ ’ ⁇ ¬ ⁇ ’e  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇

Reconstruction loss: tensor(5.6992, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8713.9326) tokens processed per second.
Reconstruction loss: tensor(5.8384, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8718.2676) tokens processed per second.
Reconstruction loss: tensor(5.6057, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.0400) tokens processed per second.
Reconstruction loss: tensor(5.6336, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.0742) tokens processed per second.
Reconstruction loss: tensor(5.6712, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.7188) tokens processed per second.
[' ⁇  ⁇ 01; ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇

Reconstruction loss: tensor(5.5820, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8713.9189) tokens processed per second.
Reconstruction loss: tensor(5.6044, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8718.8115) tokens processed per second.
Reconstruction loss: tensor(5.7279, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.3848) tokens processed per second.
Reconstruction loss: tensor(5.7204, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.3545) tokens processed per second.
Reconstruction loss: tensor(5.5858, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.3418) tokens processed per second.
[' ⁇ 1 ⁇  ⁇ ¬ ⁇ ¬ ⁇  ⁇ 01;  ⁇ ¬ ⁇ ¬ ⁇ 01;  ⁇ ¬ ⁇ ¬ ⁇ 01;  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 01;  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 01;  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇

Reconstruction loss: tensor(5.5063, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8714.3564) tokens processed per second.
Reconstruction loss: tensor(5.8268, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8718.4512) tokens processed per second.
Reconstruction loss: tensor(5.7824, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8722.8213) tokens processed per second.
Reconstruction loss: tensor(5.7192, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.3320) tokens processed per second.
Reconstruction loss: tensor(5.6559, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.8721) tokens processed per second.
[' ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇

Reconstruction loss: tensor(5.6710, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.4512) tokens processed per second.
Reconstruction loss: tensor(5.4892, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8719.8750) tokens processed per second.
Reconstruction loss: tensor(5.5241, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.8223) tokens processed per second.
Reconstruction loss: tensor(5.7745, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.4863) tokens processed per second.
Reconstruction loss: tensor(5.5731, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.5264) tokens processed per second.
[' ⁇ ’a,  ⁇ ’a’a,  ⁇ ’a’a¬ ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’e’a,  ⁇ ’a,  ⁇ ’a’a’a, ’a’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a,  ⁇ ’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a’a’a,  ⁇ ’a’a’a’a,  ⁇ ’a’a’a’a’a’a’a,  ⁇ ’’a’a', ' ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 0

Reconstruction loss: tensor(5.7270, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.5791) tokens processed per second.
Reconstruction loss: tensor(5.5869, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8719.4492) tokens processed per second.
Reconstruction loss: tensor(5.5724, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.8330) tokens processed per second.
Reconstruction loss: tensor(5.3597, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.5791) tokens processed per second.
Reconstruction loss: tensor(5.7204, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.5752) tokens processed per second.
[' ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇ ¬ ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ ¬ ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇  ⁇ 

Reconstruction loss: tensor(5.7244, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8715.8926) tokens processed per second.
Reconstruction loss: tensor(5.4785, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8720.2246) tokens processed per second.
Reconstruction loss: tensor(5.7706, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.9766) tokens processed per second.
Reconstruction loss: tensor(5.6091, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.4658) tokens processed per second.
Reconstruction loss: tensor(5.4634, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.2041) tokens processed per second.
[' ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇

Reconstruction loss: tensor(5.4116, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8717.0869) tokens processed per second.
Reconstruction loss: tensor(5.5004, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8720.8770) tokens processed per second.
Reconstruction loss: tensor(5.8903, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8724.3242) tokens processed per second.
Reconstruction loss: tensor(5.4579, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.0283) tokens processed per second.
Reconstruction loss: tensor(5.3574, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.9473) tokens processed per second.
[' ⁇ ’a’a,  ⁇ ’a’e’a,  ⁇ ’a’a’a,  ⁇ ’a’a’a’a,  ⁇ ’e’a’a’a,  ⁇ ’e’a’a’a’a’a, ’e’e’a’a’a’a’a’a’a’a’a, ’a’a’a’a¬ ⁇ ’a’a’a, ’a’a’a, ’’a’e’a’a’a’a’a’a’a’a’a’a’a’a’a’a’a’a’a’a¬ ⁇ ’a’’a’a, ’a’a’a’a’a, ’e’a’a’a’a’a’a’a’a’a¬ ⁇ ’a’’a’a’a’a’a’a’’a’’a’a’a¬ ⁇ ’a’a’a’a, ’e’a’a¬ ⁇ ’a’a’a’’a’a', ' ⁇ ’a,  ⁇ ’ ⁇ ’da’e,  ⁇ ’e’’a’a,  ⁇ ’e’a’a,  ⁇ ’’a’’e’a’a’a’a,  ⁇ ’’’’a’a’a,  ⁇ ’’’a’a’a’a’a’a’’a’

Reconstruction loss: tensor(5.6856, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.4355) tokens processed per second.
Reconstruction loss: tensor(5.4351, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.0215) tokens processed per second.
[' ⁇  ⁇ 1 ⁇   ⁇ ¬ ⁇ ¬ ⁇  ⁇   ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬', ' ⁇ 2 ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 2 ⁇ ¬ ⁇ ¬ ⁇ ¬

Reconstruction loss: tensor(5.6159, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8717.9482) tokens processed per second.
Reconstruction loss: tensor(5.4949, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.4727) tokens processed per second.
Reconstruction loss: tensor(5.3686, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.2197) tokens processed per second.
Reconstruction loss: tensor(5.6715, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.9229) tokens processed per second.
Reconstruction loss: tensor(5.5457, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.3379) tokens processed per second.
[' ⁇ ’de,  ⁇ ’de,  ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇

Reconstruction loss: tensor(5.6932, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8718.5273) tokens processed per second.
Reconstruction loss: tensor(5.4040, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8722.3301) tokens processed per second.
Reconstruction loss: tensor(5.5405, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.7061) tokens processed per second.
Reconstruction loss: tensor(5.2632, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.2217) tokens processed per second.
Reconstruction loss: tensor(5.3592, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.3594) tokens processed per second.
[' ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇

Reconstruction loss: tensor(5.5933, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8718.8340) tokens processed per second.
Reconstruction loss: tensor(5.3438, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8722.2686) tokens processed per second.
Reconstruction loss: tensor(5.2899, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.9453) tokens processed per second.
Reconstruction loss: tensor(5.4054, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.1318) tokens processed per second.
Reconstruction loss: tensor(5.3959, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.7168) tokens processed per second.
[' ⁇ ’da bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir

Reconstruction loss: tensor(5.3839, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8719.5537) tokens processed per second.
Reconstruction loss: tensor(5.5427, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.0068) tokens processed per second.
Reconstruction loss: tensor(5.4871, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.3516) tokens processed per second.
Reconstruction loss: tensor(5.5015, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.5146) tokens processed per second.
Reconstruction loss: tensor(5.4148, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.3682) tokens processed per second.
[' ⁇ ’e’e, bir yana¬Bir de bir de bir de¬Bir de bir de bir de¬Bir de bir de bir de¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬B

Reconstruction loss: tensor(5.4447, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8719.6982) tokens processed per second.
Reconstruction loss: tensor(5.3010, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8722.9424) tokens processed per second.
Reconstruction loss: tensor(5.2616, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.6221) tokens processed per second.
Reconstruction loss: tensor(5.5204, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8730.2939) tokens processed per second.
Reconstruction loss: tensor(5.5595, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.9336) tokens processed per second.
[' ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇  ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 

Reconstruction loss: tensor(5.2936, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8721.6592) tokens processed per second.
Reconstruction loss: tensor(5.3199, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.1650) tokens processed per second.
Reconstruction loss: tensor(5.3644, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.5186) tokens processed per second.
Reconstruction loss: tensor(5.4579, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.2207) tokens processed per second.
Reconstruction loss: tensor(5.4648, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8735.5098) tokens processed per second.
[' ⁇ ’in  ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ 

Reconstruction loss: tensor(5.1744, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8723.3818) tokens processed per second.
Reconstruction loss: tensor(5.3115, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.6475) tokens processed per second.
Reconstruction loss: tensor(5.3562, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.8750) tokens processed per second.
Reconstruction loss: tensor(4.9500, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.7568) tokens processed per second.
Reconstruction loss: tensor(5.4867, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8735.9609) tokens processed per second.
[' ⁇ 0 ⁇ 0 ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇   ⁇

Reconstruction loss: tensor(5.3594, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8724.0986) tokens processed per second.
Reconstruction loss: tensor(5.4360, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.2500) tokens processed per second.
Reconstruction loss: tensor(5.4120, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8730.0771) tokens processed per second.
Reconstruction loss: tensor(5.1802, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.2822) tokens processed per second.
Reconstruction loss: tensor(5.2702, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8736.6094) tokens processed per second.
[' ⁇ ’ ⁇ ’ ⁇ ’’¬ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ 

Reconstruction loss: tensor(5.1509, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8724.8779) tokens processed per second.
Reconstruction loss: tensor(5.2182, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.2520) tokens processed per second.
Reconstruction loss: tensor(5.3603, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.0361) tokens processed per second.
Reconstruction loss: tensor(5.2049, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8734.2871) tokens processed per second.
Reconstruction loss: tensor(5.6960, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8737.1904) tokens processed per second.
[' ⁇ ’in  ⁇ ’min’in  ⁇ ’in  ⁇ ’in’in  ⁇ ’in  ⁇ ’in  ⁇ ’min’in  ⁇ ’min’in  ⁇ ’min’in  ⁇ ’min’in  ⁇ ’min’in  ⁇ ’in’in’in’in’in  ⁇ ’in’in  ⁇ ’min’in’in’in’’in’in’in’in’in’in’in’in’’’in’in’in’in’in’in’’ın’in’in’in’in’in’in’’in’in’in’in’in’in’’in’’in’in’in’in’in’in’in’’in’in’in’in’in’in’in’in’in’’’in’in’’in’in’in’in’’in’’’in’in’’in’in’in’in’’in’in’in’in’’’in’in’in’in’’in’in’’in’in’i

Reconstruction loss: tensor(5.2303, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8725.3359) tokens processed per second.
Reconstruction loss: tensor(5.2997, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8728.4385) tokens processed per second.
Reconstruction loss: tensor(5.3919, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8731.5996) tokens processed per second.
Reconstruction loss: tensor(5.5428, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8734.7109) tokens processed per second.
Reconstruction loss: tensor(5.3506, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8737.8984) tokens processed per second.
[' ⁇ şık¬ ⁇ ’a  ⁇ ’¬ ⁇ ’a  ⁇ ’ ⁇ ’¬ ⁇ ’ ⁇ ’¬ ⁇ ’ ⁇ ’ ⁇ ’¬ ⁇ ’’ ⁇ ’ ⁇ ’¬ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’¬ ⁇ ’ ⁇ ’’’’ ⁇ ’ ⁇ ’’ ⁇ ’’ ⁇ ’’¬ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’’’ ⁇ ’’’’’ ⁇ ’ ⁇ ’’’ ⁇ ’’¬ ⁇ ’ ⁇ ’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’', ' ⁇ ’  ⁇ ’  ⁇ ’  ⁇ ’  ⁇ ’¬ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’¬

Reconstruction loss: tensor(5.0745, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.0869) tokens processed per second.
Reconstruction loss: tensor(5.0855, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.8242) tokens processed per second.
Reconstruction loss: tensor(5.2491, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8733.0850) tokens processed per second.
Reconstruction loss: tensor(5.3330, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8735.6416) tokens processed per second.
Reconstruction loss: tensor(5.1042, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8738.0654) tokens processed per second.
[' ⁇ - ⁇ - ⁇ - ⁇ - ⁇ - ⁇ - ⁇ - ⁇ - ⁇ - ⁇ --- ⁇ ---- ⁇ ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------', ' ⁇ ’de bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬Bir gün¬B

Reconstruction loss: tensor(5.0443, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.6621) tokens processed per second.
Reconstruction loss: tensor(5.2284, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.3809) tokens processed per second.
Reconstruction loss: tensor(6.0388, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.2314) tokens processed per second.
Reconstruction loss: tensor(5.4637, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8735.0166) tokens processed per second.
Reconstruction loss: tensor(5.1489, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8737.6641) tokens processed per second.
[' ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’’’ ⁇ ’ ⁇ ’’ ⁇ ’ ⁇ ’ ⁇ ’’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ ⁇ ’ 

Reconstruction loss: tensor(5.4467, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8726.8867) tokens processed per second.
Reconstruction loss: tensor(4.9271, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.6055) tokens processed per second.
Reconstruction loss: tensor(5.3757, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.2754) tokens processed per second.
Reconstruction loss: tensor(5.7382, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8734.8945) tokens processed per second.
Reconstruction loss: tensor(5.2772, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8737.9473) tokens processed per second.
[' ⁇ 0 ⁇ 0 ⁇ 2 ⁇ 2 ⁇ 2 ⁇ 2 ⁇ 2 ⁇ 2 ⁇ 2 ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 01;  ⁇ 01; n ⁇ 01;  ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; n ⁇ 01; 

Reconstruction loss: tensor(5.0748, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.2354) tokens processed per second.
Reconstruction loss: tensor(5.2786, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8730.0400) tokens processed per second.
Reconstruction loss: tensor(5.2780, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.9580) tokens processed per second.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample while batching.
Skipped overlong sample whil

Reconstruction loss: tensor(5.1128, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.0879) tokens processed per second.
Reconstruction loss: tensor(5.1769, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.7578) tokens processed per second.
Reconstruction loss: tensor(5.1107, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.3906) tokens processed per second.
Reconstruction loss: tensor(5.3232, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8734.8232) tokens processed per second.
Reconstruction loss: tensor(4.9217, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8737.6357) tokens processed per second.
[' ⁇ lem¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ ¬ ⁇ 

Reconstruction loss: tensor(5.5707, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8727.2959) tokens processed per second.
Reconstruction loss: tensor(5.2006, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8729.8164) tokens processed per second.
Reconstruction loss: tensor(5.2117, device='cuda:0', grad_fn=<DivBackward0>)
tensor(8732.6807) tokens processed per second.
