### Reformer model notebook

In [1]:
## Необходимые импорты

import random
import tqdm
import gzip
import numpy as np
import torch
import torch.optim as optim
from torch.nn import functional as F
from torch.utils.data import DataLoader, Dataset

import math
import torch.nn as nn
from torch.nn import Identity
import torch.nn.functional as F
from torch.autograd import Function
from functools import partial, reduce, wraps
from itertools import chain
from operator import mul

from product_key_memory import PKM
import torch
import torch.nn as nn
from torch.autograd.function import Function
from torch.utils.checkpoint import get_device_states, set_device_states

import torch
from torch import nn
from operator import mul
from functools import reduce
from functools import partial
import torch
import torch.nn.functional as F
from torch.nn.utils.rnn import pad_sequence

In [2]:
## Класс - обертка слоя для параллелизации вычислений

# following example for saving and setting rng here https://pytorch.org/docs/stable/_modules/torch/utils/checkpoint.html
class Deterministic(nn.Module):
    def __init__(self, net):
        super().__init__()
        self.net = net
        self.cpu_state = None
        self.cuda_in_fwd = None
        self.gpu_devices = None
        self.gpu_states = None

    def record_rng(self, *args):
        self.cpu_state = torch.get_rng_state()
        if torch.cuda._initialized:
            self.cuda_in_fwd = True
            self.gpu_devices, self.gpu_states = get_device_states(*args)

    def forward(self, *args, record_rng = False, set_rng = False, **kwargs):
        if record_rng:
            self.record_rng(*args)

        if not set_rng:
            return self.net(*args, **kwargs)

        rng_devices = []
        if self.cuda_in_fwd:
            rng_devices = self.gpu_devices

        with torch.random.fork_rng(devices=rng_devices, enabled=True):
            torch.set_rng_state(self.cpu_state)
            if self.cuda_in_fwd:
                set_device_states(self.gpu_devices, self.gpu_states)
            return self.net(*args, **kwargs)

### Reversible блок

In [3]:
# heavily inspired by https://github.com/RobinBruegger/RevTorch/blob/master/revtorch/revtorch.py
# once multi-GPU is confirmed working, refactor and send PR back to source
class ReversibleBlock(nn.Module):
    def __init__(self, f, g, depth=None, send_signal = False):
        super().__init__()
        self.f = Deterministic(f)
        self.g = Deterministic(g)

        self.depth = depth
        self.send_signal = send_signal

    def forward(self, x, f_args = {}, g_args = {}):
        x1, x2 = torch.chunk(x, 2, dim=2)
        y1, y2 = None, None

        if self.send_signal:
            f_args['_reverse'] = g_args['_reverse'] = False
            f_args['_depth'] = g_args['_depth'] = self.depth

        with torch.no_grad():
            y1 = x1 + self.f(x2, record_rng=self.training, **f_args)
            y2 = x2 + self.g(y1, record_rng=self.training, **g_args)

        return torch.cat([y1, y2], dim=2)

    def backward_pass(self, y, dy, f_args = {}, g_args = {}):
        
        y1, y2 = torch.chunk(y, 2, dim=2)
        del y

        dy1, dy2 = torch.chunk(dy, 2, dim=2)
        del dy

        if self.send_signal:
            f_args['_reverse'] = g_args['_reverse'] = True
            f_args['_depth'] = g_args['_depth'] = self.depth

        with torch.enable_grad():
            y1.requires_grad = True
            gy1 = self.g(y1, set_rng=True, **g_args)
            torch.autograd.backward(gy1, dy2)

        with torch.no_grad():
            x2 = y2 - gy1
            del y2, gy1

            dx1 = dy1 + y1.grad
            del dy1
            y1.grad = None

        with torch.enable_grad():
            x2.requires_grad = True
            fx2 = self.f(x2, set_rng=True, **f_args)
            torch.autograd.backward(fx2, dx1, retain_graph=True)

        with torch.no_grad():
            x1 = y1 - fx2
            del y1, fx2

            dx2 = dy2 + x2.grad
            del dy2
            x2.grad = None

            x = torch.cat([x1, x2.detach()], dim=2)
            dx = torch.cat([dx1, dx2], dim=2)

        return x, dx

### реализация еще одного слоя - не Revirsible

In [4]:
class IrreversibleBlock(nn.Module):
    def __init__(self, f, g):
        super().__init__()
        self.f = f
        self.g = g

    def forward(self, x, f_args, g_args):
        x1, x2 = torch.chunk(x, 2, dim=2)
        y1 = x1 + self.f(x2, **f_args)
        y2 = x2 + self.g(y1, **g_args)
        return torch.cat([y1, y2], dim=2)

class _ReversibleFunction(Function):
    @staticmethod
    def forward(ctx, x, blocks, kwargs):
        ctx.kwargs = kwargs
        for block in blocks:
            x = block(x, **kwargs)
        ctx.y = x.detach()
        ctx.blocks = blocks
        return x

    @staticmethod
    def backward(ctx, dy):
        y = ctx.y
        kwargs = ctx.kwargs
        for block in ctx.blocks[::-1]:
            y, dy = block.backward_pass(y, dy, **kwargs)
        return dy, None, None


### создаем слой - последовательность Revirsible и Irrevirsible блоков

In [5]:
class ReversibleSequence(nn.Module):
    def __init__(self, blocks, layer_dropout = 0., reverse_thres = 0, send_signal = False):
        super().__init__()
        self.layer_dropout = layer_dropout
        self.reverse_thres = reverse_thres

        self.blocks = nn.ModuleList([ReversibleBlock(f, g, depth, send_signal) for depth, (f, g) in enumerate(blocks)])
        self.irrev_blocks = nn.ModuleList([IrreversibleBlock(f=f, g=g) for f, g in blocks])

    def forward(self, x, arg_route = (True, True), **kwargs):
        reverse = x.shape[1] > self.reverse_thres
        blocks = self.blocks if reverse else self.irrev_blocks

        if self.training and self.layer_dropout > 0:
            to_drop = torch.empty(len(self.blocks)).uniform_(0, 1) < self.layer_dropout
            blocks = [block for block, drop in zip(self.blocks, to_drop) if not drop]
            blocks = self.blocks[:1] if len(blocks) == 0 else blocks

        f_args, g_args = map(lambda route: kwargs if route else {}, arg_route)
        block_kwargs = {'f_args': f_args, 'g_args': g_args}

        if not reverse:
            for block in blocks:
                x = block(x, **block_kwargs)
            return x

        return _ReversibleFunction.apply(x, blocks, block_kwargs)

###  AxialPositional encodings

In [6]:
# a mock parameter list object until below issue is resolved
# https://github.com/pytorch/pytorch/issues/36035

### Создаем класс - список параметров
class ParameterList(object):
    def __init__(self, kls, prefix, length):
        self.ind = 0
        self.kls = kls
        self.prefix = prefix
        self.length = length

    def _keyname(self, prefix, ind):
        return f'{prefix}_{ind}'

    def append(self, x):
        setattr(self.kls, self._keyname(self.prefix, self.ind), x)
        self.ind += 1

    def to_list(self):
        return [getattr(self.kls, self._keyname(self.prefix, i)) for i in range(self.length)]




class AxialPositionalEmbedding(nn.Module):
    def __init__(self, dim, axial_shape, axial_dims = None):
        super().__init__()

        self.dim = dim
        self.shape = axial_shape
        self.max_seq_len = reduce(mul, axial_shape, 1)

        self.summed = axial_dims is None
        axial_dims = ((dim,) * len(axial_shape)) if self.summed else axial_dims

        assert len(self.shape) == len(axial_dims), 'number of axial dimensions must equal the number of dimensions in the shape'
        assert self.summed or not self.summed and sum(axial_dims) == dim, f'axial dimensions must sum up to the target dimension {dim}'

        self.weights = ParameterList(self, 'weights', len(axial_shape))

        for ind, (shape, axial_dim) in enumerate(zip(self.shape, axial_dims)):
            ax_shape = [1] * len(self.shape)
            ax_shape[ind] = shape
            ax_shape = (1, *ax_shape, axial_dim)
            ax_emb = nn.Parameter(torch.zeros(ax_shape).normal_(0, 1))
            self.weights.append(ax_emb)

    def forward(self, x):
        b, t, e = x.shape
        assert (t <= self.max_seq_len), f'Sequence length ({t}) must be less than the maximum sequence length allowed ({self.max_seq_len})'
        embs = []

        for ax_emb in self.weights.to_list():
            axial_dim = ax_emb.shape[-1]
            expand_shape = (b, *self.shape, axial_dim)
            emb = ax_emb.expand(expand_shape).reshape(b, self.max_seq_len, axial_dim)
            embs.append(emb)

        pos_emb = sum(embs) if self.summed else torch.cat(embs, dim=-1)
        return pos_emb[:, :t].to(x)




In [7]:
# Axial Positional Embedding for Images - да можно обучаться на картинках и потом "достраивать" изображение

class AxialPositionalEmbeddingImage(nn.Module):
    def __init__(self, dim, axial_shape, axial_dims = None):
        super().__init__()
        assert len(axial_shape) == 2, 'Axial shape must have 2 dimensions for images'
        self.pos_emb = AxialPositionalEmbedding(dim, axial_shape, axial_dims)

    def forward(self, img):
        b, c, h, w = img.shape
        img = img.permute(0, 2, 3, 1).reshape(b, h * w, c)
        pos_emb = self.pos_emb(img)
        return pos_emb.reshape(b, h, w, c).permute(0, 3, 1, 2)

In [8]:
# autopadder - паддинг

def pad_to_multiple(tensor, seqlen, multiple, dim=-1):
    m = seqlen / multiple
    if m.is_integer():
        return tensor
    remainder = math.ceil(m) * multiple - seqlen
    pad_offset = (0,) * (-1 - dim) * 2
    return F.pad(tensor, (*pad_offset, 0, remainder), value=0)

class Autopadder(nn.Module):
    def __init__(self, net):
        super().__init__()
        assert isinstance(net, (LSHSelfAttention, Reformer, ReformerLM)), 'only modules LSHSelfAttention, Reformer, ReformerLM accepted'
        self.net = net

        reformer = net.reformer if isinstance(net, ReformerLM) else net
        self.pad_dim = -1 if isinstance(net, ReformerLM) else -2

        self.bucket_size = reformer.bucket_size
        self.num_mem_kv = reformer.num_mem_kv
        self.full_attn_thres = reformer.full_attn_thres

    def forward(self, x, **kwargs):
        b, t, m, device = *x.shape[:2], self.num_mem_kv, x.device

        keys = kwargs.get('keys')
        input_mask = kwargs.get('input_mask')
        input_attn_mask = kwargs.get('input_attn_mask')

        k_len = 0 if keys is None else keys.shape[1]
        seqlen = t + m + k_len

        if seqlen > self.full_attn_thres:
            if input_mask is None:
                input_mask = torch.full_like(x, True, device=x.device, dtype=torch.bool)

            x = pad_to_multiple(x, seqlen, self.bucket_size * 2, dim=self.pad_dim)

            if input_mask is not None:
                new_mask = F.pad(input_mask, (0, x.shape[1] - input_mask.shape[1]), value=False)
                kwargs.update(input_mask=new_mask)

            if input_attn_mask is not None:
                offset = x.shape[1] - input_attn_mask.shape[1]
                new_mask = F.pad(input_attn_mask, (0, offset, 0, offset), value=False)
                kwargs.update(input_attn_mask=new_mask)

        out = self.net(x, **kwargs)
        return out[:, 0:t]

## Helpers

In [9]:
#constants

TOKEN_SELF_ATTN_VALUE = -5e4 # carefully set for half precision to work

# helper fns
# Разные вспомогательные функцие

def sort_key_val(t1, t2, dim=-1):
    values, indices = t1.sort(dim=dim)
    t2 = t2.expand_as(t1)
    return values, t2.gather(dim, indices)

def batched_index_select(values, indices):
    last_dim = values.shape[-1]
    return values.gather(1, indices[:, :, None].expand(-1, -1, last_dim))

# реализуем Chunking как в статье для лучшей паралеллизации и меньшего потребления памяти

def process_inputs_chunk(fn, chunks=1, dim=0):
    def inner_fn(*args, **kwargs):
        keys, values, len_args = kwargs.keys(), kwargs.values(), len(args)
        chunked_args = list(zip(*map(lambda x: x.chunk(chunks, dim=dim), list(args) + list(values))))
        all_args = map(lambda x: (x[:len_args], dict(zip(keys, x[len_args:]))), chunked_args)
        outputs = [fn(*c_args, **c_kwargs) for c_args, c_kwargs in all_args]
        return tuple(map(lambda x: torch.cat(x, dim=dim), zip(*outputs)))
    return inner_fn

def chunked_sum(tensor, chunks=1):
    *orig_size, last_dim = tensor.shape
    tensor = tensor.reshape(-1, last_dim)
    summed_tensors = [c.sum(dim=-1) for c in tensor.chunk(chunks, dim=0)]
    return torch.cat(summed_tensors, dim=0).reshape(orig_size)

def default(val, default_val):
    return default_val if val is None else val

def cast_tuple(x):
    return x if isinstance(x, tuple) else (x,)

def max_neg_value(tensor):
    return -torch.finfo(tensor.dtype).max

def cache_fn(f):
    cache = None
    @wraps(f)
    def cached_fn(*args, **kwargs):
        nonlocal cache
        if cache is not None:
            return cache
        cache = f(*args, **kwargs)
        return cache
    return cached_fn

def cache_method_decorator(cache_attr, cache_namespace, reexecute = False):
    def inner_fn(fn):
        @wraps(fn)
        def wrapper(self, *args, key_namespace=None, fetch=False, set_cache=True, **kwargs):
            namespace_str = str(default(key_namespace, ''))
            _cache = getattr(self, cache_attr)
            _keyname = f'{cache_namespace}:{namespace_str}'

            if fetch:
                val = _cache[_keyname]
                if reexecute:
                    fn(self, *args, **kwargs)
            else:
                val = fn(self, *args, **kwargs)
                if set_cache:
                    setattr(self, cache_attr, {**_cache, **{_keyname: val}})
            return val
        return wrapper
    return inner_fn

def look_around(x, backward = 1, forward = 0, pad_value = -1, dim = 2):
    t = x.shape[1]
    dims = (len(x.shape) - dim) * (0, 0)
    padded_x = F.pad(x, (*dims, backward, forward), value= pad_value)
    tensors = [padded_x[:, ind:(ind + t), ...] for ind in range(forward + backward + 1)]
    return torch.cat(tensors, dim=dim)

def expand_dim(dim, k, t):
    t = t.unsqueeze(dim)
    expand_shape = [-1] * len(t.shape)
    expand_shape[dim] = k
    return t.expand(*expand_shape)

def merge_dims(ind_from, ind_to, tensor):
    shape = list(tensor.shape)
    arr_slice = slice(ind_from, ind_to + 1)
    shape[arr_slice] = [reduce(mul, shape[arr_slice])]
    return tensor.reshape(*shape)

def split_at_index(dim, index, t):
    pre_slices = (slice(None),) * dim
    l = (*pre_slices, slice(None, index))
    r = (*pre_slices, slice(index, None))
    return t[l], t[r]

# helper classes

class MatrixMultiply(nn.Module):
    def __init__(self, tensor, transpose = False, normalize = False):
        super().__init__()
        self.tensor = tensor
        self.transpose = transpose
        self.normalize = normalize

    def forward(self, x):
        tensor = self.tensor
        if self.normalize:
            tensor = F.normalize(tensor, dim=-1)
        if self.transpose:
            tensor = tensor.t()
        return x @ tensor

class ReZero(nn.Module):
    def __init__(self, fn):
        super().__init__()
        self.g = nn.Parameter(torch.zeros(1))
        self.fn = fn

    def forward(self, x, **kwargs):
        return self.fn(x, **kwargs) * self.g

class ScaleNorm(nn.Module):
    def __init__(self, dim, eps=1e-5):
        super().__init__()
        self.g = nn.Parameter(torch.ones(1))
        self.eps = eps

    def forward(self, x):
        n = torch.norm(x, dim=-1, keepdim=True).clamp(min=self.eps)
        return x / n * self.g

class PreNorm(nn.Module):
    def __init__(self, norm_class, dim, fn):
        super().__init__()
        self.norm = norm_class(dim)
        self.fn = fn
    def forward(self, x, **kwargs):
        x = self.norm(x)
        return self.fn(x, **kwargs)

class Chunk(nn.Module):
    def __init__(self, chunks, fn, along_dim = -1):
        super().__init__()
        self.dim = along_dim
        self.chunks = chunks
        self.fn = fn

    def forward(self, x, **kwargs):
        if self.chunks == 1:
            return self.fn(x, **kwargs)
        chunks = x.chunk(self.chunks, dim = self.dim)
        return torch.cat([self.fn(c, **kwargs) for c in chunks], dim = self.dim)

### LSH Attention (Locality-Sensitive-Hashing)

In [10]:
# LSH attention as described in https://openreview.net/pdf?id=rkgNKkHtvB
# adapted from trax, stripped to what paper said needed to work
# namely that buckets need to be at least 64 with 8 rounds of hashing
# https://github.com/google/trax/blob/master/trax/layers/research/efficient_attention.py#L442

class LSHAttention(nn.Module):
    def __init__( self,
                  dropout = 0.,
                  bucket_size = 64,
                  n_hashes = 8,
                  causal = False,
                  allow_duplicate_attention = True,
                  attend_across_buckets = True,
                  rehash_each_round = True,
                  drop_for_hash_rate = 0.0,
                  random_rotations_per_head = False,
                  return_attn = False):
        super().__init__()
        if dropout >= 1.0:
            raise ValueError('Dropout rates must be lower than 1.')

        self.dropout = nn.Dropout(dropout)
        self.dropout_for_hash = nn.Dropout(drop_for_hash_rate)

        assert rehash_each_round or allow_duplicate_attention, (
            'The setting {allow_duplicate_attention=False, rehash_each_round=False}'
            ' is not implemented.')

        self.causal = causal
        self.bucket_size = bucket_size

        self.n_hashes = n_hashes

        self._allow_duplicate_attention = allow_duplicate_attention
        self._attend_across_buckets = attend_across_buckets
        self._rehash_each_round = rehash_each_round
        self._random_rotations_per_head = random_rotations_per_head

        # will expend extra computation to return attention matrix
        self._return_attn = return_attn

        # cache buckets for reversible network, reported by authors to make Reformer work at depth
        self._cache = {}

        
    ### основная функция получения хэшей и бакетов 
    
    @cache_method_decorator('_cache', 'buckets', reexecute=True)
    def hash_vectors(self, n_buckets, vecs):
        batch_size = vecs.shape[0]
        device = vecs.device

        # See https://arxiv.org/pdf/1509.02897.pdf
        # We sample a different random rotation for each round of hashing to
        # decrease the probability of hash misses.
        assert n_buckets % 2 == 0

        rot_size = n_buckets

        rotations_shape = (
            batch_size if self._random_rotations_per_head else 1,
            vecs.shape[-1],
            self.n_hashes if self._rehash_each_round else 1,
            rot_size // 2)

        random_rotations = torch.randn(rotations_shape, dtype=vecs.dtype, device=device).expand(batch_size, -1, -1, -1)
            
        #  слой дропаут на хэш 
        dropped_vecs = self.dropout_for_hash(vecs)
        
        # вся магия поворота векторов осуществляется тут - einsum - сумма в энштейн нотации позволяет 
        # задать индексы тензоров входа и что нужно на выходе - b - batch, 
        # t и f - размерности векторов, h,i - размерности поворотов
        rotated_vecs = torch.einsum('btf,bfhi->bhti', dropped_vecs, random_rotations)

        if self._rehash_each_round:
            rotated_vecs = torch.cat([rotated_vecs, -rotated_vecs], dim=-1)
            buckets = torch.argmax(rotated_vecs, dim=-1)
            # buckets is now (self.n_hashes, seqlen). Next we add offsets so that
            # bucket numbers from different hashing rounds don't overlap.
            offsets = torch.arange(self.n_hashes, device=device)
            offsets = torch.reshape(offsets * n_buckets, (1, -1, 1))
            buckets = torch.reshape(buckets + offsets, (batch_size, -1,))
        else:
            rotated_vecs = torch.cat([rotated_vecs, -rotated_vecs], dim=-1)
            # In this configuration, we map each item to the top self.n_hashes buckets
            rotated_vecs = torch.squeeze(rotated_vecs, 0)
            bucket_range = torch.arange(rotated_vecs.shape[-1], device=device)
            bucket_range = torch.reshape(bucket_range, (1, -1))
            bucket_range = bucket_range.expand_as(rotated_vecs.shape)

            _, buckets = sort_key_val(rotated_vecs, bucket_range, dim=-1)
            buckets = buckets[:, -self.n_hashes:]

            h, *_ = buckets.shape 
            buckets = torch.reshape(buckets.permute((*_, h)), (-1,))

        return buckets

    def forward(self, qk, v, query_len = None, input_mask = None, input_attn_mask = None, **kwargs):
        batch_size, seqlen, dim, device = *qk.shape, qk.device

        query_len = default(query_len, seqlen)
        is_reverse = kwargs.pop('_reverse', False)
        depth = kwargs.pop('_depth', None)

        assert seqlen % (self.bucket_size * 2) == 0, f'Sequence length ({seqlen}) needs to be divisible by target bucket size  x 2 - {self.bucket_size * 2}'

        n_buckets = seqlen // self.bucket_size
        buckets = self.hash_vectors(n_buckets, qk, key_namespace=depth, fetch=is_reverse, set_cache=self.training)

        # We use the same vector as both a query and a key.
        assert int(buckets.shape[1]) == self.n_hashes * seqlen

        total_hashes = self.n_hashes

        ticker = torch.arange(total_hashes * seqlen, device=device).unsqueeze(0).expand_as(buckets)
        buckets_and_t = seqlen * buckets + (ticker % seqlen)
        buckets_and_t = buckets_and_t.detach()

        # Hash-based sort ("s" at the start of variable names means "sorted")
        sbuckets_and_t, sticker = sort_key_val(buckets_and_t, ticker, dim=-1)
        _, undo_sort = sort_key_val(sticker, ticker, dim=-1)
        del ticker

        sbuckets_and_t = sbuckets_and_t.detach()
        sticker = sticker.detach()
        undo_sort = undo_sort.detach()

        st = (sticker % seqlen)
        sqk = batched_index_select(qk, st)
        sv = batched_index_select(v, st)

        # Split off a "bin" axis so that attention only occurs within chunks.
        chunk_size = total_hashes * n_buckets
        bq_t = bkv_t = torch.reshape(st, (batch_size, chunk_size, -1))
        bqk = torch.reshape(sqk, (batch_size, chunk_size, -1, dim))
        bv = torch.reshape(sv, (batch_size, chunk_size, -1, dim))

        # Hashing operates on unit-length vectors. Unnormalized query vectors are
        # fine because they effectively provide a learnable temperature for the
        # attention softmax, but normalizing keys is needed so that similarity for
        # the purposes of attention correctly corresponds to hash locality.
        bq = bqk
        bk = F.normalize(bqk, p=2, dim=-1).type_as(bq)

        # Allow each chunk to attend within itself, and also one chunk back. Chunk
        # boundaries might occur in the middle of a sequence of items from the
        # same bucket, so this increases the chances of attending to relevant items.
        def look_one_back(x):
            x_extra = torch.cat([x[:, -1:, ...], x[:, :-1, ...]], dim=1)
            return torch.cat([x, x_extra], dim=2)

        bk = look_one_back(bk)
        bv = look_one_back(bv)
        bkv_t = look_one_back(bkv_t)

        # Dot-product attention.
        # прям как в статье про трансформер делаем дот продукт и нормируем на корень из размерности
        dots = torch.einsum('bhie,bhje->bhij', bq, bk) * (dim ** -0.5)
        masked_value = max_neg_value(dots)

        # Mask for post qk attention logits of the input sequence
        if input_attn_mask is not None:
            input_attn_mask = F.pad(input_attn_mask, (0, seqlen - input_attn_mask.shape[-1], 0, seqlen - input_attn_mask.shape[-2]), value=True)
            dot_attn_indices = ((bq_t * seqlen)[:, :, :, None] + bkv_t[:, :, None, :])
            input_attn_mask = input_attn_mask.reshape(batch_size, -1)
            dot_attn_indices = dot_attn_indices.reshape(batch_size, -1)
            mask = input_attn_mask.gather(1, dot_attn_indices).reshape_as(dots)
            dots.masked_fill_(~mask, masked_value)
            del mask

        # Input mask for padding in variable lengthed sequences
        if input_mask is not None:
            input_mask = F.pad(input_mask, (0, seqlen - input_mask.shape[1]), value=True)
            mq = input_mask.gather(1, st).reshape((batch_size, chunk_size, -1))
            mkv = look_one_back(mq)
            mask = mq[:, :, :, None] * mkv[:, :, None, :]
            dots.masked_fill_(~mask, masked_value)
            del mask

        # Causal masking
        if self.causal:
            mask = bq_t[:, :, :, None] < bkv_t[:, :, None, :]
            if seqlen > query_len:
                mask = mask & (bkv_t[:, :, None, :] < query_len)
            dots.masked_fill_(mask, masked_value)
            del mask

        # Mask out attention to self except when no other targets are available.
        self_mask = bq_t[:, :, :, None] == bkv_t[:, :, None, :]
        dots.masked_fill_(self_mask, TOKEN_SELF_ATTN_VALUE)
        del self_mask

        # Mask out attention to other hash buckets.
        if not self._attend_across_buckets:
            bq_buckets = bkv_buckets = torch.reshape(sbuckets_and_t // seqlen, (batch_size, chunk_size, -1))
            bkv_buckets = look_one_back(bkv_buckets)
            bucket_mask = bq_buckets[:, :, :, None] != bkv_buckets[:, :, None, :]
            dots.masked_fill_(bucket_mask, masked_value)
            del bucket_mask

        # Don't double-count query-key pairs across multiple rounds of hashing.
        # There are two possible strategies here. (1) The default is to count how
        # many times a query-key pair is repeated, and to lower its log-prob
        # correspondingly at each repetition. (2) When hard_k is set, the code
        # instead masks all but the first occurence of each query-key pair.
        if not self._allow_duplicate_attention:
            locs1 = undo_sort // bq_t.shape[-1]
            locs2 = (locs1 + 1) % chunk_size
            if not self._attend_across_buckets:
                locs1 = buckets * chunk_size + locs1
                locs2 = buckets * chunk_size + locs2
            locs = torch.cat([
                torch.reshape(locs1, (batch_size, total_hashes, seqlen)),
                torch.reshape(locs2, (batch_size, total_hashes, seqlen)),
            ], 1).permute((0, 2, 1))

            slocs = batched_index_select(locs, st)
            b_locs = torch.reshape(slocs, (batch_size, chunk_size, -1, 2 * total_hashes))

            b_locs1 = b_locs[:, :, :, None, :total_hashes]

            bq_locs = b_locs1.expand(b_locs.shape[:3] + (2, total_hashes))
            bq_locs = torch.reshape(bq_locs, b_locs.shape)
            bkv_locs = look_one_back(b_locs)

            dup_counts = (bq_locs[:, :, :, None, :] == bkv_locs[:, :, None, :, :])
            # for memory considerations, chunk summation of last dimension for counting duplicates
            dup_counts = chunked_sum(dup_counts, chunks=(total_hashes * batch_size))
            dup_counts = dup_counts.detach()
            assert dup_counts.shape == dots.shape
            dots = dots - torch.log(dup_counts + 1e-9)
            del dup_counts

        # Softmax.
        dots_logsumexp = torch.logsumexp(dots, dim=-1, keepdim=True)
        dots = torch.exp(dots - dots_logsumexp).type_as(dots)
        dropped_dots = self.dropout(dots)

        bo = torch.einsum('buij,buje->buie', dropped_dots, bv)
        so = torch.reshape(bo, (batch_size, -1, dim))
        slogits = torch.reshape(dots_logsumexp, (batch_size, -1,))

        class UnsortLogits(Function):
            @staticmethod
            def forward(ctx, so, slogits):
                so = so.detach()
                slogits = slogits.detach()
                o = batched_index_select(so, undo_sort)
                _, logits = sort_key_val(sticker, slogits, dim=-1)
                return o, logits

            @staticmethod
            def backward(ctx, grad_x, grad_y):
                so_grad = batched_index_select(grad_x, sticker)
                _, slogits_grad = sort_key_val(buckets_and_t, grad_y, dim=-1)
                return so_grad, slogits_grad

        o, logits = UnsortLogits.apply(so, slogits)
        o = torch.reshape(o, (batch_size, total_hashes, seqlen, dim))
        logits = torch.reshape(logits, (batch_size, total_hashes, seqlen, 1))

        if query_len != seqlen:
            query_slice = (slice(None), slice(None), slice(0, query_len))
            o, logits = o[query_slice], logits[query_slice]

        probs = torch.exp(logits - torch.logsumexp(logits, dim=1, keepdim=True))
        out = torch.sum(o * probs, dim=1)

        attn = torch.empty(0, device=device)

        # return unsorted attention weights
        if self._return_attn:
            attn_unsort = ((bq_t * seqlen)[:, :, :, None] + bkv_t[:, :, None, :])
            attn_unsort = attn_unsort.view(batch_size * total_hashes, -1).long()
            unsorted_dots = torch.zeros(batch_size * total_hashes, seqlen * seqlen, device=device)
            unsorted_dots.scatter_add_(1, attn_unsort, dots.view_as(attn_unsort))
            del attn_unsort
            unsorted_dots = unsorted_dots.reshape(batch_size, total_hashes, seqlen, seqlen)
            attn = torch.sum(unsorted_dots[:, :, 0:query_len, :] * probs, dim=1)

        # return output, attention matrix, and bucket distribution
        return out, attn, buckets

In [11]:
# local attention

class LocalAttention(nn.Module):
    def __init__(self, bucket_size, causal = False, look_backward = 1, look_forward = 0, dropout = 0., shared_qk = False):
        super().__init__()
        assert not (causal and look_forward > 0), 'you cannot look forward if causal'
        self.bucket_size = bucket_size
        self.causal = causal
        self.look_backward = look_backward
        self.look_forward = look_forward
        self.shared_qk = shared_qk
        self.dropout = nn.Dropout(dropout)

    def forward(self, q, k, v, input_mask = None):
        b, t, e, device, dtype = *q.shape, q.device, q.dtype
        bucket_size, causal, look_backward, look_forward, shared_qk = self.bucket_size, self.causal, self.look_backward, self.look_forward, self.shared_qk

        buckets = t // bucket_size

        if shared_qk:
            k = F.normalize(k, 2, dim=-1).type_as(q)

        ticker = torch.arange(t, device=device, dtype=dtype)[None, :]
        b_t = ticker.reshape(1, buckets, bucket_size)

        bucket_fn = lambda t: t.reshape(b, buckets, bucket_size, -1)
        bq, bk, bv = map(bucket_fn, (q, k, v))

        look_around_kwargs = {'backward': look_backward, 'forward': look_forward}
        bk = look_around(bk, **look_around_kwargs)
        bv = look_around(bv, **look_around_kwargs)

        bq_t = b_t
        bq_k = look_around(b_t, **look_around_kwargs)

        dots = torch.einsum('bhie,bhje->bhij', bq, bk) * (e ** -0.5)
        mask_value = max_neg_value(dots)

        if shared_qk:
            mask = bq_t[:, :, :, None] == bq_k[:, :, None, :]
            dots.masked_fill_(mask, TOKEN_SELF_ATTN_VALUE)
            del mask

        if causal:
            mask = bq_t[:, :, :, None] < bq_k[:, :, None, :]
            dots.masked_fill_(mask, mask_value)
            del mask

        mask = bq_k[:, :, None, :] == -1
        dots.masked_fill_(mask, mask_value)
        del mask

        if input_mask is not None:
            h = b // input_mask.shape[0]
            input_mask = input_mask.reshape(-1, buckets, bucket_size)
            mq = mk = input_mask
            mk = look_around(mk, pad_value=False, **look_around_kwargs)
            mask = (mq[:, None, :, :, None] * mk[:, None, :, None, :])
            mask = merge_dims(0, 1, mask.expand(-1, h, -1, -1, -1))
            dots.masked_fill_(~mask, mask_value)
            del mask

        attn = dots.softmax(dim=-1)
        attn = self.dropout(attn)

        out = torch.einsum('bhij,bhje->bhie', attn, bv)
        out = out.reshape(b, t, e)
        return out


In [12]:
# Shared qk attention, using either full or LSH attention

class LSHSelfAttention(nn.Module):
    def __init__(self, dim, heads = 8, bucket_size = 64, n_hashes = 8, causal = False, attn_chunks = 1, random_rotations_per_head = False, attend_across_buckets = True, allow_duplicate_attention = True, num_mem_kv = 0, one_value_head = False, use_full_attn = False, full_attn_thres = None, return_attn = False, post_attn_dropout = 0., dropout = 0., n_local_attn_heads = 0, **kwargs):
        super().__init__()
        assert dim % heads == 0, 'dimensions must be divisible by number of heads'
        assert n_local_attn_heads < heads, 'local attention heads must be less than number of heads'

        self.dim = dim
        self.heads = heads
        self.attn_chunks = default(attn_chunks, 1)

        self.v_head_repeats = (heads if one_value_head else 1)
        v_dim = dim // self.v_head_repeats

        self.toqk = nn.Linear(dim, dim, bias = False)
        self.tov = nn.Linear(dim, v_dim, bias = False)
        self.to_out = nn.Linear(dim, dim)

        self.bucket_size = bucket_size
        self.lsh_attn = LSHAttention(bucket_size=bucket_size, n_hashes=n_hashes, causal=causal, random_rotations_per_head=random_rotations_per_head, attend_across_buckets = attend_across_buckets,  allow_duplicate_attention = allow_duplicate_attention, return_attn = return_attn, dropout = dropout, **kwargs)
        self.full_attn = FullQKAttention(causal=causal, dropout=dropout)
        self.post_attn_dropout = nn.Dropout(post_attn_dropout)

        self.use_full_attn = use_full_attn
        self.full_attn_thres = default(full_attn_thres, bucket_size)

        self.num_mem_kv = num_mem_kv
        self.mem_kv = nn.Parameter(torch.randn(1, num_mem_kv, dim, requires_grad=True)) if num_mem_kv > 0 else None

        self.n_local_attn_heads = n_local_attn_heads
        self.local_attn = LocalAttention(bucket_size=bucket_size * 2, causal=causal, dropout=dropout, shared_qk=True, look_forward=(1 if not causal else 0))

        self.callback = None

    def forward(self, x, keys = None, input_mask = None, input_attn_mask = None, context_mask = None, **kwargs):
        device, dtype = x.device, x.dtype
        b, t, e, h, m, l_h = *x.shape, self.heads, self.num_mem_kv, self.n_local_attn_heads

        mem_kv = default(self.mem_kv, torch.empty(b, 0, e, dtype=dtype, device=device))
        mem = mem_kv.expand(b, m, e)

        keys = default(keys, torch.empty(b, 0, e, dtype=dtype, device=device))
        c = keys.shape[1]

        kv_len = t + m + c
        use_full_attn = self.use_full_attn or kv_len <= self.full_attn_thres

        x = torch.cat((x, mem, keys), dim=1)
        qk = self.toqk(x)
        v = self.tov(x)
        v = v.repeat(1, 1, self.v_head_repeats)

        def merge_heads(v):
            return v.view(b, kv_len, h, -1).transpose(1, 2)

        def split_heads(v):
            return v.view(b, h, t, -1).transpose(1, 2).contiguous()

        merge_batch_and_heads = partial(merge_dims, 0, 1)

        qk, v = map(merge_heads, (qk, v))

        has_local = l_h > 0
        lsh_h = h - l_h

        split_index_fn = partial(split_at_index, 1, l_h)
        (lqk, qk), (lv, v) = map(split_index_fn, (qk, v))
        lqk, qk, lv, v = map(merge_batch_and_heads, (lqk, qk, lv, v))

        masks = {}
        if input_mask is not None or context_mask is not None:
            default_mask = torch.tensor([True], device=device)
            i_mask = default(input_mask, default_mask.expand(b, t))
            m_mask = default_mask.expand(b, m)
            c_mask = default(context_mask, default_mask.expand(b, c))
            mask = torch.cat((i_mask, m_mask, c_mask), dim=1)
            mask = merge_batch_and_heads(expand_dim(1, lsh_h, mask))
            masks['input_mask'] = mask

        if input_attn_mask is not None:
            input_attn_mask = merge_batch_and_heads(expand_dim(1, lsh_h, input_attn_mask))
            masks['input_attn_mask'] = input_attn_mask

        attn_fn = self.lsh_attn if not use_full_attn else self.full_attn
        partial_attn_fn = partial(attn_fn, query_len = t, **kwargs)
        attn_fn_in_chunks = process_inputs_chunk(partial_attn_fn, chunks = self.attn_chunks)

        out, attn, buckets = attn_fn_in_chunks(qk, v, **masks)

        if self.callback is not None:
            self.callback(attn.reshape(b, h, t, -1), buckets.reshape(b, h, -1))

        if has_local:
            lqk, lv = lqk[:, :t], lv[:, :t]
            local_out = self.local_attn(lqk, lqk, lv, input_mask=input_mask)
            local_out = local_out.reshape(b, l_h, t, -1)
            out = out.reshape(b, lsh_h, t, -1)
            out = torch.cat((local_out, out), dim=1)

        out = split_heads(out).view(b, t, e)
        out = self.to_out(out)
        return self.post_attn_dropout(out)

In [13]:
# simple full attention

class FullQKAttention(nn.Module):
    def __init__(self, causal = False, dropout = 0.):
        super().__init__()
        self.causal = causal
        self.dropout = nn.Dropout(dropout)

    def forward(self, qk, v, query_len = None, input_mask = None, input_attn_mask = None, **kwargs):
        b, seq_len, dim = qk.shape
        query_len = default(query_len, seq_len)
        t = query_len

        q = qk[:, 0:query_len]
        qk = F.normalize(qk, 2, dim=-1).type_as(q)

        dot = torch.einsum('bie,bje->bij', q, qk) * (dim ** -0.5)

        # qk attention requires tokens not attend to self
        i = torch.arange(t)
        dot[:, i, i] = TOKEN_SELF_ATTN_VALUE
        masked_value = max_neg_value(dot)

        # Input mask for padding in variable lengthed sequences
        if input_mask is not None:
            mask = input_mask[:, 0:query_len, None] * input_mask[:, None, :]
            mask = F.pad(mask, (0, seq_len - mask.shape[-1]), value=True)
            dot.masked_fill_(~mask, masked_value)

        # Mask for post qk attention logits of the input sequence
        if input_attn_mask is not None:
            input_attn_mask = F.pad(input_attn_mask, (0, seq_len - input_attn_mask.shape[-1]), value=True)
            dot.masked_fill_(~input_attn_mask, masked_value)

        if self.causal:
            i, j = torch.triu_indices(t, t, 1)
            dot[:, i, j] = masked_value

        dot = dot.softmax(dim=-1)
        dot = self.dropout(dot)

        out = torch.einsum('bij,bje->bie', dot, v)

        return out, dot, torch.empty(0)


# feed forward

class GELU_(nn.Module):
    def forward(self, x):
        return 0.5 * x * (1 + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * torch.pow(x, 3))))

GELU = nn.GELU if hasattr(nn, 'GELU') else GELU_

class FeedForward(nn.Module):
    def __init__(self, dim, mult = 4, dropout = 0., activation = None, glu = False):
        super().__init__()
        activation = default(activation, GELU)

        self.glu = glu
        self.w1 = nn.Linear(dim, dim * mult * (2 if glu else 1))
        self.act = activation()
        self.dropout = nn.Dropout(dropout)
        self.w2 = nn.Linear(dim * mult, dim)

    def forward(self, x, **kwargs):
        if not self.glu:
            x = self.w1(x)
            x = self.act(x)
        else:
            x, v = self.w1(x).chunk(2, dim=-1)
            x = self.act(x) * v

        x = self.dropout(x)
        x = self.w2(x)
        return x

# positional embeddings

class AbsolutePositionalEmbedding(nn.Module):
    def __init__(self, dim, max_seq_len):
        super().__init__()
        self.emb = nn.Embedding(max_seq_len, dim)

    def forward(self, x):
        t = torch.arange(x.shape[1], device=x.device)
        return self.emb(t)

class FixedPositionalEmbedding(nn.Module):
    def __init__(self, dim):
        super().__init__()
        inv_freq = 1. / (10000 ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer('inv_freq', inv_freq)

    def forward(self, x):
        t = torch.arange(x.shape[1], device=x.device).type_as(self.inv_freq)
        sinusoid_inp = torch.einsum("i,j->ij", t, self.inv_freq)
        emb = torch.cat((sinusoid_inp.sin(), sinusoid_inp.cos()), dim=-1)
        return emb[None, :, :]

# Reformer lm

In [14]:


class Reformer(nn.Module):
    def __init__(self, dim, depth, max_seq_len, heads = 8, bucket_size = 64, n_hashes = 8, ff_chunks = 100, attn_chunks = None, causal = False, weight_tie = False, lsh_dropout = 0., ff_dropout = 0., ff_activation = None, ff_mult = 4, ff_glu = False, post_attn_dropout = 0., layer_dropout = 0., lsh_attend_across_buckets = True, lsh_allow_duplicate_attention = True, random_rotations_per_head = False, twin_attention = False, use_scale_norm = False, use_rezero = False, use_full_attn = False, full_attn_thres = 0, reverse_thres = 0, num_mem_kv = 0, one_value_head = False, n_local_attn_heads = 0, pkm_layers = tuple(), pkm_num_keys = 128):
        super().__init__()
        self.dim = dim
        self.depth = depth

        self.bucket_size = bucket_size
        self.num_mem_kv = num_mem_kv

        self.twin_attention = twin_attention
        self.full_attn_thres = full_attn_thres

        get_attn = lambda: LSHSelfAttention(dim, heads, bucket_size, n_hashes, causal = causal, dropout = lsh_dropout, post_attn_dropout = post_attn_dropout, attn_chunks = attn_chunks, allow_duplicate_attention = lsh_allow_duplicate_attention, attend_across_buckets = lsh_attend_across_buckets, random_rotations_per_head = random_rotations_per_head, num_mem_kv = num_mem_kv, use_full_attn = use_full_attn, full_attn_thres = full_attn_thres, one_value_head = one_value_head, n_local_attn_heads = n_local_attn_heads)
        get_ff = lambda: Chunk(ff_chunks, FeedForward(dim, dropout = ff_dropout, activation = ff_activation, mult = ff_mult, glu = ff_glu), along_dim = -2)
        get_pkm = lambda: PKM(dim, num_keys = pkm_num_keys)

        if weight_tie:
            get_attn, get_ff, get_pkm = map(cache_fn, (get_attn, get_ff, get_pkm))

        blocks = []

        norm_type = ScaleNorm if use_scale_norm else nn.LayerNorm

        residual_fn_wrapper = ReZero if use_rezero else partial(PreNorm, norm_type, dim)

        for ind in range(depth):
            layer_num = ind + 1
            use_pkm = layer_num in cast_tuple(pkm_layers)
            parallel_net = None

            attn = get_attn()

            if use_pkm:
                parallel_net = get_pkm()
            elif twin_attention:
                parallel_net = get_attn()
            else:
                parallel_net = get_ff()

            f = residual_fn_wrapper(attn)
            g = residual_fn_wrapper(parallel_net)

            blocks.append(nn.ModuleList([f, g]))

        self.layers = ReversibleSequence(nn.ModuleList(blocks), layer_dropout = layer_dropout, reverse_thres = reverse_thres, send_signal = True)

    def forward(self, x, **kwargs):
        x = torch.cat([x, x], dim = -1)
        arg_route = (True, self.twin_attention)
        x = self.layers(x, arg_route = arg_route, **kwargs)
        return torch.stack(x.chunk(2, dim=-1)).mean(dim=0)

class ReformerLM(nn.Module):
    def __init__(self, num_tokens, dim, depth, max_seq_len, heads = 8, bucket_size = 64, n_hashes = 4, ff_chunks = 100, attn_chunks = 1, causal = False, weight_tie = False, lsh_dropout = 0., ff_dropout = 0., ff_mult = 4, ff_activation = None, ff_glu = False, post_attn_dropout = 0., layer_dropout = 0., random_rotations_per_head = False, twin_attention = False, use_scale_norm = False, use_rezero = False, use_full_attn = False, full_attn_thres = 0, reverse_thres = 0, num_mem_kv = 0, one_value_head = False, emb_dim = None, return_embeddings = False, weight_tie_embedding = False, fixed_position_emb = False, absolute_position_emb = False, axial_position_shape = None, n_local_attn_heads = 0, pkm_layers = tuple(), pkm_num_keys = 128):
        super().__init__()
        emb_dim = default(emb_dim, dim)
        self.max_seq_len = max_seq_len

        self.token_emb = nn.Embedding(num_tokens, emb_dim)

        self.to_model_dim = Identity() if emb_dim == dim else nn.Linear(emb_dim, dim)

        if absolute_position_emb:
            self.pos_emb = AbsolutePositionalEmbedding(emb_dim, max_seq_len)
        elif fixed_position_emb:
            self.pos_emb = FixedPositionalEmbedding(emb_dim)
        else:
            axial_position_shape = default(axial_position_shape, (max_seq_len // bucket_size, bucket_size))
            self.pos_emb = AxialPositionalEmbedding(emb_dim, axial_position_shape)

        self.reformer = Reformer(dim, depth, max_seq_len, heads = heads, bucket_size = bucket_size, n_hashes = n_hashes, ff_chunks = ff_chunks, attn_chunks = attn_chunks, causal = causal, weight_tie = weight_tie, lsh_dropout = lsh_dropout, ff_mult = ff_mult, ff_activation = ff_activation, ff_glu = ff_glu, ff_dropout = ff_dropout, post_attn_dropout = 0., layer_dropout = layer_dropout, random_rotations_per_head = random_rotations_per_head, twin_attention = twin_attention, use_scale_norm = use_scale_norm, use_rezero = use_rezero, use_full_attn = use_full_attn, full_attn_thres = full_attn_thres, reverse_thres = reverse_thres, num_mem_kv = num_mem_kv, one_value_head = one_value_head, n_local_attn_heads = n_local_attn_heads, pkm_layers = pkm_layers, pkm_num_keys = pkm_num_keys)

        if return_embeddings:
            self.out = Identity()
            return

        self.out = nn.Sequential(
            nn.Linear(dim, emb_dim) if emb_dim != dim else Identity(),
            nn.Linear(emb_dim, num_tokens) if not weight_tie_embedding else MatrixMultiply(self.token_emb.weight, transpose=True, normalize=True)
        )

    def forward(self, x, **kwargs):
        x = self.token_emb(x)
        x = x + self.pos_emb(x).type_as(x)

        x = self.to_model_dim(x)
        x = self.reformer(x, **kwargs)
        return self.out(x)

In [15]:
# Training Wrapper

def top_p(logits, thres = 0.9):
    sorted_logits, sorted_indices = torch.sort(logits, descending=True)
    cum_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)

    sorted_indices_to_remove = cum_probs > (1 - thres)
    sorted_indices_to_remove[:, 1:] = sorted_indices_to_remove[:, :-1].clone()
    sorted_indices_to_remove[:, 0] = 0

    sorted_logits[sorted_indices_to_remove] = float('-inf')
    return sorted_logits.scatter(1, sorted_indices, sorted_logits)

def top_k(logits, thres = 0.9):
    k = int((1 - thres) * logits.shape[-1])
    val, ind = torch.topk(logits, k)
    probs = torch.full_like(logits, float('-inf'))
    probs.scatter_(1, ind, val)
    return probs



class TrainingWrapper(nn.Module):
    def __init__(self, net, ignore_index = -100, pad_value = 0):
        super().__init__()
        assert isinstance(net, ReformerLM), 'generative trainer wrapper can only accept ReformerLM class'
        self.pad_value = pad_value
        self.ignore_index = ignore_index

        self.net = Autopadder(net)
        self.max_seq_len = net.max_seq_len

    @torch.no_grad()
    def generate(self, start_tokens, seq_len, eos_token = None, temperature = 1., filter_logits_fn = top_k, filter_thres = 0.9, **kwargs):
        was_training = self.net.training
        num_dims = len(start_tokens.shape)

        if num_dims == 1:
            start_tokens = start_tokens[None, :]

        b, t = start_tokens.shape

        self.net.eval()
        out = start_tokens
        input_mask = kwargs.pop('input_mask', None)

        if input_mask is None:
            input_mask = torch.full_like(out, True, dtype=torch.bool, device=out.device)

        for _ in range(seq_len):
            x = out[:, -self.max_seq_len:]
            input_mask = input_mask[:, -self.max_seq_len:]

            logits = self.net(x, input_mask=input_mask, **kwargs)[:, -1, :]
            filtered_logits = filter_logits_fn(logits, thres = filter_thres)
            probs = F.softmax(filtered_logits / temperature, dim=-1)
            sample = torch.multinomial(probs, 1)

            out = torch.cat((out, sample), dim=-1)
            input_mask = F.pad(input_mask, (0, 1), value=True)

            if eos_token is not None and (sample == eos_token).all():
                break

        out = out[:, t:]

        if num_dims == 1:
            out = out.squeeze(0)

        self.net.train(was_training)
        return out

    def forward(self, x, return_loss = False, **kwargs):
        pad = partial(pad_sequence, batch_first = True, padding_value = self.pad_value)

        if not return_loss:
            if not isinstance(x, torch.Tensor):
                x = pad(x)
            return self.net(x, **kwargs)

        if isinstance(x, torch.Tensor):
            xi = x[:, :-1]
            xo = x[:, 1:]
        else:
            xi = pad(list(map(lambda t: t[:-1], x)))
            xo = pad(list(map(lambda t: t[1:], x)))

        out = self.net(xi, **kwargs)

        loss = F.cross_entropy(out.transpose(1, 2), xo, ignore_index = self.ignore_index)
        return loss

In [16]:
# constants

NUM_BATCHES = int(2500)
BATCH_SIZE = 4
GRADIENT_ACCUMULATE_EVERY = 4
LEARNING_RATE = 1e-4
VALIDATE_EVERY  = 10
GENERATE_EVERY  = 50
GENERATE_LENGTH = 256
SEQ_LEN = 4096

# helpers

def cycle(loader):
    while True:
        for data in loader:
            yield data

def decode_token(token):
    return str(chr(max(32, token)))

def decode_tokens(tokens):
    return ''.join(list(map(decode_token, tokens)))


In [17]:
# instantiate model

model = ReformerLM(
    dim = 512,
    depth = 6,
    max_seq_len = SEQ_LEN,
    num_tokens = 256,
    heads = 8,
    bucket_size = 64,
    n_hashes = 4,
    ff_chunks = 10,
    lsh_dropout = 0.1,
    weight_tie = True,
    causal = True,
    n_local_attn_heads = 4,
    use_full_attn = False # set this to true for comparison with full attention
)

model = TrainingWrapper(model)
model.cuda()

TrainingWrapper(
  (net): Autopadder(
    (net): ReformerLM(
      (token_emb): Embedding(256, 512)
      (to_model_dim): Identity()
      (pos_emb): AxialPositionalEmbedding()
      (reformer): Reformer(
        (layers): ReversibleSequence(
          (blocks): ModuleList(
            (0): ReversibleBlock(
              (f): Deterministic(
                (net): PreNorm(
                  (norm): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
                  (fn): LSHSelfAttention(
                    (toqk): Linear(in_features=512, out_features=512, bias=False)
                    (tov): Linear(in_features=512, out_features=512, bias=False)
                    (to_out): Linear(in_features=512, out_features=512, bias=True)
                    (lsh_attn): LSHAttention(
                      (dropout): Dropout(p=0.1, inplace=False)
                      (dropout_for_hash): Dropout(p=0.0, inplace=False)
                    )
                    (full_attn): FullQKAttention(
    

In [18]:


# prepare enwik8 data

with gzip.open('./data/enwik8.gz') as file:
    X = np.fromstring(file.read(int(95e6)), dtype=np.uint8)
    trX, vaX = np.split(X, [int(90e6)])
    data_train, data_val = torch.from_numpy(trX), torch.from_numpy(vaX)


  after removing the cwd from sys.path.


In [None]:
class TextSamplerDataset(Dataset):
    def __init__(self, data, seq_len):
        super().__init__()
        self.data = data
        self.seq_len = seq_len

    def __getitem__(self, index):
        rand_start = torch.randint(0, self.data.size(0) - self.seq_len - 1, (1,))
        full_seq = self.data[rand_start: rand_start + self.seq_len + 1].long()
        return full_seq.cuda()

    def __len__(self):
        return self.data.size(0) // self.seq_len

train_dataset = TextSamplerDataset(data_train, SEQ_LEN)
val_dataset   = TextSamplerDataset(data_val, SEQ_LEN)
train_loader  = cycle(DataLoader(train_dataset, batch_size = BATCH_SIZE))
val_loader    = cycle(DataLoader(val_dataset, batch_size = BATCH_SIZE))

# optimizer

optim = torch.optim.Adam(model.parameters(), lr=LEARNING_RATE)

# training

for i in tqdm.tqdm(range(NUM_BATCHES), mininterval=10., desc='training'):
    model.train()

    for __ in range(GRADIENT_ACCUMULATE_EVERY):
        loss = model(next(train_loader), return_loss = True)
        loss.backward()

    print(f'training loss: {loss.item()}')
    torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
    optim.step()
    optim.zero_grad()

    if i % VALIDATE_EVERY == 0:
        model.eval()
        with torch.no_grad():
            loss = model(next(val_loader), return_loss = True)
            print(f'validation loss: {loss.item()}')
        state_dict = {'epoch': i
              , 'reformer_model': model.state_dict()
              , 'optimizer': optim.state_dict()
              , 'validation_loss': loss.item()
             }
        chk_path = './data/models/reformer'+str(i)+'.chk'
        torch.save(state_dict, chk_path)
        

    if i % GENERATE_EVERY == 0:
        model.eval()
        inp = random.choice(val_dataset)[:-1]
        prime = decode_tokens(inp)
        print(f'%s \n\n %s', (prime, '*' * 100))

        sample = model.generate(inp, GENERATE_LENGTH)
        output_str = decode_tokens(sample)
        print(output_str)

In [None]:
# loss after 2500 epochs

In [30]:
state_dict = torch.load('./data/models/reformer2490.chk')
model_state = state_dict['reformer_model']
optimizer_state = state_dict['optimizer']
model.load_state_dict(model_state)
optim.load_state_dict(optimizer_state)

In [31]:
loss = model(next(train_loader), return_loss = True)
print(f'training loss: {loss.item()}')

training loss: 2.1714210510253906


In [32]:
model.eval()
with torch.no_grad():
    loss = model(next(val_loader), return_loss = True)
    print(f'validation loss: {loss.item()}')

validation loss: 2.150939464569092


In [33]:
# try to generate text

In [34]:
sample = model.generate(inp, GENERATE_LENGTH)
output_str = decode_tokens(sample)
print(output_str)

[[Rankole ondos]], that the eerssanget|St]]  '''[[de:åÑÐ¼Ð»Ð¾Ð»Ñ«ãÐµÐ½Ð±ÏÐµÑÐ°ì¬å³¼ Spe offfermmatoncy)|thurd of [[Nazin Flow Nass]] [[ge:Hobasman tholspe]] #[[Steger]] [[trisskos|Consty, StagentÃ©olm/homs]] [[rol mamptigi]] [[fate:ãÐ½Ð½ÑÐ°Ð°Ð¼Ð


In [35]:
LEARNING_RATE = 1e5
NUM_BATCHES = 500


for i in tqdm.tqdm(range(NUM_BATCHES), mininterval=10., desc='training'):
    model.train()

    for __ in range(GRADIENT_ACCUMULATE_EVERY):
        loss = model(next(train_loader), return_loss = True)
        loss.backward()

    print(f'training loss: {loss.item()}')
    torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
    optim.step()
    optim.zero_grad()

    if i % VALIDATE_EVERY == 0:
        model.eval()
        with torch.no_grad():
            loss = model(next(val_loader), return_loss = True)
            print(f'validation loss: {loss.item()}')
        state_dict = {'epoch': i
              , 'reformer_model': model.state_dict()
              , 'optimizer': optim.state_dict()
              , 'validation_loss': loss.item()
             }
        chk_path = './data/models/reformer_stage2_'+str(i)+'.chk'
        torch.save(state_dict, chk_path)
        

    if i % GENERATE_EVERY == 0:
        model.eval()
        inp = random.choice(val_dataset)[:-1]
        prime = decode_tokens(inp)
        print(f'%s \n\n %s', (prime, '*' * 100))

        sample = model.generate(inp, GENERATE_LENGTH)
        output_str = decode_tokens(sample)
        print(output_str)

training:   0%|                                                                                                                                                                | 0/500 [00:00<?, ?it/s]

training loss: 2.006351947784424
validation loss: 2.121259927749634
%s 

 %s ("'||10&lt;sup&gt;TH&lt;/sup&gt;||30 |-  ||'''HOME RUNS'''||2&lt;sup&gt;ND&lt;/sup&gt;||44 |-  ||'''HR/100 OUTS'''||2&lt;sup&gt;ND&lt;/sup&gt;||10.73 |-  ||'''HR/100 PA'''||2&lt;sup&gt;ND&lt;/sup&gt;||6.89 |-  ||'''HR/100 AB'''||2&lt;sup&gt;ND&lt;/sup&gt;||8.04 |-  ||'''RBI'''||7&lt;sup&gt;TH&lt;/sup&gt;||97 |-  ||'''WALKS'''||7&lt;sup&gt;TH&lt;/sup&gt;||87 |-  ||'''CAUGHT STEALING'''||5&lt;sup&gt;TH&lt;/sup&gt;||10 |-  ||'''SLG'''||2&lt;sup&gt;ND&lt;/sup&gt;||.607 |-  ||'''OBA'''||7&lt;sup&gt;TH&lt;/sup&gt;||.396 |-  ||'''OPS'''||2&lt;sup&gt;ND&lt;/sup&gt;||1.003 |-  ||'''RUNS CREATED'''||3&lt;sup&gt;RD&lt;/sup&gt;||127 |-  ||'''RCAA'''||4&lt;sup&gt;TH&lt;/sup&gt;||58 |-  ||'''RCAP'''||5&lt;sup&gt;TH&lt;/sup&gt;||41 |-  ||'''OWP'''||6&lt;sup&gt;TH&lt;/sup&gt;||.750 |-  ||'''RUNS CREATED/GAME'''||5&lt;sup&gt;TH&lt;/sup&gt;||8.36 |-  ||'''TOTAL BASES'''||1&lt;sup&gt;ST&lt;/sup&gt;||332 |-  ||'''EXTRA BASE HITS'

training:   0%|▎                                                                                                                                                     | 1/500 [00:26<3:37:07, 26.11s/it]

rat;id &quot;&quot;''&lt;bcaf&lt;ty | fine &quot; eans=&quot;&quot;n=&ap;&lt;td&amp;mb&quot;n=&gt; | | |&quot;n&quot;/&gt;td&quot;&lt;td&gt;mat;tsud&quot; | |}^{-5&lt;&gt;''t;tr = inone&quot; | &lt;/dag&gt; willt&gt;cef &quot;#392&lt;ci&gt;to &quot;b&lt;&g
training loss: 2.0332043170928955


training:   1%|▉                                                                                                                                                     | 3/500 [00:37<2:45:39, 20.00s/it]

training loss: 2.1569573879241943
training loss: 1.9926022291183472


training:   1%|█▌                                                                                                                                                    | 5/500 [00:50<2:11:45, 15.97s/it]

training loss: 2.1471638679504395
training loss: 2.0758185386657715


training:   1%|██                                                                                                                                                    | 7/500 [01:06<1:51:32, 13.58s/it]

training loss: 2.136307954788208
training loss: 2.211181163787842


training:   2%|██▋                                                                                                                                                   | 9/500 [01:23<1:38:41, 12.06s/it]

training loss: 2.1212592124938965
training loss: 2.0779011249542236


training:   2%|██▋                                                                                                                                                   | 9/500 [01:40<1:38:41, 12.06s/it]

training loss: 2.053191661834717


training:   2%|███▎                                                                                                                                                 | 11/500 [01:42<1:31:05, 11.18s/it]

validation loss: 2.074352264404297
training loss: 2.103111982345581


training:   3%|███▊                                                                                                                                                 | 13/500 [02:00<1:26:29, 10.66s/it]

training loss: 2.0195112228393555
training loss: 2.1215100288391113


training:   3%|████▍                                                                                                                                                | 15/500 [02:18<1:21:13, 10.05s/it]

training loss: 2.1308069229125977
training loss: 2.1318788528442383


training:   3%|█████                                                                                                                                                | 17/500 [02:37<1:20:11,  9.96s/it]

training loss: 2.115903377532959
training loss: 2.0687873363494873


training:   4%|█████▋                                                                                                                                               | 19/500 [02:56<1:18:02,  9.73s/it]

training loss: 2.1136441230773926
training loss: 2.0970277786254883


training:   4%|█████▋                                                                                                                                               | 19/500 [03:10<1:18:02,  9.73s/it]

training loss: 2.131134033203125


training:   4%|██████▎                                                                                                                                              | 21/500 [03:17<1:19:40,  9.98s/it]

validation loss: 2.100651741027832
training loss: 2.140695095062256


training:   5%|██████▊                                                                                                                                              | 23/500 [03:35<1:17:28,  9.75s/it]

training loss: 1.9860424995422363


training:   5%|███████▍                                                                                                                                             | 25/500 [03:56<1:18:29,  9.91s/it]

training loss: 2.100536346435547


training:   5%|███████▋                                                                                                                                             | 26/500 [04:07<1:20:31, 10.19s/it]

training loss: 2.1762375831604004


training:   5%|████████                                                                                                                                             | 27/500 [04:17<1:20:04, 10.16s/it]

training loss: 1.9239537715911865
training loss: 2.106886148452759


training:   6%|████████▋                                                                                                                                            | 29/500 [04:35<1:17:50,  9.92s/it]

training loss: 2.075500011444092
training loss: 1.9907206296920776


training:   6%|████████▋                                                                                                                                            | 29/500 [04:50<1:17:50,  9.92s/it]

training loss: 2.11592960357666


training:   6%|█████████▏                                                                                                                                           | 31/500 [04:56<1:18:00,  9.98s/it]

validation loss: 2.039640426635742


training:   6%|█████████▌                                                                                                                                           | 32/500 [05:06<1:19:50, 10.24s/it]

training loss: 2.0871405601501465
training loss: 2.0762743949890137


training:   7%|██████████▏                                                                                                                                          | 34/500 [05:27<1:19:27, 10.23s/it]

training loss: 2.2345123291015625


training:   7%|██████████▍                                                                                                                                          | 35/500 [05:38<1:20:41, 10.41s/it]

training loss: 1.9681174755096436


training:   7%|██████████▋                                                                                                                                          | 36/500 [05:48<1:21:24, 10.53s/it]

training loss: 1.9106364250183105
training loss: 2.146956205368042


training:   8%|███████████▎                                                                                                                                         | 38/500 [06:08<1:19:14, 10.29s/it]

training loss: 2.079383134841919
training loss: 2.2390804290771484


training:   8%|███████████▉                                                                                                                                         | 40/500 [06:29<1:19:15, 10.34s/it]

training loss: 2.136092185974121
training loss: 2.073765277862549


training:   8%|████████████▏                                                                                                                                        | 41/500 [06:40<1:20:01, 10.46s/it]

validation loss: 2.0687789916992188


training:   8%|████████████▌                                                                                                                                        | 42/500 [06:51<1:21:26, 10.67s/it]

training loss: 2.037799835205078


training:   9%|████████████▊                                                                                                                                        | 43/500 [07:01<1:19:55, 10.49s/it]

training loss: 2.1267600059509277
training loss: 2.160398244857788


training:   9%|█████████████▍                                                                                                                                       | 45/500 [07:21<1:19:10, 10.44s/it]

training loss: 2.148925304412842


training:   9%|█████████████▋                                                                                                                                       | 46/500 [07:33<1:21:56, 10.83s/it]

training loss: 2.0926215648651123
training loss: 2.142927408218384


training:  10%|██████████████▎                                                                                                                                      | 48/500 [07:53<1:19:45, 10.59s/it]

training loss: 2.032125473022461


training:  10%|██████████████▌                                                                                                                                      | 49/500 [08:04<1:18:52, 10.49s/it]

training loss: 2.287369728088379


training:  10%|██████████████▉                                                                                                                                      | 50/500 [08:15<1:20:02, 10.67s/it]

training loss: 2.19667911529541
training loss: 2.120934009552002
validation loss: 2.2092456817626953
%s 

 %s ("births (2005 est.)  '''Life expectancy at birth:''' &lt;br&gt;''total population:'' 69.57 years &lt;br&gt;''male:'' 67.13 years &lt;br&gt;''female:'' 70.13 years (2005 est.)  '''Total fertility rate:''' 2.44 children born/woman (2005 est.)  '''Nationality:''' &lt;br&gt;''noun:'' Indonesian(s) &lt;br&gt;''adjective:'' Indonesian  ==Ethnic groups==  There are over 300 ethnic groups in Indonesia. Many ethnic groups, particularly in [[Kalimantan]] and [[Papua]], have only hundreds of members. Most of the local languages belong to [[Austronesian languages|Austronesian]] linguistic family, although a significant number, particularly in [[Papua]], speak [[Papuan languages]]. In addition, there are roughly 5 million [[Indonesian Chinese|people of Chinese descent]] which speaks various [[Chinese dialects]], most notably [[Cantonese (linguistics)|Cantonese]] and [[Min Nan]].  The popul

training:  10%|███████████████▏                                                                                                                                     | 51/500 [09:11<3:02:40, 24.41s/it]

s:Fired My Kistuna Pacred of the Grunciten]] [[Day:Nazlions]]</ride>    </rev</revion>     </istorg</is    </pegiontion>      <id>Misistit>     <revist>      <p>41319</id>    <tistit>       <resistit       <regnibute>2-027Z</tid>            <conorntoricons


training:  10%|███████████████▍                                                                                                                                     | 52/500 [09:22<2:32:21, 20.40s/it]

training loss: 2.002976894378662


training:  11%|███████████████▊                                                                                                                                     | 53/500 [09:33<2:10:43, 17.55s/it]

training loss: 2.084493398666382


training:  11%|████████████████                                                                                                                                     | 54/500 [09:44<1:55:22, 15.52s/it]

training loss: 2.125678777694702


training:  11%|████████████████▍                                                                                                                                    | 55/500 [09:54<1:44:02, 14.03s/it]

training loss: 2.308349609375


training:  11%|████████████████▋                                                                                                                                    | 56/500 [10:05<1:36:05, 12.99s/it]

training loss: 2.07382869720459


training:  11%|████████████████▉                                                                                                                                    | 57/500 [10:16<1:31:01, 12.33s/it]

training loss: 2.023303747177124


training:  12%|█████████████████▎                                                                                                                                   | 58/500 [10:26<1:27:09, 11.83s/it]

training loss: 2.111783266067505


training:  12%|█████████████████▌                                                                                                                                   | 59/500 [10:37<1:23:48, 11.40s/it]

training loss: 2.099457263946533


training:  12%|█████████████████▉                                                                                                                                   | 60/500 [10:47<1:20:41, 11.00s/it]

training loss: 2.106759548187256
training loss: 1.8785020112991333


training:  12%|██████████████████▏                                                                                                                                  | 61/500 [11:00<1:24:21, 11.53s/it]

validation loss: 2.0963499546051025


training:  12%|██████████████████▍                                                                                                                                  | 62/500 [11:11<1:23:01, 11.37s/it]

training loss: 2.0272016525268555
training loss: 2.141219139099121


training:  13%|███████████████████                                                                                                                                  | 64/500 [11:32<1:21:36, 11.23s/it]

training loss: 2.1588563919067383


training:  13%|███████████████████▎                                                                                                                                 | 65/500 [11:43<1:21:03, 11.18s/it]

training loss: 1.942474126815796


training:  13%|███████████████████▋                                                                                                                                 | 66/500 [11:54<1:18:57, 10.92s/it]

training loss: 1.9499828815460205


training:  13%|███████████████████▉                                                                                                                                 | 67/500 [12:04<1:18:18, 10.85s/it]

training loss: 2.0824713706970215


training:  14%|████████████████████▎                                                                                                                                | 68/500 [12:15<1:18:07, 10.85s/it]

training loss: 2.041738510131836


training:  14%|████████████████████▌                                                                                                                                | 69/500 [12:26<1:18:01, 10.86s/it]

training loss: 2.0528182983398438


training:  14%|████████████████████▊                                                                                                                                | 70/500 [12:38<1:19:33, 11.10s/it]

training loss: 2.1094846725463867
training loss: 2.250410318374634


training:  14%|█████████████████████▏                                                                                                                               | 71/500 [12:49<1:19:32, 11.13s/it]

validation loss: 2.139237403869629


training:  14%|█████████████████████▍                                                                                                                               | 72/500 [13:00<1:18:02, 10.94s/it]

training loss: 2.0490505695343018


training:  15%|█████████████████████▊                                                                                                                               | 73/500 [13:10<1:17:42, 10.92s/it]

training loss: 1.9598658084869385
training loss: 1.8437201976776123


training:  15%|██████████████████████▎                                                                                                                              | 75/500 [13:31<1:15:59, 10.73s/it]

training loss: 1.9026598930358887


training:  15%|██████████████████████▋                                                                                                                              | 76/500 [13:42<1:16:40, 10.85s/it]

training loss: 2.042381525039673


training:  15%|██████████████████████▉                                                                                                                              | 77/500 [13:53<1:16:24, 10.84s/it]

training loss: 2.0386178493499756


training:  16%|███████████████████████▏                                                                                                                             | 78/500 [14:04<1:16:45, 10.91s/it]

training loss: 2.1113674640655518
training loss: 2.007382869720459


training:  16%|███████████████████████▊                                                                                                                             | 80/500 [14:26<1:16:45, 10.96s/it]

training loss: 2.109389305114746
training loss: 2.053819417953491


training:  16%|████████████████████████▏                                                                                                                            | 81/500 [14:38<1:18:10, 11.19s/it]

validation loss: 2.107142448425293


training:  16%|████████████████████████▍                                                                                                                            | 82/500 [14:49<1:17:28, 11.12s/it]

training loss: 2.1720669269561768


training:  17%|████████████████████████▋                                                                                                                            | 83/500 [14:59<1:15:26, 10.85s/it]

training loss: 2.0394163131713867


training:  17%|█████████████████████████                                                                                                                            | 84/500 [15:11<1:17:42, 11.21s/it]

training loss: 2.0700299739837646
training loss: 1.9918453693389893


training:  17%|█████████████████████████▋                                                                                                                           | 86/500 [15:31<1:14:59, 10.87s/it]

training loss: 2.011218786239624


training:  17%|█████████████████████████▉                                                                                                                           | 87/500 [15:44<1:18:42, 11.43s/it]

training loss: 2.09983491897583


training:  18%|██████████████████████████▏                                                                                                                          | 88/500 [15:55<1:16:29, 11.14s/it]

training loss: 2.01518177986145


training:  18%|██████████████████████████▌                                                                                                                          | 89/500 [16:05<1:14:30, 10.88s/it]

training loss: 2.0633819103240967


training:  18%|██████████████████████████▊                                                                                                                          | 90/500 [16:16<1:14:14, 10.87s/it]

training loss: 2.011150598526001
training loss: 2.0153844356536865


training:  18%|███████████████████████████                                                                                                                          | 91/500 [16:27<1:15:18, 11.05s/it]

validation loss: 1.8812212944030762


training:  18%|███████████████████████████▍                                                                                                                         | 92/500 [16:38<1:15:47, 11.15s/it]

training loss: 1.8940033912658691


training:  19%|███████████████████████████▋                                                                                                                         | 93/500 [16:50<1:15:25, 11.12s/it]

training loss: 2.0570883750915527


training:  19%|████████████████████████████                                                                                                                         | 94/500 [17:00<1:13:11, 10.82s/it]

training loss: 2.130432367324829


training:  19%|████████████████████████████▎                                                                                                                        | 95/500 [17:11<1:14:03, 10.97s/it]

training loss: 2.099996328353882


training:  19%|████████████████████████████▌                                                                                                                        | 96/500 [17:22<1:13:05, 10.86s/it]

training loss: 2.101987838745117


training:  19%|████████████████████████████▉                                                                                                                        | 97/500 [17:33<1:13:28, 10.94s/it]

training loss: 2.006777763366699


training:  20%|█████████████████████████████▏                                                                                                                       | 98/500 [17:44<1:13:29, 10.97s/it]

training loss: 2.0598440170288086


training:  20%|█████████████████████████████▌                                                                                                                       | 99/500 [17:55<1:14:22, 11.13s/it]

training loss: 2.0938467979431152
training loss: 2.0776991844177246
training loss: 2.0558180809020996
validation loss: 1.979750633239746
%s 

 %s ("on [[6 March]] [[1959]]. |- | [[Buffalo Bill]] ||  || Born William Frederick Cody near [[Le Claire, Iowa|Le Claire]] in [[1846]]. |- | [[Bill Bryson]] || Popular writer of travel books || Born in [[Des Moines, Iowa|Des Moines]] in [[1951]]. |- | [[Norman Ernest Borlaug]] || [[Nobel Peace Prize]] laureate || Born near [[Cresco, Iowa|Cresco]] on March 25, [[1914]]. |- | [[Johnny Carson]] || Comedian || Born in [[Corning, Iowa|Corning]] on [[23 October]] [[1925]]. |- | [[Mamie Eisenhower]] || Wife of [[President Dwight D. Eisenhower]] || Born in [[Boone, Iowa|Boone]] in [[1896]]. |- | [[Hayden Fry]] || [[National Collegiate Athletic Association|College football]] coach of the [[Iowa Hawkeyes Football|Iowa Hawkeyes]] || Coached into national prominence with several [[Rose Bowl Game]] appearances and high national rankings throughout his tenure.

training:  20%|█████████████████████████████▉                                                                                                                      | 101/500 [19:03<1:59:08, 17.92s/it]

fore [[1955]], won [[Wod Tad any gitenedes prilica]]s ree [[Nurbaroy, Houghadde]]. The and to nopoxarsialy [[I Bred Friganduar Eap the Maland of the Claforase, stons, tolliand witon laniated.S.cedits to the are weibghous in, ungiph panp.c.  Atmerbes in ref


training:  20%|██████████████████████████████▏                                                                                                                     | 102/500 [19:14<1:44:47, 15.80s/it]

training loss: 2.099181652069092


training:  21%|██████████████████████████████▍                                                                                                                     | 103/500 [19:25<1:34:54, 14.34s/it]

training loss: 2.132847309112549


training:  21%|██████████████████████████████▊                                                                                                                     | 104/500 [19:36<1:28:41, 13.44s/it]

training loss: 2.1320230960845947


training:  21%|███████████████████████████████                                                                                                                     | 105/500 [19:47<1:24:52, 12.89s/it]

training loss: 2.025076389312744


training:  21%|███████████████████████████████▍                                                                                                                    | 106/500 [19:58<1:20:46, 12.30s/it]

training loss: 2.032851219177246


training:  21%|███████████████████████████████▋                                                                                                                    | 107/500 [20:09<1:18:00, 11.91s/it]

training loss: 2.096097469329834


training:  22%|███████████████████████████████▉                                                                                                                    | 108/500 [20:20<1:14:55, 11.47s/it]

training loss: 2.1495494842529297


training:  22%|████████████████████████████████▎                                                                                                                   | 109/500 [20:31<1:13:56, 11.35s/it]

training loss: 2.1171085834503174
training loss: 2.08450984954834
training loss: 2.0938162803649902


training:  22%|████████████████████████████████▊                                                                                                                   | 111/500 [20:52<1:12:00, 11.11s/it]

validation loss: 2.1123504638671875


training:  22%|█████████████████████████████████▏                                                                                                                  | 112/500 [21:04<1:14:06, 11.46s/it]

training loss: 2.0767462253570557


training:  23%|█████████████████████████████████▍                                                                                                                  | 113/500 [21:15<1:13:26, 11.39s/it]

training loss: 2.110067844390869


training:  23%|█████████████████████████████████▋                                                                                                                  | 114/500 [21:26<1:12:12, 11.22s/it]

training loss: 2.051360607147217


training:  23%|██████████████████████████████████                                                                                                                  | 115/500 [21:38<1:11:57, 11.21s/it]

training loss: 2.1018357276916504


training:  23%|██████████████████████████████████▎                                                                                                                 | 116/500 [21:49<1:12:25, 11.32s/it]

training loss: 2.1136226654052734
training loss: 2.1940369606018066


training:  24%|██████████████████████████████████▉                                                                                                                 | 118/500 [22:10<1:10:20, 11.05s/it]

training loss: 2.2125282287597656


training:  24%|███████████████████████████████████▏                                                                                                                | 119/500 [22:21<1:10:17, 11.07s/it]

training loss: 2.059952974319458


training:  24%|███████████████████████████████████▌                                                                                                                | 120/500 [22:32<1:09:34, 10.99s/it]

training loss: 2.1486639976501465
training loss: 2.1090712547302246
validation loss: 2.0565617084503174


training:  24%|████████████████████████████████████                                                                                                                | 122/500 [22:53<1:08:38, 10.90s/it]

training loss: 2.0542213916778564


training:  25%|████████████████████████████████████▍                                                                                                               | 123/500 [23:04<1:08:04, 10.84s/it]

training loss: 1.8909754753112793


training:  25%|████████████████████████████████████▋                                                                                                               | 124/500 [23:17<1:11:27, 11.40s/it]

training loss: 2.1018645763397217


training:  25%|█████████████████████████████████████                                                                                                               | 125/500 [23:28<1:10:33, 11.29s/it]

training loss: 2.0717947483062744


training:  25%|█████████████████████████████████████▎                                                                                                              | 126/500 [23:38<1:08:07, 10.93s/it]

training loss: 2.0605502128601074


training:  25%|█████████████████████████████████████▌                                                                                                              | 127/500 [23:49<1:08:50, 11.07s/it]

training loss: 2.06394624710083
training loss: 2.074037790298462


training:  26%|██████████████████████████████████████▏                                                                                                             | 129/500 [24:10<1:07:28, 10.91s/it]

training loss: 2.1225650310516357


training:  26%|██████████████████████████████████████▍                                                                                                             | 130/500 [24:21<1:06:48, 10.83s/it]

training loss: 2.1155998706817627
training loss: 1.9951821565628052


training:  26%|██████████████████████████████████████▊                                                                                                             | 131/500 [24:32<1:07:19, 10.95s/it]

validation loss: 2.0973238945007324


training:  26%|███████████████████████████████████████                                                                                                             | 132/500 [24:44<1:09:00, 11.25s/it]

training loss: 2.05914568901062


training:  27%|███████████████████████████████████████▎                                                                                                            | 133/500 [24:55<1:07:42, 11.07s/it]

training loss: 2.0686135292053223


training:  27%|███████████████████████████████████████▋                                                                                                            | 134/500 [25:06<1:08:18, 11.20s/it]

training loss: 2.0568721294403076


training:  27%|███████████████████████████████████████▉                                                                                                            | 135/500 [25:18<1:08:35, 11.28s/it]

training loss: 2.0674359798431396
training loss: 1.910259485244751


training:  27%|████████████████████████████████████████▌                                                                                                           | 137/500 [25:40<1:08:03, 11.25s/it]

training loss: 2.0793962478637695


training:  28%|████████████████████████████████████████▊                                                                                                           | 138/500 [25:51<1:07:44, 11.23s/it]

training loss: 2.0874152183532715
training loss: 2.0929696559906006


training:  28%|█████████████████████████████████████████▍                                                                                                          | 140/500 [26:12<1:05:59, 11.00s/it]

training loss: 2.0543229579925537
training loss: 2.045814037322998


training:  28%|█████████████████████████████████████████▋                                                                                                          | 141/500 [26:25<1:08:41, 11.48s/it]

validation loss: 1.952270269393921


training:  28%|██████████████████████████████████████████                                                                                                          | 142/500 [26:36<1:08:25, 11.47s/it]

training loss: 2.0907673835754395
training loss: 1.9765386581420898


training:  29%|██████████████████████████████████████████▌                                                                                                         | 144/500 [26:58<1:06:47, 11.26s/it]

training loss: 2.2156167030334473
training loss: 2.0526673793792725


training:  29%|███████████████████████████████████████████▏                                                                                                        | 146/500 [27:18<1:04:50, 10.99s/it]

training loss: 1.9943335056304932


training:  29%|███████████████████████████████████████████▌                                                                                                        | 147/500 [27:29<1:03:56, 10.87s/it]

training loss: 2.2138278484344482


training:  30%|███████████████████████████████████████████▊                                                                                                        | 148/500 [27:40<1:04:44, 11.04s/it]

training loss: 2.128357172012329


training:  30%|████████████████████████████████████████████                                                                                                        | 149/500 [27:51<1:03:31, 10.86s/it]

training loss: 2.097421884536743


training:  30%|████████████████████████████████████████████▍                                                                                                       | 150/500 [28:02<1:04:03, 10.98s/it]

training loss: 2.17616868019104
training loss: 2.0797104835510254
validation loss: 1.9857008457183838
%s 

 %s ("t solution to the [[SchrÃ¶dinger equation]] exists, from which the experimentally observed frequencies and intensities of the hydrogen [[spectral line]]s can be calculated.   In 1913, [[Niels Bohr]] had deduced the spectral frequencies of the hydrogen atom making several assumptions (see [[The Bohr Model]]). The results of Bohr for the frequencies and underlying energy values are confirmed by the full quantum-mechanical analysis which uses the SchrÃ¶dinger equation, as was shown in 1925/26. The full analysis goes further, because it also yields the shape of the electron's wave function (&quot;orbital&quot;) for the different possible quantum-mechanical states. This allows determination of the intensity of spectral lines (which correspond to transitions between these states), among other things. In addition, the full analysis is applicable also to more complicated atoms with 

training:  30%|████████████████████████████████████████████▋                                                                                                       | 151/500 [29:00<2:25:55, 25.09s/it]

inde thatifon evollational fom the fron ove wersices on the micy]] (Antin at le heabl the und trom the groul pemets that the fal. [[192]], an de pare rite-dage dilan sturten thised the [[Nooghw]].  The was wo. [http://capure-pmare batsiniting forth]]  ''Ch


training:  30%|████████████████████████████████████████████▉                                                                                                       | 152/500 [29:14<2:05:09, 21.58s/it]

training loss: 2.087087631225586


training:  31%|█████████████████████████████████████████████▎                                                                                                      | 153/500 [29:25<1:47:34, 18.60s/it]

training loss: 2.050985336303711


training:  31%|█████████████████████████████████████████████▌                                                                                                      | 154/500 [29:36<1:33:47, 16.26s/it]

training loss: 2.019737720489502


training:  31%|█████████████████████████████████████████████▉                                                                                                      | 155/500 [29:47<1:23:47, 14.57s/it]

training loss: 2.0703325271606445


training:  31%|██████████████████████████████████████████████▏                                                                                                     | 156/500 [29:58<1:17:49, 13.57s/it]

training loss: 2.0951647758483887


training:  31%|██████████████████████████████████████████████▍                                                                                                     | 157/500 [30:08<1:11:44, 12.55s/it]

training loss: 2.01320743560791


training:  32%|██████████████████████████████████████████████▊                                                                                                     | 158/500 [30:19<1:08:31, 12.02s/it]

training loss: 2.2281734943389893


training:  32%|███████████████████████████████████████████████                                                                                                     | 159/500 [30:31<1:07:44, 11.92s/it]

training loss: 2.1038193702697754


training:  32%|███████████████████████████████████████████████▎                                                                                                    | 160/500 [30:41<1:05:21, 11.53s/it]

training loss: 2.0866992473602295
training loss: 2.05122709274292


training:  32%|███████████████████████████████████████████████▋                                                                                                    | 161/500 [30:53<1:06:07, 11.70s/it]

validation loss: 1.8037211894989014


training:  32%|███████████████████████████████████████████████▉                                                                                                    | 162/500 [31:04<1:03:56, 11.35s/it]

training loss: 2.0514914989471436


training:  33%|████████████████████████████████████████████████▏                                                                                                   | 163/500 [31:15<1:04:01, 11.40s/it]

training loss: 1.952429175376892


training:  33%|████████████████████████████████████████████████▌                                                                                                   | 164/500 [31:26<1:02:26, 11.15s/it]

training loss: 2.037904977798462
training loss: 2.078732967376709


training:  33%|█████████████████████████████████████████████████▏                                                                                                  | 166/500 [31:46<1:00:08, 10.80s/it]

training loss: 1.9263668060302734


training:  33%|█████████████████████████████████████████████████▍                                                                                                  | 167/500 [31:57<1:01:10, 11.02s/it]

training loss: 2.1046535968780518


training:  34%|█████████████████████████████████████████████████▋                                                                                                  | 168/500 [32:10<1:02:53, 11.37s/it]

training loss: 2.21822190284729
training loss: 2.0328445434570312


training:  34%|██████████████████████████████████████████████████▎                                                                                                 | 170/500 [32:30<1:00:24, 10.98s/it]

training loss: 2.1933484077453613
training loss: 2.0258378982543945


training:  34%|██████████████████████████████████████████████████▌                                                                                                 | 171/500 [32:41<1:00:15, 10.99s/it]

validation loss: 2.054941415786743


training:  34%|██████████████████████████████████████████████████▉                                                                                                 | 172/500 [32:52<1:00:45, 11.11s/it]

training loss: 2.0888917446136475


training:  35%|███████████████████████████████████████████████████▏                                                                                                | 173/500 [33:04<1:01:10, 11.23s/it]

training loss: 1.9381015300750732


training:  35%|███████████████████████████████████████████████████▌                                                                                                | 174/500 [33:15<1:01:14, 11.27s/it]

training loss: 2.122966766357422


training:  35%|███████████████████████████████████████████████████▊                                                                                                | 175/500 [33:26<1:00:47, 11.22s/it]

training loss: 1.8747150897979736


training:  35%|████████████████████████████████████████████████████▊                                                                                                 | 176/500 [33:36<59:06, 10.95s/it]

training loss: 2.1651060581207275


training:  35%|█████████████████████████████████████████████████████                                                                                                 | 177/500 [33:48<59:14, 11.00s/it]

training loss: 2.0379581451416016


training:  36%|█████████████████████████████████████████████████████▍                                                                                                | 178/500 [33:58<58:34, 10.91s/it]

training loss: 2.2356362342834473


training:  36%|█████████████████████████████████████████████████████▋                                                                                                | 179/500 [34:10<59:12, 11.07s/it]

training loss: 2.157003164291382


training:  36%|██████████████████████████████████████████████████████                                                                                                | 180/500 [34:21<58:49, 11.03s/it]

training loss: 2.1419363021850586
training loss: 2.00667667388916


training:  36%|██████████████████████████████████████████████████████▎                                                                                               | 181/500 [34:32<59:31, 11.20s/it]

validation loss: 2.02614688873291


training:  36%|██████████████████████████████████████████████████████▌                                                                                               | 182/500 [34:43<59:01, 11.14s/it]

training loss: 1.95353364944458


training:  37%|███████████████████████████████████████████████████████▏                                                                                              | 184/500 [35:05<58:21, 11.08s/it]

training loss: 1.9605226516723633


training:  37%|███████████████████████████████████████████████████████▌                                                                                              | 185/500 [35:17<58:16, 11.10s/it]

training loss: 2.006225824356079


training:  37%|███████████████████████████████████████████████████████▊                                                                                              | 186/500 [35:28<59:18, 11.33s/it]

training loss: 2.031614303588867


training:  37%|████████████████████████████████████████████████████████                                                                                              | 187/500 [35:39<58:17, 11.17s/it]

training loss: 2.110158681869507


training:  38%|████████████████████████████████████████████████████████▍                                                                                             | 188/500 [35:50<57:14, 11.01s/it]

training loss: 2.023118019104004


training:  38%|█████████████████████████████████████████████████████████                                                                                             | 190/500 [36:12<57:08, 11.06s/it]

training loss: 2.165863275527954
training loss: 2.1150221824645996


training:  38%|█████████████████████████████████████████████████████████▎                                                                                            | 191/500 [36:24<57:38, 11.19s/it]

validation loss: 2.052316188812256


training:  38%|█████████████████████████████████████████████████████████▌                                                                                            | 192/500 [36:35<57:32, 11.21s/it]

training loss: 1.9556373357772827


training:  39%|█████████████████████████████████████████████████████████▉                                                                                            | 193/500 [36:45<55:41, 10.89s/it]

training loss: 2.041515588760376


training:  39%|██████████████████████████████████████████████████████████▏                                                                                           | 194/500 [36:56<55:32, 10.89s/it]

training loss: 2.1542532444000244


training:  39%|██████████████████████████████████████████████████████████▌                                                                                           | 195/500 [37:08<57:15, 11.26s/it]

training loss: 2.0742313861846924


training:  39%|██████████████████████████████████████████████████████████▊                                                                                           | 196/500 [37:19<56:07, 11.08s/it]

training loss: 2.095456123352051


training:  39%|███████████████████████████████████████████████████████████                                                                                           | 197/500 [37:30<55:52, 11.06s/it]

training loss: 2.0164356231689453


training:  40%|███████████████████████████████████████████████████████████▍                                                                                          | 198/500 [37:42<57:09, 11.36s/it]

training loss: 2.200531482696533


training:  40%|███████████████████████████████████████████████████████████▋                                                                                          | 199/500 [37:53<56:24, 11.24s/it]

training loss: 2.051252841949463
training loss: 2.18477725982666
validation loss: 2.042288064956665
%s 

 %s (', fine looking man,&quot; Hemphill recalls, &quot;wearing a common soldier\'s blouse and slouch hat, on passing, had paused to watch the proceedings.&quot;   He began to berate the leader of the Massachusetts regiment, a second lieutenant. Abashed, the second lieutenant takes on airs, and threatens to teach the interloper some manners, but upon noticing that the &quot;burley form of the Hoosier looked rather formidable, decided to appeal to Hemphill, who was in charge of the Indiana regiment.&quot;   &quot;Sergeant,&quot; the second lieutenant said, &quot;this is one of your men; arrest him and take him to your commanding officer. I will prefer charges against him and have him properly punished!&quot; Hemphill took no action; as he reported later, because &quot;I was full of laughter that I could make no answer.&quot;   When the interloping Hoosier realized how upset the secon

training:  40%|███████████████████████████████████████████████████████████▍                                                                                        | 201/500 [39:00<2:03:02, 24.69s/it]

spaces</comment>     </consion</imestimivonam</ime>        <cont>        <commestribeop>       <comp>2.27:0T17:2227:575</comp>2119Z</centame>              <texmenentres</up>/itin.593</tomin</ideride>             <id>46195</id>          <commenoributoit>   


training:  40%|███████████████████████████████████████████████████████████▊                                                                                        | 202/500 [39:12<1:43:59, 20.94s/it]

training loss: 2.064525842666626


training:  41%|████████████████████████████████████████████████████████████                                                                                        | 203/500 [39:24<1:30:21, 18.25s/it]

training loss: 2.07119083404541


training:  41%|████████████████████████████████████████████████████████████▍                                                                                       | 204/500 [39:36<1:20:46, 16.37s/it]

training loss: 2.098381280899048


training:  41%|████████████████████████████████████████████████████████████▋                                                                                       | 205/500 [39:47<1:12:23, 14.72s/it]

training loss: 2.0976457595825195


training:  41%|████████████████████████████████████████████████████████████▉                                                                                       | 206/500 [39:58<1:06:50, 13.64s/it]

training loss: 2.010338306427002
training loss: 1.9713011980056763


training:  42%|█████████████████████████████████████████████████████████████▌                                                                                      | 208/500 [40:20<1:02:01, 12.74s/it]

training loss: 2.1964380741119385


training:  42%|██████████████████████████████████████████████████████████████▋                                                                                       | 209/500 [40:30<59:03, 12.18s/it]

training loss: 2.0286920070648193


training:  42%|███████████████████████████████████████████████████████████████                                                                                       | 210/500 [40:41<56:22, 11.66s/it]

training loss: 2.2264323234558105
training loss: 2.0565531253814697


training:  42%|███████████████████████████████████████████████████████████████▎                                                                                      | 211/500 [40:53<56:18, 11.69s/it]

validation loss: 2.0854716300964355


training:  42%|███████████████████████████████████████████████████████████████▌                                                                                      | 212/500 [41:04<55:01, 11.46s/it]

training loss: 2.0282340049743652


training:  43%|███████████████████████████████████████████████████████████████▉                                                                                      | 213/500 [41:14<53:43, 11.23s/it]

training loss: 2.0902018547058105


training:  43%|████████████████████████████████████████████████████████████████▏                                                                                     | 214/500 [41:25<53:31, 11.23s/it]

training loss: 1.9560085535049438


training:  43%|████████████████████████████████████████████████████████████████▌                                                                                     | 215/500 [41:37<53:23, 11.24s/it]

training loss: 2.0685818195343018


training:  43%|████████████████████████████████████████████████████████████████▊                                                                                     | 216/500 [41:47<51:46, 10.94s/it]

training loss: 1.9947385787963867


training:  43%|█████████████████████████████████████████████████████████████████                                                                                     | 217/500 [41:57<50:59, 10.81s/it]

training loss: 1.906428575515747


training:  44%|█████████████████████████████████████████████████████████████████▍                                                                                    | 218/500 [42:08<50:57, 10.84s/it]

training loss: 2.0147101879119873


training:  44%|█████████████████████████████████████████████████████████████████▋                                                                                    | 219/500 [42:20<52:22, 11.18s/it]

training loss: 2.1349759101867676


training:  44%|██████████████████████████████████████████████████████████████████                                                                                    | 220/500 [42:32<52:18, 11.21s/it]

training loss: 2.030526638031006
training loss: 1.9617788791656494


training:  44%|██████████████████████████████████████████████████████████████████▎                                                                                   | 221/500 [42:43<51:45, 11.13s/it]

validation loss: 2.127793312072754


training:  44%|██████████████████████████████████████████████████████████████████▌                                                                                   | 222/500 [42:54<51:32, 11.12s/it]

training loss: 2.132932662963867


training:  45%|██████████████████████████████████████████████████████████████████▉                                                                                   | 223/500 [43:04<50:07, 10.86s/it]

training loss: 2.231832265853882


training:  45%|███████████████████████████████████████████████████████████████████▏                                                                                  | 224/500 [43:15<50:47, 11.04s/it]

training loss: 2.004286289215088


training:  45%|███████████████████████████████████████████████████████████████████▌                                                                                  | 225/500 [43:26<50:36, 11.04s/it]

training loss: 2.128831624984741


training:  45%|███████████████████████████████████████████████████████████████████▊                                                                                  | 226/500 [43:37<50:18, 11.02s/it]

training loss: 2.0451464653015137


training:  45%|████████████████████████████████████████████████████████████████████                                                                                  | 227/500 [43:47<48:46, 10.72s/it]

training loss: 2.044999361038208


training:  46%|████████████████████████████████████████████████████████████████████▍                                                                                 | 228/500 [44:00<51:01, 11.25s/it]

training loss: 2.030245304107666


training:  46%|████████████████████████████████████████████████████████████████████▋                                                                                 | 229/500 [44:10<49:43, 11.01s/it]

training loss: 2.0155842304229736


training:  46%|█████████████████████████████████████████████████████████████████████                                                                                 | 230/500 [44:22<50:18, 11.18s/it]

training loss: 2.1774439811706543
training loss: 2.1009764671325684


training:  46%|█████████████████████████████████████████████████████████████████████▎                                                                                | 231/500 [44:32<49:03, 10.94s/it]

validation loss: 2.071901798248291


training:  46%|█████████████████████████████████████████████████████████████████████▌                                                                                | 232/500 [44:44<49:43, 11.13s/it]

training loss: 2.0067617893218994


training:  47%|█████████████████████████████████████████████████████████████████████▉                                                                                | 233/500 [44:54<48:26, 10.88s/it]

training loss: 2.0580267906188965


training:  47%|██████████████████████████████████████████████████████████████████████▏                                                                               | 234/500 [45:06<48:51, 11.02s/it]

training loss: 2.118562698364258


training:  47%|██████████████████████████████████████████████████████████████████████▌                                                                               | 235/500 [45:17<49:04, 11.11s/it]

training loss: 1.9877030849456787


training:  47%|██████████████████████████████████████████████████████████████████████▊                                                                               | 236/500 [45:28<49:19, 11.21s/it]

training loss: 2.3068647384643555
training loss: 2.10707426071167


training:  48%|███████████████████████████████████████████████████████████████████████▍                                                                              | 238/500 [45:50<48:19, 11.07s/it]

training loss: 2.121987819671631


training:  48%|███████████████████████████████████████████████████████████████████████▋                                                                              | 239/500 [46:02<49:06, 11.29s/it]

training loss: 2.0383360385894775


training:  48%|████████████████████████████████████████████████████████████████████████                                                                              | 240/500 [46:12<47:16, 10.91s/it]

training loss: 2.098339080810547
training loss: 2.024740219116211


training:  48%|████████████████████████████████████████████████████████████████████████▎                                                                             | 241/500 [46:24<48:39, 11.27s/it]

validation loss: 2.1048636436462402


training:  48%|████████████████████████████████████████████████████████████████████████▌                                                                             | 242/500 [46:35<47:52, 11.13s/it]

training loss: 1.9834812879562378


training:  49%|████████████████████████████████████████████████████████████████████████▉                                                                             | 243/500 [46:45<47:04, 10.99s/it]

training loss: 1.998305082321167


training:  49%|█████████████████████████████████████████████████████████████████████████▏                                                                            | 244/500 [46:57<48:01, 11.26s/it]

training loss: 2.129322052001953


training:  49%|█████████████████████████████████████████████████████████████████████████▌                                                                            | 245/500 [47:08<46:55, 11.04s/it]

training loss: 1.9333614110946655


training:  49%|█████████████████████████████████████████████████████████████████████████▊                                                                            | 246/500 [47:19<46:59, 11.10s/it]

training loss: 2.046388864517212


training:  49%|██████████████████████████████████████████████████████████████████████████                                                                            | 247/500 [47:29<45:26, 10.77s/it]

training loss: 2.0664637088775635


training:  50%|██████████████████████████████████████████████████████████████████████████▍                                                                           | 248/500 [47:40<46:15, 11.01s/it]

training loss: 1.9490690231323242


training:  50%|██████████████████████████████████████████████████████████████████████████▋                                                                           | 249/500 [47:52<46:19, 11.08s/it]

training loss: 2.0440382957458496


training:  50%|███████████████████████████████████████████████████████████████████████████                                                                           | 250/500 [48:02<45:43, 10.97s/it]

training loss: 2.1896495819091797
training loss: 2.050391674041748
validation loss: 2.1622142791748047
%s 

 %s ('/history/ History and Archives] * [http://barry_froggatt.users.btopenworld.com/songbook.html  The IBM Songbook]; [http://anthems.zdnet.co.uk/anthems/ibm.swf \'\'Ever Onward\'\'] (needs Flash) * [http://www.ibm.com/research/ IBM Research] * [http://www.ibm.com/research/cambridge/ IBM Research in Cambridge, Massachusetts] * [http://www.ibm.com/research/history/ IBM Research specific to Wikipedia.org] * [http://www.zurich.ibm.com IBM Research in Zurich] * [http://www.hagley.lib.de.us/1980.htm IBM Antitrust Suit Records 1950-1982] * [http://tuxmobil.org/ibm.html Linux on IBM laptops] * [http://www.google.com/search?q=ibmjarg IBM Jargon Dictionary] * [http://www.ibm.com/ibm/sjp/ Current CEO - Samuel J Palmisano] * [http://www.almaden.ibm.com/cs/BlueEyes/index.html BlueEyes Project Description] * [http://www.computercraft.com/docs/ibm.html IBM Compatibles] * [http://www.ibm.com/d

training:  50%|██████████████████████████████████████████████████████████████████████████▎                                                                         | 251/500 [49:03<1:47:03, 25.80s/it]

ge>       <cond>    <title>Eme>       <contribernest>/trit>        <compre</comment>   <id>7131564</torision>     <id>      <tinlisese>185</idernare>441</tid>            <id>10039301845</id>   <reviontor>         <t     <timerniderntributo bure spame.</com


training:  50%|██████████████████████████████████████████████████████████████████████████▌                                                                         | 252/500 [49:15<1:29:21, 21.62s/it]

training loss: 1.9832122325897217


training:  51%|██████████████████████████████████████████████████████████████████████████▉                                                                         | 253/500 [49:26<1:16:31, 18.59s/it]

training loss: 2.055820941925049


training:  51%|███████████████████████████████████████████████████████████████████████████▏                                                                        | 254/500 [49:37<1:06:09, 16.13s/it]

training loss: 2.070291519165039


training:  51%|████████████████████████████████████████████████████████████████████████████▌                                                                         | 255/500 [49:47<58:33, 14.34s/it]

training loss: 1.9630286693572998


training:  51%|████████████████████████████████████████████████████████████████████████████▊                                                                         | 256/500 [50:00<56:27, 13.88s/it]

training loss: 1.8431830406188965


training:  51%|█████████████████████████████████████████████████████████████████████████████                                                                         | 257/500 [50:11<53:00, 13.09s/it]

training loss: 2.032700300216675


training:  52%|█████████████████████████████████████████████████████████████████████████████▍                                                                        | 258/500 [50:21<49:25, 12.25s/it]

training loss: 2.016249418258667


training:  52%|█████████████████████████████████████████████████████████████████████████████▋                                                                        | 259/500 [50:32<47:53, 11.92s/it]

training loss: 2.1166419982910156


training:  52%|██████████████████████████████████████████████████████████████████████████████                                                                        | 260/500 [50:44<47:26, 11.86s/it]

training loss: 1.9866364002227783
training loss: 2.017118215560913


training:  52%|██████████████████████████████████████████████████████████████████████████████▎                                                                       | 261/500 [50:55<46:01, 11.56s/it]

validation loss: 1.9826037883758545


training:  52%|██████████████████████████████████████████████████████████████████████████████▌                                                                       | 262/500 [51:06<45:41, 11.52s/it]

training loss: 2.0222268104553223


training:  53%|██████████████████████████████████████████████████████████████████████████████▉                                                                       | 263/500 [51:17<45:03, 11.41s/it]

training loss: 2.1450068950653076


training:  53%|███████████████████████████████████████████████████████████████████████████████▏                                                                      | 264/500 [51:28<43:52, 11.15s/it]

training loss: 2.1294445991516113


training:  53%|███████████████████████████████████████████████████████████████████████████████▌                                                                      | 265/500 [51:38<42:46, 10.92s/it]

training loss: 2.0318355560302734


training:  53%|███████████████████████████████████████████████████████████████████████████████▊                                                                      | 266/500 [51:50<43:09, 11.07s/it]

training loss: 2.091730833053589


training:  53%|████████████████████████████████████████████████████████████████████████████████                                                                      | 267/500 [52:01<42:49, 11.03s/it]

training loss: 1.9854578971862793


training:  54%|████████████████████████████████████████████████████████████████████████████████▍                                                                     | 268/500 [52:12<42:42, 11.05s/it]

training loss: 2.2060396671295166


training:  54%|████████████████████████████████████████████████████████████████████████████████▋                                                                     | 269/500 [52:23<42:31, 11.05s/it]

training loss: 2.0548477172851562
training loss: 2.0343830585479736
training loss: 2.2153007984161377


training:  54%|█████████████████████████████████████████████████████████████████████████████████▎                                                                    | 271/500 [52:46<42:38, 11.17s/it]

validation loss: 1.9750053882598877
training loss: 1.9340670108795166
training loss: 2.0061545372009277


training:  55%|██████████████████████████████████████████████████████████████████████████████████▏                                                                   | 274/500 [53:18<42:04, 11.17s/it]

training loss: 2.0015664100646973
training loss: 2.131669759750366


training:  55%|██████████████████████████████████████████████████████████████████████████████████▊                                                                   | 276/500 [53:40<41:11, 11.03s/it]

training loss: 1.9421131610870361


training:  55%|███████████████████████████████████████████████████████████████████████████████████                                                                   | 277/500 [53:51<41:05, 11.06s/it]

training loss: 2.2347257137298584


training:  56%|███████████████████████████████████████████████████████████████████████████████████▍                                                                  | 278/500 [54:03<41:54, 11.33s/it]

training loss: 2.091378688812256


training:  56%|███████████████████████████████████████████████████████████████████████████████████▋                                                                  | 279/500 [54:13<41:12, 11.19s/it]

training loss: 2.0337276458740234


training:  56%|████████████████████████████████████████████████████████████████████████████████████                                                                  | 280/500 [54:24<40:32, 11.06s/it]

training loss: 2.0175247192382812
training loss: 2.0713014602661133


training:  56%|████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 281/500 [54:35<39:50, 10.92s/it]

validation loss: 2.0875916481018066


training:  56%|████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 282/500 [54:46<39:32, 10.88s/it]

training loss: 2.1127536296844482


training:  57%|████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 283/500 [54:56<38:40, 10.69s/it]

training loss: 2.2156906127929688


training:  57%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                | 284/500 [55:08<39:52, 11.08s/it]

training loss: 2.033775568008423


training:  57%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                | 285/500 [55:20<40:44, 11.37s/it]

training loss: 1.8962661027908325
training loss: 1.9479167461395264


training:  57%|██████████████████████████████████████████████████████████████████████████████████████                                                                | 287/500 [55:35<36:31, 10.29s/it]

training loss: 2.1158034801483154
training loss: 2.0100245475769043
training loss: 2.077082633972168


training:  58%|███████████████████████████████████████████████████████████████████████████████████████                                                               | 290/500 [55:50<30:23,  8.68s/it]

training loss: 2.2582101821899414
training loss: 1.9514274597167969
validation loss: 2.009939670562744
training loss: 2.0179693698883057


training:  59%|███████████████████████████████████████████████████████████████████████████████████████▉                                                              | 293/500 [56:18<30:42,  8.90s/it]

training loss: 2.052462100982666


training:  59%|████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 294/500 [56:30<33:00,  9.62s/it]

training loss: 2.0798935890197754


training:  59%|████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 295/500 [56:41<34:19, 10.05s/it]

training loss: 2.08176851272583


training:  59%|████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 296/500 [56:51<34:21, 10.11s/it]

training loss: 2.0549185276031494


training:  59%|█████████████████████████████████████████████████████████████████████████████████████████                                                             | 297/500 [57:02<35:19, 10.44s/it]

training loss: 1.9748252630233765


training:  60%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 298/500 [57:14<36:15, 10.77s/it]

training loss: 1.967046856880188


training:  60%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 299/500 [57:25<36:11, 10.80s/it]

training loss: 2.253713846206665


training:  60%|██████████████████████████████████████████████████████████████████████████████████████████                                                            | 300/500 [57:36<36:04, 10.82s/it]

training loss: 2.010213613510132
training loss: 1.9023518562316895
validation loss: 2.1276752948760986
%s 

 %s ('ey-Davidson Motorcycle, 1901-1909\'\' ([[Wisconsin Historical Society]] Press, 228 pp.) *Bach, Sharon and Ken Ostermann, eds. [[1993]]. \'\'The Legend Begins: Harley-Davidson Motorcycles, 1903-1969\'\' (Harley-Davidson, Inc., 227 pp.)   [[Category:Car companies of the United States]] [[Category:Companies based in Wisconsin]] [[Category:Milwaukee, Wisconsin]] [[Category:Motorcycle manufacturers]]  [[de:Harley-Davidson]] [[es:Harley-Davidson]] [[fi:Harley-Davidson]] [[fr:Harley-Davidson]] [[it:Harley-Davidson]] [[ja:ã\x83\x8fã\x83¼ã\x83¬ã\x83¼ã\x83\x80ã\x83\x93ã\x83\x83ã\x83\x89ã\x82½ã\x83³]] [[nl:Harley-Davidson]] [[sv:Harley-Davidson]]</text>     </revision>   </page>   <page>     <title>Harappan Civilisation</title>     <id>14143</id>     <revision>       <id>15911718</id>       <timestamp>2003-11-08T10:59:12Z</timestamp>       <contributor>         <username>Minesweeper</

training:  60%|█████████████████████████████████████████████████████████████████████████████████████████                                                           | 301/500 [58:35<1:23:51, 25.29s/it]

 '''[[howhish (gref&gt;/sp;as ''Sctudace]]'''  &lt;mdentate * [[Herttrurap]])/&lt;/sp> &gt;mas = &lt;\\p3 *[[Imang (crmatum agantigul]] * [[19411]] [[Egage|Stux]] [[igov:Kicamliation]] * [[Hask:Breyiger]] ==F [[Cov:Ali ttplupar]] [[Furd]] * [[coolinier a c


training:  60%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 302/500 [58:45<1:09:03, 20.93s/it]

training loss: 2.0962765216827393


training:  61%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 303/500 [58:57<59:41, 18.18s/it]

training loss: 1.9878026247024536


training:  61%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 304/500 [59:08<51:55, 15.90s/it]

training loss: 1.893563985824585


training:  61%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 305/500 [59:19<46:51, 14.42s/it]

training loss: 1.9875341653823853


training:  61%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 306/500 [59:30<43:22, 13.42s/it]

training loss: 2.0150113105773926


training:  61%|████████████████████████████████████████████████████████████████████████████████████████████                                                          | 307/500 [59:42<41:45, 12.98s/it]

training loss: 2.045119285583496


training:  62%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 308/500 [59:52<38:47, 12.12s/it]

training loss: 1.9450163841247559


training:  62%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 309/500 [1:00:02<37:08, 11.67s/it]

training loss: 1.8313668966293335


training:  62%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 310/500 [1:00:14<37:21, 11.80s/it]

training loss: 2.126791477203369
training loss: 1.9967806339263916


training:  62%|████████████████████████████████████████████████████████████████████████████████████████████                                                        | 311/500 [1:00:27<37:31, 11.91s/it]

validation loss: 1.997781753540039


training:  62%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 312/500 [1:00:38<37:00, 11.81s/it]

training loss: 1.9664801359176636
training loss: 2.1075940132141113


training:  63%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 314/500 [1:00:54<32:50, 10.59s/it]

training loss: 2.013028144836426
training loss: 2.1854472160339355
training loss: 2.0741007328033447


training:  63%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 317/500 [1:01:08<26:52,  8.81s/it]

training loss: 1.992830514907837
training loss: 1.9882904291152954
training loss: 2.347078323364258


training:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 320/500 [1:01:21<22:36,  7.54s/it]

training loss: 2.022955894470215
training loss: 2.0233635902404785
validation loss: 1.9886410236358643
training loss: 1.9797359704971313


training:  65%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 323/500 [1:01:44<22:12,  7.53s/it]

training loss: 2.0556693077087402
training loss: 2.193467378616333


training:  65%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 325/500 [1:02:06<25:10,  8.63s/it]

training loss: 2.0339231491088867


training:  65%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 326/500 [1:02:17<26:32,  9.15s/it]

training loss: 1.9902445077896118


training:  65%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 327/500 [1:02:27<27:31,  9.55s/it]

training loss: 2.052814483642578


training:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 328/500 [1:02:38<28:05,  9.80s/it]

training loss: 2.0321121215820312


training:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 329/500 [1:02:48<28:53, 10.14s/it]

training loss: 2.0254759788513184


training:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 330/500 [1:03:01<30:31, 10.77s/it]

training loss: 2.0041627883911133
training loss: 2.003013849258423


training:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 331/500 [1:03:12<30:58, 11.00s/it]

validation loss: 2.0174665451049805


training:  66%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 332/500 [1:03:23<30:27, 10.88s/it]

training loss: 2.0804152488708496
training loss: 2.0476176738739014


training:  67%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 334/500 [1:03:44<29:55, 10.82s/it]

training loss: 2.0498404502868652


training:  67%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 335/500 [1:03:55<29:37, 10.77s/it]

training loss: 1.8880345821380615


training:  67%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 336/500 [1:04:05<29:07, 10.66s/it]

training loss: 2.0056049823760986


training:  67%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 337/500 [1:04:17<29:28, 10.85s/it]

training loss: 1.992599606513977


training:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 338/500 [1:04:27<28:40, 10.62s/it]

training loss: 1.999740481376648


training:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 339/500 [1:04:38<29:16, 10.91s/it]

training loss: 2.1219661235809326


training:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 340/500 [1:04:49<29:00, 10.88s/it]

training loss: 2.1614232063293457
training loss: 2.012456178665161


training:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 341/500 [1:05:00<29:13, 11.03s/it]

validation loss: 2.0636913776397705


training:  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 342/500 [1:05:11<28:42, 10.90s/it]

training loss: 2.167360782623291


training:  69%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 343/500 [1:05:22<28:26, 10.87s/it]

training loss: 1.9782966375350952


training:  69%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 344/500 [1:05:34<28:58, 11.14s/it]

training loss: 2.002551317214966


training:  69%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 345/500 [1:05:44<28:17, 10.95s/it]

training loss: 2.0130581855773926


training:  69%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 346/500 [1:05:56<28:50, 11.23s/it]

training loss: 1.8811002969741821


training:  69%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 347/500 [1:06:07<28:34, 11.21s/it]

training loss: 2.0063791275024414


training:  70%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 348/500 [1:06:19<28:33, 11.28s/it]

training loss: 2.0275344848632812


training:  70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 349/500 [1:06:30<28:15, 11.23s/it]

training loss: 2.013113021850586


training:  70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 350/500 [1:06:41<27:50, 11.13s/it]

training loss: 2.031003952026367
training loss: 2.0796802043914795
validation loss: 2.0186636447906494
%s 

 %s ("tes]], who are derogatively called ''re-Judaizers'', and who rejected the Christian movement as it was developing among the Pauline Christians. In other words, they believe that contrary to the writer of the Galatians, a rift between Paul and the other apostles was radical and permanent.  These controversial views have strong endorsement from modern academia, and the theories are advanced as a significant correction of the [[History of the Roman Catholic Church|Roman Catholic Church's account of its own history]], which tradition has lost. See also [[Great Apostasy]].  The [[Didache]] and other writings in the [[Apostolic Fathers]] collection further document early church practice.  Observance of the [[Sabbath]] and [[Quartodeciman]] were also early issues.  ===Martyrs=== *[[Saint Stephen|Saint Stephen, Deacon]] the protomartyr (first martyr) *[[Saint James the Great|James 

training:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 351/500 [1:07:39<1:02:46, 25.28s/it]

 entumen largan a drientucies rearcembicion suct flamed as who chad peri.  Waks:''Desume re of and worghtatud, ber [[Woknchy, anlaiged of Noese]] pargents incurent.  {{{fist. Am Cightmers, altoges, come is for cedve and it an alle with the come ansoms seve


training:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 352/500 [1:07:51<52:33, 21.31s/it]

training loss: 2.1062638759613037
training loss: 1.9309852123260498


training:  71%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 354/500 [1:08:13<44:25, 18.25s/it]

training loss: 1.919925570487976


training:  71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 355/500 [1:08:26<40:20, 16.69s/it]

training loss: 2.0351243019104004


training:  71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 356/500 [1:08:36<35:19, 14.72s/it]

training loss: 2.059021472930908


training:  71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 357/500 [1:08:48<32:35, 13.67s/it]

training loss: 2.0956974029541016


training:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 358/500 [1:08:58<30:09, 12.74s/it]

training loss: 1.9651992321014404


training:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 359/500 [1:09:10<29:01, 12.35s/it]

training loss: 1.876243233680725


training:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 360/500 [1:09:22<28:50, 12.36s/it]

training loss: 1.9683609008789062
training loss: 2.0170960426330566


training:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 361/500 [1:09:32<27:18, 11.79s/it]

validation loss: 2.1089048385620117


training:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 362/500 [1:09:45<27:37, 12.01s/it]

training loss: 2.0270469188690186


training:  73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 363/500 [1:09:55<26:19, 11.53s/it]

training loss: 1.899852991104126


training:  73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 364/500 [1:10:08<26:55, 11.88s/it]

training loss: 2.0170812606811523


training:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 365/500 [1:10:20<26:41, 11.86s/it]

training loss: 1.9148955345153809


training:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 366/500 [1:10:31<25:41, 11.50s/it]

training loss: 2.0287251472473145


training:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 367/500 [1:10:42<25:17, 11.41s/it]

training loss: 1.9902174472808838


training:  74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 368/500 [1:10:53<24:43, 11.24s/it]

training loss: 1.999823808670044


training:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 369/500 [1:11:03<24:14, 11.11s/it]

training loss: 1.9158185720443726


training:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 370/500 [1:11:14<23:50, 11.01s/it]

training loss: 2.2506918907165527
training loss: 2.14516544342041


training:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 371/500 [1:11:26<24:31, 11.41s/it]

validation loss: 2.1200156211853027
training loss: 2.0453405380249023


training:  75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 373/500 [1:11:50<24:13, 11.44s/it]

training loss: 2.2215521335601807
training loss: 2.041459083557129


training:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 375/500 [1:12:13<23:56, 11.49s/it]

training loss: 1.996185064315796


training:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 376/500 [1:12:24<23:18, 11.28s/it]

training loss: 2.024415969848633


training:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 377/500 [1:12:34<22:51, 11.15s/it]

training loss: 1.9604401588439941


training:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 378/500 [1:12:47<23:21, 11.49s/it]

training loss: 2.074510097503662
training loss: 1.9331562519073486


training:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 380/500 [1:13:09<22:54, 11.45s/it]

training loss: 2.069904327392578
training loss: 2.119373321533203


training:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 381/500 [1:13:21<22:53, 11.54s/it]

validation loss: 2.0458059310913086


training:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 382/500 [1:13:32<22:08, 11.26s/it]

training loss: 1.9706768989562988


training:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 383/500 [1:13:42<21:36, 11.08s/it]

training loss: 1.9983192682266235


training:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 384/500 [1:13:54<21:44, 11.25s/it]

training loss: 2.008376359939575


training:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 385/500 [1:14:05<21:40, 11.31s/it]

training loss: 2.175539493560791


training:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 386/500 [1:14:17<21:41, 11.42s/it]

training loss: 1.8191187381744385


training:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 387/500 [1:14:28<21:25, 11.38s/it]

training loss: 2.0305700302124023


training:  78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 388/500 [1:14:39<20:45, 11.12s/it]

training loss: 1.9808716773986816


training:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 389/500 [1:14:51<21:15, 11.49s/it]

training loss: 2.0047590732574463


training:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 390/500 [1:15:03<21:19, 11.63s/it]

training loss: 2.0057458877563477
training loss: 1.970024585723877


training:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 391/500 [1:15:16<21:40, 11.93s/it]

validation loss: 1.996171474456787


training:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 392/500 [1:15:27<20:55, 11.63s/it]

training loss: 2.0029280185699463


training:  79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 393/500 [1:15:37<20:09, 11.31s/it]

training loss: 2.26682448387146


training:  79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 394/500 [1:15:50<20:47, 11.77s/it]

training loss: 2.1203649044036865


training:  79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 395/500 [1:16:01<20:14, 11.57s/it]

training loss: 1.9933348894119263


training:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 396/500 [1:16:13<20:00, 11.54s/it]

training loss: 2.1716160774230957


training:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 397/500 [1:16:24<19:34, 11.40s/it]

training loss: 2.108123302459717


training:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 398/500 [1:16:34<18:54, 11.12s/it]

training loss: 1.9844977855682373


training:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 399/500 [1:16:46<19:07, 11.36s/it]

training loss: 1.995052695274353


training:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 400/500 [1:16:58<19:08, 11.48s/it]

training loss: 2.060544490814209
training loss: 2.0265040397644043
validation loss: 1.9291555881500244
%s 

 %s ("onjecture about [[quantum gravity]] theories, proposed by [[Gerard 't Hooft]] and improved and promoted by [[Leonard Susskind]], claiming that all of the [[information]] contained in a volume of [[space]] can be represented by a theory that lives in the boundary of that region.  In other words, if you have a room then you can model all of the events within that room by creating a theory that only takes into account what happens in the walls of the room.  The holographic principle also states that at most there is one [[Degrees_of_freedom_(physics_and_chemistry)|degree of freedom]] for every four [[Planck units|Planck area]] in that theory. This can be stated as the [[Bekenstein bound]], &lt;math&gt;S\\le A/4&lt;/math&gt;.  ==What leads to the holographic principle==  Given any finite, [[Compact_space|compact]] region of space (e.g. a sphere), this region will contain [[matt

training:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 401/500 [1:18:00<43:57, 26.64s/it]

calis]] *''[[itiany fericist Thaises]] fene fie soop ant baturainge.  * Ore libic of the a [[seple]], porgared in a gatho con of an seand by tegate cainer pritle usin wello neage.  The the exple fam in the sundernaly foly in welle hiry filder the [[Ming ma


training:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 402/500 [1:18:13<36:42, 22.48s/it]

training loss: 2.0534257888793945


training:  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 403/500 [1:18:24<30:57, 19.15s/it]

training loss: 2.007258892059326


training:  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 404/500 [1:18:35<26:39, 16.66s/it]

training loss: 2.0329530239105225


training:  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 405/500 [1:18:48<24:40, 15.58s/it]

training loss: 2.061185121536255


training:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 406/500 [1:19:00<22:35, 14.42s/it]

training loss: 1.9459514617919922


training:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 407/500 [1:19:11<20:59, 13.54s/it]

training loss: 1.9601545333862305


training:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 408/500 [1:19:23<19:57, 13.02s/it]

training loss: 2.0406720638275146


training:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 409/500 [1:19:34<18:43, 12.34s/it]

training loss: 1.8874350786209106


training:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 410/500 [1:19:47<18:48, 12.54s/it]

training loss: 1.9513298273086548
training loss: 2.062864065170288


training:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 411/500 [1:19:58<18:01, 12.16s/it]

validation loss: 2.056101083755493


training:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 412/500 [1:20:09<17:22, 11.85s/it]

training loss: 2.043964385986328


training:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 413/500 [1:20:21<17:14, 11.89s/it]

training loss: 1.9465359449386597


training:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 414/500 [1:20:33<16:50, 11.75s/it]

training loss: 1.9767491817474365


training:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 415/500 [1:20:45<16:50, 11.89s/it]

training loss: 2.119821071624756


training:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 416/500 [1:20:56<16:26, 11.74s/it]

training loss: 1.8533693552017212


training:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 417/500 [1:21:07<15:42, 11.36s/it]

training loss: 2.006383180618286


training:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 418/500 [1:21:18<15:25, 11.29s/it]

training loss: 2.0296335220336914


training:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 419/500 [1:21:31<16:01, 11.87s/it]

training loss: 2.0213468074798584


training:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 420/500 [1:21:42<15:23, 11.54s/it]

training loss: 1.9031312465667725
training loss: 1.7994098663330078


training:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 421/500 [1:21:54<15:22, 11.68s/it]

validation loss: 1.8066189289093018


training:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 422/500 [1:22:06<15:11, 11.69s/it]

training loss: 1.9510196447372437


training:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 423/500 [1:22:17<14:57, 11.65s/it]

training loss: 1.942786455154419


training:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 424/500 [1:22:29<14:43, 11.63s/it]

training loss: 1.9518252611160278


training:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 425/500 [1:22:40<14:32, 11.63s/it]

training loss: 1.9459583759307861


training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 426/500 [1:22:52<14:19, 11.61s/it]

training loss: 1.95725417137146


training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 427/500 [1:23:03<14:00, 11.52s/it]

training loss: 2.093992233276367


training:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 428/500 [1:23:17<14:34, 12.15s/it]

training loss: 2.1501924991607666


training:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 429/500 [1:23:28<13:57, 11.79s/it]

training loss: 1.957597255706787


training:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 430/500 [1:23:39<13:41, 11.74s/it]

training loss: 2.1008944511413574
training loss: 1.7435470819473267


training:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 431/500 [1:23:53<14:00, 12.17s/it]

validation loss: 2.0160164833068848
training loss: 2.0210587978363037


training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 433/500 [1:24:14<13:10, 11.80s/it]

training loss: 1.9988645315170288


training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 434/500 [1:24:27<13:03, 11.87s/it]

training loss: 2.014039993286133


training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 435/500 [1:24:39<13:08, 12.14s/it]

training loss: 2.0512349605560303


training:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 436/500 [1:24:50<12:34, 11.79s/it]

training loss: 2.1117706298828125


training:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 437/500 [1:25:03<12:42, 12.11s/it]

training loss: 2.1295814514160156


training:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 438/500 [1:25:13<11:57, 11.57s/it]

training loss: 2.0038156509399414


training:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 439/500 [1:25:25<11:51, 11.67s/it]

training loss: 2.058915138244629


training:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 440/500 [1:25:38<11:52, 11.88s/it]

training loss: 2.0355985164642334
training loss: 2.123680591583252


training:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 441/500 [1:25:49<11:39, 11.85s/it]

validation loss: 2.0440545082092285


training:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 442/500 [1:26:01<11:30, 11.90s/it]

training loss: 2.0299835205078125


training:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 443/500 [1:26:13<11:05, 11.68s/it]

training loss: 2.0956668853759766


training:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 444/500 [1:26:26<11:20, 12.15s/it]

training loss: 2.063516139984131


training:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 445/500 [1:26:38<11:04, 12.07s/it]

training loss: 2.1540448665618896


training:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 446/500 [1:26:48<10:27, 11.61s/it]

training loss: 1.9380916357040405


training:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 447/500 [1:26:59<09:59, 11.31s/it]

training loss: 1.9368278980255127


training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 448/500 [1:27:11<10:04, 11.63s/it]

training loss: 2.0423476696014404


training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 449/500 [1:27:23<09:58, 11.74s/it]

training loss: 1.9746246337890625


training:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 450/500 [1:27:36<10:01, 12.03s/it]

training loss: 2.058718681335449
training loss: 2.13999605178833
validation loss: 2.072291612625122
%s 

 %s ("specially in rural India. They can still be seen in many of the cities and villages. In the recent years some of the cities have banned the movement of bullock carts and other slow moving vehicles in the main [[Arterial road|arterials]] during daytime.  ===[[Palanquin]]=== Palanquin or &quot;Palkee&quot; was one of the luxurious methods used by the rich and nobles for travelling purposes. This was primarily used in the olden days to carry the deity or idol of the god (many temples have sculptures of god being carried in a palki) later on during 15th century we have references that the nobles were also using it for transportation. Girls and ladies from rich families were ferried in palkee and were escorted by males riding on horses.   The Work &quot;Palkee&quot; came from the word 'Palanki'. The [[Portugal|Portuguese]] called it &quot;Palan Queem&quot; and the Britishers &quot;

training:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 451/500 [1:28:39<22:24, 27.45s/it]

he pripled in it has tre.  == The lociens== #1 2062; ''Star he [[Sohate After of dermice]]== Goas====Brate== Aforiciagn===  ''Soced was combbernely inty wees fand cale of [[Satescter]] Ancherscatembicons  === Coasklings use, ano a [[Gride]], mist, theradde


training:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 452/500 [1:28:52<18:21, 22.94s/it]

training loss: 1.962358832359314


training:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 453/500 [1:29:04<15:30, 19.79s/it]

training loss: 2.134092092514038


training:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 454/500 [1:29:16<13:21, 17.42s/it]

training loss: 2.0462398529052734


training:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 455/500 [1:29:28<11:53, 15.86s/it]

training loss: 2.0194170475006104


training:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 456/500 [1:29:40<10:42, 14.61s/it]

training loss: 2.025397777557373


training:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 457/500 [1:29:51<09:43, 13.56s/it]

training loss: 2.0916662216186523


training:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 458/500 [1:30:04<09:19, 13.31s/it]

training loss: 2.1368207931518555


training:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 459/500 [1:30:16<08:46, 12.84s/it]

training loss: 2.049793004989624


training:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 460/500 [1:30:27<08:19, 12.48s/it]

training loss: 1.961897850036621
training loss: 2.021374464035034


training:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 461/500 [1:30:40<08:12, 12.63s/it]

validation loss: 1.9658443927764893


training:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 462/500 [1:30:53<07:57, 12.56s/it]

training loss: 1.9569965600967407


training:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 463/500 [1:31:05<07:40, 12.44s/it]

training loss: 1.9925343990325928


training:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 464/500 [1:31:16<07:17, 12.16s/it]

training loss: 2.0151312351226807


training:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 465/500 [1:31:28<07:03, 12.10s/it]

training loss: 2.000267505645752


training:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 466/500 [1:31:40<06:50, 12.06s/it]

training loss: 2.0163731575012207


training:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 467/500 [1:31:52<06:33, 11.91s/it]

training loss: 2.0394842624664307


training:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 468/500 [1:32:03<06:16, 11.77s/it]

training loss: 2.105137825012207


training:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 469/500 [1:32:15<05:59, 11.61s/it]

training loss: 2.012307643890381


training:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 470/500 [1:32:28<06:05, 12.19s/it]

training loss: 1.9288976192474365
training loss: 2.0260682106018066


training:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 471/500 [1:32:41<05:57, 12.32s/it]

validation loss: 1.9892340898513794


training:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 472/500 [1:32:51<05:31, 11.86s/it]

training loss: 2.1013176441192627


training:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 473/500 [1:33:06<05:39, 12.56s/it]

training loss: 1.7788679599761963


training:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 474/500 [1:33:17<05:17, 12.21s/it]

training loss: 2.0936014652252197


training:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 475/500 [1:33:28<04:58, 11.96s/it]

training loss: 1.9501540660858154


training:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 476/500 [1:33:40<04:40, 11.71s/it]

training loss: 1.9677687883377075


training:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 477/500 [1:33:51<04:25, 11.56s/it]

training loss: 1.9905521869659424


training:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 478/500 [1:34:04<04:27, 12.17s/it]

training loss: 2.0000572204589844


training:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 479/500 [1:34:17<04:17, 12.26s/it]

training loss: 1.9989140033721924


training:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 480/500 [1:34:28<03:55, 11.79s/it]

training loss: 1.9795759916305542
training loss: 1.983025312423706


training:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 481/500 [1:34:41<03:53, 12.29s/it]

validation loss: 2.0169143676757812


training:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 482/500 [1:34:52<03:36, 12.03s/it]

training loss: 1.947031021118164


training:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 483/500 [1:35:05<03:28, 12.25s/it]

training loss: 1.9430955648422241


training:  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 484/500 [1:35:17<03:15, 12.22s/it]

training loss: 2.07102632522583


training:  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 485/500 [1:35:29<03:02, 12.18s/it]

training loss: 2.0140368938446045


training:  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 486/500 [1:35:41<02:47, 11.98s/it]

training loss: 2.1127588748931885


training:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 487/500 [1:35:54<02:39, 12.25s/it]

training loss: 1.9937512874603271


training:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 488/500 [1:36:05<02:21, 11.80s/it]

training loss: 2.0165748596191406


training:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 489/500 [1:36:16<02:09, 11.77s/it]

training loss: 1.8707106113433838


training:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 490/500 [1:36:27<01:53, 11.40s/it]

training loss: 2.0179967880249023
training loss: 1.7863996028900146


training:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 491/500 [1:36:41<01:50, 12.24s/it]

validation loss: 1.961228370666504


training:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 492/500 [1:36:53<01:36, 12.06s/it]

training loss: 2.0053138732910156


training:  99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 493/500 [1:37:06<01:26, 12.31s/it]

training loss: 1.9370827674865723


training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 494/500 [1:37:16<01:10, 11.71s/it]

training loss: 1.9532582759857178


training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 495/500 [1:37:29<01:00, 12.19s/it]

training loss: 1.9731955528259277


training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 496/500 [1:37:40<00:46, 11.70s/it]

training loss: 2.012770414352417


training:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 497/500 [1:37:52<00:35, 11.90s/it]

training loss: 2.07774019241333


training: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 498/500 [1:38:05<00:24, 12.10s/it]

training loss: 1.9207818508148193


training: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 499/500 [1:38:17<00:12, 12.30s/it]

training loss: 2.0426127910614014


training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [1:38:30<00:00, 11.82s/it]

training loss: 2.0513343811035156





In [36]:
loss = model(next(train_loader), return_loss = True)
print(f'training loss: {loss.item()}')

training loss: 1.7461504936218262


In [37]:
model.eval()
with torch.no_grad():
    loss = model(next(val_loader), return_loss = True)
    print(f'validation loss: {loss.item()}')

validation loss: 2.0855507850646973


In [38]:
print(output_str)

he pripled in it has tre.  == The lociens== #1 2062; ''Star he [[Sohate After of dermice]]== Goas====Brate== Aforiciagn===  ''Soced was combbernely inty wees fand cale of [[Satescter]] Ancherscatembicons  === Coasklings use, ano a [[Gride]], mist, theradde


In [41]:
sample = model.generate(inp, GENERATE_LENGTH)
output_str = decode_tokens(sample)
print(output_str)

he of cant it wole leal, ming, thatelion his liver whedingtadolucts ceprian of purathed, alsorte wand usew fits whit of inch ockionspas [[19006]], are prompiclists, ip fract an us resple prites of seage poll knood and sopes.  Hugnopin stromserts in the scr


In [42]:
sample = model.generate(inp, GENERATE_LENGTH)
output_str = decode_tokens(sample)
print(output_str)



In [45]:
sample = model.generate(inp, 1024)
output_str = decode_tokens(sample)
print(output_str)

