In [1]:
import os
from pathlib import Path

# Verify the new working directory
print("Current working directory:", os.getcwd())

# Get the current notebook directory
current_dir = Path().resolve()

# Change to a relative path, e.g., go to a 'data' subdirectory relative to the current notebook
relative_path = current_dir / '../../code/'

# Change the working directory
os.chdir(relative_path)

# Verify the new working directory
print("Current working directory:", os.getcwd())

Current working directory: /cephfs/farzan/runsaffu
Current working directory: /cephfs/code


In [2]:
exec(open("saffu/configuration_saffu.py").read())
exec(open("saffu/tokenization_saffu.py").read())
exec(open("saffu/utilities_saffu.py").read())
exec(open("saffu/data_saffu.py").read())
exec(open("saffu/modeling_saffu.py").read())
exec(open("saffu/training_saffu.py").read())
exec(open("saffu/inference_saffu.py").read())
exec(open("saffu/tuning_saffu.py").read())
exec(open("saffu/load_data.py").read())

logger = logging.get_logger(__name__)
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:256"
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"
os.environ['TORCH_USE_CUDA_DSA'] = "1"
devstr = "cuda:0" # "cpu" #

gpu = False if (devstr == 'cpu') else True
device = 'cpu' if (devstr == 'cpu') else (torch.device(devstr if torch.cuda.is_available() else 'cpu') 
                                          if devstr else torch.cuda.current_device())

In [29]:
# determine the data set(s)
data_set = "helpful-base" # +harmless-base+babylm_10M+babylm_100M+BWB
model_size = "tiny" # "tiny" # "micro" # "small" # "big" #
training_sizes = {"helpful-base": 5, "harmless-base": 5, "babylm_10M": 10, "babylm_100M": 100, "BWB": 1000} # in millions of word-tokens
devsample = 10 # dev data is 1/10 of total available
dataset_size = sum([training_sizes[data_subset] for data_subset in data_set.split("+")])
downsample = int(dataset_size/5) # roughly 5 million word-tokens per split
eta = 0.05 # 0.05
docs, ddocs, tdocs = [], [], []
convos, dconvos, tconvos = [], [], []

In [30]:
if ("helpful-base" in data_set) or ("harmless-base" in data_set):
    train_conversations = []; dev_conversations = []; test_conversations = []
    # Load one of the helpful subsets
    if "helpful-base" in data_set:
        train_conversations += load_hh_rlhf("/cephfs/data/hh_rlhf/backup/helpful_train.json")
        dev_conversations += load_hh_rlhf("/cephfs/data/hh_rlhf/backup/helpful_dev.json")
        # test_conversations += load_hh_rlhf("/cephfs/data/hh_rlhf/backup/helpful_test.json")
    # Load one of the harmless subsets
    if "harmless-base" in data_set:
        train_conversations += load_hh_rlhf("/cephfs/data/hh_rlhf/backup/harmless_train.json")
        dev_conversations += load_hh_rlhf("/cephfs/data/hh_rlhf/backup/harmless_dev.json")
        # test_conversations += load_hh_rlhf("/cephfs/data/hh_rlhf/backup/harmless_test.json")
    
    convos, dconvos, test_threads = defaultdict(list), defaultdict(list), defaultdict(list)
    for conversation in train_conversations:
        initial_thread = "".join([turn[0] + turn[1] for turn in conversation['chosen'][:2]])
        convos[initial_thread].append((len(conversation['chosen']), conversation['chosen']))
    for conversation in dev_conversations:
        initial_thread = "".join([turn[0] + turn[1] for turn in conversation['chosen'][:2]])
        dconvos[initial_thread].append((len(conversation['chosen']), conversation['chosen']))
    
    convos = [sorted(convos[initial_thread], reverse = True)[0][1] for initial_thread in convos]
    dconvos = [sorted(dconvos[initial_thread], reverse = True)[0][1] for initial_thread in dconvos]
    
    docs = []
    for conversation in train_conversations:
        docs += [x[1] for x in conversation['chosen'][-2:]] + [conversation['rejected'][-1][1]]
    
    print("Numbers of training and development threads: ", len(convos), len(dconvos))

Numbers of training and development threads:  27281 2280


In [31]:
if ("babylm_10M" in data_set) or ("babylm_100M" in data_set):
    if ("babylm_10M" in data_set):
        for fname in tqdm(os.listdir("/cephfs/data/babylm_data/babylm_10M/"), desc = "Loading 10M training tokens"):
            if ".train" == fname[-6:]:
                docs, convos = load_BBLM("/cephfs/data/babylm_data/babylm_10M/", fname, docs, convos)
    if ("babylm_100M" in data_set):
        for fname in tqdm(os.listdir("/cephfs/data/babylm_data/babylm_100M/"), desc = "Loading 100M training tokens"):
            if ".train" == fname[-6:]:
                docs, convos = load_BBLM("/cephfs/data/babylm_data/babylm_100M/", fname, docs, convos)
    for fname in tqdm(os.listdir("/cephfs/data/babylm_data/babylm_dev/"), desc = "Loading development tokens"):
        if ".dev" == fname[-4:]:
            ddocs, dconvos = load_BBLM("/cephfs/data/babylm_data/babylm_dev/", fname, ddocs, dconvos)
    # for fname in tqdm(os.listdir("/cephfs/data/babylm_data/babylm_test/"), desc = "Loading testing tokens"):
    #     if ".test" == fname[-5:]:
    #         tdocs, tdocs = load_BBLM("/cephfs/data/babylm_data/babylm_test/", fname, tdocs, tconvos)

In [32]:
if "BWB" in data_set:
    bwb_train_docs, bwb_test_docs = load_bwb("/cephfs/data/bwb/datasets/")
    docs += bwb_train_docs
    # dconvos += [[["Human: ", x + "\n\n"]] for x in tqdm(bwb_test_docs, desc = "Loading BWB testing texts") if x]
    convos += [[["Human: ", x + "\n\n"]] for x in tqdm(bwb_train_docs, desc = "Loading BWB training texts") if x]
    del bwb_train_docs, bwb_test_docs

In [33]:
config = get_config(model_size = model_size)
tokenizer_name = f"{data_set}-{model_size}"
tokenizer = SAFFUTokenizer(config)
tokenizer_directory = "./cache/"
vocab_file = os.path.join(tokenizer_directory, tokenizer._model_path,
                          (tokenizer_name + "-" if tokenizer_name else "") + "vocab.json")
reload = False
if not reload and os.path.exists(vocab_file):
    print(f"Loading tokenizer: {tokenizer_name}")
    result = tokenizer.load(tokenizer_name, load_directory = tokenizer_directory)
else:
    print(f"Training tokenizer: {tokenizer_name}")
    tokenizer.train(tokenizer.pretokenize_documents(docs))
    tokenizer.save_vocabulary(tokenizer_name, save_directory = tokenizer_directory)

tokenizer.set_vocabulary()
print("Vocabulary size for experiment: ", len(tokenizer._vocabulary))

if ("Assistant: " not in tokenizer._vocabulary) and ("Human: " not in tokenizer._vocabulary):
    tokenizer.augment_vocabulary(["Assistant: ", "Human: "])
data_file = os.path.join(tokenizer_directory, tokenizer._model_path,
                         (tokenizer_name + "-" if tokenizer_name else "") + 
                         f"data-space_{tokenizer.config._space}-r_{tokenizer.config._r}-b_{tokenizer.config._b}-heads_{tokenizer.config._heads}-N_{tokenizer.config._N}.json")

tokenizer._tokenize("These casseroles disgust Kayla."), [x in tokenizer._vocabulary for x in tokenizer._tokenize("These casseroles disgust Kayla.")]

Loading tokenizer: helpful-base-tiny
Portion of model's 87646 reference tokens covered: 0.9995664377153549
Vocabulary size for experiment:  6387


(['The',
  'se',
  ' ca',
  'ss',
  'er',
  'ol',
  'es',
  ' dis',
  'gu',
  'st',
  ' K',
  'ay',
  'la',
  '.'],
 [True,
  True,
  True,
  True,
  True,
  True,
  True,
  True,
  True,
  True,
  True,
  True,
  True,
  True])

In [34]:
convos

[[['Human: ', 'Hi, I want to learn to play horseshoes. Can you teach me?\n\n'],
  ['Assistant: ',
   'I can, but maybe I should begin by telling you that a typical game consists of 2 players and 6 or 8 horseshoes.\n\n'],
  ['Human: ',
   'Okay. What else is needed to play, and what are the rules?\n\n'],
  ['Assistant: ',
   'A horseshoe is usually made out of metal and is about 3 to 3.5 inches long and around 1 inch thick. The horseshoe should also have a 2 inch by 3 inch flat at the bottom where the rubber meets the metal. We also need two stakes and six horseshoes.\n\n'],
  ['Human: ', 'Okay, horseshoes, and two stakes. How do we play?\n\n'],
  ['Assistant: ',
   'Well, each player will use a hand to throw a horseshoe, and then when it hits the ground, a line is drawn where it lands. The horseshoe that falls closest to the stake is a “winner.” If no one gets the closest horseshoe, then that round is a “tie” and players go again until there is a “winner”.']],
 [['Human: ', 'How do I t

In [28]:
dconvos

[]

```
Epoch-0 perplexity [900.360501479926, 2178.3533993188635, 79212.25031167455, 99761.9505256068] (dim 1, even sectors)
Epoch-0 perplexity [496.76525781573207, 533.2700570397158, 100389.77601949903, 100392.99681093436] (dim 1, even sectors, all data)
Epoch-0 perplexity [913.0182298019313, 2291.6172177211765, 81902.45084486288, 99930.46726348072] (dim 0, odd sectors, transpose)
Epoch-0 perplexity [836.1772613983708, 1946.7510791982704, 81318.80639670715, 99894.95645510106] (dim 0, odd sectors)
Epoch-0 perplexity [987.3555092003801, 2279.969741016503, 81942.77913312569, 99931.26067729699] (dim 1, odd sectors, no icf)
Epoch-0 perplexity [763.220903806218, 1855.6688927998707, 81153.24557677505, 99884.87657541053] (dim 1, odd sectors)
Epoch-0 perplexity [592.3969722894352, 628.1477425335485, 100404.3056072563, 100409.60345968607] (dim 1, odd sectors, all data)
```

In [7]:
exec(open("saffu/modeling_saffu.py").read())
model = SAFFUDecoder(config, SAFFUEncoder(config, tokenizer)).to(device)
stage = "init"; reload = False
if reload or (not os.path.exists(f"./models_to_test/{data_set}-{model_size}-{stage}.state")):
    save_model(model, data_set, model_size, stage)

In [8]:
exec(open("saffu/tuning_saffu.py").read())
total_params, total_learnable = 0, 0
for name, param in model.named_parameters():
    total_params += int(np.exp(sum(np.log(param.shape))))
    if param.requires_grad:
        total_learnable += int(np.exp(sum(np.log(param.shape)))) # param.shape[0]*param.shape[1]
        # print(name, param.shape[0]*param.shape[1])

print(f"Total numbers of learnable/all parameters: {total_learnable}/{total_params}")

model.encoder._V.weight.requires_grad = False

seed = 691; ignore_space = False; ignore_case = False; warm_start = True; verbose = True; 
warm_vecs = 1*(2**0 + 0.99999); identity_ratio = 2**(-1); icf = True 
log_label = False; nlabels = 1*(2**0); centroids = False; label_iterations = 1*(2**10) # None 
epochs = int(np.max([int(downsample/5), 1]))*(2**5)
patience = 2**1
reload = False
warm_file = "".join([data_file[:-5] + "-", 
                     f"b_{tokenizer.config._bits}-hb_{tokenizer.config._hidden}-",
                     f"we_{int(tokenizer.config._wave_encode)}-oa_{tokenizer.config._o_agg}-ra_{tokenizer.config._r_agg}-ba_{tokenizer.config._b_agg}-",
                     f"mr_{int(tokenizer.config._mask_r)}-mb_{int(tokenizer.config._mask_b)}-md_{tokenizer.config._model_documents}-",
                     f"is_{int(ignore_space)}-ic_{int(ignore_case)}-ws_{int(warm_start)}-wv_{int(warm_vecs)}-ds_{downsample}-seed_{seed}"])
tuner = SAFFUTuner(ignore_case, ignore_space, devstr, warm_vecs, identity_ratio = identity_ratio, 
                   label_iterations = label_iterations, log_label = log_label, nlabels = nlabels, centroids = centroids, icf = icf)
tuner.warm_start(model, convos, dconvos, downsample*10, seed, epochs, patience, devsample = devsample, model_file = warm_file, reload = reload, verbose = verbose)

Total numbers of learnable/all parameters: 44722873/45252277
Training pads per block, pads to tokens, portion padding:  89.608 0.09589979366261697 0.0875078125
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193
Epoch-0 perplexity [1206.8975663905253, 1543.9671058747447, 3862.2552129191236, 580070.218273425] <sod>Human: What you., do
 what are, be



Assistant: I you're the good, for an
 do,
Epoch-1 perplexity [859.108905690172, 930.7398331187399, 175347.74474764962, 1155295.0044960012] <sod>Human: How you can really in
 also can,s, for a,.

Assistant: Yeah,. s thes,
Epoch-2 perplexity [698.670368572536, 731.3916744345651, 1066035.0111860833, 1542281.277128267] <sod>Human: How you can been of
 an can,s, for a,.

Assistant:  , in what the about,
Epoch-3 perplexity [634.3206189406983, 656.9123920521052, 2908308.600961864, 1498811.6613692269] <sod>Human: The you’ the I the by can, about a different, the, even a what, or “, som

In [9]:
stage = "start"; reload = True
if reload or (not os.path.exists(f"./models_to_test/{data_set}-{model_size}-{stage}.state")):
    save_model(model, data_set, model_size, stage)
    with open(f"./models_to_test/{data_set}-{model_size}-init-docsizes.json", "w") as f:
        f.write(json.dumps(model.docsizes))
    with open(f"./models_to_test/{data_set}-{model_size}-init-reference.json", "w") as f:
        f.write(json.dumps(model.reference))

In [10]:
tune_loss = model._losses; del tuner
tune_loss

[[25252.000000000047, 25252.0, 101008.99999999991, 101009.00000000028],
 [1206.8975663905253,
  1543.9671058747447,
  3862.2552129191236,
  580070.218273425],
 [859.108905690172, 930.7398331187399, 175347.74474764962, 1155295.0044960012],
 [698.670368572536, 731.3916744345651, 1066035.0111860833, 1542281.277128267],
 [634.3206189406983, 656.9123920521052, 2908308.600961864, 1498811.6613692269],
 [596.409158098091, 612.5116187196204, 5617404.368630349, 804332.062000717],
 [565.5916733421568, 581.1854545939651, 9037018.091541408, 555731.5409881896],
 [562.7869340592322, 567.9691474673151, 13010483.347625697, 282827.4080418706],
 [545.0691530255492, 551.1026175665359, 17431722.817370802, 180010.7134817856],
 [534.3093461702189,
  546.2979465046792,
  22192768.187902234,
  110849.67145533318],
 [527.6059473332663, 540.54562969348, 27233161.264319476, 60084.45593499909],
 [499.02590424777406,
  536.6407168435882,
  13676.111069708226,
  53636.54586908587],
 [501.1792260444718,
  533.8062175

In [11]:
def noise_matrix(matrix, beta):
    return (1 - beta)*(torch.rand(matrix.shape, device = matrix.device, dtype = torch.double) - 0.5) + beta*matrix
    
def noise_model(model, beta = 0.09, embeddings = False, seed = 0):
    torch.manual_seed(seed)
    with torch.no_grad():
        if embeddings:
            model.encoder._V.weight.data =  noise_matrix(model.encoder._V.weight.data, beta)
        for i in range(model.encoder.config._b_heads):
            model.encoder.BS[i]._W.weight.data = noise_matrix(model.encoder.BS[i]._W.weight.data, beta)
            model.encoder.BS[i]._U.weight.data = noise_matrix(model.encoder.BS[i]._U.weight.data, beta)
        for i in range(model.encoder.config._r_heads):
            model.encoder.RS[i]._W.weight.data = noise_matrix(model.encoder.RS[i]._W.weight.data, beta)
            model.encoder.RS[i]._U.weight.data = noise_matrix(model.encoder.RS[i]._U.weight.data, beta)
        if model.encoder.config._model_documents:    
            model.encoder._D._U.weight.data = noise_matrix(model.encoder._D._U.weight.data, beta)
            model._Ud.weight.data = noise_matrix(model._Ud.weight.data, beta)
        for i in range(len(model._Ucs)):
            model._Ucs[i].weight.data = noise_matrix(model._Ucs[i].weight.data, beta)
    return model

In [12]:
model.encoder._V.weight.requires_grad = False

total_params, total_learnable = 0, 0
for name, param in model.named_parameters():
    total_params += int(np.exp(sum(np.log(param.shape))))
    if param.requires_grad:
        total_learnable += int(np.exp(sum(np.log(param.shape)))) # param.shape[0]*param.shape[1]
        # print(name, param.shape[0]*param.shape[1])

print(f"Total numbers of learnable/all parameters: {total_learnable}/{total_params}")

reload = True
downsamp = downsample*10
epochs = downsamp*(2**5)
# epochs = downsample*(2**5)
patience = 2**4
batch = 2**0; print_every = 0
beta = 1.0; embeddings = True
model_file = (warm_file + f"-pat_{patience}-lr_{int(0.5 + 1/eta)}-ds_{downsample}-b_{batch}-s_{seed}-be_{beta}" + 
              (f"-e_{len(tune_loss) - 1}"  if len(tune_loss) - 1 else ""))
train_model(noise_model(model, beta = beta, seed = seed, embeddings = embeddings), 
            convos, dconvos, epochs, eta, patience, downsamp, batch, devsample = devsample, seed = seed, print_every = print_every, 
            model_file = model_file, reload = reload, verbose = verbose) # , epoch_start = len(tune_loss) - 1 if tune_loss else 0

Total numbers of learnable/all parameters: 31793850/45252277
Training pads per block, pads to tokens, portion padding:  89.608 0.09589979366261697 0.0875078125
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.78it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.19it/s]


Epoch-0 perplexity [484.2530413133526, 513.5150320227933, 35548.90389149907, 27662.118194209368] <sod>Human: How you do into and
 not can,s



Assistant: 
 could. if, in this
 do,


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2337.52it/s]


Epoch 1 pads per block, pads to tokens, portion padding:  83.0062271062271 0.0882112395398365 0.0810607686584249


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:59<00:00,  1.57it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.71it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.17it/s]


Epoch-1 perplexity [179.7801555370535, 219.6607156341323, 29523.338933717823, 38621.75361745063] <sod>Human: What do myine of my body I’s a really good way of the actual and more, and more. I’


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2212.09it/s]


Epoch 2 pads per block, pads to tokens, portion padding:  85.8574569439355 0.0915185624822523 0.08384517279681201


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [00:59<00:00,  1.59it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.66it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.17it/s]


Epoch-2 perplexity [136.84378664475, 161.7090571215123, 58902.254482732016, 61528.270713270584] <sod>Human: What are some ways of my

Assistant: I’m not sure how you’d need to make sure I think you


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2182.29it/s]


Epoch 3 pads per block, pads to tokens, portion padding:  83.6628801758886 0.08897115556975738 0.08170203142176621


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:59<00:00,  1.60it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.71it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.10it/s]


Epoch-3 perplexity [118.96749914970997, 137.54240366663134, 45584.509526706934, 50758.96889693759] <sod>Human: What are some ways of?

Assistant: I’m not sure what you mean by “ize.  We can put a


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2245.94it/s]


Epoch 4 pads per block, pads to tokens, portion padding:  85.85709050934408 0.09151813613978951 0.08384481495053132


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:00<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.72it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-4 perplexity [108.83753322689341, 121.50330689219665, 55061.9814533214, 53638.900527755744] <sod>Human: What are some ideas?

Assistant: I’m not sure what you mean by “ans” or “Ais”


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2158.29it/s]


Epoch 5 pads per block, pads to tokens, portion padding:  85.15494505494506 0.09070180921379904 0.08315912603021978


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:01<00:00,  1.55it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.66it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-5 perplexity [101.89750609965182, 112.37235468658302, 74805.39674747133, 58017.48935933885] <sod>Human: What are some fun place in the oldd?

Assistant: I’m notking quite a lot of ways, but


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2195.67it/s]


Epoch 6 pads per block, pads to tokens, portion padding:  83.80732600732601 0.0891384588771844 0.08184309180402931


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:01<00:00,  1.55it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.68it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.11it/s]


Epoch-6 perplexity [97.18512183897542, 103.63536409389056, 82615.82889642425, 58933.07507653825] <sod>Human: What are some commonlyant pros

Assistant: I’m not sure about the short answer of the question but there’s


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2157.43it/s]


Epoch 7 pads per block, pads to tokens, portion padding:  83.9274193548387 0.08927759524401857 0.08196037046370967


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:00<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.70it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.14it/s]


Epoch-7 perplexity [94.19069147096498, 97.1978090794234, 93230.31281113511, 57512.42577987568] <sod>Human: What are some ways I could do that?

Assistant: I’m not sure about kids.

Human: How do


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2312.64it/s]


Epoch 8 pads per block, pads to tokens, portion padding:  84.95421245421245 0.09046865827090472 0.08296309809981685


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:59<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.70it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.11it/s]


Epoch-8 perplexity [90.08951814612473, 92.65841946758621, 46536.957661624336, 40101.11141729271] <sod>Human: What are the most common things?

Assistant: Well, I’m not sure.  I’m not really sure what


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2117.66it/s]


Epoch 9 pads per block, pads to tokens, portion padding:  85.33308904360571 0.09090880699806607 0.0833330947691462


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:02<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.70it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.05it/s]


Epoch-9 perplexity [87.88056636035918, 88.83859994191646, 97101.06824012447, 52933.437741647016] <sod>Human: how do I become a tricky serving?

Assistant: I’m not sure how to make a website. Can you


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2205.09it/s]


Epoch 10 pads per block, pads to tokens, portion padding:  85.64652014652015 0.09127319500098567 0.08363917983058608


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.70it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.07it/s]


Epoch-10 perplexity [85.29672886586391, 87.01702500013573, 97903.38832245003, 53425.15497652819] <sod>Human: What are some things to learn about all of these songs?

Assistant: I’d like to help kids learn, and
Training pads per block, pads to tokens, portion padding:  88.09734513274336 0.09413088495324187 0.08603256360619468
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2232.65it/s]


Epoch 11 pads per block, pads to tokens, portion padding:  86.96082021237642 0.09280382516351746 0.08492267598864885


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:01<00:00,  1.54it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.71it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.04it/s]


Epoch-11 perplexity [63.491537372955264, 82.60067159630319, 18311.585859795345, 53467.75551168284] <sod>Human: how do i learn to be distractively?

Assistant: I think that’s a happy question to find it.



Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2203.52it/s]


Epoch 12 pads per block, pads to tokens, portion padding:  81.19648093841643 0.08612237788339512 0.0792934384164223


Training LM on 92 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92/92 [00:58<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.73it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-12 perplexity [67.01510032304132, 81.04529866067215, 17231.19382289901, 47769.976670472] <sod>Human: What are some fun ideas for shows about the best quality of the world?

Assistant: I’m what to know,


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2205.27it/s]


Epoch 13 pads per block, pads to tokens, portion padding:  82.4475806451613 0.08756557675424509 0.08051521547379033


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [01:00<00:00,  1.54it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.71it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-13 perplexity [67.72312887496804, 77.82133667342458, 20515.142878849165, 52301.33769425016] <sod>Human: What are some things I could do something like?

Assistant: I think you could get a lot of ideas, or


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2364.55it/s]


Epoch 14 pads per block, pads to tokens, portion padding:  85.91715542521995 0.09158802543091489 0.08390347209494135


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.57it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.71it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.14it/s]


Epoch-14 perplexity [68.03836213837025, 77.53626048651725, 21775.139629144014, 49148.34962294501] <sod>Human: What are some things to make eating toast?

Assistant: I’m not sure, I’d recommendations


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2285.55it/s]


Epoch 15 pads per block, pads to tokens, portion padding:  85.67680469036277 0.0913084160325913 0.0836687545804324


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:00<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.76it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.15it/s]


Epoch-15 perplexity [67.82550193571205, 75.20121611355508, 23384.60691490846, 50574.44682753265] <sod>Human: What are some places to eat fishing?

Assistant: I’m not sure, but I’m sorry.  I


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2136.16it/s]


Epoch 16 pads per block, pads to tokens, portion padding:  85.5140974002197 0.09111921357937265 0.08350986074240205


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.57it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.73it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.08it/s]


Epoch-16 perplexity [68.2166225237465, 74.48238737631226, 25518.29596876582, 53338.22978896123] <sod>Human: How do I show a baby?

Assistant: It depends on the oven, and the stove, and place it a hot


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2402.35it/s]


Epoch 17 pads per block, pads to tokens, portion padding:  85.47800586510265 0.09107725380894649 0.0834746151026393


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.69it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.07it/s]


Epoch-17 perplexity [67.77443113846489, 73.57121711423567, 26854.20590695917, 50846.624059653106] <sod>Human: What are some of the pros has gone?

Assistant: I’m not sure... I’m not sure if you


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2206.15it/s]


Epoch 18 pads per block, pads to tokens, portion padding:  86.22710622710623 0.0919488148993016 0.08420615842490843


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:00<00:00,  1.59it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.72it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.07it/s]


Epoch-18 perplexity [67.50130842832334, 71.21292145338468, 28724.490656605416, 49982.58704943496] <sod>Human: How do you per pain do?

Assistant: I’m not not sure if that’s a profpically’s


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2167.46it/s]


Epoch 19 pads per block, pads to tokens, portion padding:  84.70769230769231 0.09018246142758869 0.08272235576923077


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.75it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-19 perplexity [66.72636693181967, 69.45746977358715, 28398.792732290334, 45781.18404981433] <sod>Human: How do I keep my dog from water?

Assistant: You could use it.

Human: I still just run a


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2297.14it/s]


Epoch 20 pads per block, pads to tokens, portion padding:  83.13804467228121 0.0883637011800767 0.08118949675027462


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:00<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.73it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-20 perplexity [66.07321607759225, 67.72600690716125, 29874.399251971117, 43925.43704395477] <sod>Human: What are some of the most popular countries?

Assistant: I’m not sure what you mean by “C”?
Training pads per block, pads to tokens, portion padding:  91.52868852459017 0.09815710939113848 0.08938348488729508
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2231.01it/s]


Epoch 21 pads per block, pads to tokens, portion padding:  84.46776556776557 0.08990406339683492 0.08248805231227106


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.57it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.44it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.06it/s]


Epoch-21 perplexity [52.463368599124514, 67.40710633268822, 9990.973569792337, 48560.16674742163] <sod>Human: How do you buy a safe position?

Assistant: I’m not sure how to make a wholeint to make


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2198.15it/s]


Epoch 22 pads per block, pads to tokens, portion padding:  82.13338219127886 0.08720277440383697 0.08020838104617076


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:58<00:00,  1.58it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.49it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.14it/s]


Epoch-22 perplexity [56.316622698199936, 66.97015956379641, 10671.680950715141, 49694.01073913157] <sod>Human: What are some things to eat outdoorheroes?

Assistant: I’m not sure for you to do...<eod>


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2183.43it/s]


Epoch 23 pads per block, pads to tokens, portion padding:  84.73433492121656 0.09021338485114246 0.08274837394650054


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.58it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.50it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.16it/s]


Epoch-23 perplexity [58.672287387746394, 65.95029416477767, 12396.89555375756, 53309.07954216112] <sod>Human: What are some of the most popular popular?

Assistant: I’m not sure if you’re asking you?<eod>


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2178.96it/s]


Epoch 24 pads per block, pads to tokens, portion padding:  86.1901795529498 0.09190581893444374 0.08417009721967754


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.57it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.52it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.08it/s]


Epoch-24 perplexity [59.21344998070121, 63.60526689963667, 13141.516029156379, 50728.48714044491] <sod>Human: What are some of the benefits of the beach?

Assistant: The most popular celebrations is:

A:


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2331.91it/s]


Epoch 25 pads per block, pads to tokens, portion padding:  84.42710622710622 0.08985689858302073 0.08244834592490842


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [00:59<00:00,  1.57it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.48it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.08it/s]


Epoch-25 perplexity [59.71223460612614, 63.38070499566886, 14908.667352396751, 54769.02310522509] <sod>Human: What are some of the benefits of a popular steps?

Assistant: I’m not sure what you’re asking


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2217.11it/s]


Epoch 26 pads per block, pads to tokens, portion padding:  85.19370194068107 0.09074683682543645 0.08319697455144635


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:00<00:00,  1.55it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.43it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.15it/s]


Epoch-26 perplexity [59.49913772777551, 61.938545935849845, 15642.902247362135, 51831.17876551473] <sod>Human: What are some things to collect.  These museums are a museum or activities or snow activities activities?  Or activ


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2287.84it/s]


Epoch 27 pads per block, pads to tokens, portion padding:  84.24120234604105 0.08964130216853859 0.08226679916605571


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:00<00:00,  1.56it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.46it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.09it/s]


Epoch-27 perplexity [59.86185557007935, 61.23712484514305, 16088.629765225629, 50466.978461833256] <sod>Human: What are some things to hike their kitchen?

Assistant: I’m not sure what you mean by "?



Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2327.65it/s]


Epoch 28 pads per block, pads to tokens, portion padding:  82.87358006595822 0.0880578616332611 0.08093123053316233


Training LM on 92 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92/92 [00:57<00:00,  1.59it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.49it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.08it/s]


Epoch-28 perplexity [60.04560731893367, 61.42940159985948, 17204.368476943775, 50128.27116506782] <sod>Human: What is the most popular?

Assistant: The National population is a former novel in the United States, which is
Losing patience: 15 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2189.07it/s]


Epoch 29 pads per block, pads to tokens, portion padding:  87.54029304029304 0.09348004232290973 0.08548856742216117


Training LM on 98 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 98/98 [01:03<00:00,  1.55it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.54it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.10it/s]


Epoch-29 perplexity [64.66818953200196, 64.05085237619642, 45554.24728140084, 79736.62741341368] <sod>Human: Hi, I need to do a basketball?

Assistant: I’m not sure what you’re looking for
Losing patience: 14 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2188.54it/s]


Epoch 30 pads per block, pads to tokens, portion padding:  85.42139978013924 0.09101145046363661 0.08341933572279223


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:01<00:00,  1.53it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.48it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.15it/s]


Epoch-30 perplexity [70.14249077889197, 65.56260166601626, 54705.6365905709, 71664.1671713618] <sod>Human: What is the most populargest part of the world?

Assistant: The largest National Park is only the US gover
Losing patience: 13 loss increases remaining!
Training pads per block, pads to tokens, portion padding:  85.66666666666667 0.09129662522202486 0.08365885416666667
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 1704.63it/s]


Epoch 31 pads per block, pads to tokens, portion padding:  84.14259530791789 0.08952698025024855 0.08217050323038856


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:00<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.79it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.14it/s]


Epoch-31 perplexity [37.007705001550356, 69.25093588173887, 53860.748794200204, 100424.6666173213] <sod>Human: What are some of the most popular one of the most popular songs?

Assistant: I’m not sure. I’
Losing patience: 12 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2212.83it/s]


Epoch 32 pads per block, pads to tokens, portion padding:  84.85164835164835 0.09034956852420652 0.08286293784340659


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:59<00:00,  1.60it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.80it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-32 perplexity [45.20035384470164, 70.78124254020479, 95622.33404542974, 101044.59622803467] <sod>Human: how do i get a baby?

Assistant: What do you mean by “ed”?

Human: I think a “
Losing patience: 11 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2293.77it/s]


Epoch 33 pads per block, pads to tokens, portion padding:  81.15164835164835 0.0860707325942433 0.07924965659340659


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:58<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.82it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.14it/s]


Epoch-33 perplexity [51.040116518984476, 71.70674811213355, 98702.40970955748, 96881.8148051881] <sod>Human: How do you get a mortgage?

Assistant: What do you want to serve a snow?

Human: What do
Losing patience: 10 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2270.07it/s]


Epoch 34 pads per block, pads to tokens, portion padding:  84.14034444851595 0.08952437095424069 0.08216830512550385


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.57it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.75it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.14it/s]


Epoch-34 perplexity [55.56769717972972, 72.03431072033645, 101068.23011269908, 98271.14300011139] <sod>Human: How do I make a frozenulcon?

Assistant: You could use a friendyer fire?

Human: Actually
Losing patience: 9 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 1970.29it/s]


Epoch 35 pads per block, pads to tokens, portion padding:  87.36863319897398 0.09327963625366628 0.08532093085837303


Training LM on 98 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 98/98 [01:02<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.83it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-35 perplexity [57.46684877600078, 72.57495415860625, 102302.22640382766, 98055.66966109393] <sod>Human: Is it you know what the “thing”?

Assistant: I am not sorry. I am not sure. I don't know
Losing patience: 8 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2208.95it/s]


Epoch 36 pads per block, pads to tokens, portion padding:  82.01759530791789 0.0870691372783423 0.08009530791788856


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [00:59<00:00,  1.60it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.78it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-36 perplexity [61.26592154491241, 72.81613582773738, 102395.41933839631, 96523.36227374969] <sod>Human: What is a do?

Assistant: ://is is a good question to be a lot of the best kinds of you,
Losing patience: 7 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2186.87it/s]


Epoch 37 pads per block, pads to tokens, portion padding:  84.83290582631 0.09032780891982675 0.08284463459600586


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:59<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.81it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-37 perplexity [62.52867063042942, 71.76645357379046, 102152.91346867158, 99294.52435063942] <sod>Human: How do I charge a bee mattress?

Assistant: I’m not sure how to make a permanity.  I


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2272.22it/s]


Epoch 38 pads per block, pads to tokens, portion padding:  86.82747252747252 0.09264833313204202 0.08479245364010989


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:02<00:00,  1.51it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.79it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.10it/s]


Epoch-38 perplexity [60.35083216310312, 66.93513878922529, 104402.23604248869, 95393.30460619621] <sod>Human: What is the most popular details?

Assistant: The most popular tourist countries are different with American system and the


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2242.46it/s]


Epoch 39 pads per block, pads to tokens, portion padding:  85.85468521229868 0.09151533761241164 0.08384246602763543


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:00<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.84it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-39 perplexity [59.087640692084264, 64.80647842735483, 107329.48661471585, 92938.3344810524] <sod>Human: What is the most popularest color for the stock?

Assistant: I’m sorry, I’m sure that I


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2274.54it/s]


Epoch 40 pads per block, pads to tokens, portion padding:  85.99047270062295 0.09167334680298833 0.0839750709967021


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:01<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.82it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.10it/s]


Epoch-40 perplexity [57.91176042878657, 63.06436082017492, 109001.87285301212, 90520.98147417013] <sod>Human: How do I stop my vacuum?

Assistant: I’m not sure what you’re asking for?<eod>
Training pads per block, pads to tokens, portion padding:  71.9659090909091 0.07559173539908569 0.07027920809659091
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2304.07it/s]


Epoch 41 pads per block, pads to tokens, portion padding:  82.64468864468864 0.08779329935016927 0.08070770375457875


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:59<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.96it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.09it/s]


Epoch-41 perplexity [43.334497302705046, 61.49666201203233, 38680.90797846722, 86447.66069516637] <sod>Human: What are some ways to prepare my life?

Assistant: I’m not sure.

Human: She would help me


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 1818.51it/s]


Epoch 42 pads per block, pads to tokens, portion padding:  81.92524734334921 0.08696257607193061 0.08000512435873947


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:58<00:00,  1.59it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.91it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.09it/s]


Epoch-42 perplexity [46.55638003845672, 59.42433040664076, 38758.81756497643, 84868.51808577908] <sod>Human: What is a good time to come before?

Assistant: I’m not sure, but I’m sorry. I


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2156.90it/s]


Epoch 43 pads per block, pads to tokens, portion padding:  84.54468864468865 0.08999330529380871 0.08256317250457876


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:01<00:00,  1.57it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.90it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.18it/s]


Epoch-43 perplexity [48.41397043068526, 58.22287508174749, 42380.821762916894, 83239.0014036762] <sod>Human: Who was Arcned?

Assistant: He was the first franchalian not the California recorded in Black.




Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2165.29it/s]


Epoch 44 pads per block, pads to tokens, portion padding:  84.8702821546354 0.09037120276563326 0.08288113491663614


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:01<00:00,  1.55it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.90it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.05it/s]


Epoch-44 perplexity [48.68161467520929, 57.14859257471979, 45678.94500296823, 78421.276079767] <sod>Human: What are some lot of Playstation or something I could go?

Assistant: Well, maybe you could also enjoy some


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2242.87it/s]


Epoch 45 pads per block, pads to tokens, portion padding:  87.05240014657383 0.09291063893027968 0.0850121095181385


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:01<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.92it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-45 perplexity [49.75892226182092, 57.04917457172186, 48015.63134941437, 74443.51845529859] <sod>Human: how do i say if he doesn'ttr?

Assistant: I am sorry to say.

Human: i am say "


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2219.36it/s]


Epoch 46 pads per block, pads to tokens, portion padding:  83.00036643459143 0.08820446201462001 0.08105504534628069


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [01:00<00:00,  1.54it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.90it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.10it/s]


Epoch-46 perplexity [49.74339707828723, 56.332493592965726, 49231.79585403916, 71959.14068629344] <sod>Human: How do I enable a light tree?

Assistant: I’m not sure if you’re alous.  I


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2271.46it/s]


Epoch 47 pads per block, pads to tokens, portion padding:  86.07509157509158 0.09177183674505524 0.08405770661630037


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.57it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.87it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.15it/s]


Epoch-47 perplexity [49.67188229682017, 55.82923463097684, 54518.86762243591, 74902.5877715797] <sod>Human: What are some of the pros and cons of the cities?

Assistant: I can tell you what you want in to


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2220.37it/s]


Epoch 48 pads per block, pads to tokens, portion padding:  85.57158549981692 0.09118605551324152 0.08356600146466496


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.92it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.08it/s]


Epoch-48 perplexity [50.595949483999895, 54.964707553759666, 57113.81267124215, 72959.61721061266] <sod>Human: Hi, I should need to become a blog?

Assistant: I would be a great idea.

Human: Okay,


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2322.76it/s]


Epoch 49 pads per block, pads to tokens, portion padding:  87.03884206669109 0.09289482421947565 0.08499886920575302


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:02<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.90it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.11it/s]


Epoch-49 perplexity [50.0253711540809, 53.85020350851154, 60096.68040772514, 71403.60449229575] <sod>Human: How do I report a cable?

Assistant: I’m not sure what you’re asking about?

Human: 


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2155.59it/s]


Epoch 50 pads per block, pads to tokens, portion padding:  84.5091642228739 0.08995209000944622 0.0825284806864003


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [00:59<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.91it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-50 perplexity [50.931389959597624, 52.84713674066081, 60867.48367340252, 65118.04621965669] <sod>Human: how do i beat my teeth?

Assistant: I’m not not sure what you mean by “long”.  Do you
Training pads per block, pads to tokens, portion padding:  90.51739130434783 0.09696741049180023 0.08839588994565217
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2227.52it/s]


Epoch 51 pads per block, pads to tokens, portion padding:  83.42637362637363 0.08869733457020616 0.0814710679945055


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.57it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.56it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.10it/s]


Epoch-51 perplexity [37.665285050285, 52.54627960680027, 18210.228197311983, 68594.36649920332] <sod>Human: What are some quickine birds?

Assistant: I’m not sure what that’s, but you might want


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2221.55it/s]


Epoch 52 pads per block, pads to tokens, portion padding:  85.46063712925668 0.09105706218634797 0.08345765344653973


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.58it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:06<00:00,  1.59it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.06it/s]


Epoch-52 perplexity [41.095899461979315, 52.37155869962427, 20348.08472095543, 69611.28372283316] <sod>Human: How do I throw a cat?

Assistant: I’m not sure what you’re asking about?<eod>


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2304.06it/s]


Epoch 53 pads per block, pads to tokens, portion padding:  85.06300366300367 0.09059500690126548 0.08306933951465202


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.57it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:06<00:00,  1.59it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.11it/s]


Epoch-53 perplexity [42.71458889339173, 51.8569471895236, 21911.605557159543, 68055.8090113448] <sod>Human: What are some cartoons that work?

Assistant: No, I think I can tell me about the music of a few


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2114.93it/s]


Epoch 54 pads per block, pads to tokens, portion padding:  88.2010989010989 0.09425219328375473 0.0861338856456044


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:01<00:00,  1.56it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:06<00:00,  1.57it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.10it/s]


Epoch-54 perplexity [43.6871993485711, 51.266899460178585, 23950.282518381002, 70188.71480324761] <sod>Human: Who was Jimi. Fiza tell me the most popular branch of the Supernie Sixnie Ocean?

Assistant: I’


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2297.51it/s]


Epoch 55 pads per block, pads to tokens, portion padding:  84.51648351648352 0.0899605815680816 0.08253562843406594


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [01:00<00:00,  1.58it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.55it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.09it/s]


Epoch-55 perplexity [44.67806000972224, 50.020111386050054, 25377.098781233108, 65755.30240985128] <sod>Human: Who was The Trap Genn Ronald The Beatles (1994 million Will Jolie album owns?

Assistant: I’


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2241.68it/s]


Epoch 56 pads per block, pads to tokens, portion padding:  86.31671554252199 0.09205316653635653 0.08429366752199413


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:01<00:00,  1.55it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.55it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-56 perplexity [45.21894377969881, 50.19773580422432, 27624.910717878698, 67765.16022432054] <sod>Human: What are some things to collect away there?

Assistant: There are lots of excellent chocolate Pumpkinur Mountain,
Losing patience: 6 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2315.58it/s]


Epoch 57 pads per block, pads to tokens, portion padding:  82.65884939538293 0.08780966320477088 0.08072153261267864


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:59<00:00,  1.55it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.57it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-57 perplexity [48.213225855859115, 52.25621936794511, 74354.49093411046, 92656.19153015722] <sod>Human: What is the most popular world?

Assistant: The country are the most popular history of the world?

Human: The
Losing patience: 5 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2220.02it/s]


Epoch 58 pads per block, pads to tokens, portion padding:  85.1931110296812 0.09074615027923454 0.08319639748992305


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:01<00:00,  1.53it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:06<00:00,  1.58it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.15it/s]


Epoch-58 perplexity [51.79047901320676, 55.210809375147214, 95181.16184035681, 97410.96333479932] <sod>Human: How do I stop sleep their alarm.

Assistant: I’m not sure how to remove a dog are the property
Losing patience: 4 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2196.06it/s]


Epoch 59 pads per block, pads to tokens, portion padding:  84.11436950146627 0.08949426054832903 0.08214293896627566


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:00<00:00,  1.58it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.52it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.13it/s]


Epoch-59 perplexity [55.22250969883262, 56.33665972567137, 100837.7424850681, 96244.02822982293] <sod>Human: Are you the name of life?

Assistant: I’m not sure what you mean by “ but about this kind of
Losing patience: 3 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2217.38it/s]


Epoch 60 pads per block, pads to tokens, portion padding:  82.30084279956027 0.0873961096495307 0.08037191679644558


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [00:59<00:00,  1.59it/s]
Evaluating LM on 11 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:07<00:00,  1.55it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.07it/s]


Epoch-60 perplexity [57.004038493369976, 57.831475753004476, 102123.65155267631, 98215.05306692992] <sod>Human: How do I learn to stop sew?

Assistant: You could also use a way to learn how to ride out of a
Losing patience: 2 loss increases remaining!
Training pads per block, pads to tokens, portion padding:  82.06827309236948 0.08712762374169122 0.08014479794176707
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2076.78it/s]


Epoch 61 pads per block, pads to tokens, portion padding:  85.32357247437774 0.09089774705357533 0.08332380124450951


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:01<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.82it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.14it/s]


Epoch-61 perplexity [33.78843664088076, 57.26374130915857, 63899.65304992066, 97073.14273526237] <sod>Human: What are some things to make a new kitchen?

Assistant: I think you can probably to keep a ball from


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2183.92it/s]


Epoch 62 pads per block, pads to tokens, portion padding:  84.53865884939539 0.08998630933110746 0.08255728403261268


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.79it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.21it/s]


Epoch-62 perplexity [36.56286615601083, 55.89011758607936, 65319.44981491415, 93741.10898288507] <sod>Human: Do you know the best movies in The movies novel movies?

Assistant: The war.<eod>


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2178.60it/s]


Epoch 63 pads per block, pads to tokens, portion padding:  84.86180351906158 0.09036135878302977 0.08287285499908358


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:00<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.81it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.12it/s]


Epoch-63 perplexity [38.948242920933396, 54.79741253568278, 67902.84665668527, 91343.22072411857] <sod>Human: What are some ways I could win and a baby baby?

Assistant: You could put a baby glue ball or a baby


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2141.20it/s]


Epoch 64 pads per block, pads to tokens, portion padding:  84.62293880542323 0.09008410179594002 0.08263958867717112


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:01<00:00,  1.54it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.82it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.19it/s]


Epoch-64 perplexity [39.65287024462631, 53.69081244591796, 69569.41261774977, 87314.8712240498] <sod>Human: What are some ways that I can cook for a party?

Assistant: I’m not sure what you’re asking


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2288.23it/s]


Epoch 65 pads per block, pads to tokens, portion padding:  84.78453646024185 0.09027165730502563 0.08279739888695493


Training LM on 93 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 93/93 [00:59<00:00,  1.55it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.77it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.15it/s]


Epoch-65 perplexity [40.44090327120898, 52.97534574276636, 70826.54147915449, 82095.838790692] <sod>Human: What are some ways I could work online?

Assistant: I’m not sure if I’m fully understand what


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2333.48it/s]


Epoch 66 pads per block, pads to tokens, portion padding:  86.01793557833089 0.09170530955873545 0.08400189021321376


Training LM on 96 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [01:02<00:00,  1.54it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.81it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.07it/s]


Epoch-66 perplexity [41.07955028518843, 52.57515211833801, 76372.11156512094, 83188.63994619275] <sod>Human: What are some of the most popular boy?

Assistant: I’m not sure, but I don’t know what


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2167.51it/s]


Epoch 67 pads per block, pads to tokens, portion padding:  86.7084249084249 0.0925095532838363 0.0846761961996337


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:00<00:00,  1.55it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.81it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.14it/s]


Epoch-67 perplexity [41.33195507570267, 51.117497629774064, 82190.7273125798, 81962.16223845066] <sod>Human: What are some of the most popular Bang Park?

Assistant: The Beatles, Stephen King titles?  Do you ever


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2176.80it/s]


Epoch 68 pads per block, pads to tokens, portion padding:  83.18101868816416 0.08841341463177144 0.08123146356266031


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [01:00<00:00,  1.56it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.84it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.21it/s]


Epoch-68 perplexity [41.84911482626714, 50.51824053943146, 81090.84645864172, 78697.58406578712] <sod>Human: What is a rainbow?

Assistant: A matter, it’s a good idea of a martial arts.  I’


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2122.85it/s]


Epoch 69 pads per block, pads to tokens, portion padding:  83.29692082111437 0.08854751585784328 0.0813446492393695


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [00:59<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.80it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.16it/s]


Epoch-69 perplexity [42.28815587120421, 49.41720941760271, 88493.65398126259, 75054.93035495201] <sod>Human: Are you asking to have an investmenter?

Assistant: I’m not sure what you mean by “Old”


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2331.87it/s]


Epoch 70 pads per block, pads to tokens, portion padding:  83.9208211143695 0.0892699498076845 0.08195392686950147


Training LM on 94 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [00:59<00:00,  1.59it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.82it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.20it/s]


Epoch-70 perplexity [42.466806475241135, 48.95446311848079, 93416.28084598083, 75914.23527553941] <sod>Human: Do you know the origin of the war?

Assistant: The United States is helding of Representatives.


Training pads per block, pads to tokens, portion padding:  83.77215189873418 0.08909771399337624 0.0818087420886076
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2202.88it/s]


Epoch 71 pads per block, pads to tokens, portion padding:  83.54618768328446 0.0888360348898758 0.08158807390945748


Training LM on 95 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 95/95 [00:59<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:06<00:00,  1.81it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.15it/s]


Epoch-71 perplexity [34.1415218920407, 49.17574055979115, 23176.22210677935, 73885.83682597213] <sod>Human: How do I lose a sl ban tire?

Assistant: I’m not sure what you mean by “. I’
Losing patience: 1 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2191.95it/s]


Epoch 72 pads per block, pads to tokens, portion padding:  86.94430194210334 0.09278456138978776 0.08490654486533529


Training LM on 97 8192-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [01:01<00:00,  1.58it/s]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:07<00:00,  1.68it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:07<00:00,  1.09it/s]


Epoch-72 perplexity [40.357965856334495, 51.65910059992113, 86162.72862942914, 96080.57032937172] <sod>Human: What is documentary for a PC?

Assistant: It’s a parent, but I’m sorry you’
Losing patience: 0 loss increases remaining!
Early stopping at epoch 71... rolling back to best model, found at epoch 71.


In [13]:
model._losses

[[484.2530413133526, 513.5150320227933, 35548.90389149907, 27662.118194209368],
 [179.7801555370535, 219.6607156341323, 29523.338933717823, 38621.75361745063],
 [136.84378664475, 161.7090571215123, 58902.254482732016, 61528.270713270584],
 [118.96749914970997,
  137.54240366663134,
  45584.509526706934,
  50758.96889693759],
 [108.83753322689341,
  121.50330689219665,
  55061.9814533214,
  53638.900527755744],
 [101.89750609965182,
  112.37235468658302,
  74805.39674747133,
  58017.48935933885],
 [97.18512183897542, 103.63536409389056, 82615.82889642425, 58933.07507653825],
 [94.19069147096498, 97.1978090794234, 93230.31281113511, 57512.42577987568],
 [90.08951814612473, 92.65841946758621, 46536.957661624336, 40101.11141729271],
 [87.88056636035918, 88.83859994191646, 97101.06824012447, 52933.437741647016],
 [85.29672886586391, 87.01702500013573, 97903.38832245003, 53425.15497652819],
 [63.491537372955264,
  82.60067159630319,
  18311.585859795345,
  53467.75551168284],
 [67.0151003230

In [14]:
stage = "mid"; reload = True
if reload or (not os.path.exists(f"./models_to_test/{data_set}-{model_size}-{stage}.state")):
    save_model(model, data_set, model_size, stage)

In [15]:
warm_loss = list(model._losses) # ; model._losses = []
warm_loss

[[484.2530413133526, 513.5150320227933, 35548.90389149907, 27662.118194209368],
 [179.7801555370535, 219.6607156341323, 29523.338933717823, 38621.75361745063],
 [136.84378664475, 161.7090571215123, 58902.254482732016, 61528.270713270584],
 [118.96749914970997,
  137.54240366663134,
  45584.509526706934,
  50758.96889693759],
 [108.83753322689341,
  121.50330689219665,
  55061.9814533214,
  53638.900527755744],
 [101.89750609965182,
  112.37235468658302,
  74805.39674747133,
  58017.48935933885],
 [97.18512183897542, 103.63536409389056, 82615.82889642425, 58933.07507653825],
 [94.19069147096498, 97.1978090794234, 93230.31281113511, 57512.42577987568],
 [90.08951814612473, 92.65841946758621, 46536.957661624336, 40101.11141729271],
 [87.88056636035918, 88.83859994191646, 97101.06824012447, 52933.437741647016],
 [85.29672886586391, 87.01702500013573, 97903.38832245003, 53425.15497652819],
 [63.491537372955264,
  82.60067159630319,
  18311.585859795345,
  53467.75551168284],
 [67.0151003230

In [16]:
model.encoder._V.weight.requires_grad = True

parameters = [] 
if model.encoder._V.weight.requires_grad:
    for name, param in model.named_parameters():
        if name == 'encoder._V.weight': 
            print("Setting separate learning rate for the embedding layer.")
            lr = config._batch_size*eta/(config._b*config._bits) # /10 # dataset_size*2**9
        else:
            lr = config._batch_size*eta/config._b
        parameters += [{'params': [p for n, p in model.named_parameters() if n == name and p.requires_grad], 'lr': lr}]

total_params, total_learnable = 0, 0
for name, param in model.named_parameters():
    total_params += int(np.exp(sum(np.log(param.shape))))
    if param.requires_grad:
        total_learnable += int(np.exp(sum(np.log(param.shape)))) # param.shape[0]*param.shape[1]
        # print(name, param.shape[0]*param.shape[1])

print(f"Total numbers of learnable/all parameters: {total_learnable}/{total_params}")
downsamp = downsample*10
epochs = downsamp*(2**5)
reload = True
patience = 2**2
batch = 2**0; print_every = 0
end_file =  model_file + f"-dds_{downsamp}"
train_model(model, convos, dconvos, epochs, eta, patience, downsamp, batch, devsample = devsample, seed = seed, print_every = print_every, 
            model_file = end_file, reload = reload, epoch_start = 0, verbose = verbose, parameters = parameters)

Setting separate learning rate for the embedding layer.
Total numbers of learnable/all parameters: 44722873/45252277
Training pads per block, pads to tokens, portion padding:  89.608 0.09589979366261697 0.0875078125
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.25it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:08<00:00,  1.10s/it]


Epoch-0 perplexity [41.86350640705042, 49.182922262070946, 54810.82423548252, 73885.83682597213] <sod>Human: How do I lose a sl ban tire?

Assistant: I’m not sure what you mean by “. I’


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2336.44it/s]


Epoch 1 pads per block, pads to tokens, portion padding:  83.0062271062271 0.0882112395398365 0.0810607686584249


Training LM on 718 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 718/718 [16:23<00:00,  1.37s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.22it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.23s/it]


Epoch-1 perplexity [36.96287489163677, 46.832286534149176, 127838.92367251708, 82748.56284780068] <sod>Human: What is a thick and Jupped with a baby?

Assistant: It’s a party, and has some other things


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2186.44it/s]


Epoch 2 pads per block, pads to tokens, portion padding:  85.8574569439355 0.0915185624822523 0.08384517279681201


Training LM on 738 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 738/738 [17:06<00:00,  1.39s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.24it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.15s/it]


Epoch-2 perplexity [36.60777060659256, 45.854334356966426, 279082.98724389233, 98137.2072968977] <sod>Human: What are some ways I could know things to do to hunt?

Assistant: I think you could wear a pet party,


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2303.55it/s]


Epoch 3 pads per block, pads to tokens, portion padding:  83.6628801758886 0.08897115556975738 0.08170203142176621


Training LM on 731 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 731/731 [16:37<00:00,  1.36s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:10<00:00,  1.18it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.16s/it]


Epoch-3 perplexity [36.4886310074813, 45.15541778430339, 510101.69862772996, 117248.77077301226] <sod>Human: What are some of the pros and cons of the most popular ones?

Assistant: I’m not sure, so I


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2216.80it/s]


Epoch 4 pads per block, pads to tokens, portion padding:  85.85709050934408 0.09151813613978951 0.08384481495053132


Training LM on 734 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 734/734 [16:47<00:00,  1.37s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.20it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:10<00:00,  1.26s/it]


Epoch-4 perplexity [36.486796564121086, 44.493500022584854, 798835.4222822684, 138961.24285935384] <sod>Human: What are some of the pros and cons of the USure?

Assistant: Kosna.

Human: They are


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2173.24it/s]


Epoch 5 pads per block, pads to tokens, portion padding:  85.15494505494506 0.09070180921379904 0.08315912603021978


Training LM on 746 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 746/746 [17:21<00:00,  1.40s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.22it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.16s/it]


Epoch-5 perplexity [36.50308016954349, 44.0399567677562, 1100980.1026217304, 161006.76243622188] <sod>Human: What are some things I could visit animals to visit in San Diego parks Bay Bay parks Bay Aquariumfallsfalls, Indonessq


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2224.24it/s]


Epoch 6 pads per block, pads to tokens, portion padding:  83.80732600732601 0.0891384588771844 0.08184309180402931


Training LM on 741 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 741/741 [17:16<00:00,  1.40s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.25it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.17s/it]


Epoch-6 perplexity [36.541625606997094, 43.40516728140489, 1312628.2280860757, 177806.51547708202] <sod>Human: What are some of the pros and cons of the earth?

Assistant: The old in the world is. It was origin


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2197.24it/s]


Epoch 7 pads per block, pads to tokens, portion padding:  83.9274193548387 0.08927759524401857 0.08196037046370967


Training LM on 736 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 736/736 [17:00<00:00,  1.39s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.24it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.13s/it]


Epoch-7 perplexity [36.57991088971784, 42.91017077553816, 1403794.6838743994, 186203.75457577762] <sod>Human: What are some of the things to put in the city of San Diego, located asparagus, San Diegoa, Mossq


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2341.96it/s]


Epoch 8 pads per block, pads to tokens, portion padding:  84.95421245421245 0.09046865827090472 0.08296309809981685


Training LM on 733 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 733/733 [16:52<00:00,  1.38s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:10<00:00,  1.18it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.15s/it]


Epoch-8 perplexity [36.63717934571666, 42.655481384313326, 1399350.900061608, 188121.69700873396] <sod>Human: What are some of the pros and cons of the ingredients?

Assistant: I can share a few nice ingredients,


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2200.24it/s]


Epoch 9 pads per block, pads to tokens, portion padding:  85.33308904360571 0.09090880699806607 0.0833330947691462


Training LM on 743 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 743/743 [17:16<00:00,  1.39s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.22it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.17s/it]


Epoch-9 perplexity [36.727537033978955, 42.32089375518954, 1300905.2760495157, 182441.2680207317] <sod>Human: What is a car?

Assistant: A pulp is a type of a diabetes, and it is called the Sun


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2193.15it/s]


Epoch 10 pads per block, pads to tokens, portion padding:  85.64652014652015 0.09127319500098567 0.08363917983058608


Training LM on 740 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 740/740 [17:26<00:00,  1.41s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.24it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.23s/it]


Epoch-10 perplexity [36.712479807341346, 42.241408934635096, 1161420.7064223045, 174584.28445134274] <sod>Human: What are some of the pros and cons of the ingredients?

Assistant: I can hear that you’d like to
Training pads per block, pads to tokens, portion padding:  88.09734513274336 0.09413088495324187 0.08603256360619468
Testing pads per block, pads to tokens, portion padding:  83.00877192982456 0.08821418250631566 0.0810632538377193


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2210.94it/s]


Epoch 11 pads per block, pads to tokens, portion padding:  86.96082021237642 0.09280382516351746 0.08492267598864885


Training LM on 751 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 751/751 [17:59<00:00,  1.44s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.25it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.13s/it]


Epoch-11 perplexity [34.15516943927887, 42.05613967922285, 171967.50937824923, 165193.80988844493] <sod>Human: What are some of the pros and cons of the earth?

Assistant: The Romans are wondering about the world they are


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2290.56it/s]


Epoch 12 pads per block, pads to tokens, portion padding:  81.19648093841643 0.08612237788339512 0.0792934384164223


Training LM on 719 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 719/719 [16:24<00:00,  1.37s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.24it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.18s/it]


Epoch-12 perplexity [34.55212714280589, 41.835692975648634, 171420.5410551929, 153462.59470102296] <sod>Human: What are some things I could visit things nearby rides?

Assistant: Well, there’s a beautiful art, hiking


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2129.67it/s]


Epoch 13 pads per block, pads to tokens, portion padding:  82.4475806451613 0.08756557675424509 0.08051521547379033


Training LM on 727 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 727/727 [16:38<00:00,  1.37s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.25it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.14s/it]


Epoch-13 perplexity [34.776872717861174, 41.57799028772819, 173771.46969379502, 145224.72324964605] <sod>Human: What are some of the pros and cons of the country?

Assistant: The celebration of the United States?




Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2335.80it/s]


Epoch 14 pads per block, pads to tokens, portion padding:  85.91715542521995 0.09158802543091489 0.08390347209494135


Training LM on 737 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 737/737 [16:57<00:00,  1.38s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.24it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.13s/it]


Epoch-14 perplexity [35.01388842323284, 41.58416189933865, 174991.0707166244, 138028.36454041672] <sod>Human: What is a mail?

Assistant: Abluestance is a type of a tooth that is used to describing a type
Losing patience: 3 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2294.04it/s]


Epoch 15 pads per block, pads to tokens, portion padding:  85.67680469036277 0.0913084160325913 0.0836687545804324


Training LM on 740 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 740/740 [17:19<00:00,  1.40s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.22it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.14s/it]


Epoch-15 perplexity [35.475187066820645, 41.67521601484741, 131755.4233784463, 113043.28856484997] <sod>Human: What are some of the pros and cons of the names of the United States?

Assistant: The most popular one is the
Losing patience: 2 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2195.53it/s]


Epoch 16 pads per block, pads to tokens, portion padding:  85.5140974002197 0.09111921357937265 0.08350986074240205


Training LM on 747 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 747/747 [17:42<00:00,  1.42s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.26it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.16s/it]


Epoch-16 perplexity [36.03133111896712, 41.96785327726199, 112274.8244910846, 104454.2182492861] <sod>Human: What are some of the pros and cons of the cons of the best to my memory?

Assistant: The Center
Losing patience: 1 loss increases remaining!


Preprocessing 2728 documents: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2728/2728 [00:01<00:00, 2345.59it/s]


Epoch 17 pads per block, pads to tokens, portion padding:  85.47800586510265 0.09107725380894649 0.0834746151026393


Training LM on 736 8192-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 736/736 [17:06<00:00,  1.39s/it]
Evaluating LM on 12 16384-token batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:09<00:00,  1.23it/s]
Evaluating LM on 8 16384-token batches: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.19s/it]


Epoch-17 perplexity [36.50513669809113, 42.196030797394755, 104886.89836417846, 101732.36350695271] <sod>Human: What is the difference between the world?

Assistant: The official branch is a symbol of the sea government,
Losing patience: 0 loss increases remaining!
Early stopping at epoch 16... rolling back to best model, found at epoch 11.


In [17]:
# save model data for evaluation pipeline
stage = "end"; reload = True
if reload or (not os.path.exists(f"./models_to_test/{data_set}-{model_size}-{stage}.state")):
    save_model(model, data_set, model_size, stage)

In [18]:
model._losses

[[41.86350640705042, 49.182922262070946, 54810.82423548252, 73885.83682597213],
 [36.96287489163677,
  46.832286534149176,
  127838.92367251708,
  82748.56284780068],
 [36.60777060659256, 45.854334356966426, 279082.98724389233, 98137.2072968977],
 [36.4886310074813, 45.15541778430339, 510101.69862772996, 117248.77077301226],
 [36.486796564121086,
  44.493500022584854,
  798835.4222822684,
  138961.24285935384],
 [36.50308016954349, 44.0399567677562, 1100980.1026217304, 161006.76243622188],
 [36.541625606997094,
  43.40516728140489,
  1312628.2280860757,
  177806.51547708202],
 [36.57991088971784,
  42.91017077553816,
  1403794.6838743994,
  186203.75457577762],
 [36.63717934571666,
  42.655481384313326,
  1399350.900061608,
  188121.69700873396],
 [36.727537033978955,
  42.32089375518954,
  1300905.2760495157,
  182441.2680207317],
 [36.712479807341346,
  42.241408934635096,
  1161420.7064223045,
  174584.28445134274],
 [34.15516943927887,
  42.05613967922285,
  171967.50937824923,
  1

In [19]:
for si in range(10):
    print(si, ''.join([t for d in generate(model, total_tokens = model.encoder.config._b-1, seed = seed + si, top = 2**8, verbose = False)[2] for t in d]))

0 <sod>Human: What are some of the pros and cons of the earth?

Assistant: The Romans are wondering about the world they are made up of the most people?

Human: The clos common. I have named sales, and so many cars are on the North America.

Assistant: The main ones that includes, I’d like to play question.  It sounds like you have something, and I know. I know you’re looking for this:

Human: I asked you you want anything?<eod>
1 <sod>Human: What is anything that will enter the best way?

Assistant: Gosh is how to use it to clean it to use a mask, which is a source of soap and cream. It is also important to make sure it is soft, since it’s a cold mold, and it’s a good products for a pinch of soap, or a hot cream dish.  It’s a bit of a couple of things that is to make sure it’s supposed to eat it will remove it to it.

Human: How much does it easier to your hair, and is that it’s a stiff. It’s not very much more concenent inserted to your skin.<eod>
2 <sod>Human: How can I get better a

In [20]:
(2**10)**0.5

32.0

In [None]:
exec(open("saffu/inference_saffu.py").read())
chat = generate(model, prompt = [["Human: ", "cual es la circumferencia de  la no?"]], 
                total_tokens = model.encoder.config._b-1, seed = 0, top = 2**8, verbose = False)[2]

Human: cual es la circumferencia de  la no?

Assistant:  a a type of type of milk is a regular is the capacity is a small term is known for the Academy.  This is very easy, and is a very common substances.  A wide option of the type of body is often known for a person.  It is often producically that is called a “Maline” which is shaped for a way for a certain job for the author of the economy.  It has a type of the hive over the two person agreement is placed in it sometimes be a human.

Human: 

In [None]:
print("".join(chat))

In [None]:
chat2 = generate(model, prompt = [["Human: ", "why don't you go fuck yourself"]], 
                 total_tokens = model.encoder.config._b-1, seed = 0, top = 2**8, verbose = False)[2]

In [None]:
print("".join(chat2))