# imports

In [None]:
import json
import os
from tqdm import tqdm
import numpy as np
from concurrent.futures import ProcessPoolExecutor
from sentencepiece import SentencePieceProcessor

# paths

In [4]:
data = './data'

In [5]:
tokenizer_path = './tokenizer.model'
# this is the same tokenizer as found in llama2

In [25]:
out_data = './instruct_data_same_length/'
os.makedirs(out_data, exist_ok=True)

# preprocessing functions

In [7]:
def replace_words(
    prompt, 
    words_list
):
    for words_to_remove, replacement in words_list:
        prompt = prompt.replace(words_to_remove, replacement)
    return prompt
        

In [8]:
def preprocess_prompt(prompt, suffix=' Possible story:'):
    words_list = [
    ("Write a short story (3-5 paragraphs) which only uses very simple words that a 3 year old child would understand.", "Write a story."),
    (" Remember to only use simple words!", ""),
    ("\n\nPossible story:", ""),
    ("try to at some point use", "try to use")
    ]
    prompt = replace_words(prompt, words_list)
    return prompt + suffix

# tokenize

In [11]:
tokenizer = SentencePieceProcessor(model_file=tokenizer_path)

In [12]:
print(tokenizer.vocab_size())
print(tokenizer.bos_id(), tokenizer.eos_id())

32000
1 2


In [13]:
np.array([-100]*15, dtype=np.uint16)

array([65436, 65436, 65436, 65436, 65436, 65436, 65436, 65436, 65436,
       65436, 65436, 65436, 65436, 65436, 65436], dtype=uint16)

In [51]:
def tokenize_chunk(chunk_path, out_folder, max_seq_len=350, pad_token=-100):
    
    print(chunk_path)
    with open(chunk_path, 'r') as f:
        chunk = json.load(f)
    all_tokens = []
    all_labels = []
    for sample in tqdm(chunk):
        story = sample['story'].strip()
        prompt = preprocess_prompt(sample['instruction']['prompt:'].strip())
        tokenized_prompt = tokenizer.encode(prompt)
        
        prompt_and_story = tokenized_prompt + [tokenizer.bos_id()] + tokenizer.encode(story) + [tokenizer.eos_id()]
        label = [pad_token]*len(tokenized_prompt) + [tokenizer.bos_id()] + tokenizer.encode(story) + [tokenizer.eos_id()]

        if len(prompt_and_story) <= max_seq_len:
            prompt_and_story += [pad_token] * (max_seq_len - len(prompt_and_story))
            label += [pad_token] * (max_seq_len - len(label))
            assert len(prompt_and_story) == len(label) == max_seq_len
            all_tokens.extend(prompt_and_story)
            all_labels.extend(label)
    #print(len(all_tokens))
    all_tokens = np.array(all_tokens, dtype=np.uint16)
    all_labels = np.array(all_labels, dtype=np.uint16)
   # print(all_tokens.shape)
    
    all_tokens_filename = chunk_path.split('/')[-1].replace('.json', '.bin')
    with open(os.path.join(out_folder, all_tokens_filename), "wb") as f:
        f.write(all_tokens.tobytes())
        print(os.path.join(out_folder, all_tokens_filename))
    
    all_labels_filename = all_tokens_filename.replace('data', 'labels')
    with open(os.path.join(out_folder, all_labels_filename), "wb") as f:
        f.write(all_labels.tobytes())
        
    
def tokenize_all_chunks(data, out_folder, max_workers=5):
    tokenize_chunk_args = [(os.path.join(data, fn), out_folder) for fn in os.listdir(data) if fn.endswith('.json')]
    with ProcessPoolExecutor(max_workers=max_workers) as executor:
        executor.map(tokenize_chunk, *zip(*tokenize_chunk_args))
        
        

In [52]:
tokenize_all_chunks(data=data, out_folder=out_data)

./data/data42.json./data/data17.json./data/data30.json./data/data11.json./data/data14.json






100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:36<00:00, 1032.52it/s]
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:37<00:00, 1029.72it/s]
 93%|███████████████████████████████████████████████████████████████████▊     | 92813/100000 [01:39<00:07, 1006.25it/s]

./instruct_data_same_length/data11.bin


 93%|████████████████████████████████████████████████████████████████████▊     | 93019/100000 [01:40<00:07, 978.35it/s]

./data/data26.json


 93%|█████████████████████████████████████████████████████████████████████     | 93318/100000 [01:40<00:06, 963.88it/s]

./instruct_data_same_length/data14.bin


 95%|██████████████████████████████████████████████████████████████████████▎   | 95086/100000 [01:40<00:05, 895.01it/s]

./data/data49.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:42<00:00, 978.54it/s]
  4%|███                                                                        | 4139/100000 [00:04<01:40, 955.22it/s]

./instruct_data_same_length/data42.bin


 99%|████████████████████████████████████████████████████████████████████████▉ | 98540/100000 [01:45<00:01, 984.16it/s]

./data/data39.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:46<00:00, 943.06it/s]
100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:47<00:00, 932.15it/s]
 10%|███████▊                                                                    | 6992/67871 [00:07<01:16, 799.68it/s]

./instruct_data_same_length/data17.bin


 11%|████████                                                                    | 7171/67871 [00:07<01:11, 844.35it/s]

./data/data31.json


  9%|██████▊                                                                    | 9086/100000 [00:09<01:54, 794.82it/s]

./instruct_data_same_length/data30.bin


  9%|██████▉                                                                    | 9253/100000 [00:09<01:51, 815.53it/s]

./data/data24.json


100%|███████████████████████████████████████████████████████████████████████████| 67871/67871 [01:08<00:00, 990.08it/s]
 73%|█████████████████████████████████████████████████████▉                    | 72832/100000 [01:10<00:28, 964.94it/s]

./instruct_data_same_length/data49.bin


 57%|██████████████████████████████████████████▎                               | 57263/100000 [01:00<00:44, 954.76it/s]

./data/data46.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:36<00:00, 1032.53it/s]
 98%|███████████████████████████████████████████████████████████████████████▍ | 97790/100000 [01:34<00:02, 1082.71it/s]

./instruct_data_same_length/data26.bin


 98%|███████████████████████████████████████████████████████████████████████▌ | 98005/100000 [01:34<00:01, 1028.15it/s]

./data/data18.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:36<00:00, 1036.44it/s]
 90%|██████████████████████████████████████████████████████████████████▎       | 89575/100000 [01:34<00:10, 948.94it/s]

./instruct_data_same_length/data39.bin


 90%|██████████████████████████████████████████████████████████████████▍       | 89770/100000 [01:34<00:10, 948.63it/s]

./data/data29.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:44<00:00, 960.04it/s]
100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:45<00:00, 949.50it/s]
 42%|██████████████████████████████▊                                          | 42157/100000 [00:43<00:57, 1013.34it/s]

./instruct_data_same_length/data31.bin


 42%|██████████████████████████████▉                                          | 42361/100000 [00:43<00:57, 1009.97it/s]

./data/data45.json


  1%|▋                                                                           | 875/100000 [00:01<02:02, 806.45it/s]

./instruct_data_same_length/data24.bin


  1%|▊                                                                          | 1061/100000 [00:01<01:53, 869.34it/s]

./data/data07.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:45<00:00, 944.68it/s]
 59%|███████████████████████████████████████████▍                              | 58765/100000 [01:01<00:42, 977.48it/s]

./instruct_data_same_length/data46.bin


 61%|████████████████████████████████████████████▊                             | 60596/100000 [01:03<00:46, 839.83it/s]

./data/data23.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:36<00:00, 1037.10it/s]
 96%|█████████████████████████████████████████████████████████████████████▋   | 95533/100000 [01:34<00:03, 1132.03it/s]

./instruct_data_same_length/data18.bin


 77%|█████████████████████████████████████████████████████████▎                | 77429/100000 [01:20<00:28, 798.19it/s]

./data/data02.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:38<00:00, 1015.31it/s]
 86%|██████████████████████████████████████████████████████████████▍          | 85529/100000 [01:29<00:13, 1046.27it/s]

./instruct_data_same_length/data29.bin


 86%|██████████████████████████████████████████████████████████████▌          | 85739/100000 [01:30<00:14, 1000.96it/s]

./data/data08.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:45<00:00, 951.79it/s]
100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:43<00:00, 963.12it/s]
 40%|█████████████████████████████▍                                            | 39835/100000 [00:42<01:13, 822.88it/s]

./instruct_data_same_length/data45.bin


 40%|█████████████████████████████▌                                            | 40001/100000 [00:43<01:13, 811.87it/s]

./data/data19.json


 41%|█████████████████████████████▉                                           | 41069/100000 [00:44<00:55, 1067.73it/s]

./instruct_data_same_length/data07.bin


 21%|███████████████▎                                                         | 21025/100000 [00:18<01:06, 1191.80it/s]

./data/data32.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:42<00:00, 977.85it/s]
 58%|██████████████████████████████████████████▌                               | 57591/100000 [00:59<00:51, 825.02it/s]

./instruct_data_same_length/data23.bin


 58%|██████████████████████████████████████████▋                               | 57766/100000 [00:59<00:49, 847.73it/s]

./data/data27.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:33<00:00, 1069.74it/s]
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:29<00:00, 1122.75it/s]
 71%|███████████████████████████████████████████████████▋                     | 70855/100000 [01:10<00:26, 1118.97it/s]

./instruct_data_same_length/data02.bin


  8%|█████▋                                                                    | 7672/100000 [00:08<01:31, 1006.48it/s]

./data/data01.json


 70%|████████████████████████████████████████████████████                      | 70423/100000 [01:12<00:33, 876.05it/s]

./instruct_data_same_length/data08.bin


 10%|███████▍                                                                  | 10115/100000 [00:11<01:46, 844.28it/s]

./data/data48.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:41<00:00, 984.90it/s]
 32%|███████████████████████▍                                                 | 32102/100000 [00:29<01:02, 1091.82it/s]

./instruct_data_same_length/data19.bin


 33%|████████████████████████▎                                                | 33337/100000 [00:32<01:02, 1069.09it/s]

./data/data21.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:43<00:00, 963.37it/s]
 47%|██████████████████████████████████▋                                      | 47472/100000 [00:45<00:50, 1032.08it/s]

./instruct_data_same_length/data32.bin

  2%|█▏                                                                         | 1544/100000 [00:01<02:01, 813.34it/s]




 37%|███████████████████████████                                              | 37137/100000 [00:35<01:00, 1039.34it/s]

./data/data10.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:38<00:00, 1013.47it/s]
 53%|██████████████████████████████████████▉                                  | 53339/100000 [00:53<00:44, 1046.72it/s]

./instruct_data_same_length/data27.bin


 95%|█████████████████████████████████████████████████████████████████████▍   | 95076/100000 [01:28<00:04, 1015.50it/s]

./data/data06.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:34<00:00, 1056.66it/s]
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:33<00:00, 1071.96it/s]
 59%|███████████████████████████████████████████▏                             | 59205/100000 [00:59<00:38, 1063.74it/s]

./instruct_data_same_length/data01.bin


 60%|███████████████████████████████████████████▉                             | 60182/100000 [01:00<00:37, 1063.70it/s]

./data/data12.json


 61%|████████████████████████████████████████████▍                            | 60827/100000 [01:01<00:36, 1062.15it/s]

./instruct_data_same_length/data48.bin


 65%|████████████████████████████████████████████████▏                         | 65139/100000 [01:05<00:35, 988.73it/s]

./data/data34.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:40<00:00, 995.21it/s]
 42%|███████████████████████████████▏                                          | 42144/100000 [00:44<01:11, 806.22it/s]

./instruct_data_same_length/data21.bin


 40%|█████████████████████████████▏                                           | 39898/100000 [00:38<00:56, 1066.91it/s]

./data/data04.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:43<00:00, 970.54it/s]
 46%|██████████████████████████████████                                        | 46032/100000 [00:43<01:01, 876.29it/s]

./instruct_data_same_length/data10.bin


 47%|██████████████████████████████████                                       | 46684/100000 [00:44<00:51, 1038.33it/s]

./data/data36.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:33<00:00, 1072.32it/s]
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:33<00:00, 1064.11it/s]
 98%|███████████████████████████████████████████████████████████████████████▊ | 98308/100000 [01:42<00:01, 1019.93it/s]

./instruct_data_same_length/data12.bin


 61%|████████████████████████████████████████████▌                            | 61068/100000 [00:56<00:36, 1063.98it/s]

./data/data37.json


100%|█████████████████████████████████████████████████████████████████████████▉| 99949/100000 [01:44<00:00, 880.83it/s]

./instruct_data_same_length/data34.bin


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:44<00:00, 958.53it/s]
 63%|██████████████████████████████████████████████▌                           | 62855/100000 [00:58<00:37, 988.92it/s]

./data/data00.json


 55%|████████████████████████████████████████▌                                 | 54898/100000 [00:55<00:53, 840.08it/s]

./instruct_data_same_length/data06.bin


 66%|████████████████████████████████████████████████▊                         | 65905/100000 [01:01<00:35, 967.93it/s]

./data/data05.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:32<00:00, 1076.84it/s]
 32%|███████████████████████▎                                                 | 31865/100000 [00:32<01:08, 1000.57it/s]

./instruct_data_same_length/data04.bin


 41%|█████████████████████████████▊                                           | 40758/100000 [00:37<00:53, 1101.88it/s]

./data/data40.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:43<00:00, 965.50it/s]
 59%|███████████████████████████████████████████                              | 58965/100000 [00:54<00:34, 1174.22it/s]

./instruct_data_same_length/data36.bin


 49%|████████████████████████████████████▏                                     | 48969/100000 [00:49<00:51, 998.49it/s]

./data/data35.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:32<00:00, 1082.30it/s]
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:31<00:00, 1093.99it/s]
 89%|██████████████████████████████████████████████████████████████████▏       | 89461/100000 [01:30<00:10, 966.95it/s]

./instruct_data_same_length/data37.bin


 90%|██████████████████████████████████████████████████████████████████▎       | 89655/100000 [01:30<00:10, 959.31it/s]

./data/data28.json


 58%|██████████████████████████████████████████▉                               | 58071/100000 [00:56<00:46, 897.10it/s]

./instruct_data_same_length/data00.bin


 58%|███████████████████████████████████████████                               | 58271/100000 [00:57<00:44, 947.64it/s]

./data/data15.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:41<00:00, 989.91it/s]
 12%|█████████                                                                 | 12260/100000 [00:12<01:36, 911.46it/s]

./instruct_data_same_length/data05.bin


 54%|███████████████████████████████████████▋                                  | 53662/100000 [00:53<00:54, 846.99it/s]

./data/data13.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:40<00:00, 995.43it/s]
 87%|████████████████████████████████████████████████████████████████▋         | 87405/100000 [01:27<00:14, 870.14it/s]

./instruct_data_same_length/data40.bin


 49%|████████████████████████████████████                                      | 48653/100000 [00:46<00:56, 912.57it/s]

./data/data03.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:39<00:00, 1001.73it/s]
 13%|█████████▍                                                                | 12805/100000 [00:13<01:33, 932.95it/s]

./instruct_data_same_length/data35.bin


 49%|███████████████████████████████████▉                                      | 48552/100000 [00:48<01:02, 823.83it/s]

./data/data25.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:35<00:00, 1044.51it/s]
 88%|████████████████████████████████████████████████████████████████▉         | 87722/100000 [01:25<00:12, 998.49it/s]

./instruct_data_same_length/data15.bin


 88%|█████████████████████████████████████████████████████████████████         | 87926/100000 [01:25<00:12, 992.81it/s]

./data/data38.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:39<00:00, 1004.16it/s]
 54%|███████████████████████████████████████▌                                  | 53519/100000 [00:54<00:48, 955.75it/s]

./instruct_data_same_length/data28.bin


 54%|███████████████████████████████████████▋                                  | 53716/100000 [00:54<00:48, 958.09it/s]

./data/data33.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:36<00:00, 1031.75it/s]
 13%|█████████▌                                                               | 13026/100000 [00:12<01:24, 1026.79it/s]

./instruct_data_same_length/data13.bin


 52%|█████████████████████████████████████▋                                   | 51681/100000 [00:50<00:45, 1056.61it/s]

./data/data22.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:39<00:00, 1006.16it/s]
 51%|█████████████████████████████████████                                    | 50788/100000 [00:46<00:48, 1010.28it/s]

./instruct_data_same_length/data03.bin


 50%|████████████████████████████████████▊                                     | 49790/100000 [00:50<00:56, 883.63it/s]

./data/data20.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:36<00:00, 1038.53it/s]
 12%|████████▍                                                                | 11513/100000 [00:10<01:28, 1000.98it/s]

./instruct_data_same_length/data25.bin


 62%|██████████████████████████████████████████████▏                           | 62470/100000 [00:58<00:38, 976.06it/s]

./data/data09.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:37<00:00, 1030.62it/s]
100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:36<00:00, 1039.97it/s]
 90%|█████████████████████████████████████████████████████████████████▍       | 89718/100000 [01:25<00:09, 1071.99it/s]

./instruct_data_same_length/data38.bin


 90%|█████████████████████████████████████████████████████████████████▋       | 89942/100000 [01:25<00:09, 1095.60it/s]

./data/data47.json


 53%|██████████████████████████████████████▉                                   | 52560/100000 [00:51<00:56, 838.19it/s]

./instruct_data_same_length/data33.bin


  1%|▊                                                                         | 1082/100000 [00:01<01:33, 1056.90it/s]

./data/data43.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:35<00:00, 1048.11it/s]
  8%|██████▎                                                                    | 8402/100000 [00:08<01:34, 964.44it/s]

./instruct_data_same_length/data22.bin


  9%|██████▍                                                                    | 8608/100000 [00:08<01:31, 994.11it/s]

./data/data44.json


 44%|████████████████████████████████▍                                         | 43861/100000 [00:48<01:06, 840.22it/s]
 50%|████████████████████████████████████▉                                     | 49940/100000 [00:49<00:51, 966.34it/s]

./instruct_data_same_length/data20.bin


 88%|█████████████████████████████████████████████████████████████████▎        | 88202/100000 [01:30<00:12, 938.23it/s]

./data/data41.json


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:43<00:00, 966.85it/s]
 66%|███████████████████████████████████████████████▉                         | 65624/100000 [01:05<00:32, 1065.59it/s]

./instruct_data_same_length/data09.bin


 56%|████████████████████████████████████████▊                                | 55949/100000 [00:55<00:40, 1085.80it/s]

./data/data16.json


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:39<00:00, 1008.04it/s]
 93%|████████████████████████████████████████████████████████████████████▍     | 92553/100000 [01:32<00:08, 928.71it/s]

./instruct_data_same_length/data43.bin


100%|█████████████████████████████████████████████████████████████████████████| 100000/100000 [01:47<00:00, 931.88it/s]
 98%|████████████████████████████████████████████████████████████████████████▋ | 98220/100000 [01:38<00:02, 816.12it/s]

./instruct_data_same_length/data47.bin


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:39<00:00, 1000.81it/s]
 67%|████████████████████████████████████████████████▉                        | 66958/100000 [01:01<00:27, 1218.36it/s]

./instruct_data_same_length/data44.bin


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:30<00:00, 1107.82it/s]
 80%|██████████████████████████████████████████████████████████▍              | 80070/100000 [01:16<00:18, 1067.08it/s]

./instruct_data_same_length/data41.bin


100%|████████████████████████████████████████████████████████████████████████| 100000/100000 [01:33<00:00, 1068.14it/s]


./instruct_data_same_length/data16.bin


In [53]:
with open(out_data + 'data01.bin', 'rb') as f:
    x = f.read()
x = np.frombuffer(x, dtype=np.uint16)

In [54]:
len(x)/350

94053.0

In [55]:
with open(out_data + 'labels01.bin', 'rb') as f:
    y = f.read()
y = np.frombuffer(y, dtype=np.uint16)

In [56]:
len(y)/350

94053.0