# imports

In [1]:
import json
import os
from tqdm import tqdm
import numpy as np

In [2]:
from concurrent.futures import ProcessPoolExecutor

In [3]:
from sentencepiece import SentencePieceProcessor

# paths

In [4]:
data = './data'

In [5]:
tokenizer_path = './tokenizer.model'
# this is the same tokenizer as found in llama2

# download dataset

In [6]:
with open(os.path.join(data, 'data07.json'), 'r') as f:
    json_data = json.load(f)

In [7]:
print(len(json_data))
json_data[:2]

100000


[{'story': "Once upon a time, there was a big, fierce lion. He lived in a jungle with lots of trees and animals. One day, the lion was walking around and he saw a lab. The lab was a big building with lots of rooms and people inside.\nThe lion thought it would be fun to hang from the lab's roof. So, he climbed up the building and hung from the edge. The people inside were surprised and scared when they saw the lion hanging from the roof!\nBut then, the lion realized he was being silly and climbed back down. He decided to go back to the jungle and play with his animal friends instead. The end.",
  'instruction': {'prompt:': 'Write a short story (3-5 paragraphs) which only uses very simple words that a 3 year old child would understand. In the story, try to at some point use the verb "hang", the noun "lab" and the adjective "fierce". Remember to only use simple words!',
   'words': ['hang', 'lab', 'fierce'],
   'features': []},
  'summary': 'A lion climbs up a lab building and hangs from 

# tokenize

In [8]:
tokenizer = SentencePieceProcessor(model_file=tokenizer_path)

In [9]:
print(tokenizer.vocab_size())
print(tokenizer.bos_id(), tokenizer.eos_id())

32000
1 2


In [10]:
story = json_data[0]['story'].strip()
tokens = [tokenizer.bos_id()] + tokenizer.encode(story)
print(len(story)), print(len(story.split())), print(len(tokens))
print(tokens[:10])

584
116
150
[1, 9038, 2501, 263, 931, 29892, 727, 471, 263, 4802]


In [11]:
def tokenize_chunk(chunk_path):
    print(chunk_path)
    with open(chunk_path, 'r') as f:
        chunk = json.load(f)
    all_tokens = []
    for sample in tqdm(chunk):
        story = sample['story'].strip()
        all_tokens.extend([tokenizer.bos_id()] + tokenizer.encode(story))
    all_tokens = np.array(all_tokens, dtype=np.uint16)
    with open(chunk_path.replace('.json', '.bin'), "wb") as f:
        f.write(all_tokens.tobytes())
    # calculate the average sequence length (they are separated by BOS=1)
    avg_seq_len = all_tokens.size / ((all_tokens == tokenizer.bos_id()).sum())
    print(f"Saved {tokenized_filename}, average seqlen: {avg_seq_len:.2f}")
        
    
def tokenize_all_chunks(data, max_workers=5):
    json_paths = [os.path.join(data, fn) for fn in os.listdir(data) if fn.endswith('json')]
    with ProcessPoolExecutor(max_workers=max_workers) as executor:
        executor.map(tokenize_chunk, json_paths)
        
        

In [12]:
tokenize_all_chunks(data)

./data/data17.json./data/data42.json
./data/data30.json
./data/data14.json./data/data11.json




100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2390.73it/s]
 96%|████████████████████████████████████████████████████████████████████▊   | 95522/100000 [00:42<00:01, 2414.64it/s]

./data/data26.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:44<00:00, 2233.70it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:44<00:00, 2232.19it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2178.25it/s]
100%|███████████████████████████████████████████████████████████████████████▊| 99685/100000 [00:45<00:00, 1977.89it/s]

./data/data49.json
./data/data39.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:46<00:00, 2168.29it/s]
  1%|▌                                                                          | 516/67871 [00:00<00:26, 2579.17it/s]

./data/data31.json


  6%|████▎                                                                    | 5941/100000 [00:03<00:49, 1898.15it/s]

./data/data24.json


100%|█████████████████████████████████████████████████████████████████████████| 67871/67871 [00:28<00:00, 2412.92it/s]
 63%|█████████████████████████████████████████████▎                          | 62853/100000 [00:28<00:16, 2249.87it/s]

./data/data46.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:46<00:00, 2158.14it/s]
 97%|█████████████████████████████████████████████████████████████████████▉  | 97135/100000 [00:44<00:01, 2507.71it/s]

./data/data18.json

 31%|██████████████████████▍                                                 | 31155/100000 [00:14<00:35, 1930.48it/s]




100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2200.21it/s]
 92%|█████████████████████████████████████████████████████████████████▉      | 91591/100000 [00:45<00:03, 2157.01it/s]

./data/data29.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:48<00:00, 2077.33it/s]
  7%|████▉                                                                    | 6794/100000 [00:02<00:39, 2337.55it/s]

./data/data45.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:49<00:00, 2038.59it/s]
 14%|██████████                                                              | 13959/100000 [00:06<00:39, 2168.75it/s]

./data/data07.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:44<00:00, 2234.02it/s]
 66%|███████████████████████████████████████████████▍                        | 65867/100000 [00:28<00:13, 2509.70it/s]

./data/data23.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:44<00:00, 2228.56it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2309.96it/s]
 32%|███████████████████████                                                 | 32055/100000 [00:14<00:34, 1943.55it/s]

./data/data02.json


 86%|██████████████████████████████████████████████████████████████▏         | 86395/100000 [00:39<00:06, 2146.33it/s]

./data/data08.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:46<00:00, 2162.68it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:46<00:00, 2169.34it/s]
 13%|█████████▎                                                              | 12996/100000 [00:05<00:38, 2268.31it/s]

./data/data19.json


 15%|███████████                                                             | 15303/100000 [00:06<00:37, 2270.39it/s]

./data/data32.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2216.27it/s]
 66%|███████████████████████████████████████████████▎                        | 65653/100000 [00:29<00:18, 1861.90it/s]

./data/data27.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2194.82it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2182.73it/s]
 81%|██████████████████████████████████████████████████████████▍             | 81225/100000 [00:38<00:09, 1936.00it/s]

./data/data01.json


 34%|████████████████████████▍                                               | 33902/100000 [00:15<00:35, 1861.91it/s]

./data/data48.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:46<00:00, 2144.44it/s]
 14%|█████████▊                                                              | 13624/100000 [00:06<00:40, 2107.66it/s]

./data/data21.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:47<00:00, 2091.49it/s]
  2%|█▊                                                                       | 2475/100000 [00:01<00:45, 2136.78it/s]

./data/data10.json


 65%|███████████████████████████████████████████████                         | 65311/100000 [00:29<00:15, 2219.72it/s]
 42%|██████████████████████████████▍                                         | 42270/100000 [00:20<00:28, 2001.84it/s]

./data/data06.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:44<00:00, 2229.39it/s]
 78%|████████████████████████████████████████████████████████▎               | 78240/100000 [00:37<00:11, 1954.19it/s]

./data/data12.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2190.74it/s]
 35%|█████████████████████████▎                                              | 35191/100000 [00:15<00:26, 2469.12it/s]

./data/data34.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:48<00:00, 2079.07it/s]
 19%|█████████████▌                                                          | 18910/100000 [00:08<00:34, 2346.33it/s]

./data/data04.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:47<00:00, 2118.96it/s]
 25%|█████████████████▋                                                      | 24581/100000 [00:10<00:32, 2346.50it/s]

./data/data36.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:44<00:00, 2261.99it/s]
 68%|█████████████████████████████████████████████████▎                      | 68458/100000 [00:28<00:12, 2502.38it/s]

./data/data37.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2436.45it/s]
 31%|██████████████████████                                                  | 30573/100000 [00:12<00:27, 2521.77it/s]

./data/data00.json


 78%|████████████████████████████████████████████████████████                | 77812/100000 [00:34<00:09, 2238.44it/s]
  5%|███▌                                                                     | 4799/100000 [00:02<00:51, 1852.91it/s]

./data/data05.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2325.16it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:44<00:00, 2226.95it/s]
 20%|██████████████                                                          | 19581/100000 [00:08<00:34, 2346.82it/s]

./data/data40.json


 63%|█████████████████████████████████████████████▏                          | 62697/100000 [00:26<00:15, 2352.90it/s]

./data/data35.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2368.69it/s]
 39%|███████████████████████████▋                                            | 38506/100000 [00:16<00:24, 2524.19it/s]

./data/data28.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:38<00:00, 2565.20it/s]
 83%|████████████████████████████████████████████████████████████            | 83486/100000 [00:36<00:07, 2159.72it/s]

./data/data15.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2300.49it/s]
 83%|███████████████████████████████████████████████████████████▍            | 82591/100000 [00:34<00:07, 2437.98it/s]

./data/data13.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2362.73it/s]
 17%|████████████▌                                                           | 17483/100000 [00:07<00:35, 2346.82it/s]

./data/data03.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2185.44it/s]
 47%|█████████████████████████████████▍                                      | 46520/100000 [00:19<00:23, 2283.92it/s]

./data/data25.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2301.70it/s]
 79%|█████████████████████████████████████████████████████████               | 79301/100000 [00:33<00:11, 1856.14it/s]

./data/data38.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2342.11it/s]
 21%|██████████████▊                                                         | 20543/100000 [00:09<00:40, 1962.82it/s]

./data/data33.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2463.86it/s]
 11%|███████▋                                                                | 10723/100000 [00:04<00:38, 2332.01it/s]

./data/data22.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2206.29it/s]
 27%|███████████████████▌                                                    | 27143/100000 [00:11<00:32, 2226.91it/s]

./data/data20.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2310.33it/s]
 46%|█████████████████████████████████▏                                      | 46037/100000 [00:19<00:20, 2630.56it/s]

./data/data09.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2320.87it/s]
 83%|███████████████████████████████████████████████████████████▌            | 82794/100000 [00:34<00:07, 2321.52it/s]

./data/data47.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:40<00:00, 2447.03it/s]
 48%|██████████████████████████████████▋                                     | 48094/100000 [00:21<00:22, 2268.94it/s]

./data/data43.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2311.45it/s]
 35%|█████████████████████████▏                                              | 34962/100000 [00:15<00:29, 2239.90it/s]

./data/data44.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2200.53it/s]
 35%|████████████████████████▊                                               | 34545/100000 [00:14<00:28, 2312.12it/s]

./data/data41.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:45<00:00, 2201.90it/s]
  2%|█▍                                                                       | 2053/100000 [00:00<00:45, 2153.24it/s]

./data/data16.json


100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2308.70it/s]
 36%|██████████████████████████▏                                             | 36370/100000 [00:15<00:28, 2231.46it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:41<00:00, 2419.67it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:43<00:00, 2313.54it/s]
100%|███████████████████████████████████████████████████████████████████████| 100000/100000 [00:42<00:00, 2328.24it/s]


In [13]:
with open('./data/data01.bin', 'rb') as f:
    x = f.read()
np.frombuffer(x, dtype=np.uint16)

array([    1,  9038,  2501, ...,  1407,  9796, 29889], dtype=uint16)

In [14]:
with open('./data/data07.bin', 'rb') as f:
    x = f.read()
x = np.frombuffer(x, dtype=np.uint16)

In [15]:
x = x[:1000]

In [16]:
print(tokenizer.decode(x.tolist()))

Once upon a time, there was a big, fierce lion. He lived in a jungle with lots of trees and animals. One day, the lion was walking around and he saw a lab. The lab was a big building with lots of rooms and people inside.
The lion thought it would be fun to hang from the lab's roof. So, he climbed up the building and hung from the edge. The people inside were surprised and scared when they saw the lion hanging from the roof!
But then, the lion realized he was being silly and climbed back down. He decided to go back to the jungle and play with his animal friends instead. The end. Once upon a time there was a blue bear called Pat. Pat loved to stay in the woods, but he had no friends. One day, he heard a powerful roar coming from the cave nearby. Scared, he decided to stay away.
The next day, Pat decided to explore the cave. He wanted to know what was making the loud noise.
He went inside and saw a huge, powerful dragon. The dragon said to Pat, “You can stay and be my friend, or you can g

In [64]:
len(x)

20638398

In [65]:
x

array([    1,  9038,  2501, ...,  3926,  1156, 29889], dtype=uint16)