In [5]:
import torch
import sentencepiece as spm

# -------- CONFIG --------
PT_FILE = "train_blocks.pt"
TOKENIZER_MODEL = "tokenizer/unigram_32000_0.9995.model"

SHOW_TOKENS = True      # set True to see raw token ids
PREVIEW_TOKENS = 200     # how many tokens to decode
BLOCK_INDEX = 6          # change to inspect another block
# ------------------------

print("Loading tokenizer...")
sp = spm.SentencePieceProcessor()
sp.load(TOKENIZER_MODEL)

print("Loading dataset...")
dataset = torch.load(PT_FILE, map_location="cpu")

print("\n=== DATASET SUMMARY ===")
print(f"Total blocks     : {len(dataset)}")

sample = dataset[0]
print(f"Input shape      : {sample['input_ids'].shape}")
print(f"Label shape      : {sample['labels'].shape}")

# -------- Inspect a specific block --------
block = dataset[BLOCK_INDEX]
input_ids = block["input_ids"].tolist()
labels = block["labels"].tolist()

print(f"\n=== BLOCK {BLOCK_INDEX} ===")

if SHOW_TOKENS:
    print("Input token IDs:")
    print(input_ids[:PREVIEW_TOKENS])

print("\nDecoded text (input_ids):")
print("-" * 80)
print(sp.decode(input_ids[:PREVIEW_TOKENS]))
print("-" * 80)

# -------- Inspect last block (optional) --------
last_block = dataset[-1]["input_ids"].tolist()

print("\n=== LAST BLOCK PREVIEW ===")
print("-" * 80)
print(sp.decode(last_block[:PREVIEW_TOKENS]))
print("-" * 80)


Loading tokenizer...
Loading dataset...

=== DATASET SUMMARY ===
Total blocks     : 7
Input shape      : torch.Size([31])
Label shape      : torch.Size([31])

=== BLOCK 6 ===
Input token IDs:
[183, 3455, 2972, 25457, 1279, 1279, 472, 21717, 53, 10605, 4, 3, 951, 450, 107, 1077, 347, 3, 797, 5, 1508, 5, 481, 5, 1501, 10, 448, 2362, 580, 10, 786]

Decoded text (input_ids):
--------------------------------------------------------------------------------
කගිසෝ රබාඩා පිට පිට කඩුලු ත්‍රිත්වයක් ලබා ගැනීමය. 100 ට වැඩි තද වැසි බස්නාහිර, සබරගමුව, මධ්‍යම, වයඹ සහ උතුරු පළාත්වලත් ගාල්ල සහ මාතර
--------------------------------------------------------------------------------

=== LAST BLOCK PREVIEW ===
--------------------------------------------------------------------------------
කගිසෝ රබාඩා පිට පිට කඩුලු ත්‍රිත්වයක් ලබා ගැනීමය. 100 ට වැඩි තද වැසි බස්නාහිර, සබරගමුව, මධ්‍යම, වයඹ සහ උතුරු පළාත්වලත් ගාල්ල සහ මාතර
--------------------------------------------------------------------------------
