# Marathi BPE Tokenizer Test Notebook

This notebook demonstrates how to encode and decode custom Marathi text using the trained Byte-Pair Encoding (BPE) tokenizer.

In [1]:
# Import Required Libraries
from tokenizers import ByteLevelBPETokenizer
import os

In [15]:
# Load the trained Marathi BPE tokenizer
TOKENIZER_DIR = "data/marathi_bpe_tokenizer"
tokenizer = ByteLevelBPETokenizer(
    os.path.join(TOKENIZER_DIR, "vocab.json"),
    os.path.join(TOKENIZER_DIR, "merges.txt")
)

In [3]:
# Encode custom Marathi text
marathi_text = "माझं नाव गीता आहे."
encoded = tokenizer.encode(marathi_text)
print("Original text:", marathi_text)
print("Token IDs:", encoded.ids)
print("Tokens:", encoded.tokens)

Original text: माझं नाव गीता आहे.
Token IDs: [161, 102, 111, 161, 102, 127, 161, 102, 256, 161, 102, 229, 225, 161, 102, 106, 161, 102, 127, 161, 102, 118, 225, 161, 102, 250, 161, 103, 227, 161, 102, 102, 161, 102, 127, 225, 161, 102, 233, 161, 102, 122, 161, 103, 234, 18]
Tokens: ['à', '¤', '®', 'à', '¤', '¾', 'à', '¤', 'Ŀ', 'à', '¤', 'Ĥ', 'Ġ', 'à', '¤', '¨', 'à', '¤', '¾', 'à', '¤', 'µ', 'Ġ', 'à', '¤', 'Ĺ', 'à', '¥', 'Ģ', 'à', '¤', '¤', 'à', '¤', '¾', 'Ġ', 'à', '¤', 'Ĩ', 'à', '¤', '¹', 'à', '¥', 'ĩ', '.']


In [4]:
# Decode the token IDs back to text
decoded = tokenizer.decode(encoded.ids)
print("Decoded text:", decoded)

Decoded text: माझं नाव गीता आहे.


In [7]:
# Test with multiple Marathi sentences
examples = [
    "माझं नाव गीता आहे.",
    "आज हवामान छान आहे.",
    "तुम्ही कसे आहात?",
    "पुस्तक वाचा आणि शिका.",
    "कामाचे तास 9 ऐवजी 12 तास केल्यानं कामगारांचा फायदा की शोषण? तज्ज्ञांचे मत काय?"
]
for text in examples:
    encoded = tokenizer.encode(text)
    decoded = tokenizer.decode(encoded.ids)
    print(f"Original: {text}")
    print(f"Token IDs: {encoded.ids}")
    print(f"Decoded: {decoded}")
    print("-")

Original: माझं नाव गीता आहे.
Token IDs: [161, 102, 111, 161, 102, 127, 161, 102, 256, 161, 102, 229, 225, 161, 102, 106, 161, 102, 127, 161, 102, 118, 225, 161, 102, 250, 161, 103, 227, 161, 102, 102, 161, 102, 127, 225, 161, 102, 233, 161, 102, 122, 161, 103, 234, 18]
Decoded: माझं नाव गीता आहे.
-
Original: आज हवामान छान आहे.
Token IDs: [161, 102, 233, 161, 102, 255, 225, 161, 102, 122, 161, 102, 118, 161, 102, 127, 161, 102, 111, 161, 102, 127, 161, 102, 106, 225, 161, 102, 254, 161, 102, 127, 161, 102, 106, 225, 161, 102, 233, 161, 102, 122, 161, 103, 234, 18]
Decoded: आज हवामान छान आहे.
-
Original: तुम्ही कसे आहात?
Token IDs: [161, 102, 102, 161, 103, 228, 161, 102, 111, 161, 103, 240, 161, 102, 122, 161, 103, 227, 225, 161, 102, 248, 161, 102, 121, 161, 103, 234, 225, 161, 102, 233, 161, 102, 122, 161, 102, 127, 161, 102, 102, 35]
Decoded: तुम्ही कसे आहात?
-
Original: पुस्तक वाचा आणि शिका.
Token IDs: [161, 102, 108, 161, 103, 228, 161, 102, 121, 161, 103, 240, 161, 102, 102, 161, 

In [11]:
text = """कारखान्यात काम करणाऱ्या कामगारांच्या कामाच्या वेळेची मर्यादा आता दिवसाला 9 तासांवरुन 12 तास करण्याच्या तरतुदीला राज्य सरकारकडून मान्यता देण्यात आली आहे.

राज्य मंत्रिमंडळाच्या बैठकीत यासंदर्भात निर्णय घेण्यात आला असून, 'कारखाने अधिनियम, 1948' मधील काही तरतुदींमध्ये दुरुस्ती करण्यास मान्यता देण्यात आली आहे.

मंत्रिमंडळाच्या बैठकीत हा निर्णय घेण्यात आल्याचे जाहीर झाल्यानंतर या निर्णयावर टीकेची झोड उठली आहे. त्यानंतर सरकारनंही त्यावर स्पष्टीकरण दिलं आहे.

नेमका हा निर्णय काय आहे? कायद्यातील कोणत्या तरतुदींमध्ये काय बदल करण्यात आले आहेत?

त्यांचा नेमका अन्वयार्थ काय आहे? तसेच, या निर्णयाचे कामगारांच्या शारीरिक, मानसिक, आर्थिक बाबींध्ये काय परिणाम होतील, ते पाहूयात."""

encoded = tokenizer.encode(text)
decoded = tokenizer.decode(encoded.ids)
print(f"Original: {text}")
print(f"Token IDs: {encoded.ids}")
print(f"Decoded: {decoded}")

Original: कारखान्यात काम करणाऱ्या कामगारांच्या कामाच्या वेळेची मर्यादा आता दिवसाला 9 तासांवरुन 12 तास करण्याच्या तरतुदीला राज्य सरकारकडून मान्यता देण्यात आली आहे.

राज्य मंत्रिमंडळाच्या बैठकीत यासंदर्भात निर्णय घेण्यात आला असून, 'कारखाने अधिनियम, 1948' मधील काही तरतुदींमध्ये दुरुस्ती करण्यास मान्यता देण्यात आली आहे.

मंत्रिमंडळाच्या बैठकीत हा निर्णय घेण्यात आल्याचे जाहीर झाल्यानंतर या निर्णयावर टीकेची झोड उठली आहे. त्यानंतर सरकारनंही त्यावर स्पष्टीकरण दिलं आहे.

नेमका हा निर्णय काय आहे? कायद्यातील कोणत्या तरतुदींमध्ये काय बदल करण्यात आले आहेत?

त्यांचा नेमका अन्वयार्थ काय आहे? तसेच, या निर्णयाचे कामगारांच्या शारीरिक, मानसिक, आर्थिक बाबींध्ये काय परिणाम होतील, ते पाहूयात.
Token IDs: [161, 102, 248, 161, 102, 127, 161, 102, 113, 161, 102, 249, 161, 102, 127, 161, 102, 106, 161, 103, 240, 161, 102, 112, 161, 102, 127, 161, 102, 102, 225, 161, 102, 248, 161, 102, 127, 161, 102, 111, 225, 161, 102, 248, 161, 102, 113, 161, 102, 101, 161, 102, 127, 161, 102, 113, 161, 102, 125, 161, 103, 24

In [12]:
# Read the entire tokenized dataset and compute output token distributions
import torch
from marathi_gpt2 import GPT2Config, GPT2Model

data_path = "data/mrwiki_text_tokenized.txt"
config = GPT2Config()
model = GPT2Model(config)
model.load_state_dict(torch.load("marathi_gpt2.pt", map_location="cpu"))
model.eval()

# Accumulate token counts
from collections import Counter
output_token_counts = Counter()

def get_batches(file_path, batch_size=32, seq_len=64):
    batch = []
    with open(file_path, encoding="utf-8") as f:
        for line in f:
            ids = [int(tok) for tok in line.strip().split()]
            for i in range(0, len(ids) - seq_len, seq_len):
                batch.append(ids[i:i+seq_len])
                if len(batch) == batch_size:
                    yield torch.tensor(batch, dtype=torch.long)
                    batch = []
    if batch:
        yield torch.tensor(batch, dtype=torch.long)

# Go through the dataset and accumulate output token distributions
for batch in get_batches(data_path, batch_size=8, seq_len=64):
    with torch.no_grad():
        logits = model(batch)
        probs = torch.softmax(logits, dim=-1)
        # Get most probable token at each position
        top_tokens = torch.argmax(probs, dim=-1)
        output_token_counts.update(top_tokens.flatten().tolist())

print("Top 20 most frequent output tokens:")
for token_id, count in output_token_counts.most_common(20):
    print(f"Token ID: {token_id}, Count: {count}")

FileNotFoundError: [Errno 2] No such file or directory: 'marathi_gpt2.pt'

In [13]:
# Compute frequency of tokens in the tokenized dataset
from collections import Counter

data_path = "data/mrwiki_text_tokenized.txt"
token_counts = Counter()

with open(data_path, encoding="utf-8") as f:
    for line in f:
        ids = [int(tok) for tok in line.strip().split()]
        token_counts.update(ids)

print("Top 20 most frequent tokens in the dataset:")
for token_id, count in token_counts.most_common(20):
    print(f"Token ID: {token_id}, Count: {count}")

Top 20 most frequent tokens in the dataset:
Token ID: 161, Count: 112728934
Token ID: 102, Count: 89546448
Token ID: 103, Count: 28317864
Token ID: 225, Count: 21577982
Token ID: 127, Count: 12298955
Token ID: 240, Count: 8723177
Token ID: 113, Count: 7302094
Token ID: 234, Count: 5654511
Token ID: 106, Count: 4722671
Token ID: 112, Count: 4476277
Token ID: 227, Count: 4268463
Token ID: 248, Count: 4216559
Token ID: 121, Count: 4029293
Token ID: 128, Count: 3955339
Token ID: 115, Count: 3724003
Token ID: 118, Count: 3693601
Token ID: 229, Count: 3644862
Token ID: 65, Count: 3542081
Token ID: 96, Count: 3541505
Token ID: 63, Count: 3540951


In [None]:
# Decode and print the top 20 most frequent tokens in the dataset
top_20 = token_counts.most_common(20)
print("\nDecoded tokens for the top 20 most frequent token IDs:")
for token_id, count in top_20:
    try:
        # Try using the id_to_token method (if available)
        token_str = tokenizer.id_to_token(token_id)
    except AttributeError:
        # Fallback: use the vocabulary if available
        if hasattr(tokenizer, 'vocab') and isinstance(tokenizer.vocab, dict):
            # Find the token string by id
            inv_vocab = {v: k for k, v in tokenizer.vocab.items()}
            token_str = inv_vocab.get(token_id, '<UNK>')
        else:
            token_str = '<UNK>'
    print(f"Token ID: {token_id}, Count: {count}, Token: {repr(token_str)}")


Decoded tokens for the top 20 most frequent token IDs:


AttributeError: 'tokenizers.decoders.ByteLevel' object has no attribute 'get'