# Marathi BPE Tokenizer Test Notebook

This notebook demonstrates how to encode and decode custom Marathi text using the trained Byte-Pair Encoding (BPE) tokenizer.

In [1]:
# Import Required Libraries
from tokenizers import ByteLevelBPETokenizer
import os

In [2]:
# Load the trained Marathi BPE tokenizer
TOKENIZER_DIR = "data/marathi_bpe_tokenizer"
tokenizer = ByteLevelBPETokenizer(
    os.path.join(TOKENIZER_DIR, "vocab.json"),
    os.path.join(TOKENIZER_DIR, "merges.txt")
)

In [3]:
# Encode custom Marathi text
marathi_text = "माझं नाव गीता आहे."
encoded = tokenizer.encode(marathi_text)
print("Original text:", marathi_text)
print("Token IDs:", encoded.ids)
print("Tokens:", encoded.tokens)

Original text: माझं नाव गीता आहे.
Token IDs: [161, 102, 111, 161, 102, 127, 161, 102, 256, 161, 102, 229, 225, 161, 102, 106, 161, 102, 127, 161, 102, 118, 225, 161, 102, 250, 161, 103, 227, 161, 102, 102, 161, 102, 127, 225, 161, 102, 233, 161, 102, 122, 161, 103, 234, 18]
Tokens: ['à', '¤', '®', 'à', '¤', '¾', 'à', '¤', 'Ŀ', 'à', '¤', 'Ĥ', 'Ġ', 'à', '¤', '¨', 'à', '¤', '¾', 'à', '¤', 'µ', 'Ġ', 'à', '¤', 'Ĺ', 'à', '¥', 'Ģ', 'à', '¤', '¤', 'à', '¤', '¾', 'Ġ', 'à', '¤', 'Ĩ', 'à', '¤', '¹', 'à', '¥', 'ĩ', '.']


In [4]:
# Decode the token IDs back to text
decoded = tokenizer.decode(encoded.ids)
print("Decoded text:", decoded)

Decoded text: माझं नाव गीता आहे.


In [7]:
# Test with multiple Marathi sentences
examples = [
    "माझं नाव गीता आहे.",
    "आज हवामान छान आहे.",
    "तुम्ही कसे आहात?",
    "पुस्तक वाचा आणि शिका.",
    "कामाचे तास 9 ऐवजी 12 तास केल्यानं कामगारांचा फायदा की शोषण? तज्ज्ञांचे मत काय?"
]
for text in examples:
    encoded = tokenizer.encode(text)
    decoded = tokenizer.decode(encoded.ids)
    print(f"Original: {text}")
    print(f"Token IDs: {encoded.ids}")
    print(f"Decoded: {decoded}")
    print("-")

Original: माझं नाव गीता आहे.
Token IDs: [161, 102, 111, 161, 102, 127, 161, 102, 256, 161, 102, 229, 225, 161, 102, 106, 161, 102, 127, 161, 102, 118, 225, 161, 102, 250, 161, 103, 227, 161, 102, 102, 161, 102, 127, 225, 161, 102, 233, 161, 102, 122, 161, 103, 234, 18]
Decoded: माझं नाव गीता आहे.
-
Original: आज हवामान छान आहे.
Token IDs: [161, 102, 233, 161, 102, 255, 225, 161, 102, 122, 161, 102, 118, 161, 102, 127, 161, 102, 111, 161, 102, 127, 161, 102, 106, 225, 161, 102, 254, 161, 102, 127, 161, 102, 106, 225, 161, 102, 233, 161, 102, 122, 161, 103, 234, 18]
Decoded: आज हवामान छान आहे.
-
Original: तुम्ही कसे आहात?
Token IDs: [161, 102, 102, 161, 103, 228, 161, 102, 111, 161, 103, 240, 161, 102, 122, 161, 103, 227, 225, 161, 102, 248, 161, 102, 121, 161, 103, 234, 225, 161, 102, 233, 161, 102, 122, 161, 102, 127, 161, 102, 102, 35]
Decoded: तुम्ही कसे आहात?
-
Original: पुस्तक वाचा आणि शिका.
Token IDs: [161, 102, 108, 161, 103, 228, 161, 102, 121, 161, 103, 240, 161, 102, 102, 161, 

In [None]:
text = """कारखान्यात काम करणाऱ्या कामगारांच्या कामाच्या वेळेची मर्यादा आता दिवसाला 9 तासांवरुन 12 तास करण्याच्या तरतुदीला राज्य सरकारकडून मान्यता देण्यात आली आहे.

राज्य मंत्रिमंडळाच्या बैठकीत यासंदर्भात निर्णय घेण्यात आला असून, 'कारखाने अधिनियम, 1948' मधील काही तरतुदींमध्ये दुरुस्ती करण्यास मान्यता देण्यात आली आहे.

मंत्रिमंडळाच्या बैठकीत हा निर्णय घेण्यात आल्याचे जाहीर झाल्यानंतर या निर्णयावर टीकेची झोड उठली आहे. त्यानंतर सरकारनंही त्यावर स्पष्टीकरण दिलं आहे.

नेमका हा निर्णय काय आहे? कायद्यातील कोणत्या तरतुदींमध्ये काय बदल करण्यात आले आहेत?

त्यांचा नेमका अन्वयार्थ काय आहे? तसेच, या निर्णयाचे कामगारांच्या शारीरिक, मानसिक, आर्थिक बाबींध्ये काय परिणाम होतील, ते पाहूयात."""

SyntaxError: unterminated string literal (detected at line 1) (3457231103.py, line 1)