In [1]:
import json
from utils import build_context_aware_frequency_dictionary

In [2]:
# Example usage
if __name__ == "__main__":
    # Example initial dictionary
    initial_dictionary_path = "initial_dictionary.json"

    with open(initial_dictionary_path, 'r', encoding='utf-8') as f:
        initial_dictionary = json.load(f)

    # Example pre-tokenized corpus
    tokenized_corpus = [
        ["ပညာရေး", "ဝန်ကြီးဌာန", "သည်", "အထက်တန်း", "ကျောင်း", "များ", "တွင်", "သင်ကြား", "ရေး", "အထောက်အကူ", "ပြု", "စာအုပ်", "ကို", "ထုတ်ဝေ", "ခဲ့", "။"],
        ["ဗိုလ်ချုပ်ကတော်", "တော်လှန်", "ရေး", "အကြောင်း", "စာအုပ်", "ထုတ်ဝေ", "သည်", "။"]
    ]

    # Build context-aware dictionary
    context_aware_dict = build_context_aware_frequency_dictionary(
        tokenized_corpus=tokenized_corpus,
        initial_dictionary=initial_dictionary,
        top_k=3
    )

    # print("Context-aware dictionary:", json.dumps(context_aware_dict, ensure_ascii=False, indent=2))

Processing tokenized corpus: 100%|██████████| 2/2 [00:00<?, ?it/s]


In [3]:
from BurmeseTokenizer import BurmeseTokenizer
# Initialize tokenizer with context-aware dictionary
tokenizer = BurmeseTokenizer(context_aware_dict_path="context_aware_dictionary.json")

# Test context-aware maximum matching
# test_text = "ပညာရေးဝန်ကြီးဌာနသည်"
# syllables = tokenizer.segment_syllables(test_text)
# tokens = tokenizer.context_aware_maximum_matching(syllables, use_context=True)
# print("Context-aware tokens:", tokens)

# Example texts
text1 = "ပညာရေးဝန်ကြီးဌာနသည် အထက်တန်းကျောင်းများတွင် သင်ကြားမှုအတွက် သင်ကြားရေးအထောက်အကူပြု စာအုပ်များကို ထုတ်ဝေခဲ့သည်။"
text2 = "တော်လှန်ရေးအထောက်အကူအတွက်သင်ကြားသည်။"
text3 = "ဗိုလ်ချုပ်ကတော်လှန်သည်"

# Tokenize without BPE
tokens_1, token_ids_1 = tokenizer.tokenize(text1, use_bpe=False)
print("Tokens (no BPE, text1):", tokens_1)
print("Token IDs (no BPE, text1):", token_ids_1)

# Tokenize without BPE
tokens_2, token_ids_2 = tokenizer.tokenize(text2, use_bpe=False)
print("Tokens (no BPE, text2):", tokens_2)
print("Token IDs (no BPE, text2):", token_ids_2)

# Train BPE on your raw Burmese text corpus
corpus = [text1, text2] * 50  # Replace with your actual raw text corpus
tokenizer.train_bpe(corpus)

# Tokenize with BPE
tokens_1_BPE, token_ids_1_BPE = tokenizer.tokenize(text1, use_bpe=True)
print("Tokens (with BPE, text1):", tokens_1_BPE)
print("Token IDs (with BPE, text1):", token_ids_1_BPE)

# Tokenize with BPE
tokens_2_BPE, token_ids_2_BPE = tokenizer.tokenize(text2, use_bpe=True)
print("Tokens (with BPE, text2):", tokens_2_BPE)
print("Token IDs (with BPE, text2):", token_ids_2_BPE)

Tokens (no BPE, text1): ['ပညာရေး', 'ဝန်ကြီး', 'ဌာန', 'သည်', ' ', 'အထက်တန်း', 'ကျောင်း', 'များ', 'တွင်', ' ', 'သင်ကြား', 'မှု', 'အတွက်', ' ', 'သင်ကြား', 'ရေး', 'အထောက်အကူ', 'ပြု', ' ', 'စာအုပ်', 'များ', 'ကို', ' ', 'ထုတ်ဝေ', 'ခဲ့', 'သည်', '။']
Token IDs (no BPE, text1): [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26]
Tokens (no BPE, text2): ['တော်လှန်', 'ရေး', 'အထောက်အကူ', 'အတွက်', 'သင်ကြား', 'သည်', '။']
Token IDs (no BPE, text2): [0, 1, 2, 3, 4, 5, 6]
Tokens (with BPE, text1): ['ပညာရေး', 'ဝန်ကြီး', 'ဌာန', 'သည်', 'အထက်တန်း', 'ကျောင်း', 'များ', 'တွင်', 'သင်ကြား', 'မှု', 'အတွက်', 'သင်ကြား', 'ရေး', 'အထောက်အကူ', 'ပြု', 'စာအုပ်', 'များ', 'ကို', 'ထုတ်ဝေ', 'ခဲ့', 'သည်', '။']
Token IDs (with BPE, text1): [14, 18, 17, 12, 19, 20, 22, 23, 27, 125, 24, 27, 28, 29, 30, 31, 22, 10, 32, 33, 12, 34]
Tokens (with BPE, text2): ['တော်လှန်', 'ရေး', 'အထောက်အကူ', 'အတွက်', 'သင်ကြား', 'သည်', '။']
Token IDs (with BPE, text2): [37, 28, 29, 24, 27, 12, 34]
