In [1]:
from mmdt_tokenizer.core import MyanmarSyllableTokenizer
from mmdt_tokenizer.utils.config import DATA_DIR, OUTPUT_DIR

import pandas as pd
from pathlib import Path
import unicodedata

tokenizer = MyanmarSyllableTokenizer()

def test_syllable_tokenize_basic(tokenizer:  MyanmarSyllableTokenizer):
    text = "အစတေးခံများ အထိမ်းအမှတ် သရေခေတ္တရာ"
    tokens = tokenizer.tokenize(text)
    assert isinstance(tokens, list)

def test_syllable_tokenize_multiple_text(tokenizer:  MyanmarSyllableTokenizer):
    """Tests the CSV saving feature exposed by the main tokenizer."""
    text = ["မင်္ဂလာပါ မြန်မာစာ", "နေ လင့်ကစား လင့်ကစား တနေ့တော့"]
    csv_output_path = OUTPUT_DIR / "result_syllable_test.csv"
    tokens = tokenizer.tokenize(text,save_csv=str(csv_output_path), conll_style=False)
    assert(len(tokens)==2)
    
    
def test_syllable_tokenize_csv(tokenizer: MyanmarSyllableTokenizer):
    """Tests the CSV loading/saving feature exposed by the main tokenizer."""
    csv_input_path = DATA_DIR / "test_data.csv"
    csv_output_path = OUTPUT_DIR / "result_syllable_bd.csv"

    df = pd.read_csv(csv_input_path)
    
    # Call the main tokenizer method with the save_csv argument and input is dataframe
    
    tokenizer.tokenize(df, column = 'original_sentence', save_csv=str(csv_output_path), conll_style=False)
    assert Path(csv_output_path).exists()
    

test_syllable_tokenize_basic(tokenizer)
test_syllable_tokenize_multiple_text(tokenizer)
test_syllable_tokenize_csv(tokenizer)


In [3]:
def test_postpositions(tokenizer):
    text= "စစ်ရေးအရ တကက-၁၃ ရှိတဲ့ တွင်းငယ်ရွာကြီးကို စစ်တပ်ထိန်းချုပ်လိုက်ပြီးနောက် ၇ မိုင်တပ်စခန်းအနီးက စမ္ပါယ်နဂိုရ်ရွာ၊ ကျောက်ကြီး၊ ဝါးဖြူတောင် စတဲ့နေရာတွေကိုလည်း အဆင့်ဆင့် လက်လွှတ်ခဲ့ရပြီး မြို့ကို ဆုံးရှုံးလိုက်ရတာလို့ မြေပြင်သတင်းရင်းမြစ်တစ်ဦးက ဆိုပါတယ်။"
    #text = "ကချင်၊ စစ်ကိုင်း နဲ့ ရှမ်း မြောက်ပိုင်း ဒေသသုံးခုပေါင်းဆုံရာ ဗျူဟာမြောက်မြို့ဖြစ်တဲ့ အင်းတော်မြို့ကို တော်လှန်ရေးတပ်တွေ စစ်ဆင်ရေးပြုလုပ်ရာမှာ ABSDF စစ်ကြောင်း ၁ ရဲ့ စစ်ကြောင်းမှူးက ကွပ်ကဲခဲ့ပါတယ်။"
    #text = "သူဟာ အမေရိကန်နိုင်ငံ ဝါရှင်တန်မြို့က ကွန်မြူနစ် ဝါဒရဲ့ အစတေးခံများအထိမ်းအမှတ် ဖောင်ဒေးရှင်းရဲ့ အကြီးတန်း သုတေသီ ဖြစ်ပြီး ဒီ မှတ်တမ်းမှတ်ရာတွေကို ရှာဖွေတွေ့ရှိခဲ့သူ ဖြစ်ပါတယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
    return tokens

def test_word_tokenize_multiple_text(tokenizer):
    text = ["သုံးခု/၃ခု တ-က-က-၁၃ သမ္မတ  10- 10 -2025 လင့်ကစား", "၁၉၈၀..... 1980 ၁၉၅၀ခုနှစ်က ငွေ၁၀၀,၀၀၀,၀၀ကျပ် တစ် ထောင့်နှစ်ရာနှစ်ဆယ့်လေးခုနှစ် ၊ အသက်(၈၀) "]
    csv_output_path = OUTPUT_DIR / "result_word_test.csv"
    tokens = tokenizer.word_tokenize(text,save_csv=str(csv_output_path), conll_style=False)
    print(tokens)
    
    assert(len(tokens)==2)
    return tokens

def est_word_tokenize_protector_cases(tokenizer):
    text = "ငွေ၁၀၀,၀၀၀,၀၀ကျပ် ၀၉၇၈၈၃၄၄၅၆ တစ် ထောင့်နှစ်ရာနှစ်ဆယ့်လေးခုနှစ် ၃ခု စစ်တပ်က သုံးခါ တိုက်တယ်"
    tokens = tokenizer.word_tokenize(text)
    return tokens

from mmdt_tokenizer import MyanmarTokenizer
tokenizer = MyanmarTokenizer()
#all_tokens = test_postpositions(tokenizer)
#all_tokens = test_word_tokenize_multiple_text(tokenizer)
result = est_word_tokenize_protector_cases(tokenizer)
print(result)



Chunk(span=(0, 0), text='ငွေ', tag='RAW')
Chunk(span=(1, 1), text='၁၀၀,၀၀၀,၀၀', tag='NUM')
Chunk(span=(2, 2), text='ကျပ်', tag='RAW')
Chunk(span=(3, 3), text='၀၉၇၈၈၃၄၄၅၆ ', tag='NUM')
Chunk(span=(4, 4), text='တစ်', tag='NUM')
Chunk(span=(5, 5), text='ထောင့်', tag='NUM')
Chunk(span=(6, 6), text='နှစ်', tag='NUM')
Chunk(span=(7, 7), text='ရာ', tag='NUM')
Chunk(span=(8, 8), text='နှစ်', tag='NUM')
Chunk(span=(9, 9), text='ဆယ့်', tag='NUM')
Chunk(span=(10, 10), text='လေး', tag='NUM')
Chunk(span=(13, 13), text='၃', tag='NUM')
Chunk(span=(15, 15), text='စစ်', tag='RAW')
Chunk(span=(16, 16), text='တပ်', tag='RAW')
Chunk(span=(17, 17), text='က', tag='POSTP')
Chunk(span=(18, 18), text='သုံး', tag='NUM')
Chunk(span=(19, 19), text='ခါ', tag='RAW')
Chunk(span=(20, 20), text='တိုက်', tag='RAW')
Chunk(span=(21, 21), text='တယ်', tag='SFP')
end
[['ငွေ၁၀၀,၀၀၀,၀၀ကျပ်၀၉၇၈၈၃၄၄၅၆ တစ်ထောင့်နှစ်ရာနှစ်ဆယ့်', 'လေးခုနှစ်', '၃ခု', 'စစ်တပ်', 'က', 'သုံးခါတိုက်တယ်']]
