In [None]:
from mmdt_tokenizer.core import MyanmarSyllableTokenizer
from mmdt_tokenizer.utils.config import DATA_DIR, OUTPUT_DIR

import pandas as pd
from pathlib import Path
import unicodedata

tokenizer = MyanmarSyllableTokenizer()

def test_syllable_tokenize_basic(tokenizer:  MyanmarSyllableTokenizer):
    text = "အစတေးခံများ အထိမ်းအမှတ် သရေခေတ္တရာ အစီအစဥ် သံယောဇဥ်"
    tokens = tokenizer.tokenize(text)
    assert isinstance(tokens, list)

def test_syllable_tokenize_multiple_text(tokenizer:  MyanmarSyllableTokenizer):
    """Tests the CSV saving feature exposed by the main tokenizer."""
    text = ["မင်္ဂလာပါ မြန်မာစာ", "နေ လင့်ကစား လင့်ကစား တနေ့တော့"]
    csv_output_path = OUTPUT_DIR / "result_syllable_test.csv"
    tokens = tokenizer.tokenize(text,save_csv=str(csv_output_path), conll_style=False)
    assert(len(tokens)==2)
    
    
def test_syllable_tokenize_csv(tokenizer: MyanmarSyllableTokenizer):
    """Tests the CSV loading/saving feature exposed by the main tokenizer."""
    csv_input_path = DATA_DIR / "test_data.csv"
    csv_output_path = OUTPUT_DIR / "result_syllable_bd.csv"

    df = pd.read_csv(csv_input_path)
    
    # Call the main tokenizer method with the save_csv argument and input is dataframe
    
    tokenizer.tokenize(df, column = 'original_sentence', save_csv=str(csv_output_path), conll_style=False)
    assert Path(csv_output_path).exists()
    

test_syllable_tokenize_basic(tokenizer)
test_syllable_tokenize_multiple_text(tokenizer)
test_syllable_tokenize_csv(tokenizer)


In [None]:
from mmdt_tokenizer.core import MyanmarSyllableTokenizer
from mmdt_tokenizer.utils.config import DATA_DIR, OUTPUT_DIR

import pandas as pd
from pathlib import Path

def test_postpositions(tokenizer):
    text= "တပို့တွဲလတွင် ကသာမြို့ကို ကိုမင်းကိုနိုင်ဦးဆောင်သော စစ်ရေးအရ တကက-၁၃ ရှိတဲ့ တွင်းငယ်ရွာကြီးကို စစ်တပ်ထိန်းချုပ်လိုက်ပြီးနောက် ၇ မိုင်တပ်စခန်းအနီးက စမ္ပါယ်နဂိုရ်ရွာ၊ ကျောက်ကြီး၊ ဝါးဖြူတောင် စတဲ့နေရာတွေကိုလည်း အဆင့်ဆင့် လက်လွှတ်ခဲ့ရပြီး မြို့ကို ဆုံးရှုံးလိုက်ရတာလို့ မြေပြင်သတင်းရင်းမြစ်တစ်ဦးက ဆိုပါတယ်။"
    text = "ကချင်၊ စစ်ကိုင်း နဲ့ ရှမ်း မြောက်ပိုင်း ဒေသသုံးခုပေါင်းဆုံရာ ဗျူဟာမြောက်မြို့ဖြစ်တဲ့ အင်းတော်မြို့ကို တော်လှန်ရေးတပ်တွေ စစ်ဆင်ရေးပြုလုပ်ရာမှာ ABSDF စစ်ကြောင်း ၁ ရဲ့ စစ်ကြောင်းမှူးက ကွပ်ကဲခဲ့ပါတယ်။"
    text = "အစတေးခံများ အထိမ်းအမှတ် အစီအစဥ် သရေခေတ္တရာ သံယောဇဥ်"
    #text =  "ကြော်ငြာစာအမှတ် (၂/၂၀၂၅)ပါ နိုင်ငံခြားရေးဝန်ကြီးဌာန၊ စီမံကိန်းနှင့်စီမံရေးရာဦးစီးဌာန၊ ဌာနစုမှူး(၂)/ တတိယအတွင်းဝန် (အမျိုးသား/အမျိုးသမီး) ရာထူး (၃၀)နေရာအတွက် စိတ်အခြေအနေနှင့် လူတွေ့စစ်ဆေးမှုခံယူမည့်သူများသတင်းပို့ရန်အတွက်‌‌  အကြောင်းကြားစာနှင့် ရေးသွင်းရမည့်ပုံစံများကိုအောက်ပါအတိုင်း Download ရယူဖြည့်စွက်နိုင်ပါသည်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
    return tokens

def test_word_tokenize_multiple_text(tokenizer):
    text = ["သုံးခု/၃ခု တ-က-က-၁၃ သမ္မတ  10- 10 -2025 9:50, myothida@gmail.com လင့်ကစား", "၁၉၅၀ခုနှစ်က ငွေ၁၀၀,၀၀၀,၀၀ကျပ် တစ် ထောင့်နှစ်ရာ နှစ်ဆယ့်လေး ခုနှစ်၊ အသက်(၈၀) "]
    csv_output_path = OUTPUT_DIR / "result_word_test.csv"
    tokens = tokenizer.word_tokenize(text,save_csv=str(csv_output_path), conll_style=False)
    print(tokens)
    assert(len(tokens)==2)
    return tokens

def test_word_tokenize_csv(tokenizer):
    """Tests the CSV loading/saving feature exposed by the main tokenizer."""
    csv_input_path = DATA_DIR / "test_data.csv"
    csv_output_path = OUTPUT_DIR / "result_word_500.csv"

    df = pd.read_csv(csv_input_path)
    df_small = df.sample(500)
    tokenizer.word_tokenize(df_small, column = 'original_sentence', save_csv=str(csv_output_path), conll_style=False)
    assert Path(csv_output_path).exists()


from mmdt_tokenizer import MyanmarTokenizer
tokenizer = MyanmarTokenizer()
all_tokens = test_postpositions(tokenizer)
all_tokens = test_word_tokenize_multiple_text(tokenizer)
#test_word_tokenize_csv(tokenizer)


