In [1]:
from mmdt_tokenizer.core import MyanmarSyllableTokenizer
from mmdt_tokenizer.utils.config import DATA_DIR, OUTPUT_DIR

import pandas as pd
from pathlib import Path

tokenizer = MyanmarSyllableTokenizer()

def test_syllable_tokenize_basic(tokenizer:  MyanmarSyllableTokenizer):
    text = "မင်္ဂလာပါ"
    tokens = tokenizer.tokenize(text)
    assert isinstance(tokens, list)
    assert any("မင်္" in tok or "ဂ" in tok for tok in tokens[0])

def test_syllable_tokenize_multiple_text(tokenizer:  MyanmarSyllableTokenizer):
    """Tests the CSV saving feature exposed by the main tokenizer."""
    text = ["မင်္ဂလာပါ မြန်မာစာ", "တနေ့တော့"]
    csv_output_path = OUTPUT_DIR / "result_syllable_test.csv"
    tokens = tokenizer.tokenize(text,save_csv=str(csv_output_path), conll_style=False)
    print(tokens)
    assert(len(tokens)==2)
    
    
def test_syllable_tokenize_csv(tokenizer: MyanmarSyllableTokenizer):
    """Tests the CSV loading/saving feature exposed by the main tokenizer."""
    csv_input_path = DATA_DIR / "test_data.csv"
    csv_output_path = OUTPUT_DIR / "result_syllable_bd.csv"

    df = pd.read_csv(csv_input_path)
    
    # Call the main tokenizer method with the save_csv argument and input is dataframe
    
    tokenizer.tokenize(df, column = 'original_sentence', save_csv=str(csv_output_path), conll_style=False)
    assert Path(csv_output_path).exists()
    

test_syllable_tokenize_basic(tokenizer)
test_syllable_tokenize_multiple_text(tokenizer)
test_syllable_tokenize_csv(tokenizer)


[['မင်္ဂ', 'လာ', 'ပါ', 'မြန်', 'မာ', 'စာ'], ['တ', 'နေ့', 'တော့']]


In [2]:
def test_postpositions(tokenizer):
    text= "စစ်ရေးအရ တကက-၁၃ ရှိတဲ့ တွင်းငယ်ရွာကြီးကို စစ်တပ်ထိန်းချုပ်လိုက်ပြီးနောက် ၇ မိုင်တပ်စခန်းအနီးက စမ္ပါယ်နဂိုရ်ရွာ၊ ကျောက်ကြီး၊ ဝါးဖြူတောင် စတဲ့နေရာတွေကိုလည်း အဆင့်ဆင့် လက်လွှတ်ခဲ့ရပြီး မြို့ကို ဆုံးရှုံးလိုက်ရတာလို့ မြေပြင်သတင်းရင်းမြစ်တစ်ဦးက ဆိုပါတယ်။"
    #text = "ကချင်၊ စစ်ကိုင်း နဲ့ ရှမ်း မြောက်ပိုင်း ဒေသသုံးခုပေါင်းဆုံရာ ဗျူဟာမြောက်မြို့ဖြစ်တဲ့ အင်းတော်မြို့ကို တော်လှန်ရေးတပ်တွေ စစ်ဆင်ရေးပြုလုပ်ရာမှာ ABSDF စစ်ကြောင်း ၁ ရဲ့ စစ်ကြောင်းမှူးက ကွပ်ကဲခဲ့ပါတယ်။"
    text = "သူဟာ အမေရိကန်နိုင်ငံ ဝါရှင်တန်မြို့က ကွန်မြူနစ် ဝါဒရဲ့ အစတေးခံများအထိမ်းအမှတ် ဖောင်ဒေးရှင်းရဲ့ အကြီးတန်း သုတေသီ ဖြစ်ပြီး ဒီ မှတ်တမ်းမှတ်ရာတွေကို ရှာဖွေတွေ့ရှိခဲ့သူ ဖြစ်ပါတယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
    return tokens

def test_word_tokenize_multiple_text(tokenizer):
    text = ["မင်္ဂလာပါ မြန်မာစာ", "ကျွန်မမသွားဘူး။"]
    csv_output_path = OUTPUT_DIR / "result_word_test.csv"
    tokens = tokenizer.word_tokenize(text,save_csv=str(csv_output_path), conll_style=False)
    print(tokens)
    
    assert(len(tokens)==2)
    return tokens


from mmdt_tokenizer import MyanmarTokenizer
tokenizer = MyanmarTokenizer()
all_tokens = test_postpositions(tokenizer)
all_tokens = test_word_tokenize_multiple_text(tokenizer)



[['သူဟာ', 'အမေရိကန်', 'နိုင်ငံ', 'ဝါရှင်တန်', 'မြို့', 'က', 'ကွန်မြူနစ်', 'ဝါဒ', 'ရဲ့', 'အစတေးခံ', 'များ', 'အထိမ်းအမှတ်', 'ဖောင်ဒေးရှင်း', 'ရဲ့', 'အကြီးတန်း', 'သုတေသီ', 'ဖြစ်ပြီး', 'ဒီ', 'မှတ်တမ်းမှတ်ရာ', 'တွေ', 'ကို', 'ရှာဖွေတွေ့ရှိခဲ့သူ', 'ဖြစ်ပါတယ်', '။']]
[['မင်္ဂလာပါ', 'မြန်မာ', 'စာ'], ['ကျွန်မ', 'မသွားဘူး', '။']]
