In [1]:
from mmdt_tokenizer import MyanmarTokenizer
from mmdt_tokenizer.utils.config import DATA_DIR, OUTPUT_DIR
from pathlib import Path


tokenizer = MyanmarTokenizer()

In [2]:
def test_merge_days(tokenizer):
    # Case 1: unseen + Day + [PUNCT] + CL -- Combine to one phrase
    # Case 2: Day 
    # Case 3: 
 
    text = [["ကြာသပတေးနေ့တွင် ကြာပန်း ၅ ခိုင်ယူလာကြပါ။"], 
            ["ကဆုန် လပြည့်နေ့တွင် ရေသပ္ပာယ်မည်။"] ,
            ["လပြည့်"]]
            
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

test_merge_days(tokenizer)

['ကြာသပတေးနေ့', 'တွင်', 'ကြာပန်း', '၅ခိုင်', 'ယူလာကြပါ']


In [3]:
def test_merge_numbers(tokenizer):
    # Case 1: unseen + NUMBER/ word Number + [PUNCT] + CL -- Combine to one phrase
    # Case 2: unseen + Word Number + UNSEEN -- Combine number as one 
    # Case 3: unseen + Number
 
    text = [["၁၉၆,၀၀၀ ယောက် အနက် ရာခိုင်နှုန်း ၃၀ မှာ အသက် ၁၅ နှစ်အောက် ဖြစ်ကြသည်။"],
            ["တစ်ရာ သုံးဆယ့် ငါး ဦးမှာ မိန်းမများ ဖြစ်ပြီး ၃ရာမှာ ကလေးများ ဖြစ်သည်"],
            ["လူမျိုးစု ၅ စုသည် နှစ်ပေါင်းများစွာ အတူတကွ နေထိုင်ခဲ့ကြသည်"],
            ['ရာခိုင်နှုန်း ၃၀ ']]
            
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

test_merge_numbers(tokenizer)

['၁၉၆,၀၀၀ယောက်', 'အနက်ရာခိုင်နှုန်း', '၃၀', 'မှာအသက်', '၁၅နှစ်', 'အောက်', 'ဖြစ်ကြသည်']


In [4]:
def test_merge_predicate(tokenizer):
    # Case 1: unseen + VEP + SFP -- split to raw , pred if more than 5, else keep it as one pred
    # Case 2: unseen + Conj + [unseen]+ [VEP] + SFP
    # Case 3: Negatiave Phrase -- Neg_Prefix + [VEP]+[VEP]+... + NEG_SFP
 
    text = [["စုစည်း တက်ရောက်ခဲ့ကြပါတော့သည်။","စုစည်း တက်ရောက် ခဲ့ကြပါသည်။","စုစည်းတက်ရောက်ခဲ့ကြပါတော့သည်။","ကြိုးစားရိုးသားစေချင်ပါတယ်။", "ရိုးသားစေချင်ပါတယ်။"],
            ["စုစည်း တက်ရောက်ရန် ဖြစ်ကြသည်။", "ကြိုးစားသော်လည်း စာမေးပွဲကျပါသည်", "ကြိုးစားနေကြပါတယ်ဟုမဆိုနိုင်ပါ"],
            ["သူမ စိတ်ဆိုးနေတယ်မနေဘူးက မည်သူမျှမသိပါဘူး။", "အစီအစဥ်ကို သူမစိတ်ဆိုး မနေပါဘူး", "သူမစိတ်ဆိုးမနေပါဘူး", "စိတ်မ၀င်စားပါ",  "အိမ်မက် မမက်ပါနဲ့"]]
            
    tokens = tokenizer.word_tokenize(text, )
    print(tokens)

test_merge_predicate(tokenizer)

['စုစည်းတက်ရောက်', 'ခဲ့ကြပါတော့သည်', 'စုစည်းတက်ရောက်', 'ခဲ့ကြပါသည်', 'စုစည်းတက်ရောက်', 'ခဲ့ကြပါတော့သည်', 'ကြိုးစားရိုးသား', 'စေချင်ပါတယ်', 'ရိုးသား', 'စေချင်ပါတယ်']


In [8]:
def test_tagging_csv(tokenizer):
    """Tests the CSV loading/saving feature exposed by the main tokenizer."""
    csv_text_path = OUTPUT_DIR / "result_word_text.csv"
    csv_output_path = OUTPUT_DIR / "result_word_tag.csv"
    text = [["၁၉၆,၀၀၀ ယောက် အနက် ရာခိုင်နှုန်း ၃၀ မှာ အသက် ၁၅ နှစ်အောက် ဖြစ်ကြသည်။"],
            ["တစ်ရာ သုံးဆယ့် ငါး ဦးမှာ မိန်းမများ ဖြစ်ပြီး ၃ရာမှာ ကလေးများ ဖြစ်သည်"],
            ["လူမျိုးစု ၅ စုသည် နှစ်ပေါင်းများစွာ အတူတကွ နေထိုင်ခဲ့ကြသည်"],
            ['ရာခိုင်နှုန်း ၃၀ ']]
            
    tokens = tokenizer.word_tokenize(text,save_csv=str(csv_text_path), save_tag=str(csv_output_path), conll_style=False)

    assert Path(csv_output_path).exists()

test_tagging_csv(tokenizer)