In [None]:
from mmdt_tokenizer.core import MyanmarSyllableTokenizer
from mmdt_tokenizer.utils.config import DATA_DIR, OUTPUT_DIR

import pandas as pd
from pathlib import Path

In [None]:
def test_boundary_no_space(tokenizer):
    text = "သူ့အဖွားကသူ့အတွက်သေတမ်းစာကိုရေးထားခဲ့တယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
    
def test_boundary_postp(tokenizer):
    text = "အရည်အချင်းရှိသူ များပြားသော်လည်း ရှေ့ထွက်လာသူ မရှိသောအခါ တိုင်းပြည်၏ အခြေအနေမှာ တစစ ယုတ်လျော့လာသည်။ သူမ၏ အရည်အချင်းများမှာ ပျောက်ကွယ်သွားတော့မည်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_conj(tokenizer):
    text = "သူနှင့် ၀န်ကြီး အတူ သွားတယ် ပြီးတော့ သူ ပြန်လာတယ်။ ထို့နောက် ဒုတိယ ၀န်ကြီးမှ အမှာစကားကိုပြောကြားသော်လည်း အများစုမှာ အိပ်ပျော်နေကြသည်။"
    # Boundaries: CONJ 
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
   

def test_boundary_number_cl(tokenizer):
    text = "ရွှေ့ပြောင်းနေထိုင်သူ ၁၉၆,၀၀၀ ယောက် အနက် ရာခိုင်နှုန်း ၃၀ မှာ အသက် ၁၅ နှစ်အောက် ဖြစ်ကြပြီး တစ်ရာ သုံးဆယ့် ငါးဦးမှာ မိန်းမများ ဖြစ်သည်။"
    # Boundaries: ဦး/ယောက် -- classifier, နှစ် -- (wrong case - Num)
    # Expected to merge သွားတယ်၊ 
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_separator(tokenizer):
    text = "နန္ဒ၊ ကျော်ဇင်ဖြိုး(ဂိုး)၊ ကိုရဲရင့်အောင်၊ ဦးမြင့်မောင်၊ မတ်ခ် ဆာကီတို့ဖြင့် လူစုံခဲ့ကာ ယူနိုင်တက်အသင်းကလည်း လန်းဆန်းအောင်၊ ဇော်မွန်အောင်၊ အက်စ်ဂွမ်လမ်တို့ဖြင့် အမာခံ ကစားသမား အစုံအလင် ပါ၀င်ခဲ့သည်။"
    # Boundaries: PUNCT("၊") between nouns, 'ကို' 'ဦး' 
    # Expected to split the PUNCT
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
   
def test_boundary_merge(tokenizer):
    # Between POSTP and Conj → merge words between က--- မှာ ,  မှာ---နှင့်,  ဒါကြောင့်-- က, က -- မောင်
    text = "ကိုထွန်းက တောင်ကြီးမှာ ချစ်သူနှင့် အတူ လျှောက်လည်တယ်။ ဒါကြောင့် သူ့မိန်းမက မောင်ထွန်းကို စိတ်ဆိုးတယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_in_pro_title(tokenizer):
    # Between POSTP and POSTP → merge words between က--- နဲ့  and နဲ့ ---ကို
    text = "သူမက မကုလားမနဲ့ ကိုလှမော်ဦးကို ကိုယ့်ကိုယ်ကို ဂရုစိုက်ဖို့ မှာလိုက်တယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_postp_contin(tokenizer):
    # Between POSTP and POSTP → Fail in two 'က' 
    text = "ကိုထွန်းက ကလေးမြို့ကို ရထားနဲ့ ခရီးသွားတယ်။ဒါကြောင့် သူ့မိန်းမက ကိုထွန်းကို စိတ်ဆိုးတယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_in_classifier(tokenizer):
    # Between POSTP and POSTP → merge words between က--- နဲ့  and နဲ့ ---ကို
    text = "သူမက မကုလားမနဲ့ မျိုးကိုထွန်းကို ကိုယ့်ကိုယ်ကို ဂရုစိုက်ဖို့ မှာလိုက်တယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)



In [None]:
from mmdt_tokenizer import MyanmarTokenizer
tokenizer = MyanmarTokenizer()

test_boundary_no_space(tokenizer)
test_boundary_postp(tokenizer)
test_boundary_conj(tokenizer)
test_boundary_number_cl(tokenizer)
test_boundary_separator(tokenizer)

# Between POSTP and CONJ → merge words between postp/Conj
test_boundary_merge(tokenizer)
test_boundary_postp_contin(tokenizer)
test_boundary_in_pro_title(tokenizer)
test_boundary_in_classifier(tokenizer)

