In [1]:
from mmdt_tokenizer.core import MyanmarTokenizer
import pandas as pd
from pathlib import Path

tokenizer = MyanmarTokenizer()

def test_syllable_tokenize_basic(tokenizer):
    text = "မင်္ဂလာပါ"
    tokens = tokenizer.syllable_tokenize(text)
    assert isinstance(tokens, list)
    assert any("မင်္" in tok or "ဂ" in tok for tok in tokens[0])

def test_syllable_tokenize_longtext(tokenizer):
    text = "ဒီ ၂၀၁၉ ဆိပ်ကမ်းကို ဇူလိုင် ၁၁ ရက်ကတည်းက ပိတ်ထားတာဖြစ်ပြီး ဒီနေ့မှာ ရွှေဘိုခရိုင်တပ်ရင်း ၂ နဲ့ ရေလည်မော် ရပ်ကျေး ပ.က.ဖ တို့က ပြန်ဖွင့်ဖို့ စီစဉ်တာကြောင့် ဆန္ဒပြကြတာလို့ ပြောပါတယ်။"
    tokens = tokenizer.syllable_tokenize(text)
    assert isinstance(tokens, list)
    assert len(tokens[0])>53
    

def test_syllable_tokenize_save_csv(tokenizer: MyanmarTokenizer, tmp_path):
    """Tests the CSV saving feature exposed by the main tokenizer."""
    SAMPLE_TEXT = ["မင်္ဂလာပါ မြန်မာစာ", "တနေ့တော့"]
    EXPECTED_SYLLABLES = ["မင်္ဂ", "လာ", "ပါ", "မြန်", "မာ", "စာ", "တ", "နေ့", "တော့"]
    csv_path = tmp_path + "/syllable_core_test.csv"
    
    # Call the main tokenizer method with the save_csv argument
    tokenizer.syllable_tokenize(SAMPLE_TEXT, save_csv=str(csv_path), conll_style=True)
    df = pd.read_csv(csv_path)
    expected_rows = EXPECTED_SYLLABLES 
    assert df.shape[0] == len(expected_rows)+1
    
def test_syllable_tokenize_csv_input(tokenizer: MyanmarTokenizer, tmp_path):
    """Tests the CSV loading/saving feature exposed by the main tokenizer."""
    csv_input_path = tmp_path + "/test_data.csv"
    csv_output_path = tmp_path + "/result_syllable_bd.csv"

    df = pd.read_csv(csv_input_path)
    
    # Call the main tokenizer method with the save_csv argument and input is dataframe
    
    tokenizer.syllable_tokenize(df, column = 'original_sentence', save_csv=str(csv_output_path), conll_style=False)
    assert Path(csv_output_path).exists()
    

test_syllable_tokenize_basic(tokenizer)
test_syllable_tokenize_longtext(tokenizer)
test_syllable_tokenize_save_csv(tokenizer, '../data')
test_syllable_tokenize_csv_input(tokenizer, '../data')



In [3]:
tokenizer = MyanmarTokenizer()
text = "၂၉-၉-၂၀၂၅  တကက-၁၃ အမှတ်(၁၅)"
text = "ဒီဆိပ်ကမ်းကို ဇူလိုင် ၁၁ ရက်ကတည်းက ပိတ်ထားတာဖြစ်ပြီး၊ ဒီနေ့မှာ ရွှေဘိုခရိုင်တပ်ရင်း ၂ နဲ့ ရေလည်မော် ရပ်ကျေး ပ.က.ဖ တို့က ပြန်ဖွင့်ဖို့ စီစဉ်တာကြောင့် ဆန္ဒပြကြတာလို့ ပြောပါတယ်။"
text= "ရန်ကုန်တိုင်းရွှေလုပ်ငန်းရှင်များအသင်းရဲ့ အောက်တိုဘာ ၂၆ရက် ညနေပိုင်း အကယ်ဒမီ မီးလင်း ရွှေဈေးကွက် ပိတ်စျေးနှုန်းဟာ ရွှေတစ်ကျပ်သားကို ၅၆၂,၆၉၀,၀ နဲ့စျေးပိတ်ခဲ့ပြီး အပြင်မှာ တစ်ကျပ်သားကို သိန်း ၆၀ ကျော်ပေါက်စျေးရှိနေတာလည်း ဖြစ်ပါတယ်။"
text = "“ဒီဆိပ်ကမ်းကိုဇူလိုင်2019 ၁၁ရက်ကတည်းကပိတ်ထားတာဖြစ်ပြီး”"
tokens = tokenizer.word_tokenize(text)
tokens

ဒီဆိပ်ကမ်းကိုဇူလိုင်
PROT
PROTA
ရက်ကတည်းကပိတ်ထားတာဖြစ်ပြီး


[[['ဒီ', 'ဆိပ်', 'ကမ်း', 'ကို', 'ဇူ', 'လိုင်'],
  '2019',
  '၁၁',
  ['ရက်', 'က', 'တည်း', 'က', 'ပိတ်', 'ထား', 'တာ', 'ဖြစ်', 'ပြီး']]]