In [1]:
from mmdt_tokenizer.core import MyanmarSyllableTokenizer
from mmdt_tokenizer.utils.config import DATA_DIR, OUTPUT_DIR

import pandas as pd
from pathlib import Path

In [2]:
def test_boundary_no_space(tokenizer):
    text = "သူ့အဖွားကသူ့အတွက်သေတမ်းစာကိုရေးထားခဲ့တယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
    
def test_boundary_postp(tokenizer):
    text = "အရည်အချင်းရှိသူ များပြားသော်လည်း ရှေ့ထွက်လာသူ မရှိသောအခါ တိုင်းပြည်၏ အခြေအနေမှာ တစစ ယုတ်လျော့လာသည်။ သူမ၏ အရည်အချင်းများမှာ ပျောက်ကွယ်သွားတော့မည်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_conj(tokenizer):
    text = "သမ္မတနှင့် ၀န်ကြီး အတူ သွားတယ် ပြီးတော့ သူ ပြန်လာတယ်။ ထို့နောက် ဒုတိယ ၀န်ကြီးမှ အမှာစကားကိုပြောကြားသော်လည်း အများစုမှာ အိပ်ပျော်နေကြသည်။"
    # Boundaries: CONJ 
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
   

def test_boundary_number_cl(tokenizer):
    text = "ရွှေ့ပြောင်းနေထိုင်သူ ၁၉၆,၀၀၀ ယောက် အနက် ရာခိုင်နှုန်း ၃၀ မှာ အသက် ၁၅ နှစ်အောက် ဖြစ်ကြပြီး တစ်ရာ သုံးဆယ့် ငါးဦးမှာ မိန်းမများ ဖြစ်သည်။"
    # Boundaries: ဦး/ယောက် -- classifier, နှစ် -- (wrong case - Num)
    # Expected to merge သွားတယ်၊ 
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_separator(tokenizer):
    text = "နန္ဒ၊ ကျော်ဇင်ဖြိုး(ဂိုး)၊ ကိုရဲရင့်အောင်၊ ဦးမြင့်မောင်၊ မတ်ခ် ဆာကီတို့ဖြင့် လူစုံခဲ့ကာ ယူနိုင်တက်အသင်းကလည်း လန်းဆန်းအောင်၊ ဇော်မွန်အောင်၊ အက်စ်ဂွမ်လမ်တို့ဖြင့် အမာခံ ကစားသမား အစုံအလင် ပါ၀င်ခဲ့သည်။"
    # Boundaries: PUNCT("၊") between nouns, 'ကို' 'ဦး' 
    # Expected to split the PUNCT
    tokens = tokenizer.word_tokenize(text)
    print(tokens)
   
def test_boundary_merge(tokenizer):
    # Between POSTP and Conj → merge words between က--- မှာ ,  မှာ---နှင့်,  ဒါကြောင့်-- က, က -- မောင်
    text = "ကိုထွန်းက တောင်ကြီးမှာ ချစ်သူနှင့် အတူ လျှောက်လည်တယ်။ ဒါကြောင့် သူ့မိန်းမက မောင်ထွန်းကို စိတ်ဆိုးတယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_in_pro_title(tokenizer):
    # Between POSTP and POSTP → merge words between က--- နဲ့  and နဲ့ ---ကို
    text = "မင်္ဂလာပါ။ သူမက မကုလားမနဲ့ ကိုလှမော်ဦးကို ကိုယ့်ကိုယ်ကို ဂရုစိုက်ဖို့ မှာလိုက်တယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_postp_contin(tokenizer):
    # Between POSTP and POSTP → Fail in two 'က' 
    text = "ကိုထွန်းက ကလေးမြို့ကို ရထားနဲ့ ခရီးသွားတယ်။ဒါကြောင့် သူ့မိန်းမက ကိုထွန်းကို စိတ်ဆိုးတယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

def test_boundary_in_classifier(tokenizer):
    # Between POSTP and POSTP → merge words between က--- နဲ့  and နဲ့ ---ကို
    text = "သူမက မကုလားမနဲ့ မျိုးကိုထွန်းကို ကိုယ့်ကိုယ်ကို ဂရုစိုက်ဖို့ မှာလိုက်တယ်။"
    tokens = tokenizer.word_tokenize(text)
    print(tokens)


In [3]:
from mmdt_tokenizer import MyanmarTokenizer
tokenizer = MyanmarTokenizer()

# test_boundary_no_space(tokenizer)
# test_boundary_postp(tokenizer)
# test_boundary_conj(tokenizer)
# test_boundary_number_cl(tokenizer)
# test_boundary_separator(tokenizer)

# # Between POSTP and CONJ → merge words between postp/Conj
# test_boundary_merge(tokenizer)
# test_boundary_postp_contin(tokenizer)
# test_boundary_in_pro_title(tokenizer)
# test_boundary_in_classifier(tokenizer)


In [22]:
iris_data = [[10,11,12,13,'h'], [10,11,12,13,'a'], [10,11,12,13,'h'], [10,11,12,13,'h'], [10,11,12,13,'a']]
column_number = 3
species = 'a'
ret_data =[]
for i in range(len(iris_data)): # loop through the dataset given from read_file()
    # import ipdb; ipdb.set_trace()
    if iris_data[i][-1] == species: # only takes rows that correspond to the species we specify via the parameter
        ret_data.append(iris_data[i][column_number]) # add the value from the col specified via 2nd parameter into ret_data

print(ret_data)
e1 = ret_data

[13, 13]


In [24]:
def extract_data (data, col, species):
    if (col < 0) or (col >= len(data[0])):
        print ("Error: column value of", col, "is not valid")
        return []
        
    clist = []
    for iris in data:
        if iris[4] == species:
            clist.append(iris[col])
            
    return clist

r1 = extract_data(iris_data, 3, 'a')

In [25]:
r1!=e1

False

In [15]:
def test_boundary_predicate(tokenizer):
    # Case 1: unseen + VEP + SFP -- split to raw , pred if more than 5, else keep it as one pred
    # Case 2: unseen + Conj + [unseen]+ [VEP] + SFP
    # Case 3: Negatiave Phrase --
 
    text = [["စုစည်း တက်ရောက်ခဲ့ကြပါတော့သည်။","စုစည်း တက်ရောက် ခဲ့ကြပါ တော့သည်။","စုစည်းတက်ရောက်ခဲ့ကြပါတော့သည်။","ကြိုးစားရိုးသားစေချင်ပါတယ်။", "ရိုးသားစေချင်ပါတယ်။", "အိမ်မက် မမက်ပါနဲ့" ],
            ["စုစည်း တက်ရောက်ရန် ဖြစ်ကြသည်။", "လေ့လာဖို့ စိတ်မ၀င်စားပါ",  "ကြိုးစားသော်လည်း စာမေးပွဲကျပါသည်", "ကြိုးစားနေကြပါတယ်ဟုမဆိုနိုင်ပါ"],
            ["သူမ စိတ်ဆိုးနေတယ်မနေဘူးက မည်သူမျှမသိပါဘူး။", "သူမစိတ်ဆိုး မနေပါဘူး", "သူမစိတ်ဆိုးမနေပါဘူး"]]
            
    tokens = tokenizer.word_tokenize(text)
    print(tokens)

test_boundary_predicate(tokenizer)

[Chunk(span=(0, 0), text='စု', tag='RAW'), Chunk(span=(1, 1), text='စည်း', tag='RAW'), Chunk(span=(2, 2), text=' ', tag='PUNCT'), Chunk(span=(3, 3), text='တက်', tag='RAW'), Chunk(span=(4, 4), text='ရောက်', tag='RAW'), Chunk(span=(5, 5), text='ခဲ့', tag='VEP'), Chunk(span=(6, 6), text='ကြ', tag='VEP'), Chunk(span=(7, 7), text='ပါ', tag='SFP'), Chunk(span=(8, 8), text='တော့', tag='SFP'), Chunk(span=(9, 9), text='သည်', tag='SFP'), Chunk(span=(10, 10), text=' ', tag='PUNCT'), Chunk(span=(11, 11), text='။', tag='PUNCT'), Chunk(span=(12, 12), text=' ', tag='PUNCT'), Chunk(span=(13, 13), text=',', tag='PUNCT'), Chunk(span=(14, 14), text=' ', tag='PUNCT'), Chunk(span=(15, 15), text='စု', tag='RAW'), Chunk(span=(16, 16), text='စည်း', tag='RAW'), Chunk(span=(17, 17), text=' ', tag='PUNCT'), Chunk(span=(18, 18), text='တက်', tag='RAW'), Chunk(span=(19, 19), text='ရောက်', tag='RAW'), Chunk(span=(20, 20), text=' ', tag='PUNCT'), Chunk(span=(21, 21), text='ခဲ့', tag='VEP'), Chunk(span=(22, 22), text=

In [17]:
print([hex(ord(ch)) for ch in "စဥ်"])
print([hex(ord(ch)) for ch in "စဥ်"])

['0x1005', '0x1025', '0x103a']
['0x1005', '0x1025', '0x103a']
