In [1]:
import pandas as pd

In [47]:
import json

In [2]:
names_df = pd.read_csv("../person-name.ver1.0.txt", sep='\t', names=["word", "syl", "eng"])

In [3]:
names_df.head()

Unnamed: 0,word,syl,eng
1,ကကြိုးကြာ,က ကြိုး ကြာ,ka kyoe kyar
2,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nan
3,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nang
4,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nann
5,ကချုံနန်ဆိန်း,က ချုံ နန် ဆိန်း,ka chon nan sain


In [4]:
names_df.tail()

Unnamed: 0,word,syl,eng
100117,ဿဲလင်းမှုံ,ဿဲ လင်း မှုံ,thel linn hmone
100118,ဿဲလင်းမှုံ,ဿဲ လင်း မှုံ,thel linn mhone
100119,ဿဲလင်းမှုံ,ဿဲ လင်း မှုံ,thel lynn hmone
100120,ဿဲလင်းမှုံ,ဿဲ လင်း မှုံ,thel lynn mhone
100121,ဿန်း,ဿန်း,than


## Checking the count

- check the related count for burmese word and english word

In [5]:
print(f"The number of rows in the dataset is {len(names_df)}")

The number of rows in the dataset is 100121


In [6]:
names_df.drop_duplicates(inplace=True)

In [7]:
print(f"The number of rows in the dataset is {len(names_df)}")

The number of rows in the dataset is 100118


In [8]:
print(f"The number of unique burmese words are: {names_df['word'].nunique()}")

The number of unique burmese words are: 29246


In [9]:
print(f"The number of unique english words are: {names_df['eng'].nunique()}")

The number of unique english words are: 98131


<p>Check the count of mismatch between the count of burmese syllable and english</p>

In [10]:
for row in names_df.itertuples():
    syl_name = row.syl
    eng_name = row.eng
    if len(syl_name.split()) != len(eng_name.split()):
        print(syl_name, eng_name) 

<p>There is no mismatch count between these two columns</p>

In [11]:
from collections import defaultdict, Counter

In [12]:
syl_dict = defaultdict(list)

for row in names_df.itertuples():
    for syl, eng in zip(row.syl.split(), row.eng.split()):
        syl_dict[syl].append(eng)

In [13]:
sum(Counter(syl_dict['စန္ဒာ']).values())

920

In [14]:
names_df[names_df['syl'].str.contains('စန္ဒာ')]

Unnamed: 0,word,syl,eng
1211,ကေစန္ဒာ,ကေ စန္ဒာ,kay sanda
1212,ကေစန္ဒာ,ကေ စန္ဒာ,kay sandar
5449,ကျော့စန္ဒာမိုး,ကျော့ စန္ဒာ မိုး,kyawt sanda moe
5450,ကျော့စန္ဒာမိုး,ကျော့ စန္ဒာ မိုး,kyawt sandar moe
5816,ကျော့အိစန္ဒာဝင်း,ကျော့ အိ စန္ဒာ ဝင်း,kyawt ei sandar win
...,...,...,...
97527,အိမ့်စန္ဒာမျိုး,အိမ့် စန္ဒာ မျိုး,eaint sandar myo
98196,အိမ့်မြတ်စန္ဒာအောင်,အိမ့် မြတ် စန္ဒာ အောင်,aeint myat sanda aung
98197,အိမ့်မြတ်စန္ဒာအောင်,အိမ့် မြတ် စန္ဒာ အောင်,aeint myat sandar aung
98198,အိမ့်မြတ်စန္ဒာအောင်,အိမ့် မြတ် စန္ဒာ အောင်,eaint myat sanda aung


In [15]:
names_df[names_df['word'].str.contains('ဆု\u200c')]

Unnamed: 0,word,syl,eng
42347,ဆု‌ဝေဝေနှင်း,ဆု‌ ဝေ ဝေ နှင်း,hsu wai wai hnin
42348,ဆု‌ဝေဝေနှင်း,ဆု‌ ဝေ ဝေ နှင်း,su wai wai hnin


In [16]:
syl_dict.keys()

dict_keys(['က', 'ကြိုး', 'ကြာ', 'ချောင်', 'လွမ်း', 'နန်း', 'ချုံ', 'နန်', 'ဆိန်း', 'ချုံး', 'နင်', 'ဇီ', 'ဆုန်', 'မိုး', 'လင်း', 'ဆွန်း', 'တာ', 'ရမ်', 'ဗေး', 'ဇင်', 'တိုး', 'ထိ', 'န', 'ဦး', 'ဒေါင်', 'ဒိမ့်', 'အောင်', 'နောင်', 'ပေါ်', 'ထူး', 'ဖိုက်', 'ယတ်', 'အူလ္လာ', 'ဗျာ', 'ကျော့', 'မှူး', 'ကြည်', 'ဖြူ', 'နွေး', 'နွယ်', 'ပိုင်', 'ဖူး', 'ဝေ', 'ဖြိုး', 'ဘွဲ့', 'စက်', 'ထက်', 'မင်း', 'မြင့်', 'မိုရ်', 'လ', 'အိမ်', 'သဲ', 'မောင်', 'သက်', 'ယား', 'သူ', 'လေး', 'ရီ', 'စီ', 'အီ', 'ယာန်', 'လှောန်', 'ကြွ', 'ရက်', 'စွန်း', 'ရိုင်', 'ဂွမ်', 'ဂျာ', 'ရိန်', 'ဆိုင်း', 'နူး', 'မွန်း', 'မိုင်', 'လု', 'ရှီး', 'ပေါ့', 'လာ', 'ကာ', 'မာ', 'လဲ', 'ဒစ်', 'ငြိမ်း', 'အေး', 'လို', 'ဖော', 'ယာ', 'လျာ', 'ကျော်', 'ချစ်', 'ချမ်း', 'စိုး', 'ဆွေ', 'ညွန့်', 'လှိုင်', 'နု', 'ထွဋ်', 'ဆက်', 'မျိုး', 'ပြည့်', 'လွင်', 'မြတ်', 'နိုး', 'ရွှေ', 'စင်', 'ရွှန်း', 'လဲ့', 'ဝင်း', 'သင်း', 'သန်း', 'သွန်း', 'အိ', 'ချော', 'လှ', 'သီ', 'ကီ', 'ကို', 'ဂီ', 'ဘတ်', 'ဂျာလ်', 'စ', 'ဇ', 'လင်', 'နီ', 'နေ', 'လိ', 'ပ', 'ရေး', 'လယ်', 'ဗေ', 'ယ', 'ထွန်း'

<p> Need to clean the data because there are \u200 characters inside the myanmar </p>

## Data cleaning

In [18]:
class Normalization(object):
    """
    This function normalizes common errors for Burmese Language.
    Eg: ၇ > ရ , ၀ > ဝ , င့် > င့် (i.e, sequence order error)
    Usage : 
     For all normalization >> 
     n = Normalization()
     n.normalize_data('ယဥ််')
     For sequence validation only >> 
     n = Normalization()
     n.validate_sequence('ဖြင့်') ... etc. xD
     pre_rule_fix function is only for fixing ရ & ၀ case. 
     ## will be updated after found sth
    """
    def __init__(self):
        pass
    
    def validate_sequence(self, sent):
        
        sent = sent.replace('ပာ', 'ပါ') ## wrong with ဟ
        sent = sent.replace('့်','့်').replace('််','်').replace('ိိ','ိ').replace('ီီ','ီ').replace('ံံ', 'ံ').replace('ဲဲ', 'ဲ')
        sent = sent.replace('စျ','ဈ').replace('ဥ့်','ဉ့်').replace('ဥ်','ဉ်')
        sent = sent.replace('ဩော်','ဪ').replace('သြော်','ဪ').replace('သြ','ဩ')
        sent = sent.replace('ဉီ','ဦ').replace('ဦ','ဦ')
        return sent
    
    def remove_whitespace(self, sent):
        sent = sent.replace('\u200a', '')
        sent = sent.replace('\u200b', '')
        sent = sent.replace('\u200c', '')
        sent = sent.replace('\u200d', '')
        sent = sent.replace('\u200e', '')
        sent = sent.replace('\u200f', '')
        sent = sent.replace('\xa0', '')
        sent = sent.replace('\xad', '')
        sent = sent.replace('•', '')
        sent = sent.replace('\u202d', '')
        return sent
    
    def normalize_data(self, text):
            
        text = self.remove_whitespace(text)
        text = self.validate_sequence(text)

        return text
    
    

In [19]:
norm_obj = Normalization()

In [20]:
names_df.head()

Unnamed: 0,word,syl,eng
1,ကကြိုးကြာ,က ကြိုး ကြာ,ka kyoe kyar
2,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nan
3,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nang
4,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nann
5,ကချုံနန်ဆိန်း,က ချုံ နန် ဆိန်း,ka chon nan sain


In [21]:
names_df['word'] = names_df['word'].apply(lambda x: norm_obj.normalize_data(x))
names_df['syl'] = names_df['syl'].apply(lambda x: norm_obj.normalize_data(x))

In [22]:
names_df.head()

Unnamed: 0,word,syl,eng
1,ကကြိုးကြာ,က ကြိုး ကြာ,ka kyoe kyar
2,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nan
3,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nang
4,ကချောင်လွမ်းနန်း,က ချောင် လွမ်း နန်း,ka chaung lwan nann
5,ကချုံနန်ဆိန်း,က ချုံ နန် ဆိန်း,ka chon nan sain


## struturing dictionary for burmese syllable to english words 

In [67]:
syl_dict = defaultdict(list)

for row in names_df.itertuples():
    for syl, eng in zip(row.syl.split(), row.eng.split()):
        syl_dict[syl].append(eng)

<p> Just checking some data inside of it</p>

In [68]:
Counter(syl_dict['က']).most_common()

[('ka', 1237), ('ca', 4)]

In [69]:
Counter(syl_dict['ခ']).most_common()

[('kha', 296), ('ch', 80), ('c', 5)]

To me, 'ca' for 'က' and 'c' for 'ခ' is a little bit strange. So I check what is happeneing with these values.

In [70]:
for row in names_df.itertuples():
    
    for syl_data, eng_data in zip(row.syl.split(), row.eng.split()):
        if syl_data == 'ခ' and eng_data == 'c':
            print(row.word, row.syl, row.eng)

ခရစ်စတယ်လ် ခ ရစ် စ တယ်လ် c ry s tal
ခရစ်စတယ်လ်ဘာဘီလေး ခ ရစ် စ တယ်လ် ဘာ ဘီ လေး c ry s tal bar be lay
ခရစ်စတယ်လ်ဘာဘီလေး ခ ရစ် စ တယ်လ် ဘာ ဘီ လေး c ry s tal bar bie lay
ခရစ်စတယ်လ်ဘာဘီလေး ခ ရစ် စ တယ်လ် ဘာ ဘီ လေး c ry s tal bar bi lay
စတီးလ်ခရောင်းန် စ တီးလ် ခ ရောင်းန် s teel c rown


In [71]:
for row in names_df.itertuples():
    
    for syl_data, eng_data in zip(row.syl.split(), row.eng.split()):
        if syl_data == 'က' and eng_data == 'ca':
            print(row.word, row.syl, row.eng)

ကလာရီကာ က လာ ရီ ကာ ca la re ca
ကလာရီကာ က လာ ရီ ကာ ca la ri ca
ကလိုရီယာ က လို ရီ ယာ ca lo re a
ကလိုရီယာ က လို ရီ ယာ ca lo ri a


The data seems no problem

In [72]:
names_df[names_df['word'] == "စတီးလ်ခရောင်းန်"]

Unnamed: 0,word,syl,eng
40083,စတီးလ်ခရောင်းန်,စ တီးလ် ခ ရောင်းန်,sa teel kha yaung
40084,စတီးလ်ခရောင်းန်,စ တီးလ် ခ ရောင်းန်,s teel c rown


<p> For each syllable, there are multiple values inside of it. But for rule-based work, I need to build one-to-one dictionary mapping for each burmese syllable to the most common english syllable word. </p>

<p> I mean for syllable <b>'က'</b>, there are two values <code> [('ka', 1237), ('ca', 4)]</code> inside the syllable count dictionary. In that case,  the most common value is <b>'ka'</b>. I will discard the value <b>'ca'</b> because of its lower count.</p>

In [73]:
mm2en_dict = dict()

for key, value in syl_dict.items():
    ## key will be burmese syllable and the value will be a list of english syllable words 
    eng_count = Counter(value).most_common(1)
    mm2en_dict[key] = eng_count[0][0]

In [75]:
with open("../data/mm2en.json", "w") as f:
    json.dump(mm2en_dict, f, indent=4, ensure_ascii=False)

## struturing dictionary for english word syllable to burmese syllable

In [76]:
eng_dict = defaultdict(list)

for row in names_df.itertuples():
    for syl, eng in zip(row.syl.split(), row.eng.split()):
        eng_dict[eng].append(syl)

In [77]:
eng_dict.keys()

dict_keys(['ka', 'kyoe', 'kyar', 'chaung', 'lwan', 'nan', 'nang', 'nann', 'chon', 'sain', 'sein', 'chone', 'nin', 'ze', 'zi', 'sone', 'moe', 'lin', 'linn', 'lynn', 'soon', 'tar', 'ran', 'yan', 'ter', 'bay', 'zin', 'toe', 'hti', 'na', 'oo', 'daung', 'daint', 'aung', 'deint', 'naung', 'paw', 'htoo', 'htue', 'phaik', 'yat', 'aular', 'eular', 'byar', 'kyawt', 'hmoo', 'hmooe', 'hmue', 'mhoo', 'mhooe', 'mhue', 'kyi', 'phyu', 'nway', 'nwal', 'nwe', 'paing', 'phoo', 'phu', 'phue', 'phuu', 'wai', 'phyo', 'phyoe', 'bwe', 'bwet', 'sat', 'satt', 'set', 'sett', 'htat', 'htet', 'min', 'minn', 'myint', 'mo', 'la', 'aein', 'eain', 'thae', 'maung', 'mg', 'thal', 'thel', 'thet', 'yah', 'thu', 'lay', 'yar', 'ya', 're', 'si', 'ei', 'hlawn', 'kywa', 'ri', 'yee', 'yie', 'yi', 'rat', 'swon', 'ret', 'yet', 'roy', 'gwan', 'jar', 'yoy', 'rain', 'hseng', 'nue', 'nuu', 'seng', 'rein', 'yain', 'yein', 'moon', 'mai', 'mine', 'my', 'lu', 'shee', 'pawt', 'pop', 'shie', 'ca', 'lar', 'kar', 'mar', 'lae', 'dit', 'nyein'

In [78]:
Counter(eng_dict['ka']).most_common()

[('က', 1237), ('ကု', 70)]

In [79]:
for row in names_df.itertuples():
    
    for syl_data, eng_data in zip(row.syl.split(), row.eng.split()):
        if syl_data == 'ကု' and eng_data == 'ka':
            print(row.word, row.eng)

ကုဋေ ka day
ကုဋေကုဋာစိုး ka day ka dar soe
ကုဋေကုဋာစိုး ka day ka dar soe
ကုဋေကုဋာလှိုင် ka day ka dar hlaine
ကုဋေကုဋာလှိုင် ka day ka dar hlaine
ကုဋေကုဋာလှိုင် ka day ka dar hlaing
ကုဋေကုဋာလှိုင် ka day ka dar hlaing
ကုဋေကုဋာလှိုင် ka day ka dar hline
ကုဋေကုဋာလှိုင် ka day ka dar hline
ကုဋေကောင်းဆက် ka day kaung hset
ကုဋေကောင်းဆက် ka day kaung sat
ကုဋေကောင်းဆက် ka day kaung satt
ကုဋေကောင်းဆက် ka day kaung set
ကုဋေကောင်းဆက် ka day kaung sett
ကုဋေကျော် ka day kyaw
ကုဋေကြွယ် ka day kywal
ကုဋေကြွယ် ka day kywe
ကုဋေကြွယ် ka day kywel
ကုဋေစံ ka day san
ကုဋေစိုး ka day soe
ကုဋေဌေး ka day htay
ကုဋေထူးအောင် ka day htoo aung
ကုဋေထူးအောင် ka day htue aung
ကုဋေထိုက် ka day htaik
ကုဋေထိုက် ka day htike
ကုဋေထွန်း ka day htoon
ကုဋေထွန်း ka day htun
ကုဋေထွန်း ka day tun
ကုဋေနောင် ka day naung
ကုဋေဖြိုး ka day phyo
ကုဋေဖြိုး ka day phyoe
ကုဋေဖြိုးပြည့် ka day phyoe pyae
ကုဋေဖြိုးပြည့် ka day phyoe pyah
ကုဋေဖြိုးပြည့် ka day phyoe pyai
ကုဋေဖြိုးပြည့် ka day phyo pyae
ကုဋေဖြိုးပြည့် ka day phyo pyah
ကုဋ

In [80]:
names_df[names_df['word'] == 'ကုဋေကုဋာစိုး']

Unnamed: 0,word,syl,eng
632,ကုဋေကုဋာစိုး,ကု ဋေ ကု ဋာ စိုး,ka day ka dar soe


In [81]:
## rule-based method by one to one mapping dictionary is not good.
#'khine ka day su' --> ခိုင် က ဒေ ဆု
# 'ma lar tin' --> မ ဠာ တင်

I will use the same method from mm2en_dict json file for building <b>en2mm</b> syllable dictionary.

In [83]:
en2mm_dict = dict()

for key, value in eng_dict.items():
    ## key will be burmese syllable and the value will be a list of english syllable words 
    syl_count = Counter(value).most_common(1)
    en2mm_dict[key] = syl_count[0][0]

In [87]:
en2mm_dict['kyoe']

'ကျိုး'

In [88]:
eng_dict['kyoe']

['ကြိုး', 'ကျိုး', 'ကျိုး']

In [89]:
en2mm_dict['kyoe']

'ကျိုး'

In [91]:
with open("../data/en2mm.json", "w") as f:
    json.dump(en2mm_dict, f, indent=4, ensure_ascii=False)

In [99]:
mm2en_dict['ပု']

'pa'