In [23]:
import sys
sys.path.insert(0, '..')

In [24]:
def writer(file, items):
    with open(file, 'w', encoding='utf-8') as f1:
        for item in items:
            _line = ' '.join([t for t in item if t != ' '])
            f1.write(_line + '\n')
            
def reader(file):
    with open(file, 'r', encoding='utf-8') as f1:
        for item in f1.read().split('\n'):
            yield item.split(' ')

In [25]:
import nltk
words = [w for s in reader('../data/tokenized.txt') for w in s]
dist = nltk.FreqDist(words)
words = set(words)

In [26]:
def harmonic_mean(*a):
    return len(a)/sum([1/k for k in a])

In [39]:
def split(word):
    debug = []
    max_score = 0
    best_split = None
    for i in range(1, len(word)):
        s1 = word[:i]
        s2 = word[i:]
        word_freq_s1 = dist[s1]   
        # Check base word (with ්) if s2 != ්
        if not s2.startswith('්'):
            s3 = word[:i] + '්'
            word_freq_s3 = dist[s3]        
            if word_freq_s3 > word_freq_s1:
                word_freq_s1 = word_freq_s3
                s1 = s3
        word_freq_s1 += 1
        count_words_ends_with_s2 = len([w for w in words if w.endswith(s2)]) + 1
        score = harmonic_mean(word_freq_s1, count_words_ends_with_s2)
        if score > max_score:
            max_score = score
            best_split = (s1, s2)
        debug.append([s1, s2, score])
    return {
        'debug':debug,
        'base':best_split[0],
        'morph':best_split[1],
    }

In [40]:
check = ['දකුණැස', 'ඔවුනොවුන්', 'කොකා', 'හරකෙක්', 'සුරිඳු', 'ජාතිකයා']
for w in check:
    print(split(w))

{'debug': [['ද', 'කුණැස', 1.9999949282859637], ['දක්', 'ුණැස', 1.894736842105263], ['දකු', 'ණැස', 3.5], ['දකුණ', 'ැස', 204.31726495726497], ['දකුණැ', 'ස', 1.9996031746031748]], 'base': 'දකුණ', 'morph': 'ැස'}
{'debug': [['ඔ', 'වුනොවුන්', 3.9562841530054644], ['ඔව්', 'ුනොවුන්', 5.998103266596417], ['ඔවු', 'නොවුන්', 9.333333333333334], ['ඔවුන්', 'ොවුන්', 119.89015850737617], ['ඔවුනො', 'වුන්', 1.996904024767802], ['ඔවුනොව', 'ුන්', 1.9995027349577323], ['ඔවුනොවු', 'න්', 1.999980194490107], ['ඔවුනොවුන', '්', 1.9999931003315292]], 'base': 'ඔවුන්', 'morph': 'ොවුන්'}
{'debug': [['ක්', 'ොකා', 67.98166708957118], ['කො', 'කා', 2308.0193328278997], ['කොක්', 'ා', 529.7218108055896]], 'base': 'කො', 'morph': 'කා'}
{'debug': [['හ', 'රකෙක්', 9.97974888618874], ['හර', 'කෙක්', 80.92138939670932], ['හරක්', 'ෙක්', 1987.53550295858], ['හරකෙ', 'ක්', 1.9999521725613985], ['හරකෙක', '්', 1.9999931003315292]], 'base': 'හරක්', 'morph': 'ෙක්'}
{'debug': [['ස', 'ුරිඳු', 17.97225552320603], ['සු', 'රිඳු', 78.08137044

In [41]:
split('නිමල්ගේ')

{'debug': [['න්', 'ිමල්ගේ', 21.965314605131145],
  ['නි', 'මල්ගේ', 51.68869445084043],
  ['නිම', 'ල්ගේ', 909.5848375451263],
  ['නිමල', '්ගේ', 280.832547910776],
  ['නිමල්', 'ගේ', 10372.674572011936],
  ['නිමල්ග', 'ේ', 1.999978031875748]],
 'base': 'නිමල්',
 'morph': 'ගේ'}

In [42]:
split('කමල්ගේ')

{'debug': [['ක්', 'මල්ගේ', 51.98927869060458],
  ['කම', 'ල්ගේ', 711.0870802504269],
  ['කමල', '්ගේ', 151.08795199747357],
  ['කමල්', 'ගේ', 3467.460202091828],
  ['කමල්ග', 'ේ', 1.999978031875748]],
 'base': 'කමල්',
 'morph': 'ගේ'}

In [43]:
split('කමල්ලාගේ')

{'debug': [['ක්', 'මල්ලාගේ', 9.99960343583195],
  ['කම', 'ල්ලාගේ', 120.0090566037736],
  ['කමල', '්ලාගේ', 120.0],
  ['කමල්', 'ලාගේ', 1418.5826086956522],
  ['කමල්ල', 'ාගේ', 1.9996518711923412],
  ['කමල්ලා', 'ගේ', 17.994940978077572],
  ['කමල්ලාග', 'ේ', 1.999978031875748]],
 'base': 'කමල්',
 'morph': 'ලාගේ'}

In [44]:
split('යසස්ගේ')

{'debug': [['ය', 'සස්ගේ', 21.998424550964476],
  ['යස', 'ස්ගේ', 664.4462686567165],
  ['යසස', '්ගේ', 233.80862448851119],
  ['යසස්', 'ගේ', 423.184323217278],
  ['යසස්ග', 'ේ', 1.999978031875748]],
 'base': 'යස',
 'morph': 'ස්ගේ'}

In [45]:
split('ගෙදරින්')

{'debug': [['ග', 'ෙදරින්', 51.17538461538462],
  ['ගෙ', 'දරින්', 97.81942857142857],
  ['ගෙද', 'රින්', 5.97979797979798],
  ['ගෙදර', 'ින්', 21893.4270237077],
  ['ගෙදරි', 'න්', 1.999980194490107],
  ['ගෙදරින', '්', 1.9999931003315292]],
 'base': 'ගෙදර',
 'morph': 'ින්'}

In [46]:
split('දුවමින්')

{'debug': [['ද', 'ුවමින්', 129.97857548528427],
  ['දු', 'වමින්', 473.52531645569616],
  ['දුව', 'මින්', 4782.1019730010385],
  ['දුවම', 'ින්', 5.999341720304272],
  ['දුවමි', 'න්', 13.999029587673785],
  ['දුවමින', '්', 1.9999931003315292]],
 'base': 'දුව',
 'morph': 'මින්'}

In [47]:
split('දුවනවා')

{'debug': [['ද', 'ුවනවා', 143.97371296730603],
  ['දු', 'වනවා', 466.51122994652405],
  ['දුව', 'නවා', 3861.9012077294688],
  ['දුවන', 'වා', 1576.0839916839916],
  ['දුවනව', 'ා', 73.95575807520157]],
 'base': 'දුව',
 'morph': 'නවා'}

In [48]:
split('දිව්වා')

{'debug': [['ද', 'ිව්වා', 37.99816919480072],
  ['දි', 'ව්වා', 461.71718774797654],
  ['දිව', '්වා', 1737.3458582408198],
  ['දිව්', 'වා', 27.955291970802918],
  ['දිව්ව', 'ා', 69.96041043871698]],
 'base': 'දිව',
 'morph': '්වා'}

{'debug': [['ප', 'ිරියත්', 51.925946212411674],
  ['පි', 'රියත්', 260.2767857142857],
  ['පිර', 'ියත්', 113.12320916905445],
  ['පිරි', 'යත්', 3590.9513851167844],
  ['පිරිය', 'ත්', 255.496589442635],
  ['පිරියත', '්', 3.999972401421327]],
 'base': 'පිරි',
 'morph': 'යත්'}

In [50]:
split('දැනුදු')

{'debug': [['ද', 'ැනුදු', 3.999979713195299],
  ['දැ', 'නුදු', 152.63627546071774],
  ['දැන්', 'ුදු', 1820.276399532407],
  ['දැනු', 'දු', 15.942159963849978],
  ['දැනුද', 'ු', 7.999215840031367]],
 'base': 'දැන්',
 'morph': 'ුදු'}

In [51]:
split('මුනිතුමා')

{'debug': [['ම', 'ුනිතුමා', 3.999919348334543],
  ['මු', 'නිතුමා', 11.97619834710744],
  ['මුන්', 'ිතුමා', 288.40793201133147],
  ['මුනි', 'තුමා', 234.52506596306068],
  ['මුනිත්', 'ුමා', 5.974137931034482],
  ['මුනිතු', 'මා', 1.9993145990404386],
  ['මුනිතුම', 'ා', 1.9999676642253157]],
 'base': 'මුන්',
 'morph': 'ිතුමා'}