In [24]:
import unicodedata
import numpy as np
import pandas as pd

In [2]:
def is_valid_unicode(character):
    try:
        unicodedata.name(character)
        return True
    except ValueError:
        return False

# All Kannada Letters

In [3]:
kannada_letters = [chr(codepoint) for codepoint in range(0x0C80, 0x0CFF + 1) if is_valid_unicode(chr(codepoint))]
print(kannada_letters)

['ಀ', 'ಁ', 'ಂ', 'ಃ', '಄', 'ಅ', 'ಆ', 'ಇ', 'ಈ', 'ಉ', 'ಊ', 'ಋ', 'ಌ', 'ಎ', 'ಏ', 'ಐ', 'ಒ', 'ಓ', 'ಔ', 'ಕ', 'ಖ', 'ಗ', 'ಘ', 'ಙ', 'ಚ', 'ಛ', 'ಜ', 'ಝ', 'ಞ', 'ಟ', 'ಠ', 'ಡ', 'ಢ', 'ಣ', 'ತ', 'ಥ', 'ದ', 'ಧ', 'ನ', 'ಪ', 'ಫ', 'ಬ', 'ಭ', 'ಮ', 'ಯ', 'ರ', 'ಱ', 'ಲ', 'ಳ', 'ವ', 'ಶ', 'ಷ', 'ಸ', 'ಹ', '಼', 'ಽ', 'ಾ', 'ಿ', 'ೀ', 'ು', 'ೂ', 'ೃ', 'ೄ', 'ೆ', 'ೇ', 'ೈ', 'ೊ', 'ೋ', 'ೌ', '್', 'ೕ', 'ೖ', 'ೝ', 'ೞ', 'ೠ', 'ೡ', 'ೢ', 'ೣ', '೦', '೧', '೨', '೩', '೪', '೫', '೬', '೭', '೮', '೯', 'ೱ', 'ೲ']


In [4]:
for codepoint in kannada_letters:
    print(codepoint, unicodedata.name(codepoint))

ಀ KANNADA SIGN SPACING CANDRABINDU
ಁ KANNADA SIGN CANDRABINDU
ಂ KANNADA SIGN ANUSVARA
ಃ KANNADA SIGN VISARGA
಄ KANNADA SIGN SIDDHAM
ಅ KANNADA LETTER A
ಆ KANNADA LETTER AA
ಇ KANNADA LETTER I
ಈ KANNADA LETTER II
ಉ KANNADA LETTER U
ಊ KANNADA LETTER UU
ಋ KANNADA LETTER VOCALIC R
ಌ KANNADA LETTER VOCALIC L
ಎ KANNADA LETTER E
ಏ KANNADA LETTER EE
ಐ KANNADA LETTER AI
ಒ KANNADA LETTER O
ಓ KANNADA LETTER OO
ಔ KANNADA LETTER AU
ಕ KANNADA LETTER KA
ಖ KANNADA LETTER KHA
ಗ KANNADA LETTER GA
ಘ KANNADA LETTER GHA
ಙ KANNADA LETTER NGA
ಚ KANNADA LETTER CA
ಛ KANNADA LETTER CHA
ಜ KANNADA LETTER JA
ಝ KANNADA LETTER JHA
ಞ KANNADA LETTER NYA
ಟ KANNADA LETTER TTA
ಠ KANNADA LETTER TTHA
ಡ KANNADA LETTER DDA
ಢ KANNADA LETTER DDHA
ಣ KANNADA LETTER NNA
ತ KANNADA LETTER TA
ಥ KANNADA LETTER THA
ದ KANNADA LETTER DA
ಧ KANNADA LETTER DHA
ನ KANNADA LETTER NA
ಪ KANNADA LETTER PA
ಫ KANNADA LETTER PHA
ಬ KANNADA LETTER BA
ಭ KANNADA LETTER BHA
ಮ KANNADA LETTER MA
ಯ KANNADA LETTER YA
ರ KANNADA LETTER RA
ಱ KANNADA LETTER RRA
ಲ

# Random combinations of letters

# Unicode Level MED

In [112]:
def min_edit_distance(s: str, t: str) -> int:
    n = len(s)
    m = len(t)

    prev = [j for j in range(m+1)]
    curr = [0] * (m+1)
    
    table = []
    row_headings    = ['-'] + [st for st in s]
    column_headings = ['-'] + [st for st in t]

    for i in range(1, n+1):
        
        curr[0] = i
        for j in range(1, m+1):
            if s[i-1] == t[j-1]:
                curr[j] = prev[j-1]
            else:
                mn = min(1 + prev[j], 1 + curr[j-1])
                curr[j] = min(mn, 2 + prev[j-1])
        
        table.append(prev)
        prev = curr.copy()
    
    table.append(curr)

    return prev[m], (table, row_headings, column_headings)

In [113]:
words = [
    'ನಾನು',
    'ನನ್ನಾ',
    'ನಿನಗೆ',
    'ನಿನಗಾ',
    'ನೀನಾ',
    'ನೀನ್ನಾ',
]

In [114]:
print(words)
for i in words:
    for j in words:
        print(i, j ,min_edit_distance(i, j)[0])

['ನಾನು', 'ನನ್ನಾ', 'ನಿನಗೆ', 'ನಿನಗಾ', 'ನೀನಾ', 'ನೀನ್ನಾ']
ನಾನು ನಾನು 0
ನಾನು ನನ್ನಾ 5
ನಾನು ನಿನಗೆ 5
ನಾನು ನಿನಗಾ 5
ನಾನು ನೀನಾ 4
ನಾನು ನೀನ್ನಾ 6
ನನ್ನಾ ನಾನು 5
ನನ್ನಾ ನನ್ನಾ 0
ನನ್ನಾ ನಿನಗೆ 6
ನನ್ನಾ ನಿನಗಾ 4
ನನ್ನಾ ನೀನಾ 3
ನನ್ನಾ ನೀನ್ನಾ 1
ನಿನಗೆ ನಾನು 5
ನಿನಗೆ ನನ್ನಾ 6
ನಿನಗೆ ನಿನಗೆ 0
ನಿನಗೆ ನಿನಗಾ 2
ನಿನಗೆ ನೀನಾ 5
ನಿನಗೆ ನೀನ್ನಾ 7
ನಿನಗಾ ನಾನು 5
ನಿನಗಾ ನನ್ನಾ 4
ನಿನಗಾ ನಿನಗೆ 2
ನಿನಗಾ ನಿನಗಾ 0
ನಿನಗಾ ನೀನಾ 3
ನಿನಗಾ ನೀನ್ನಾ 5
ನೀನಾ ನಾನು 4
ನೀನಾ ನನ್ನಾ 3
ನೀನಾ ನಿನಗೆ 5
ನೀನಾ ನಿನಗಾ 3
ನೀನಾ ನೀನಾ 0
ನೀನಾ ನೀನ್ನಾ 2
ನೀನ್ನಾ ನಾನು 6
ನೀನ್ನಾ ನನ್ನಾ 1
ನೀನ್ನಾ ನಿನಗೆ 7
ನೀನ್ನಾ ನಿನಗಾ 5
ನೀನ್ನಾ ನೀನಾ 2
ನೀನ್ನಾ ನೀನ್ನಾ 0


In [115]:
first = 'ಕನ್ನಡ'
second = 'ಕನ್ನಡಕ'

In [178]:
FIRST_WORD = "drats"
SECOND_WORD = "maths"
FIRST_WORD, SECOND_WORD

('drats', 'maths')

In [179]:
MED, t = min_edit_distance(FIRST_WORD, SECOND_WORD)
MED

4

In [180]:
df = pd.DataFrame(t[0], index=t[1], columns=t[2])
df

Unnamed: 0,-,m,a,t,h,s
-,0,1,2,3,4,5
d,1,2,3,4,5,6
r,2,3,4,5,6,7
a,3,4,3,4,5,6
t,4,5,4,3,4,5
s,5,6,5,4,5,4


### One Optimal Paths

In [181]:
def one_path(table):
    path = []

    i, j = len(table)-1, len(table[0])-1
    path.append((i, j))

    while(i!=0 and j!=0):
        values = [
                    table[i-1][j-1],
                    table[i-1][j],
                    table[i][j-1]
                ]
        min_index = values.index(min(values))


        if(min_index == 0):
            i, j = i-1, j-1
        elif(min_index == 1):
            i, j = i-1, j
        else:
            i, j = i, j-1

        path.append((i, j))
#     return path
    return list(reversed(path+ [(0,0)]))

In [182]:
def yield_characters(string):
    for i in string:
        yield i

In [183]:
def alignment(string, path):
    print(path, string)
    iterator = yield_characters(string)
        
    align = []
    
    for i in range(len(path)-1):
        if(path[i]==path[i+1]):
            align.append('*')
        else:
            align.append(next(iterator))
            print(align)

    return align

In [184]:
print(t[0])

[[0, 1, 2, 3, 4, 5], [1, 2, 3, 4, 5, 6], [2, 3, 4, 5, 6, 7], [3, 4, 3, 4, 5, 6], [4, 5, 4, 3, 4, 5], [5, 6, 5, 4, 5, 4]]


In [185]:
path = one_path(t[0]) 

first_string_path, second_string_path = zip(*path)
print(first_string_path)

first_align = alignment(FIRST_WORD, first_string_path)
second_align = alignment(SECOND_WORD, second_string_path)

df = pd.DataFrame([first_align, second_align])
df

(0, 1, 2, 3, 4, 4, 5)
(0, 1, 2, 3, 4, 4, 5) drats
['d']
['d', 'r']
['d', 'r', 'a']
['d', 'r', 'a', 't']
['d', 'r', 'a', 't', '*', 's']
(0, 0, 1, 2, 3, 4, 5) maths
['*', 'm']
['*', 'm', 'a']
['*', 'm', 'a', 't']
['*', 'm', 'a', 't', 'h']
['*', 'm', 'a', 't', 'h', 's']


Unnamed: 0,0,1,2,3,4,5
0,d,r,a,t,*,s
1,*,m,a,t,h,s


### All Optimal Paths

# Character Level MED

In [14]:
dheerga_swaras = \
    list(range(3201, 3201+3)) + \
    [3260] + \
    list(range(3262, 3277)) + \
    list(range(3278, 3287)) + \
    list(range(3298, 3300))

virama = 3277

In [29]:
pprint([(ch, chr(ch)) for ch in dheerga_swaras if is_valid_unicode(chr(ch))])

[(3201, 'ಁ'),
 (3202, 'ಂ'),
 (3203, 'ಃ'),
 (3260, '಼'),
 (3262, 'ಾ'),
 (3263, 'ಿ'),
 (3264, 'ೀ'),
 (3265, 'ು'),
 (3266, 'ೂ'),
 (3267, 'ೃ'),
 (3268, 'ೄ'),
 (3270, 'ೆ'),
 (3271, 'ೇ'),
 (3272, 'ೈ'),
 (3274, 'ೊ'),
 (3275, 'ೋ'),
 (3276, 'ೌ'),
 (3285, 'ೕ'),
 (3286, 'ೖ'),
 (3298, 'ೢ'),
 (3299, 'ೣ')]
