## Edit distance

1. Edit distance (Levenshtein distance)
1. Token edit distance
1. Jamo edit distance
1. Token - Jamo edit distance

기본적인 Levenshtein distance (Edit distance)를 먼저 만든 뒤, 하나씩 변형을 해보겠습니다. 

코드는 [이 주소][lev]를 참고하여 가져왔습니다. 두 str s1, s2에 대하여 s1의 길이가 s2보다 길거나 같다고 가정합니다. 그래서 len(s1) < len(s2)를 확인하여, s2의 길이가 더 길 경우에는 반대로 입력합니다. 

s1에서 s2로 바뀌거나, s2에서 s1으로 바뀌는 비용은 같기 때문입니다. 

[lev]: https://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Python

In [10]:
def levenshtein(s1, s2):
    if len(s1) < len(s2):
        return levenshtein(s2, s1)

    # len(s1) >= len(s2)
    if len(s2) == 0:
        return len(s1)

    previous_row = range(len(s2) + 1)
    for i, c1 in enumerate(s1):
        current_row = [i + 1]
        print(previous_row, current_row)
        for j, c2 in enumerate(s2):
            insertions = previous_row[j + 1] + 1 # j+1 instead of j since previous_row and current_row are one character longer
            deletions = current_row[j] + 1       # than s2
            substitutions = previous_row[j] + (c1 != c2)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row
    
    return previous_row[-1]

### test

In [11]:
test_pairs = [
    ('매직 마법 마술사', '메직 마법 마술사'),
    ('매직 마법 마술사', '메직 마법 마술사'),
    ('매직 마법 마술사', '메직 마벙 마술사'), 
    ('매직 마법 마술사', '마술사 매직 마법')
]

for pair in test_pairs:
    print(pair, ':', levenshtein(pair[0], pair[1]))

range(0, 10) [1]
[1, 1, 2, 3, 4, 5, 6, 7, 8, 9] [2]
[2, 2, 1, 2, 3, 4, 5, 6, 7, 8] [3]
[3, 3, 2, 1, 2, 3, 4, 5, 6, 7] [4]
[4, 4, 3, 2, 1, 2, 3, 4, 5, 6] [5]
[5, 5, 4, 3, 2, 1, 2, 3, 4, 5] [6]
[6, 6, 5, 4, 3, 2, 1, 2, 3, 4] [7]
[7, 7, 6, 5, 4, 3, 2, 1, 2, 3] [8]
[8, 8, 7, 6, 5, 4, 3, 2, 1, 2] [9]
('매직 마법 마술사', '메직 마법 마술사') : 1
range(0, 10) [1]
[1, 1, 2, 3, 4, 5, 6, 7, 8, 9] [2]
[2, 2, 1, 2, 3, 4, 5, 6, 7, 8] [3]
[3, 3, 2, 1, 2, 3, 4, 5, 6, 7] [4]
[4, 4, 3, 2, 1, 2, 3, 4, 5, 6] [5]
[5, 5, 4, 3, 2, 1, 2, 3, 4, 5] [6]
[6, 6, 5, 4, 3, 2, 1, 2, 3, 4] [7]
[7, 7, 6, 5, 4, 3, 2, 1, 2, 3] [8]
[8, 8, 7, 6, 5, 4, 3, 2, 1, 2] [9]
('매직 마법 마술사', '메직 마법 마술사') : 1
range(0, 10) [1]
[1, 1, 2, 3, 4, 5, 6, 7, 8, 9] [2]
[2, 2, 1, 2, 3, 4, 5, 6, 7, 8] [3]
[3, 3, 2, 1, 2, 3, 4, 5, 6, 7] [4]
[4, 4, 3, 2, 1, 2, 3, 4, 5, 6] [5]
[5, 5, 4, 3, 2, 2, 3, 4, 5, 6] [6]
[6, 6, 5, 4, 3, 3, 2, 3, 4, 5] [7]
[7, 7, 6, 5, 4, 4, 3, 2, 3, 4] [8]
[8, 8, 7, 6, 5, 5, 4, 3, 2, 3] [9]
('매직 마법 마술사', '메직 마벙 마술사') : 2
range(0, 10) [1]

In [7]:
_test = [4 + 1]

In [9]:
type(_test)

list