# edit distance

- https://lovit.github.io/nlp/2018/08/28/levenshtein_hangle/

단어, 혹은 문장과 같은 string 간의 형태적 유사성을 정의하는 방법을 string distance 라 합니다. Edit distance 라는 별명을 지닌 Levenshtein distance 는 대표적인 string distance metric 중 하나입니다. 그러나 Levenshtein distance 는 한국어처럼 각 글자가 요소들 (초/중/종성)로 이뤄진 언어를 고려한 metric 이 아닙니다.

가장 적은 비용이 드는 수정 방법을 찾는 것이 Levenshtein distance 의 목표

In [2]:
def levenshtein(s1, s2, debug=False):
    if len(s1) < len(s2):
        return levenshtein(s2, s1, debug)
    
    if len(s2) ==0:
        return len(s1)
    
    previous_row = range(len(s2) +1)
    for i, c1 in enumerate(s1):
        current_row = [i+1]
        for j, c2 in enumerate(s2) :
            insertions = previous_row[j+1]+1
            deletions = current_row[j]+1
            substitutions = previous_row[j] + (c1 != c2)
            current_row.append(min(insertions, deletions, substitutions))

        if debug:
            print(current_row[1:])

        previous_row = current_row
    
    return previous_row[-1]

In [3]:
s1 = '꿈을꾸는아이'
s2 = '아이오아이'
levenshtein(s1, s2, debug=True)

[1, 2, 3, 4, 5]
[2, 2, 3, 4, 5]
[3, 3, 3, 4, 5]
[4, 4, 4, 4, 5]
[4, 5, 5, 4, 5]
[5, 4, 5, 5, 4]


4

In [4]:
s1 = '아이돌'
s2 = '아이오아이'
levenshtein(s1, s2, debug=True)

[0, 1, 2]
[1, 0, 1]
[2, 1, 1]
[3, 2, 2]
[4, 3, 3]


3

In [5]:
s1 = '꿈을 꾸는 아이'
s2 = '아이는 꿈을 꿔요'
levenshtein(s1, s2, debug=True)

[1, 2, 3, 4, 5, 6, 6, 7]
[2, 2, 3, 4, 5, 6, 7, 6]
[3, 3, 3, 4, 4, 5, 6, 7]
[4, 4, 3, 4, 5, 4, 5, 6]
[4, 5, 4, 4, 5, 5, 5, 6]
[5, 4, 5, 5, 5, 6, 6, 6]
[6, 5, 4, 5, 6, 5, 6, 7]
[7, 6, 5, 5, 6, 6, 6, 7]
[8, 7, 6, 6, 6, 7, 7, 7]


7

In [6]:
# 어절 단위
s1 = '꿈을 꾸는 아이'
s2 = '아이는 꿈을 꿔요'
levenshtein(s1.split(), s2.split(), debug=True)

[1, 1, 2]
[2, 2, 2]
[3, 3, 3]


3