## Edit distance

1. Edit distance (Levenshtein distance)
1. Token edit distance
1. Jamo edit distance
1. Token - Jamo edit distance

기본적인 Levenshtein distance (Edit distance)를 먼저 만든 뒤, 하나씩 변형을 해보겠습니다. 

코드는 [이 주소][lev]를 참고하여 가져왔습니다. 두 str s1, s2에 대하여 s1의 길이가 s2보다 길거나 같다고 가정합니다. 그래서 len(s1) < len(s2)를 확인하여, s2의 길이가 더 길 경우에는 반대로 입력합니다. 

s1에서 s2로 바뀌거나, s2에서 s1으로 바뀌는 비용은 같기 때문입니다. 

[lev]: https://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Python

In [3]:
def levenshtein(s1, s2):
    if len(s1) < len(s2):
        return levenshtein(s2, s1)

    # len(s1) >= len(s2)
    if len(s2) == 0:
        return len(s1)

    previous_row = range(len(s2) + 1)
    for i, c1 in enumerate(s1):
        current_row = [i + 1]
        for j, c2 in enumerate(s2):
            insertions = previous_row[j + 1] + 1 # j+1 instead of j since previous_row and current_row are one character longer
            deletions = current_row[j] + 1       # than s2
            substitutions = previous_row[j] + (c1 != c2)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row
    
    return previous_row[-1]

위의 코드는 s1, s2에 대하여 enumerate를 통하여 iteration을 돌면서 각 unit들이 같은지 확인합니다. 즉  s1, s2는 iterable 하기만 하면 됩니다. 글자 단위로 넣으면 띄어쓰기도 글자로 인식한 뒤, 각 위치의 글자들이 같은지 확인하며 Edit distance를 계산합니다. 

In [4]:
test_pairs = [
    ('매직 마법 마술사', '메직 마법 마술사'),
    ('매직 마법 마술사', '메직 마법 마술사'),
    ('매직 마법 마술사', '메직 마벙 마술사'), 
    ('매직 마법 마술사', '마술사 매직 마법')
]

for pair in test_pairs:
    print(pair, ':', levenshtein(pair[0], pair[1]))

('매직 마법 마술사', '메직 마법 마술사') : 1
('매직 마법 마술사', '메직 마법 마술사') : 1
('매직 마법 마술사', '메직 마벙 마술사') : 2
('매직 마법 마술사', '마술사 매직 마법') : 7


Unit을 글자가 아니라 단어로 넣을 수도 있습니다. 

In [5]:
for pair in test_pairs:
    print(pair, ':', levenshtein(pair[0].split(), pair[1].split()))

('매직 마법 마술사', '메직 마법 마술사') : 1
('매직 마법 마술사', '메직 마법 마술사') : 1
('매직 마법 마술사', '메직 마벙 마술사') : 2
('매직 마법 마술사', '마술사 매직 마법') : 2


substitutions의 비용을 다르게 줄 수도 있습니다. c1에서 c2로 바뀌는 비용을 (c1, c2): float로 dict에 넣어둡니다.

In [6]:
def levenshtein(s1, s2, cost=None):
    if len(s1) < len(s2):
        return levenshtein(s2, s1)

    # len(s1) >= len(s2)
    if len(s2) == 0:
        return len(s1)
    
    if cost == None:
        cost = {}
    
    def get_cost(c1, c2, cost):
        return 0 if (c1 == c2) else cost.get((c1, c2), 1)

    previous_row = range(len(s2) + 1)
    for i, c1 in enumerate(s1):
        current_row = [i + 1]
        for j, c2 in enumerate(s2):
            insertions = previous_row[j + 1] + 1 # j+1 instead of j since previous_row and current_row are one character longer
            deletions = current_row[j] + 1       # than s2
            substitutions = previous_row[j] + get_cost(c1, c2, cost)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row
    
    return previous_row[-1]


print('with out cost,        서비스 --> 써비스: %.2f' % levenshtein('서비스', '써비스'))
print('with predefined cost, 서비스 --> 써비스: %.2f' % levenshtein('서비스', '써비스', {('서', '써'): 0.01}))

with out cost,        서비스 --> 써비스: 1.00
with predefined cost, 서비스 --> 써비스: 0.01


띄어쓰기가 있을 경우에는 어절 단위로, 없을 경우에는 글자 단위로 Edit distance를 계산하고, 어절 간의 거리를 임의의 함수로 정의하고 싶다면 아래처럼 base_distance를 argument로 받는 token_levenshtein 함수를 만들 수 있습니다. 

Python은 함수의 argument로 함수도 넣을 수 있습니다. 

In [12]:
def token_levenshtein(s1, s2, base_distance=levenshtein, debug=False):
    t1 = set(s1.split())
    t2 = set(s2.split())
    
    cost = {(t1_i, t2_j): base_distance(t1_i, t2_j) for t1_i in t1 for t2_j in t2}
    
    if debug: 
        print(cost)
        
    return levenshtein(s1.split(), s2.split(), cost)
    
    
for pair in test_pairs:
    print(pair, ':', '%d --> %d\n' % (levenshtein(pair[0],pair[1]), 
                                    token_levenshtein(pair[0], pair[1])))

('매직 마법 마술사', '메직 마법 마술사') : 1 --> 1

('매직 마법 마술사', '메직 마법 마술사') : 1 --> 1

('매직 마법 마술사', '메직 마벙 마술사') : 2 --> 2

('매직 마법 마술사', '마술사 매직 마법') : 7 --> 2



한글을 받아서 초/중/종성을 나눈 뒤, 한 글자를 세 글자로 이뤄진 리스트를 return 하는 함수를 만들겠습니다. 

In [15]:
class Jamo:
    
    kor_begin = 44032
    kor_end = 55203
    chosung_base = 588
    jungsung_base = 28

    chosung_list = [ 'ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 
            'ㅅ', 'ㅆ', 'ㅇ' , 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']

    jungsung_list = ['ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 
            'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 'ㅙ', 'ㅚ', 
            'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 
            'ㅡ', 'ㅢ', 'ㅣ']

    jongsung_list = [
        ' ', 'ㄱ', 'ㄲ', 'ㄳ', 'ㄴ', 'ㄵ', 'ㄶ', 'ㄷ',
            'ㄹ', 'ㄺ', 'ㄻ', 'ㄼ', 'ㄽ', 'ㄾ', 'ㄿ', 'ㅀ', 
            'ㅁ', 'ㅂ', 'ㅄ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅊ', 
            'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']

    jaum_list = ['ㄱ', 'ㄲ', 'ㄳ', 'ㄴ', 'ㄵ', 'ㄶ', 'ㄷ', 'ㄸ', 'ㄹ', 
                  'ㄺ', 'ㄻ', 'ㄼ', 'ㄽ', 'ㄾ', 'ㄿ', 'ㅀ', 'ㅁ', 'ㅂ', 
                  'ㅃ', 'ㅄ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']

    moum_list = ['ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 
                  'ㅙ', 'ㅚ', 'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 'ㅡ', 'ㅢ', 'ㅣ']
        
    def jamo(self, c):
        i = ord(c)
        if not (self.kor_begin <= i <= self.kor_end):
            return [c]
        
        i = i - self.kor_begin
        cho  = i // self.chosung_base
        jung = ( i - cho * self.chosung_base ) // self.jungsung_base 
        jong = ( i - cho * self.chosung_base - jung * self.jungsung_base )

        return [self.chosung_list[cho], self.jungsung_list[jung], self.jongsung_list[jong]]
    
jamo_module = Jamo()

def jamo(c):
    return jamo_module.jamo(c)

jamo('감')

['ㄱ', 'ㅏ', 'ㅁ']

글자의 substitution 비용을 초/중/종성을 분리한 뒤의 levenshtein 거리의 1/3을 곱함으로써, 초/중/종성 차이를 모두 고려하는 levenshtein distance를 계산할 수 있습니다. 

In [16]:
def jamo_levenshtein(s1, s2):
    if len(s1) < len(s2):
        return levenshtein(s2, s1)

    # len(s1) >= len(s2)
    if len(s2) == 0:
        return len(s1)
    
    def get_jamo_cost(c1, c2):
        return 0 if (c1 == c2) else levenshtein(jamo(c1), jamo(c2))/3

    previous_row = range(len(s2) + 1)
    for i, c1 in enumerate(s1):
        current_row = [i + 1]
        for j, c2 in enumerate(s2):
            insertions = previous_row[j + 1] + 1 # j+1 instead of j since previous_row and current_row are one character longer
            deletions = current_row[j] + 1       # than s2
            substitutions = previous_row[j] + get_jamo_cost(c1, c2)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row
    
    return previous_row[-1]

jamo_levenshtein('가각', '감이')

1.3333333333333333

In [17]:
print('%sBASIC --> TOKEN --> JAMO TOKEN' % (' '*35))

for pair in test_pairs:
    print(pair, ':', '%d --> %d --> %.3f' % (levenshtein(pair[0],pair[1]), 
                                             token_levenshtein(pair[0], pair[1]),
                                             token_levenshtein(pair[0], pair[1], base_distance=jamo_levenshtein))
         )

                                   BASIC --> TOKEN --> JAMO TOKEN
('매직 마법 마술사', '메직 마법 마술사') : 1 --> 1 --> 0.333
('매직 마법 마술사', '메직 마법 마술사') : 1 --> 1 --> 0.333
('매직 마법 마술사', '메직 마벙 마술사') : 2 --> 2 --> 0.667
('매직 마법 마술사', '마술사 매직 마법') : 7 --> 2 --> 2.000


## Jaccard distance

Jaccard distance는 unit들에 대하여 set의 1 - (intersection / union) 값입니다. 

주어진 단어 s1, s2에 대하여 unit을 만드는 함수를 lambda를 통하여 정의하였습니다. 

    s1_set = unify(s1)
    
이 부분을 통하여 주어진 s1, s2는 unit set으로 바뀌게 되며, str을 set 처리하면 글자의 set이 출력됩니다. set은 iterable한 대상이 입력되면 iteration을 돌면서 고유한 값을 저장하기 때문입니다. 

In [9]:
set('abcc')

{'a', 'b', 'c'}

In [10]:
set('a')

{'a'}

In [24]:
def jaccard_distance(s1, s2, unitfy=lambda x:set(x), debug=False):
    if (not s1) or (not s2):
        return 1
    
    s1_set = unitfy(s1)
    s2_set = unitfy(s2)
    if debug:
        print(s1_set)
        print(s2_set)
    return 1 - len(s1_set.intersection(s2_set)) / len(s1_set.union(s2_set))

print(jaccard_distance('이것도요', '저것도요오', debug=True), '\n')
print(jaccard_distance('이것도요', '저것도요오', debug=True, 
                       unitfy=lambda x:set([x[i:i+2] for i in range(len(x)-1)])))

{'도', '것', '이', '요'}
{'도', '저', '것', '요', '오'}
0.5 

{'것도', '도요', '이것'}
{'것도', '저것', '도요', '요오'}
0.6


unify 함수에 복잡한 함수를 넣을 때에는 lambda와 helper 함수를 함께 써도 좋습니다. 

char_ngram은 min_n부터 max_n길이의 character ngram을 추출하는 함수입니다. 

In [26]:
def char_ngram(x, min_n=1, max_n=3):
    ngrams = []
    max_n = min(max_n, len(x))
    for n in range(min_n, max_n+1):
        for b in range(len(x) - n + 1):
            ngrams.append(x[b:b+n])
    return ngrams

print(jaccard_distance('이것도요', '저것도요오', debug=True, 
                       unitfy=lambda x:set(char_ngram(x, min_n=2))))

{'것도', '도요', '이것도', '것도요', '이것'}
{'도요오', '도요', '요오', '저것', '저것도', '것도', '것도요'}
0.6666666666666667


## Cosine

Cosine distance는 Jaccard distance와 다르게, 한 unit이 몇 번 등장하였는지의 횟수 정보를 이용합니다. 이를 위해서 str s1, s2의 character들이 몇 번 등장하였는지 카운팅을 해야 합니다. iterable 한 객체의 요소들의 카운팅은 Counter를 이용하여 쉽게 할 수 있습니다. 

In [22]:
from collections import Counter

Counter('abc')

Counter({'a': 1, 'b': 1, 'c': 1})

In [23]:
import numpy as np

def cosine_distance(s1, s2, unitfy=lambda x:Counter(x), debug=False):
    """distance = 1 - cosine similarity; [0, 2]
    """
    
    if (not s1) or (not s2):
        return 2
    
    d1 = unitfy(s1)
    d2 = unitfy(s2)
    
    prod = 0
    for c1, f in d1.items():
        prod += (f * d2.get(c1, 0))
        
    if debug:
        print('d1: ', d1)
        print('d2: ', d2)
    
    return 1 - ( prod / np.sqrt( (sum([f**2 for f in d1.values()]) * sum([f**2 for f in d2.values()])) ) )

print(cosine_distance('이것도요', '저것도요오', debug=True), '\n')
print(cosine_distance('이것도요', '저것도요오', debug=True, 
                      unitfy=lambda x:Counter(char_ngram(x, min_n=1, max_n=3))))

d1:  Counter({'도': 1, '것': 1, '이': 1, '요': 1})
d2:  Counter({'요': 1, '저': 1, '도': 1, '것': 1, '오': 1})
0.32917960675 

d1:  Counter({'도요': 1, '요': 1, '것도': 1, '이': 1, '것': 1, '것도요': 1, '도': 1, '이것': 1, '이것도': 1})
d2:  Counter({'저': 1, '도요오': 1, '도요': 1, '것': 1, '도': 1, '요오': 1, '저것': 1, '요': 1, '저것도': 1, '것도': 1, '것도요': 1, '오': 1})
0.42264973081
