# 문장의 유사도 분석 1

* 편집 거리 알고리즘 (Lvenshtein distance/Edit distance)
    * 텍스트 유사도 분석 방법
    * 단어-A를 단어-B로 바꾸기 위한 문자열의 수정 횟수를 두 단어의 거리로 규정
    * 참고 : https://en.wikipedia.org/wiki/Levenshtein_distance 


In [3]:
# 레벤슈타인 거리 구하기
def calc_distance(a, b):
    ''' 레벤슈타인 거리 계산 '''
    if a == b: return 0  # 두 parameter가 동일 한 경우 0 return
    # a, b 글자 길이
    a_len = len(a)
    b_len = len(b)
#     print(a)
#     print(b)
    # a 또는 b가 공백인 경우 레벤슈타인 거리
    if a == "" : return b_len
    if b == "" : return a_len
    
    
    # 2차원 표 (a_len + 1, b_len + 1) 
    matrix = [[] for i in range(a_len + 1)]     # matrix is a two-dimensional data structure
#     print(matrix)
    for i in range(a_len + 1): # 0으로 초기화
        matrix[i] = [0 for j in range(b_len+1)]
    # 0일 때 초깃값 설정
#     print(matrix)
    for i in range(a_len+1):
        matrix[i][0] = i
    for j in range(b_len+1):
        matrix[0][j] = j
    # 표 채우기
    for i in range(1, a_len+1):
        ac = a[i-1]
        for j in range(1, b_len+1):
            bc = b[j-1]
            cost = 0 if (ac==bc) else 1
            matrix[i][j] = min([
                matrix[i-1][j]+1,       # 문자 삽입
                matrix[i][j-1]+1,       # 문자 제거
                matrix[i-1][j-1]+cost   # 문사 변경
            ])
    # example
    # i.j   M   가   나   다   라
    # N     0   1   2    3   4
    # 가    1   0   1    2   3
    # 나    2   1   1    2   3
    # 다    3   2   2    2   3
    # 라    4   3   3    3   2
    print(a_len,b_len)
    return matrix[a_len][b_len]

In [4]:
str1 = '가나다라'
str2 = '가마바라'

rStr = calc_distance(str1, str2)
print(rStr)

4 4
2


In [30]:
samples = ["신촌역","신천군","신천역","신발","마곡역"]
base = samples[0]
r = sorted(samples, key = lambda n: calc_distance(base, n))
print(r)
for n in r:
    print(calc_distance(base, n), n)

['신촌역', '신천역', '신천군', '신발', '마곡역']
0 신촌역
1 신천역
2 신천군
2 신발
2 마곡역


# 문장의 유사도 분석 2

* N-gram

In [31]:
def ngram(s, num):
    res = []
    slen = len(s) - num + 1
    for i in range(slen):
        ss = s[i:i+num]
        res.append(ss)
    return res

In [33]:
def diff_ngram(sa, sb, num):
    a = ngram(sa, num)
    b = ngram(sb, num)
    r = []
    cnt = 0
    for i in a:
        for j in b:
            if i == j:
                cnt += 1
                r.append(i)
    return cnt / len(a), r
    

In [35]:
a = "오늘 강남에서 맛있는 스파게티를 먹었다"
b = "강남에서 먹었던 오늘의 스파게티는 맛있었다"

#2-gram
r2, word2 = diff_ngram(a, b, 2)
print("2-gram:", r2, word2)
#3-gram
r3, word3 = diff_ngram(a, b, 3)
print("3-gram:", r3, word3)

2-gram: 0.75 ['오늘', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '는 ', ' 스', '스파', '파게', '게티', ' 먹', '먹었', '었다']
3-gram: 0.42105263157894735 ['강남에', '남에서', '에서 ', ' 맛있', ' 스파', '스파게', '파게티', ' 먹었']
