##### 레벤슈타인 거리 계산과 n-gram 

In [None]:
### 레벤슈타인 거리 계산과 n-gram을 사용하여 단어 또는 문장의 유사도를 분석하기 

# 레벤슈타인 거리(Lvenshtein distance) : 두 개의 문자열이 어느 정도 다른지를 나타내는 것
# = 특정 값을 대상 값으로 변경할 때 필요한 조작 횟수를 말함

In [3]:
# 레벤슈타인 거리 구하기 함수
def calc_distance(a,b) :
    '''레벤슈타인 거리 계산하기 (두 값 사이의 거리) '''
    if a == b : return 0
    a_len = len(a)
    b_len = len(b)
    if a == '' : return b_len
    if b == '' : return a_len
    
    # 2차원 표 ( 행 : a_len + 1, 열 : b_len + 1) 준비하기
    matrix = [[] for i in range(a_len+1)]   # a의 글자수만큼의 빈 리스트 생성
    for i in range(a_len + 1) :             # 0으로 초기화
        matrix[i] = [0 for j in range(b_len + 1)]
    
    # 0일 때 초깃값 설정
    for i in range(a_len + 1) :
        matrix[i][0] = i
    for j in range(b_len + 1) :
        matrix[0][j] = j
        
    # 표 채우기
    for i in range(1, a_len + 1) :
        ac = a[i-1]
        for j in range(1, b_len + 1) :
            bc = b[j-1]
            cost = 0 if (ac == bc) else 1
            
            matrix[i][j] = min([
                matrix[i-1][j] + 1,         # 문자 삽입
                matrix[i][j-1] + 1,         # 문자 제거
                matrix[i-1][j-1] + cost     # 문자 변경
            ])
    return matrix[a_len][b_len]

# '가나다라'와 '가마바라'의 거리
print(calc_distance('가나다라', '가마바라'))

# 실행 예
samples = ["신촌역", "신천군", "신천역", "신발", "마곡역"]
base = samples[0]       # 신촌역이 base값
r = sorted(samples, key = lambda n: calc_distance(base, n))
for n in r:
    print(calc_distance(base, n), n)

2
0 신촌역
1 신천역
2 신천군
2 신발
2 마곡역


In [None]:
# N-gram : 이웃한 개의 문자
# 문자를 일정 개수의 음절 단위로 끊어서 문장의 유사도를 테스트
# ex) 오늘 강남에 갔다 : '오늘', '늘 ', ' 강', '강남', '남에', '에 ', ' 갔', '갔다'

In [8]:
### N-GRAM 유사도 테스트

def ngram(s, num) :
    res = []
    slen = len(s) - num + 1     # out of index 방지
    for i in range(slen) :
        ss = s[i:i+num]
        res.append(ss)
    return res

def diff_ngram(sa, sb, num) :
    a = ngram(sa, num)
    b = ngram(sb, num)
    re = []
    cnt = 0
    for i in a :
        for j in b:
            if i == j :
                cnt += 1
                re.append(i)
    return cnt / len(a), re
    
    
a = "오늘 강남에서 맛있는 스파게티를 먹었다."
b = "강남에서 먹었던 오늘의 스파게티는 맛있었다."

# 2-gram
r2, ng2 = diff_ngram(a, b, 2)     # a와 b를 두 음절씩 끊어서 비교
print('2-gram : ', round(r2,2), ng2)
r3, ng3 = diff_ngram(a, b, 3)     # a와 b를 두 음절씩 끊어서 비교
print('3-gram : ', round(r3,2), ng3)

c = "머신러닝은 매우 재미있는 기술이라 공부하고 있습니다."
d = "공부하면 재미있는 기술이라 머신러닝을 배우고 있습니다."
r2, cd2 = diff_ngram(c, d, 2)
print('2-gram : ', round(r2,2), cd2)
r3, cd3 = diff_ngram(c, d, 3)     # a와 b를 두 음절씩 끊어서 비교
print('3-gram : ', round(r3,2), cd3)

2-gram :  0.76 ['오늘', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '는 ', ' 스', '스파', '파게', '게티', ' 먹', '먹었', '었다', '다.']
3-gram :  0.45 ['강남에', '남에서', '에서 ', ' 맛있', ' 스파', '스파게', '파게티', ' 먹었', '었다.']
2-gram :  0.75 ['머신', '신러', '러닝', ' 재', '재미', '미있', '있는', '는 ', ' 기', '기술', '술이', '이라', '라 ', '공부', '부하', '고 ', ' 있', '있습', '습니', '니다', '다.']
3-gram :  0.63 ['머신러', '신러닝', ' 재미', '재미있', '미있는', '있는 ', '는 기', ' 기술', '기술이', '술이라', '이라 ', '공부하', '고 있', ' 있습', '있습니', '습니다', '니다.']
