##### 레벤슈타인 거리 계산과 n-gram 

In [None]:
### 레벤슈타인 거리 계산과 n-gram을 사용하여 단어 또는 문장의 유사도를 분석하기 
# 레벤슈타인 거리(Lvenshtein distance) : 두 개의 문자열이 어느 정도 다른지를 나타내는 것
# = 특정 값을 대상 값으로 변경할 때 필요한 조작 횟수를 말함

In [3]:
# 레벤슈타인 거리 구하기 함수
def calc_distance(a,b) :
    '''레벤슈타인 거리 계산하기 (두 값 사이의 거리) '''
    if a == b : return 0
    a_len = len(a)
    b_len = len(b)
    if a == '' : return b_len
    if b == '' : return a_len
    
    # 2차원 표 ( 행 : a_len + 1, 열 : b_len + 1) 준비하기
    matrix = [[] for i in range(a_len+1)]   # a의 글자수만큼의 빈 리스트 생성
    for i in range(a_len + 1) :             # 0으로 초기화
        matrix[i] = [0 for j in range(b_len + 1)]
    
    # 0일 때 초깃값 설정
    for i in range(a_len + 1) :
        matrix[i][0] = i
    for j in range(b_len + 1) :
        matrix[0][j] = j
        
    # 표 채우기
    for i in range(1, a_len + 1) :
        ac = a[i-1]
        for j in range(1, b_len + 1) :
            bc = b[j-1]
            cost = 0 if (ac == bc) else 1
            
            matrix[i][j] = min([
                matrix[i-1][j] + 1,         # 문자 삽입
                matrix[i][j-1] + 1,         # 문자 제거
                matrix[i-1][j-1] + cost     # 문자 변경
            ])
    return matrix[a_len][b_len]

# '가나다라'와 '가마바라'의 거리
print(calc_distance('가나다라', '가마바라'))

# 실행 예
samples = ["신촌역", "신천군", "신천역", "신발", "마곡역"]
base = samples[0]       # 신촌역이 base값
r = sorted(samples, key = lambda n: calc_distance(base, n))
for n in r:
    print(calc_distance(base, n), n)

2
0 신촌역
1 신천역
2 신천군
2 신발
2 마곡역
