### 문장의 유사도 분석
: 두 개의 문장이 비슷한 것인지 관련이 있는 것인지 분석
- 레벤슈타인 거리
- N-gram

### 레벤슈타인 거리 (LvenShtein distance)
- 두 개의 문자열이 어느 정도 다른지를 나타내는 것으로 편집 거리 (Edit Distance)라고도 부른다.
- 의학 분야에서는 DNA 배열의 유사성을 판단할 때도 사용

In [1]:
from lvenshtein import Lvenshtein
lv = Lvenshtein()

# '가나다라'와 '가마바라'의 거리
print(lv.calc_distance("가나다라","가마바라"))

2


In [2]:
# 신촌역과 가장 근접한 순서로 연결
samples = ['신촌역','신천군','신천역','마곡역','신발']
base = samples[0]
r = sorted(samples, key=lambda n: lv.calc_distance(base,n))

for n in r:
    print(lv.calc_distance(base,n),n)

0 신촌역
1 신천역
2 신천군
2 마곡역
2 신발


### N-gram으로 유사도 구하기
- 이웃한 N개의 문자
- 서로 다른 2개의 문장을 N-gram으로 비교해보면 출현하는 단어의 종류와 빈도를 확인 가능.
- 논문 도용 등을 확인

In [3]:
from ngram import Ngram
ngrm = Ngram()

In [4]:
# 2문장 (gram) 나누기
a = '오늘 강남에서 맛있는 스파게티를 먹었다.'
b = '강남에서 먹었던 오늘의 스파게티는 맛있었다.'

print(ngrm.ngram(a,2))
print(ngrm.ngram(b,2))

r2 = ngrm.diff_ngram(a,b,2)
print('유사도 :',r2)

['오늘', '늘 ', ' 강', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '있는', '는 ', ' 스', '스파', '파게', '게티', '티를', '를 ', ' 먹', '먹었', '었다', '다.']
['강남', '남에', '에서', '서 ', ' 먹', '먹었', '었던', '던 ', ' 오', '오늘', '늘의', '의 ', ' 스', '스파', '파게', '게티', '티는', '는 ', ' 맛', '맛있', '있었', '었다', '다.']
유사도 : (0.7619047619047619, ['오늘', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '는 ', ' 스', '스파', '파게', '게티', ' 먹', '먹었', '었다', '다.'])


In [5]:
# 2문장 (gram) 나누기
a = '오늘 강남에서 맛있는 스파게티를 먹었다.'
b = '강남에서 먹었던 오늘의 스파게티는 맛있었다.'

print(ngrm.ngram(a,3))
print(ngrm.ngram(b,3))

r3 = ngrm.diff_ngram(a,b,3)
print('유사도 :',r3)

['오늘 ', '늘 강', ' 강남', '강남에', '남에서', '에서 ', '서 맛', ' 맛있', '맛있는', '있는 ', '는 스', ' 스파', '스파게', '파게티', '게티를', '티를 ', '를 먹', ' 먹었', '먹었다', '었다.']
['강남에', '남에서', '에서 ', '서 먹', ' 먹었', '먹었던', '었던 ', '던 오', ' 오늘', '오늘의', '늘의 ', '의 스', ' 스파', '스파게', '파게티', '게티는', '티는 ', '는 맛', ' 맛있', '맛있었', '있었다', '었다.']
유사도 : (0.45, ['강남에', '남에서', '에서 ', ' 맛있', ' 스파', '스파게', '파게티', ' 먹었', '었다.'])


In [6]:
a = '머신러닝은 매우 재미있는 기술이라 공부하고 있습니다.'
b = '공부하면 재미있는 기술이라 머신러닝을 배우고 있습니다.'

print(ngrm.ngram(a,2))
print(ngrm.ngram(b,2))

r2 = ngrm.diff_ngram(a,b,2)
print('유사도 :',r2)

['머신', '신러', '러닝', '닝은', '은 ', ' 매', '매우', '우 ', ' 재', '재미', '미있', '있는', '는 ', ' 기', '기술', '술이', '이라', '라 ', ' 공', '공부', '부하', '하고', '고 ', ' 있', '있습', '습니', '니다', '다.']
['공부', '부하', '하면', '면 ', ' 재', '재미', '미있', '있는', '는 ', ' 기', '기술', '술이', '이라', '라 ', ' 머', '머신', '신러', '러닝', '닝을', '을 ', ' 배', '배우', '우고', '고 ', ' 있', '있습', '습니', '니다', '다.']
유사도 : (0.75, ['머신', '신러', '러닝', ' 재', '재미', '미있', '있는', '는 ', ' 기', '기술', '술이', '이라', '라 ', '공부', '부하', '고 ', ' 있', '있습', '습니', '니다', '다.'])


In [7]:
a = '파이썬 프로그래밍에서 중요한 것은 블록입니다.'
b = '겨울에는 충분한 수분을 보충해야 합니다.'

print(ngrm.ngram(a,2))
print(ngrm.ngram(b,2))

r2 = ngrm.diff_ngram(a,b,2)
print('유사도 :',r2)

['파이', '이썬', '썬 ', ' 프', '프로', '로그', '그래', '래밍', '밍에', '에서', '서 ', ' 중', '중요', '요한', '한 ', ' 것', '것은', '은 ', ' 블', '블록', '록입', '입니', '니다', '다.']
['겨울', '울에', '에는', '는 ', ' 충', '충분', '분한', '한 ', ' 수', '수분', '분을', '을 ', ' 보', '보충', '충해', '해야', '야 ', ' 합', '합니', '니다', '다.']
유사도 : (0.125, ['한 ', '니다', '다.'])
