# 문장의 유사도 분석
: 두개의 문장이 비슷한 것인지 또는 관련이 있는지 분석
- 레벤슈터인 거리
- N-gram

---
### 레벤슈타인 거리(Lvenshtein distance)
- 두개의 문자열이 어늦어도 다른지를 나타내느 것으로 편집거리(Edit Distance)라고도 한다.
- 의학분야에서는 DNA배열의 유사성을 판단할 때도 사용한다.

In [1]:
from lvenshtein import Lvenshtein

In [2]:
lv = Lvenshtein()

In [3]:
# '가나다라'와 '가마바라'의 거리
print(lv.calc_distance('가나다라','가마바라'))

2


> 나, 다 두개가 다르다.

In [4]:
# 신촌역과 가장 근접한 순서로 정렬
samples = ['신촌역','신천군','신천역','마곡역','신발','신내림']
base = samples[0]
r = sorted(samples, key=lambda n: lv.calc_distance(base, n)) # 최소 편집횟수를 구해서 정렬하기
for n in r:
    print(lv.calc_distance(base, n), n) # 순서(거리), 이름 출력

0 신촌역
1 신천역
2 신천군
2 마곡역
2 신발
2 신내림


In [5]:
r

['신촌역', '신천역', '신천군', '마곡역', '신발', '신내림']

---
### N-gram으로 유사도 구하기
- 이웃한 N개의 문자
- 서로 다른 2개의 문장을 N-gram으로 비교했을 때 출현하는 단어의 종류와 빈도를 확인할 수 있다.
- 논문 도용 등을 확인할 때 사용

In [6]:
from ngram import Ngram

In [7]:
ngram = Ngram()

In [8]:
# 두 문장(글자)으로 나누기
a = '오늘 강남에서 맛있는 파스타를 먹었다.'
b = '강남에서 먹었던 오늘의 파스타는 맛있었다.'

print(ngram.ngram(a, 2))
print(ngram.ngram(b, 2))

['오늘', '늘 ', ' 강', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '있는', '는 ', ' 파', '파스', '스타', '타를', '를 ', ' 먹', '먹었', '었다', '다.']
['강남', '남에', '에서', '서 ', ' 먹', '먹었', '었던', '던 ', ' 오', '오늘', '늘의', '의 ', ' 파', '파스', '스타', '타는', '는 ', ' 맛', '맛있', '있었', '었다', '다.']


> 오늘, 늘_, _강, 강남, ... : 스페이스도 인식한다.

In [9]:
# 세 문장(글자)으로 나누기
print(ngram.ngram(a, 3))
print(ngram.ngram(b, 3))

['오늘 ', '늘 강', ' 강남', '강남에', '남에서', '에서 ', '서 맛', ' 맛있', '맛있는', '있는 ', '는 파', ' 파스', '파스타', '스타를', '타를 ', '를 먹', ' 먹었', '먹었다', '었다.']
['강남에', '남에서', '에서 ', '서 먹', ' 먹었', '먹었던', '었던 ', '던 오', ' 오늘', '오늘의', '늘의 ', '의 파', ' 파스', '파스타', '스타는', '타는 ', '는 맛', ' 맛있', '맛있었', '있었다', '었다.']


---
### 유사도 비교

In [11]:
# 2-gram
r2 = ngram.diff_ngram(a, b, 2)
print('유사도 :', r2)

유사도 : (0.75, ['오늘', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '는 ', ' 파', '파스', '스타', ' 먹', '먹었', '었다', '다.'])


> 75프로 유사하고, ~ 요소들이 같다.

In [12]:
# 3-gram
r3 = ngram.diff_ngram(a, b, 3)
print('유사도 :', r3)

유사도 : (0.42105263157894735, ['강남에', '남에서', '에서 ', ' 맛있', ' 파스', '파스타', ' 먹었', '었다.'])


In [13]:
a = "머신러닝은 매우 재미있는 기술이라 공부하고 있습니다."
b = "공부하면 재미있는 기술이라 머신러닝을 배우고 있습니다."
r2 = ngram.diff_ngram(a, b, 2)
print('유사도 :', r2)

유사도 : (0.75, ['머신', '신러', '러닝', ' 재', '재미', '미있', '있는', '는 ', ' 기', '기술', '술이', '이라', '라 ', '공부', '부하', '고 ', ' 있', '있습', '습니', '니다', '다.'])


> 보통 논문에서 30프로 이상 유사하면 배꼈다고 한다.

In [14]:
a = "본문과 전혀 관계 없는 내용이지만 마시멜로는 맛있습니다."
b = "마시멜로는 본문과 전혀 관계 없이 맛있습니다.."
r2 = ngram.diff_ngram(a, b, 2)
print('유사도 :', r2)

유사도 : (0.7333333333333333, ['본문', '문과', '과 ', ' 전', '전혀', '혀 ', ' 관', '관계', '계 ', ' 없', '는 ', '마시', '시멜', '멜로', '로는', '는 ', ' 맛', '맛있', '있습', '습니', '니다', '다.'])


In [15]:
a = "파이썬 프로그래밍에서 중요한 것은 블록 입니다."
b = "겨울에는 충분한 수분을 보충해야 합니다."
r2 = ngram.diff_ngram(a, b, 2)
print('유사도 :', r2)

유사도 : (0.12, ['한 ', '니다', '다.'])
