### 문장의 유사도 분석
: 두 개의 문장이 비슷한 것인지 또는 관련이 있는 것인지 분석    
 - 레벤슈터인 거리   
 - N-gram     

---
### 레벤슈타인 거리(Lvenshtein distance)
- 두 개의 문자열이 어느 정도 다르지를 나타내는 것으로 편집거리(Edit Distance)라고도 부른다
- 의학 분야에서는 DNA배열의 유사성을 판단할때도 사용.

In [1]:
from lvenshtein import Lvenshtein
lv = Lvenshtein()

In [2]:
# 가나다라 와 가마바라의 거리
print(lv.calc_distance("가나다라","가마바라")) 

2


In [3]:
# 신촌역과 가장 근접한 순서로 정렬
samples = ['신촌역','신천군','신천역','마곡역','신발']
base = samples[0]
r = sorted(samples,key=lambda n: lv.calc_distance(base,n)) # 최소 편집횟수를 구해 정렬하기(가장 근접한 단어 순으로)
for n in r:
    print(lv.calc_distance(base,n),n)

0 신촌역
1 신천역
2 신천군
2 마곡역
2 신발


In [4]:
r

['신촌역', '신천역', '신천군', '마곡역', '신발']

---
### N-gram으로 유사도 구하기
- 이웃한 N개의 문자
- 서로 다른 2개의 문자을 N-gram으로 비교해보면 출현하는 단어의 종류와 빈도를 확인 가능   
- 논문 도용 등을 확인 가능

In [5]:
from ngram import Ngram
ngram = Ngram()

In [6]:
# 2문장으로 나누기
a = "오늘 강남에서 맛있는 스파게티를 먹었다."
b = "강남에서 먹었던 오늘의 스파게티는 맛있었다."

print(ngram.ngram(a,2)) # 2문장으로 나누어서 해라
print(ngram.ngram(b,2))

['오늘', '늘 ', ' 강', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '있는', '는 ', ' 스', '스파', '파게', '게티', '티를', '를 ', ' 먹', '먹었', '었다', '다.']
['강남', '남에', '에서', '서 ', ' 먹', '먹었', '었던', '던 ', ' 오', '오늘', '늘의', '의 ', ' 스', '스파', '파게', '게티', '티는', '는 ', ' 맛', '맛있', '있었', '었다', '다.']


In [7]:
print(ngram.ngram(a,3)) 
print(ngram.ngram(b,3))

['오늘 ', '늘 강', ' 강남', '강남에', '남에서', '에서 ', '서 맛', ' 맛있', '맛있는', '있는 ', '는 스', ' 스파', '스파게', '파게티', '게티를', '티를 ', '를 먹', ' 먹었', '먹었다', '었다.']
['강남에', '남에서', '에서 ', '서 먹', ' 먹었', '먹었던', '었던 ', '던 오', ' 오늘', '오늘의', '늘의 ', '의 스', ' 스파', '스파게', '파게티', '게티는', '티는 ', '는 맛', ' 맛있', '맛있었', '있었다', '었다.']


---
### 유사도 비교

In [8]:
# 2-gram
r2 = ngram.diff_ngram(a,b,2)
print("유사도 :", r2)

유사도 : (0.7619047619047619, ['오늘', '강남', '남에', '에서', '서 ', ' 맛', '맛있', '는 ', ' 스', '스파', '파게', '게티', ' 먹', '먹었', '었다', '다.'])


In [9]:
# 3-gram
r3 = ngram.diff_ngram(a,b,3)
print("유사도 :",r3)

유사도 : (0.45, ['강남에', '남에서', '에서 ', ' 맛있', ' 스파', '스파게', '파게티', ' 먹었', '었다.'])


In [10]:
a = "머신러닝은 매우 재미있는 기술이라 공부하고 있습니다."
b = "공부하면 재미있는 기술이라 머신러닝을 배우고 있습니다."

# 2-gram
r2 = ngram.diff_ngram(a,b,2)
print("유사도 :", r2)

유사도 : (0.75, ['머신', '신러', '러닝', ' 재', '재미', '미있', '있는', '는 ', ' 기', '기술', '술이', '이라', '라 ', '공부', '부하', '고 ', ' 있', '있습', '습니', '니다', '다.'])


In [11]:
a = "본문과 전혀 관계 없는 내용이지만 마시멜로는 맛있습니다."
b = "마시멜로는 본문과 전혀 관계 없이 맛있습니다.."

# 2-gram
r2 = ngram.diff_ngram(a,b,2)
print("유사도 :", r2)

유사도 : (0.7333333333333333, ['본문', '문과', '과 ', ' 전', '전혀', '혀 ', ' 관', '관계', '계 ', ' 없', '는 ', '마시', '시멜', '멜로', '로는', '는 ', ' 맛', '맛있', '있습', '습니', '니다', '다.'])


In [12]:
a = "파이썬 프로그래밍에서 중요한 것은 블록 입니다."
b = "겨울에는 충분한 수분을 보충해야 합니다."

# 2-gram
r2 = ngram.diff_ngram(a,b,2)
print("유사도 :", r2)

유사도 : (0.12, ['한 ', '니다', '다.'])
