## 문서의 유사도를 구하는 다른 방법을 학습해보자.

### 1. 유클리드 거리(Euclidean distance)

참고할만한 개념이다.    
공식은 아래와 같다.  

$\sqrt{(q_{1}-p_{1})^{2}+(q_{2}-p_{2})^{2}+\ ...\ +(q_{n}-p_{n})^{2}}=\sqrt{\sum_{i=1}^{n}(q_{i}-p_{i})^{2}}$  

여러 문서에 대해 유클리드 거리로 유사도를 구한다는 것은,  
앞서 본 2차원을 단어의 총 개수만큼의 차원으로 확장하는 것과 같다.   

이를 넘파이 코드로 구현해보자.

In [None]:
import numpy as np

def dist(x,y):
    return np.sqrt(np.sum((x-y)**2))

doc1 = np.array((2,3,0,1))
doc2 = np.array((1,2,3,1))
doc3 = np.array((2,1,2,2))
docQ = np.array((1,1,0,1))

print('문서1과 문서Q의 거리 :',dist(doc1,docQ))
print('문서2과 문서Q의 거리 :',dist(doc2,docQ))
print('문서3과 문서Q의 거리 :',dist(doc3,docQ))

문서1과 문서Q의 거리 : 2.23606797749979
문서2과 문서Q의 거리 : 3.1622776601683795
문서3과 문서Q의 거리 : 2.449489742783178


유클리드 거리의 값이 가장 작다는 것은 문서 간 거리가 가장 가깝다는 것을 의미한다.  
즉, 문서 1과 문서 Q가 가장 유사하다고 볼 수 있다.

### 2. 자카드 유사도(Jaccard similarity)

A,B 두 집합이 있을 때,  
합집합에서 교집합의 비율을 구함으로써 두 집합의 유사도를 구하는 방법이다.  
완전히 같다면 1이 될 것이고, 두 집합의 공통 원소가 없다면 0이 될 것이다.  

$J(A,B)=\frac{|A∩B|}{|A∪B|}=\frac{|A∩B|}{|A|+|B|-|A∩B|}$  

$J(doc_{1},doc_{2})=\frac{doc_{1}∩doc_{2}}{doc_{1}∪doc_{2}}$

In [2]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 단순 띄어쓰기 단위로 토큰화
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print('문서1 :',tokenized_doc1)
print('문서2 :',tokenized_doc2)

문서1 : ['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
문서2 : ['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [3]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print('문서1과 문서2의 합집합 :',union)

문서1과 문서2의 합집합 : {'likey', 'holder', 'watch', 'passport', 'you', 'banana', 'card', 'love', 'coupon', 'apple', 'like', 'everyone'}


In [4]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print('문서1과 문서2의 교집합 :',intersection)

문서1과 문서2의 교집합 : {'banana', 'apple'}


교집합 / 합집합이 자카드 유사도가 될 것이다.

In [5]:
print('자카드 유사도 :',len(intersection)/len(union))

자카드 유사도 : 0.16666666666666666
