## 여러가지 유사도 기법
- https://wikidocs.net/24654
- 코사인 유사도외 문서의 유사도를 구할 수 있는 다른 방법들

### 유클리드 거리(Euclidean distance)
- 유클리드 거리:  문서의 유사도를 구할 때 자카드 유사도나 코사인 유사도만큼, 유용한 방법은 아님
- ![image.png](attachment:image.png)

- 예시) 아래와 같이 문서1,2,3이 있을 때 문서 Q와 가장 유사한 문서를 찾으려고 함
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

In [1]:
import numpy as np

def dist(x,y):   
    return np.sqrt(np.sum((x-y)**2))

doc1 = np.array((2,3,0,1))
doc2 = np.array((1,2,3,1))
doc3 = np.array((2,1,2,2))
docQ = np.array((1,1,0,1))

print('문서1과 문서Q의 거리 :',dist(doc1,docQ))
print('문서2과 문서Q의 거리 :',dist(doc2,docQ))
print('문서3과 문서Q의 거리 :',dist(doc3,docQ))

문서1과 문서Q의 거리 : 2.23606797749979
문서2과 문서Q의 거리 : 3.1622776601683795
문서3과 문서Q의 거리 : 2.449489742783178


- 유클리드의 거리의 값이 작을수록 유사하다는 것
- 즉 문서1이 문서Q와 가장 유사함

### 자카드 유사도(Jaccard similarity)
- 자카드 유사도: 합집합에서 교집합의 비율을 구한다면 두 집합 A와 B의 유사도를 구할 수 있다는 것
- 자카드 유사도는 0과 1사이의 값을 가짐
    - 완전히 동일하다면 1의 값을 가짐
    - 공통 요소가 없다면 0의 값을 가짐
![image.png](attachment:image.png)

In [2]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print('문서1 :',tokenized_doc1)
print('문서2 :',tokenized_doc2)

문서1 : ['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
문서2 : ['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [3]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print('문서1과 문서2의 합집합 :',union)

문서1과 문서2의 합집합 : {'everyone', 'watch', 'apple', 'holder', 'coupon', 'like', 'banana', 'card', 'you', 'love', 'likey', 'passport'}


In [4]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print('문서1과 문서2의 교집합 :',intersection)

문서1과 문서2의 교집합 : {'apple', 'banana'}


In [5]:
print('자카드 유사도 :',len(intersection)/len(union))

자카드 유사도 : 0.16666666666666666
