# 여러가지 유사도 기법

## 1. 유클리드 거리: Euclidean distance
* 유클리드 공식:

    ![image.png](attachment:image.png)
* 2차원 공간의 좌표 평면 예시:

    ![image-2.png](attachment:image-2.png)
* 여러 문서에 대해서 유사도를 구하고자 유클리드 거리 공식을 사용한다는 것은, 앞서 본 2차원을 단어의 총 개수 만큼의 차원으로 확장하는 것과 같습니다.
* 다음과 같은 예시의 DTM이 있을 때 단어의 개수가 4개이므로, 이는 4차원 공간에 문서1, 2, 3을 배치하는 것과 같습니다:

    ![image-3.png](attachment:image-3.png)
* 다음 문서 Q가 주어진다고 가정하면 위 문서 중 가장 유사한 문서를 유클리드 거리를 사용해 구해봅시다.

In [1]:
import numpy as np

def dist(x,y):   
    return np.sqrt(np.sum((x-y)**2))

doc1 = np.array((2,3,0,1))
doc2 = np.array((1,2,3,1))
doc3 = np.array((2,1,2,2))
docQ = np.array((1,1,0,1))

print('문서1과 문서Q의 거리 :',dist(doc1,docQ))
print('문서2과 문서Q의 거리 :',dist(doc2,docQ))
print('문서3과 문서Q의 거리 :',dist(doc3,docQ))
# 즉, 문서 1이 문서 Q와 가장 유사하다고 볼 수 있습니다.

문서1과 문서Q의 거리 : 2.23606797749979
문서2과 문서Q의 거리 : 3.1622776601683795
문서3과 문서Q의 거리 : 2.449489742783178


## 2. 자카드 유사도: Jaccard similarity
* A와 B 두개의 집합이 있다고 할 때, 합집합에서 교집합의 비율을 구한다면 두 집합 A와 B의 유사도를 구할 수 있다는 것
* 자카드 유사도 함수:

    ![image.png](attachment:image.png)

In [2]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print('문서1 :',tokenized_doc1)
print('문서2 :',tokenized_doc2)

문서1 : ['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
문서2 : ['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [3]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print('문서1과 문서2의 합집합 :',union)

문서1과 문서2의 합집합 : {'card', 'like', 'coupon', 'everyone', 'banana', 'apple', 'likey', 'holder', 'love', 'passport', 'watch', 'you'}


In [4]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print('문서1과 문서2의 교집합 :',intersection)

문서1과 문서2의 교집합 : {'banana', 'apple'}


In [5]:
print('자카드 유사도 :',len(intersection)/len(union))

자카드 유사도 : 0.16666666666666666
