### 유사도 종류
- 1. 유클리드 거리(Euclidean distance) : 단순 거리 비교(피타고라스 정의)
- 2. 자카드 유사도(Jaccard similarity) : 두 집합의 교집합 / 두 집합의 합집합
- 3. 코사인 유사도(Cosine similarity) : 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도(-1: 180도, 0: 90도, 1:0도)


참고) 
- https://medium.com/@omicro03/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC-nlp-7%EC%9D%BC%EC%B0%A8-%EC%97%AC%EB%9F%AC%EA%B0%80%EC%A7%80-%EC%9C%A0%EC%82%AC%EB%8F%84-%EA%B8%B0%EB%B2%95-8e8efa1576ca

- https://wikidocs.net/24603

### 1. 유클리드 거리(Euclidean distance)

In [1]:
import numpy as np

def dist(x, y):
    return np.sqrt(np.sum((x-y)**2))

In [2]:
doc1 = np.array((2, 3, 0, 1))
doc2 = np.array((1, 2, 3, 1))
doc3 = np.array((2, 1, 2, 2))
docQ = np.array((1, 1, 0, 1))

print(dist(doc1, docQ))
print(dist(doc2, docQ))
print(dist(doc3, docQ))


2.23606797749979
3.1622776601683795
2.449489742783178


### 2. 자카드 유사도(Jaccard similarity)

In [3]:
doc1 = "apple banana everyone like likely watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화 수행
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

# 토큰화 결과
print(tokenized_doc1)
print(tokenized_doc2)

['apple', 'banana', 'everyone', 'like', 'likely', 'watch', 'card', 'holder']
['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [5]:
# 문서1과 문서2과 합집합

union = set(tokenized_doc1).union(set(tokenized_doc2))
print(union)

{'passport', 'you', 'watch', 'likely', 'like', 'holder', 'card', 'coupon', 'apple', 'banana', 'love', 'everyone'}


In [6]:
len(union)

12

In [8]:
# 문서1과 문서2의 교집합

intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))

print(intersection)

{'apple', 'banana'}


In [10]:
# 자카드 유사도, 두 문서의 총 단어 집합에서 두 문서에서 공통적으로 등장한 단어의 비율

print(len(intersection) / len(union))

0.16666666666666666


### 3. 코사인 유사도(cosine similarity)

- 문서1 : 저는 사과 좋아요[0,1,1,1]
- 문서2 : 저는 바나나 좋아요[1,0,1,1]
- 문서3 : 저는 바나나 좋아요 저는 바나나 좋아요[2,0,2,2]

In [11]:
from numpy import dot
from numpy.linalg import norm
import numpy as np


def cos_sim(A, B):
    return dot(A, B) / (norm(A)*norm(B))

In [12]:
doc1 = np.array([0,1,1,1])
doc2 = np.array([1,0,1,1])
doc3 = np.array([2,0,2,2])

In [13]:
print(cos_sim(doc1, doc2))
print(cos_sim(doc1, doc3))
print(cos_sim(doc2, doc3))

0.6666666666666667
0.6666666666666667
1.0000000000000002
