## Vector Similarity
- 문서의 유사도의 성능은 각 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지(DTM, Word2Vec 등), 문서 간의 단어들의 차이를 어떤 방법으로 계산했는지(코사인 유사도, 유클리드 거리, 자카드 유사도 등)에 따라 달라짐

In [1]:
import numpy as np
import pandas as pd

import sklearn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel


print(f'\n\n>>> np : {np.__version__}  |  pd : {pd.__version__}  |  sklearn : {sklearn.__version__}') 



>>> np : 1.19.5  |  pd : 1.1.5  |  sklearn : 0.22.2.post1


## 1. 코사인 유사도(Cosine Similarity)
- 코사인 유사도 : 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도
- -1에서 1 사이의 값을 가지며, 1에 가까울수록 높은 유사도를 의미함<br>
$ cosine\ similarity = cos(\Theta) = \frac{A{\cdot}B}{{\Vert}A{\Vert}{\Vert}B{\Vert}} = \frac{\sum_{i=1}^{n}A_i \times B_i}{\sqrt{\sum_{i=1}^{n}(A_i)^2} \times \sqrt{\sum_{i=1}^{n}(B_i)^2}} $

In [2]:
# function for cosine similarty
def cosine_similarity(a, b):
  return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))


doc1=np.array([0, 1, 1, 1])
doc2=np.array([1, 0, 1, 1])
doc3=np.array([2, 0, 2, 2])

print(cosine_similarity(doc1, doc2))
print(cosine_similarity(doc1, doc3))
print(cosine_similarity(doc2, doc3))

0.6666666666666667
0.6666666666666667
1.0000000000000002


## 2. 유클리드 거리(Euclidean distance)
- 유클리드 거리 : 다차원 좌표평면 공간에서 두 점 사이의 거리
- 0 이상의 값을 가지며, 값이 낮을수록 높은 유사도를 의미함 <br>
$ euclidean\ similarity = Dist(p, q) = \sqrt {(q_1-p_1)^2 + (q_2-p_2)^2 + ... + (q_n-p_n)^2} = \sqrt { \sum_{i=1}^{n} (q_i-p_i)^2 } \ \ \ \  (p = p_1,\ p_2,\ p_3,\ ...,\ p_n\ |\ q = q_1,\ q_2,\ q_3,\ ...,\ q_n) $ <br>


In [3]:
# function for euclidean similarity
def dist(x, y):
  x, y = np.array(x), np.array(y)
  return np.sqrt(np.sum((x-y)**2))


doc1 = [2, 3, 0, 1]
doc2 = [1, 2, 3, 1]
doc3 = [2, 1, 2, 2]
docQ = [1, 1, 0, 1]

for doc in [doc1, doc2, doc3]:
  print(dist(doc, docQ))

2.23606797749979
3.1622776601683795
2.449489742783178


## 3. 자카드 유사도(Jaccard similarity)
  - 자카드 유사도 : 합집합 대비 교집합의 비율
  - 0에서 1 사이의 값을 가지며, 1에 가까울수록 높은 유사도를 의미함 <br>
$ jaccard\ similarity = J(A, B) = \frac{{\vert} A \cap B {\vert} }{{\vert} A \cup B {\vert} } = \frac{{\vert} A \cap B {\vert} }{{\vert} A {\vert} + {\vert} B {\vert} - {\vert} A \cap B {\vert}} $ <br>
$ J(doc_1, doc_2) = \frac{ doc_1\ \cap\ doc_2 }{ doc_1\ \cup\ doc_2 } $

  - 문서 비교 시 자카드 유사도는 두 문서의 총 단어(토큰) 집합에서 두 문서에서 공통적으로 등장한 단어(토큰)의 비율을 의미

In [4]:
# function for jaccard similarty
def jaccard_similarity(a, b):
  union_set = set(a).union(set(b))
  inter_set = set(a).intersection(set(b))
  return len(inter_set) / len(union_set)


doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

jaccard_similarity(doc1.split(), doc2.split())

0.16666666666666666