# 2. 여러가지 유사도 기법

## 1) 유클리드 거리(Euclidean distance)
- For distinct points $p=(p_1,p_2,p_3,...,p_n), q=(q_1,q_2,q_3, ..., q_n)$, the distance is defined as

\begin{align}
d(p,q) = \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2+ \cdots + (q_n - p_n)^2} = \sqrt{\sum_{i=1}^n(q_i-p_i)^2}
\end{align}

- Example(2차원 평면)
<img src=2차원_평면.png width=500>

- Example

|-|바나나|사과|저는|좋아요|
|---|---|---|---|---|
|문서1|2|3|0|1|
|문서2|1|2|3|1|
|문서3|2|1|2|2|

다음과 같은 문서Q에 대해서 문서1, 문서2, 문서3 중 가장 유사한 문서를 찾아내고자 함

|-|바나나|사과|저는|좋아요|
|---|---|---|---|---|
|문서Q|1|1|0|1|

In [2]:
# 유클리디안 거리를 통한 유사도 구하기
import numpy as np
def dist(x,y):   
    return np.sqrt(np.sum((x-y)**2))

doc1 = np.array((2,3,0,1))
doc2 = np.array((1,2,3,1))
doc3 = np.array((2,1,2,2))
docQ = np.array((1,1,0,1))

print(dist(doc1,docQ))
print(dist(doc2,docQ))
print(dist(doc3,docQ))

2.23606797749979
3.1622776601683795
2.449489742783178


유클리디안 거리 값이 작을 수록 $\Longrightarrow$ 문서 간의 거리가 가까움  
∴ **문서1이 문서 Q와 가장 유사하다고 볼 수 있음**

## 2) 자카드 유사도(Jaccard similarity)

\begin{align}
J(A,B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|}
\end{align}

Note that $0 \leq J(A,B) \leq 1$.

In [3]:
# 다음과 같은 두 개의 문서가 있습니다.
# 두 문서 모두에서 등장한 단어는 apple과 banana 2개.
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화를 수행합니다.
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

# 토큰화 결과 출력
print(tokenized_doc1)
print(tokenized_doc2)

['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [4]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print(union)

{'banana', 'watch', 'everyone', 'card', 'holder', 'you', 'love', 'like', 'passport', 'apple', 'coupon', 'likey'}


In [5]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print(intersection)

{'apple', 'banana'}


In [6]:
print(len(intersection)/len(union)) # 2를 12로 나눔.

0.16666666666666666
