## 1. 유클리드 거리(Euclidean distance)

- 다차원 공간에서 두개의 점 p와 q가 각각 p = (p1, p2, p3, ..., pn)과 q = (q1, q2, q3, ..., qn)의 좌표를 가질 때 두 점 사이의 거리를 계산하는 유클리드 거리 공식
![4.png](attachment:4.png)

- 여러 문서에 대해 유사도를 구하고자 유클리드 거리 공식을 사용한다는 것은 위의 2차원을 단어의 총 개수만큼 차원으로 확장하는 것과 같음
- (ex) DTM : 
![5.png](attachment:5.png)
- 단어의 개수가 4개이므로, 4차원 공간에서 문서 1, 문서 2, 문서 3을 배치하는 것과 같음
- 다음과 같은 문서 Q에 대해 문서 1, 문서 2, 문서 3 중 가장 유사한 문서를 찾아내기

![6.png](attachment:6.png)
- **유클리드 거리를 통해 유사도를 구하려고 한다면,** 문서 Q 또한 다른 문서들처럼 4차원 공간에 배치시켰다는 관점에서 4차원 공간에서의 각각의 문서들과의 유클리드 거리를 구하면 됨
- 유클리드 거리값이 가장 작다는 것 : 문서 간의 거리가 가장 가깝다는 것(즉, 문서 1이 문서 Q와 가장 유사함)

In [1]:
import numpy as np
def dist(x, y):
    return np.sqrt(np.sum((x - y) ** 2))

doc1 = np.array((2, 3, 0, 1))
doc2 = np.array((1, 2, 3, 1))
doc3 = np.array((2, 1, 2, 2))
docQ = np.array((1, 1, 0, 1))

print(dist(doc1, docQ))
print(dist(doc2, docQ))
print(dist(doc3, docQ))

2.23606797749979
3.1622776601683795
2.449489742783178


## 2. 자카드 유사도(Jaccard similarity)

- 자카드 유사도의 아이디어 : A, B 두개의 집합 가운데 합집합에서 교집합의 비율을 구한다면 A와 B의 유사도를 구할 수 있다는 것
- 자카드 유사도는 0~1 사이의 값을 가지며 공식은 다음과 같음
![7.png](attachment:7.png)

- 두 개의 비교할 문서를 각각 doc1, doc2라고 했을 때 둘의 자카드 유사도 : 
![8.png](attachment:8.png)

In [2]:
# 두 문서 모두에서 등장한 단어는 apple과 banana 2개
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화 수행
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

# 토큰화 결과 출력
print(tokenized_doc1)
print(tokenized_doc2)

['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [3]:
# 문서 1과 문서 2의 합집합
union = set(tokenized_doc1).union(set(tokenized_doc2))
print(union)

{'like', 'banana', 'watch', 'holder', 'you', 'passport', 'love', 'likey', 'everyone', 'apple', 'card', 'coupon'}


In [4]:
# 문서 1과 문서 2의 교집합
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print(intersection)

{'apple', 'banana'}


In [5]:
# 자카드 유사도 계산
print(len(intersection) / len(union))

0.16666666666666666
