## 코사인 유사도(Cosine Similarity)
- 두 벡터 간의 <b>코사인 각도</b>를 이용하여 구할 수 있는 두 벡터의 유사도를 의미
- 두 벡터가 가리키는 <b>방향이 얼마나 유사한가</b>
- -1 ≤ 코사인 유사도 ≤ 1 의 값을 가지며 값이 1에 가까울수록 유사도가 높음
![1.png](attachment:1.png)

- 두 벡터 A, B에 대한 <b>코사인 유사도의 계산식</b>
![2.png](attachment:2.png)

### DTM에 대해 코사인 유사도 구하는 예제
- 문서 1 : 저는 사과 좋아요
- 문서 2 : 저는 바나나 좋아요
- 문서 3 : 저는 바나나 좋아요 저는 바나나 좋아요
- DTM :
![3.png](attachment:3.png)

In [1]:
from numpy import dot           # 행렬 곱셈(cf. 1차원 벡터 간 dot 연산은 element-wise product)
from numpy.linalg import norm   # linear algebra의 norm(L2 norm이 default)
import numpy as np

# 코사인 유사도 계산하는 함수
def cos_sim(A, B):
    return dot(A, B) / (norm(A) * norm(B))

In [2]:
# 문서 1 ~ 3에 대한 BoW 생성
doc1 = np.array([0, 1, 1, 1])
doc2 = np.array([1, 0, 1, 1])
doc3 = np.array([2, 0, 2, 2])

print(cos_sim(doc1, doc2))   # 문서 1과 문서 2의 코사인 유사도
print(cos_sim(doc1, doc3))   # 문서 1과 문서 3의 코사인 유사도
print(cos_sim(doc2, doc3))   # 문서 2와 문서 3의 코사인 유사도

0.6666666666666667
0.6666666666666667
1.0000000000000002


### 결론
1. 문서 1과 문서 2의 코사인 유사도 = 문서 1과 문서 3의 코사인 유사도
2. 문서 2와 문서 3의 코사인 유사도 = 1
    - 한 문서 내의 모든 단어의 빈도수가 동일하게 증가하는 경우에는 기존의 문서와 코사인 유사도의 값이 1임
    - 즉, 코사인 유사도로 문서의 길이가 다른 상황에서 비교적 공정한 비교를 할 수 있음
    - 코사인 유사도는 벡터의 "크기"가 아니라 벡터의 "방향(패턴)"에 초점을 두기 때문!