코사인 유사도는 벡터끼리의 방향의 가까운 정도를 나타냅니다.

## 놈과 삼각함수로 내적을 나타낸다.
다음과 같은 요소 수가 2인 벡터(2차원 벡터)를 두 개 생각합니다.

$$
\vec{a} = (a_1,a_2)\\
\vec{b} = (b_1,b_2)
$$

이러한 벡터 사이의 각도를 $$\theta$$로 나타냅니다.

앞 절에서는 내적을 다음과 같이 각 요소의 곱의 총합으로 정의했습니다.

$$
\vec{a} \cdot \vec{b} = a_1b_1+a_2b_2
$$

위의 내적은 사실 다음과 같이 삼각함수와 $$L^2$$놈을 사용해서 구할 수도 있습니다.

$$
\vec{a} \cdot \vec{b} = ||\vec{a}||_2||\vec{b}_2||\cos\theta = \sqrt{a_{1}^2 + a_2^2} \sqrt{b_1^2+b_2^2} \cos \theta 
$$

이 관계를 사용해서 $$\cos\theta$$ 값을 다음과 같이 구할 수 있습니다.

$$
\cos\theta = \frac{a_1b_1+a_2b_2}{\sqrt{a_1^2+a_2^2}\sqrt{b_1^2+b_2^2}}
$$

$$\cos\theta$$ 값은 벡터 사이의 각도 $$\theta$$가 0일 때 최대값을 취하고, 이 각도가 커지면 작아지게 됩니다.


따라서 이 $$\cos\theta$$의 값은 "두 개의 벡터 방향이 얼마나 일치하고 있는지" 를 나타내게 됩니다.

지금까지는 2차원의 벡터를 다뤄왔는데 이를 다음과 같이 n차원의 벡터로 확장할 수 있습니다.

$$
\cos\theta = \frac{\displaystyle\sum_{k=1}^n {a_k b_k}}{\sqrt{\displaystyle\sum_{k=1}^n {a_k^2} } \sqrt{\displaystyle\sum_{k=1}^n {b_k^2} }} = \frac{\vec{a} \cdot \vec{b}}{||\vec{a}||_2||\vec{b}||_2}
$$

2차원 벡터인 경우 2개의 벡터가 이루는 각도를 이미지 할 수 있었으나 n차원의 벡터들이 이루는 각도는 무엇을 의미하는 걸까요?

이것을 도형으로 이미지하는 건 어려우나, 2차원 벡터의 경우와 마찬가지로 벡터의 방향이 얼마나 일치하고 있는지의 지표로 생각할 수 있습니다.

위의 $$\cos\theta$$는 **코사인 유사도**라고 하며 2개 벡터의 방향이 얼마나 일치하고 있는지를 나타내는지 지표로 인공지능에서 자주 사용됩니다.

인공지능에서 한국어나 영어 등의 자연 언어를 다루는 경우, 단어를 자주 벡터로 나타냅니다. 코사인 유사도는 이처럼 단어 사이 관계성을 나타내는데 이용합니다.



## 코사인 유사도를 계산한다.

내적과 놈을 사용해서 코사인 유사도를 계산합니다. 내적의 계산에는 numpy의 **dot()** 함수, 놈의 계산에는 **linalg.norm()**함수를 사용합니다.

In [2]:
import numpy as np

def cos_sim(vec_1, vec_2):
    return np.dot(vec_1,vec_2) / (np.linalg.norm(vec_1) * np.linalg.norm(vec_2))

a = np.array([2,2,2,2])
b = np.array([1,1,1,1]) # a와 같은 방향
c = np.array([-1,-1,-1,-1]) # a와 반대 방향

print("----a와 b의 코사인 유사도----")
print(cos_sim(a,b))

print("----a와 c의 코사인 유사도----")
print(cos_sim(a,c))



----a와 b의 코사인 유사도----
1.0
----a와 c의 코사인 유사도----
-1.0


벡터가 같은 방향인 경우, 코사인 유사도는 최대값이 1이 되고, 벡터가 반대 방향인 경우 코사인 유사도는 최소값 -1이었습니다.

두 개의 벡터 방향이 얼마나 일치하고 있는지의 지표가 되고 있습니다.