## 코사인 유사도 (Cosine Similarity)

**개념**:
코사인 유사도는 두 벡터 간의 유사도를 측정하는 방법으로, 두 벡터가 이루는 각도의 코사인을 계산하여 유사성을 표현합니다. 코사인 유사도는 벡터의 크기가 아닌 방향에 집중하기 때문에, 데이터의 스케일에 무관하게 유사성을 측정할 수 있습니다. 두 벡터가 동일하면 코사인 유사도는 1, 완전히 반대이면 -1, 직교하면 0입니다.

**수학적 정의**
주어진 두 벡터 $$\mathbf{A}$$와 $$\mathbf{B}$$의 코사인 유사도는 다음과 같이 정의됩니다:

$$\text{Cosine Similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$$

여기서 $$\mathbf{A} \cdot \mathbf{B}$$는 두 벡터의 내적, $$\|\mathbf{A}\|$$와 $$\|\mathbf{B}\|$$는 각각의 벡터의 크기(노름)입니다.


- 두 벡터 사이의 거리를 구하는 유클리드 거리와 달리 코사인 유사도는 두 벡터 사이의 각도를 구하여 각도의 크기에 따라 유사도를 판단합니다. 두 벡터가 이루는 각이 0에 가까울수록 상품 X와 Y는 유사하다고 판단할 수 있습니다.


![](https://velog.velcdn.com/images/newnew_daddy/post/742e5780-31ca-43ae-aa0b-03d3b2d80732/image.png)

![](https://velog.velcdn.com/images/newnew_daddy/post/a128eed1-fdfd-4099-abb1-cb00e7ee3b81/image.png)


### 피어슨 상관계수 (Pearson Correlation Coefficient)

**개념**:
피어슨 상관계수는 두 변수 간의 선형 상관 관계를 측정하는 방법입니다. 이 상관계수는 두 변수의 공분산을 각 변수의 표준 편차의 곱으로 나누어 계산합니다. 피어슨 상관계수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 강한 양의 상관 관계를, -1에 가까울수록 강한 음의 상관 관계를 의미합니다. 0에 가까울수록 상관 관계가 없음을 나타냅니다.

**수학적 정의**:
주어진 두 변수 $$X$$와 $$Y$$의 피어슨 상관계수는 다음과 같이 정의됩니다:

$$r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}}$$

여기서 $$\bar{X}$$와 $$\bar{Y}$$는 각각의 평균값입니다.

### 실습 코드

다음은 두 유사도 계산 방법을 실제로 적용해볼 수 있는 파이썬 코드입니다.

```python
import numpy as np
from scipy.spatial.distance import cosine
from scipy.stats import pearsonr

# 예제 데이터
vector_a = np.array([1, 2, 3, 4])
vector_b = np.array([4, 5, 6, 7])

# 코사인 유사도 계산
cosine_similarity = 1 - cosine(vector_a, vector_b)  # cosine 함수는 거리로 계산하므로 1에서 뺌
print(f"Cosine Similarity: {cosine_similarity}")

# 피어슨 상관계수 계산
pearson_corr, _ = pearsonr(vector_a, vector_b)
print(f"Pearson Correlation Coefficient: {pearson_corr}")
```

#### 코드 설명:
- **코사인 유사도 계산**:
  - `scipy.spatial.distance.cosine` 함수를 사용하여 두 벡터의 코사인 거리를 계산하고, 이를 1에서 뺀 값을 코사인 유사도로 사용합니다.
- **피어슨 상관계수 계산**:
  - `scipy.stats.pearsonr` 함수를 사용하여 두 벡터의 피어슨 상관계수를 계산합니다. 이 함수는 상관계수와 p-value를 반환하므로, 첫 번째 값만 사용합니다.

이 코드를 통해 코사인 유사도와 피어슨 상관계수를 실제로 계산해볼 수 있으며, 이 값들이 데이터의 유사성을 어떻게 표현하는지 이해할 수 있습니다.