## 1. 코사인 유사도 (Cosine Similarity)

*   **정의:** 두 벡터 간의 각도의 코사인 값을 이용하여 유사도를 측정하는 방법입니다.
*   **계산:**

    ```
    cosine_similarity(A, B) = (A · B) / (||A|| * ||B||)
    ```

    *   A · B: 벡터 A와 B의 내적 (dot product)
    *   ||A||: 벡터 A의 크기 (L2 norm)
    *   ||B||: 벡터 B의 크기 (L2 norm)

*   **특징:**
    *   값의 범위: -1에서 1 사이
        *   1: 두 벡터의 방향이 완전히 같음 (가장 유사)
        *   0: 두 벡터가 직교 (독립적)
        *   -1: 두 벡터의 방향이 완전히 반대 (가장 상이)
    *   벡터의 크기(길이)는 무시하고, 방향(각도)에만 초점을 맞춥니다.
    *   텍스트 데이터 분석에서 자주 사용됩니다. (단어 빈도 벡터 간의 유사도 측정)

## 2. 유클리드 거리 (Euclidean Distance)

*   **정의:** 두 점 사이의 최단 거리(직선 거리)를 측정하는 방법입니다.
*   **계산 (n차원 공간):**

    ```
    euclidean_distance(A, B) = sqrt( (a1 - b1)^2 + (a2 - b2)^2 + ... + (an - bn)^2 )
    ```

    *   a1, a2, ..., an: 벡터 A의 각 요소
    *   b1, b2, ..., bn: 벡터 B의 각 요소

*   **특징:**
    *   값의 범위: 0 이상 (거리는 항상 0 또는 양수)
        *   0: 두 점이 완전히 일치
        *   값이 커질수록 두 점 사이의 거리가 멀어짐 (유사도가 낮아짐)
    *   벡터의 크기(길이)와 방향을 모두 고려합니다.
    *   이미지, 음성 등 다양한 데이터의 유사도/거리 측정에 사용됩니다.


## 3. 피어슨 상관 계수 (Pearson Correlation Coefficient)

*   **정의:** 두 변수 간의 선형 상관 관계를 측정하는 통계적 지표입니다.
*   **계산:**

    ```
    pearson_correlation(X, Y) = cov(X, Y) / (std(X) * std(Y))
    ```

    *   cov(X, Y): X와 Y의 공분산 (covariance)
    *   std(X): X의 표준편차 (standard deviation)
    *   std(Y): Y의 표준편차

*   **특징:**
    *   값의 범위: -1에서 1 사이
        *   1: 완벽한 양의 선형 상관관계 (X가 증가하면 Y도 증가)
        *   0: 선형 상관관계 없음
        *   -1: 완벽한 음의 선형 상관관계 (X가 증가하면 Y는 감소)
    *   두 변수의 변화 패턴(증가/감소)의 유사성을 측정합니다.
    *   데이터의 평균을 중심으로 한 변화를 보기 때문에, 절대적인 값의 크기 차이는 무시합니다.
    *   주로 숫자형 데이터의 상관관계 분석에 사용됩니다.



## 4. 자카드 유사도 (Jaccard Similarity)

*   **정의:** 두 집합 간의 유사도를 측정하는 방법입니다.
*   **계산:**

    ```
    jaccard_similarity(A, B) = |A ∩ B| / |A ∪ B|
    ```

    *   A ∩ B: 집합 A와 B의 교집합 (intersection)
    *   A ∪ B: 집합 A와 B의 합집합 (union)
    *   |A|: 집합 A의 크기 (원소의 수)

*   **특징:**

    *   값의 범위: 0에서 1 사이
        *   1: 두 집합이 완전히 동일
        *   0: 두 집합에 공통 원소가 없음
    *   집합의 크기는 고려하지 않고, 공통 원소의 비율만 봅니다.
    *   텍스트 데이터에서 단어 집합 간의 유사도, 추천 시스템에서 아이템 집합 간의 유사도 등에 사용됩니다.

## 5. 유사도 비교

| 특징          | 코사인 유사도                                  | 유클리드 거리                                                              | 피어슨 상관 계수                                                        | 자카드 유사도                                                              |
| :------------ | :--------------------------------------------- | :------------------------------------------------------------------------- | :--------------------------------------------------------------------- | :------------------------------------------------------------------------- |
| **값의 범위**  | -1 ~ 1                                         | 0 ~ ∞                                                                     | -1 ~ 1                                                                 | 0 ~ 1                                                                     |
| **해석**      | 1에 가까울수록 유사                             | 0에 가까울수록 유사                                                           | 1 또는 -1에 가까울수록 선형 상관관계가 강함, 0은 선형 상관관계 없음                         | 1에 가까울수록 유사                                                              |
| **벡터/집합**  | 벡터                                            | 벡터                                                                     | 벡터 (주로 숫자형 변수)                                                      | 집합                                                                       |
| **크기 고려**  | X (방향만 고려)                               | O                                                                        | X (평균을 중심으로 한 변화 패턴)                                            | X (공통 원소의 비율만 고려)                                                    |
| **주요 사용처** | 텍스트 데이터 (단어 빈도 벡터), 추천 시스템 (아이템 벡터) | 이미지, 음성, 추천 시스템 (아이템 벡터), 클러스터링 (데이터 포인트 간 거리) | 숫자형 데이터 간의 선형 상관관계 분석 (예: 주가, 온도, 시험 점수 등) | 텍스트 데이터 (단어 집합), 추천 시스템 (아이템 집합),  이미지 (픽셀 집합) |

**요약:**

*   **코사인 유사도:** 벡터의 방향(각도)에 초점을 맞춥니다. 텍스트 데이터처럼 고차원 희소 벡터의 유사도를 측정하는 데 유용합니다.
*   **유클리드 거리:** 벡터의 크기(길이)와 방향을 모두 고려합니다.  이미지나 저차원 데이터처럼 데이터 포인트 간의 실제 거리를 측정하는 데 유용합니다.
*   **피어슨 상관 계수:** 두 변수의 선형 상관 관계(변화 패턴의 유사성)를 측정합니다. 숫자형 데이터 간의 관계를 분석하는 데 유용합니다.
*   **자카드 유사도:** 집합 간의 공통 원소 비율을 측정합니다.  텍스트 데이터의 단어 집합이나 추천 시스템의 아이템 집합처럼 집합 기반 데이터의 유사도를 측정하는 데 유용합니다.

어떤 유사도 측정 방법을 사용할지는 데이터의 종류, 분석 목적, 그리고 각 방법의 특징을 고려하여 결정해야 합니다.
