### 협업 필터링 추천 알고리즘
- 사용자 기반 협업 필터링
    - 주로 사용자기반으로 추천 알고리즘을 구현
- 아이템 기반 협업 필터링
    - 사용자가 가지고 있는 아이템에 대한 정보가 많이 없을 때 아이템을 기준으로 추천 알고리즘을 구현
    - 인터넷 쇼핑몰

### 유사도
- 유클리디안
- 코사인
- 맨하튼
- 자카드
    - 집합 데이터에 대한 유사도
    - 0과 1사이의 값으로 두 집합이 동일하면 1

In [34]:
import numpy as np
import pandas as pd
from scipy import spatial

In [35]:
# 샘플데이터
vector_1 = np.array([1,2,3,4,5])
vector_2 = np.array([5,4,3,2,1])
vector_3 = np.array([2,3,4,5,6])

### 1. **유클리디안 유사도**
    - 벡터 사이의 거리
    - 거리가 작으면 가까운 위치에 있기 때문에 비슷한 특징을 가짐
    - 거리값이 0에 가까울수록 가까운 User

In [36]:
# 계산과정
print(vector_1 - vector_2)
print((vector_1 - vector_2) ** 2)
print(sum((vector_1 - vector_2) ** 2))
print(np.sqrt(sum((vector_1 - vector_2) ** 2)))

[-4 -2  0  2  4]
[16  4  0  4 16]
40
6.324555320336759


In [37]:
# numpy
np.linalg.norm(vector_1 - vector_2), np.linalg.norm(vector_1 - vector_3), np.linalg.norm(vector_2 - vector_3)

(6.324555320336759, 2.23606797749979, 6.708203932499369)

In [38]:
def euclidean_similarity(vector_1, vector_2):
    return np.linalg.norm(vector_1 - vector_2)

euclidean_similarity(vector_1, vector_2)

6.324555320336759

### 2. **코사인 유사도**
- 벡터사이의 cosin 각으로 유사도를 구함
- 각이 작으면 같은 방향성을 가지기 때문에 비슷한 특징을 갖는다
- 벡터의 내적 / 벡터의 크기

$$
\text{similarity} = \text{cos}(\theta) = \dfrac{A \cdot B}{\|A\| \|B\|} = \dfrac{\sum_{i=1}^n A_i \times B_i}{\sqrt{\sum_{i=1}^n (A_i)^2} \times \sqrt{\sum_{i=1}^n (B_i)^2}}
$$

- 내적이 값이 클수록, 벡터의 크기가 작을수록 유사도가 높다
- 유사도 값이 클수록 유사도가 높다

In [39]:
# 샘플데이터
vector_1 = np.array([1,2,3,4,5])
vector_2 = np.array([5,4,3,2,1])
vector_3 = np.array([11,19,28,32,47])

In [40]:
# 벡터의 내적
print(sum(vector_1 * vector_2))

35


In [41]:
# numpy 이용
print(np.dot(vector_1, vector_2))

35


In [42]:
# 벡터의 크기 (분모)
print(vector_1 ** 2, vector_2 ** 2)
print(sum(vector_1 ** 2), sum(vector_2 ** 2))
print(np.sqrt(sum(vector_1 ** 2)), np.sqrt(sum(vector_2 ** 2)))
print(np.sqrt(sum(vector_1 ** 2)) * np.sqrt(sum(vector_2 ** 2)))

[ 1  4  9 16 25] [25 16  9  4  1]
55 55
7.416198487095663 7.416198487095663
55.0


In [43]:
# numpy 이용
print(np.sqrt(np.dot(vector_1, vector_1)) * np.sqrt(np.dot(vector_2, vector_2)))

55.0


In [44]:
# 코사인 유사도

# 벡터의 내적
inner = np.dot(vector_1, vector_2)

# 벡터의 크기
size = np.sqrt(np.dot(vector_1, vector_1)) * np.sqrt(np.dot(vector_2, vector_2))

print(inner / size)

0.6363636363636364


In [45]:
# scipy
print(1 - spatial.distance.cosine(vector_1, vector_2))

0.6363636363636364


In [46]:
def cosine_similarity(vector_1, vector_2):
    return 1 - spatial.distance.cosine(vector_1, vector_2)

cosine_similarity(vector_1, vector_2)

0.6363636363636364

### 3. **유클리디안 유사도와 코사인 유사도의 차이**

In [47]:
vector1 = np.array([1,2])
vector2 = np.array([10,10])
vector3 = np.array([2,1])

In [48]:
euclidean_similarity(vector1, vector2),\
euclidean_similarity(vector1, vector3)

(12.041594578792296, 1.4142135623730951)

In [49]:
cosine_similarity(vector1, vector2),\
cosine_similarity(vector1, vector3)

(0.9486832980505138, 0.8)

어떤 유사도를 쓰느냐에 따라 값이 다르게 나온다.