### Collaborative Filtering - 협업 필터링
- 사용자 기반 협업필터링(User-Based-CF)
- 아이템 기반 협업필터링(Item-Based-CF)

### Similarity - 유사도
- Euclidean Distance Similarity
- Cosine Similarity
- Compare Euclidean Distance & Cosine Similarity

In [1]:
import numpy as np
import pandas as pd
from scipy import spatial

In [2]:
# 샘플 데이터
vector_1 = np.array([1,2,3,4,5])
vector_2 = np.array([5,4,3,2,1])
vector_3 = np.array([2,3,4,5,6])

##### 1. Euclidean Distance Similarity
- 벡터 사이의 거리
- 거리가 작으면 가까운 위치에 있기 때문에 비슷한 특징을 가짐

<img src="img/cf3.png" style="width:150px; float:left;">

In [3]:
# 벡터 사이의 거리

# 계산과정
print((vector_1 - vector_2))
print((vector_1 - vector_2) ** 2)
print(sum((vector_1 - vector_2) ** 2))
print(np.sqrt(sum((vector_1 - vector_2) ** 2)))

# numpy 함수 사용
np.linalg.norm(vector_1 - vector_2), np.linalg.norm(vector_1 - vector_3)

[-4 -2  0  2  4]
[16  4  0  4 16]
40
6.324555320336759


(6.324555320336759, 2.23606797749979)

In [4]:
def euclidean_smimilarity(vector_1, vector_2):
    return np.linalg.norm(vector_1 - vector_2)

euclidean_smimilarity(vector_1, vector_2)

6.324555320336759

##### 2. Cosine Similarity
- 벡터 사이의 cosine 각
- 각이 작으면 같은 방향성을 가지기 때문에 비슷한 특징을 가짐
- 벡터의 내적 / 벡터의 크기

<img src="img/cf1.png" style="width:150px; float:left;">

<img src="img/cf2.png" style="width:400px; float:left;">

내적

<img src="img/cf4.png" style="width:400px; float:left;">

In [5]:
# 벡터 사이의 거리
import numpy as np
from scipy import spatial

# 샘플 데이터
vector_1 = np.array([1,2,3,4,5])
vector_2 = np.array([5,4,3,2,1])
vector_3 = np.array([11,19,28,32,47])

# 분자 - 벡터의 내적
print(sum(vector_1 * vector_2))
print(np.dot(vector_1, vector_2)) # 내적 numpy 함수

# 분모 - 벡터의 크기
# 계산과정
print(vector_1 * vector_1, vector_2 * vector_2)
print(sum(vector_1 * vector_1), sum(vector_2 * vector_2))
print(np.sqrt(sum(vector_1 * vector_1)), np.sqrt(sum(vector_2 * vector_2)))

# numpy 함수 사용
print(np.sqrt(np.dot(vector_1, vector_1)) * np.sqrt(np.dot(vector_2, vector_2)))

# 벡터의 내적 / 벡터의 크기
print(np.dot(vector_1, vector_2) / (np.sqrt(np.dot(vector_1, vector_1)) * np.sqrt(np.dot(vector_2, vector_2))) )

# scipy 함수 사용
1 - spatial.distance.cosine(vector_1, vector_2), 1 - spatial.distance.cosine(vector_1, vector_3)

35
35
[ 1  4  9 16 25] [25 16  9  4  1]
55 55
7.416198487095663 7.416198487095663
55.0
0.6363636363636364


(0.6363636363636364, 0.9971083087048903)

In [6]:
def cosine_smimilarity(vector_1, vector_2):
    return 1 - spatial.distance.cosine(vector_1, vector_2)

cosine_smimilarity(vector_1, vector_2), cosine_smimilarity(vector_1, vector_3)

(0.6363636363636364, 0.9971083087048903)

In [7]:
# 분자 벡터의 내적 (제곱해서 더해줌)
sum(vector_1*vector_2), np.dot(vector_1,vector_2)

(35, 35)

In [8]:
# 분모 벡터의 크기

# 계산과정
print(vector_1 * vector_1, vector_2 * vector_2)
print(sum(vector_1 * vector_1), sum(vector_2 * vector_2))
print(np.sqrt(sum(vector_1*vector_1)), np.sqrt(sum(vector_2 * vector_2)))

# 결과
np.sqrt(sum(vector_1 * vector_1)) * np.sqrt(sum(vector_2 * vector_2)), \
np.sqrt(np.dot(vector_1, vector_1)) * np.sqrt(np.dot(vector_2, vector_2))

[ 1  4  9 16 25] [25 16  9  4  1]
55 55
7.416198487095663 7.416198487095663


(55.0, 55.0)

In [9]:
# cosine similarity
np.dot(vector_1,vector_2) / ( np.sqrt(np.dot(vector_1, vector_1)) * np.sqrt(np.dot(vector_2, vector_2)) ),\
(1 - spatial.distance.cosine(vector_1, vector_2))

(0.6363636363636364, 0.6363636363636364)

In [10]:
def cosine_smimilarity(vector_1, vector_2):
    return 1 - spatial.distance.cosine(vector_1, vector_2)

cosine_smimilarity(vector_1, vector_2)

0.6363636363636364

##### 3. Compare Euclidean Distance & Cosine Similarity

<img src="img/cf6.png" style="width:300px; float:left;">