# 🍎 파이썬 머신러닝 완벽 가이드 혼공

### 2019.05.27 ~ 2019.06.02 교재 09장

### 09. 추천 시스템

#### 01. 추천 시스템의 개요와 배경 

1. 콘텐츠 기반 필터링 
2. 협업 필터링: 1) 최근접 이웃 협업 필터링 2) 잠재 요인 협업 필터링(행렬 분해 기법을 이용한 잠재 요인 협업 필터링 많이 이용되고 있음) 

#### 02. 콘텐츠 기반 필터링 추천 시스템 
- 사용자가 특정한 아이템을 매우 선호하는 경우, 그 아이템과 비슷한 콘텐츠를 가진 다른 아이템을 추천하는 방식. 

#### 03. 최근접 이웃 협업 필터링
- 사용자가 아이템에 매긴 평점 정보나 상품 구매 이력과 같은 사용자 행동 양식만을 기반으로 추천을 수행하는 것. 
- 주요 목표는 축적된 사용자 행동 데이터를 기반으로 사용자가 아직 평가하지 않은 아이템을 예측 평가하는 것이다. 

1) 사용자 기반 최근접 이웃 방식 
: 특정 사용자와 타 사용자 간의 유사도 측정해 그들이 선호하는 아이템 추천 
2) 아이템 기반 최근접 이웃 방식
: 사용자들이 그 아이템을 좋아하는지/싫어하는지의 평가 척도가 유사한 아이템을 추천하는 기준이 되는 알고리즘 
: 비슷한 영화를 좋아한다고 해서 취향이 비슷하다고 볼 수 없으므로 아이템 기반이 정확도 높음. 

#### 04. 잠재 요인 협업 필터링 
- 사용자-아이템 평점 매트릭스 속에 숨어있는 잠재 요인을 추출해 추천 예측을 할 수 있게 하는 기법 
- 대규모 다차원 행렬을 차원 감소 기법으로 분해하는 과정에서 잠재 요인을 추출하는데, 이러한 기법을 **행렬 분해**라고 함. 

##### 행렬 분해의 이해 
- R = P * Q.T(Q의 전치행렬) 
- R행렬을 P와 Q로 분해하는 방식은 주로 SVD를 이용하는데, 이는 널값이 없어야 할 수 있으므로 확률적 경사 하강법이나 ALS 방식을 사용해 SVD를 수행함. 

##### 확률적 경사 하강법을 이용한 행렬 분해 
P와 Q 행렬로 계산된 예측 R 행렬 값이 실제 R 행렬 값과 가장 최소의 오류를 가질 수 있도록 반복적인 비용 함수 최적화를 통해 P와 Q를 유추해내는 것 

In [6]:
import numpy as np 

# 원본 행렬 R 생성, 분해 행렬 P와 Q 초기화, 잠재 요인 차원 K는 3으로 설정. 
R = np.array([[4, np.NaN, np.NaN, 2, np.NaN],
             [np.NaN, 5, np.NaN, 3, 1],
             [np.NaN, np.NaN, 3,4,4],
             [5,2,1,2,np.NaN]])
num_users, num_items = R.shape 
K=3 

np.random.seed(1)
P = np.random.normal(scale=1./K, size=(num_users, K))
Q = np.random.normal(scale=1./K, size=(num_items, K))

In [7]:
P

array([[ 0.54144845, -0.2039188 , -0.17605725],
       [-0.35765621,  0.28846921, -0.76717957],
       [ 0.58160392, -0.25373563,  0.10634637],
       [-0.08312346,  0.48736931, -0.68671357]])

In [8]:
Q

array([[-0.1074724 , -0.12801812,  0.37792315],
       [-0.36663042, -0.05747607, -0.29261947],
       [ 0.01407125,  0.19427174, -0.36687306],
       [ 0.38157457,  0.30053024,  0.16749811],
       [ 0.30028532, -0.22790929, -0.04096341]])