![image.png](attachment:image.png)
딥러닝 협업 필터링을 하기 전에 `모델기반 협업필터링`에 대해 알아야한다.

**이웃기반 협업필터링**
- User-Item 간의 평점 등 주어진 데이터로 새로운 아이템을 예측한다.
- 특징
    1. 구현이 간단하다.
    2. Model-based(모델기반) 협업필터링에 비해 계산량이 적다.
    3. 새로운 user, item이 추가되더라도 비교적 안정적이다.
    4. 새로운 content에 대한 추천이 가능하다!
    
# 모델기반 협업필터링
- 머신러닝의 특징(학습)을 잘 활용한 추천 알고리즘의 일종이다.


- 주어진 데이터를 활용하여 모델을 학습한다.
    - 학습과정(Training)에서 모델이 테이터 정보를 압축한다.


- 항목간 유사성을 벗어나 데이터의 '패턴'을 학습한다.


- 데이터의 크기나 데이터의 특징(feature)을 동적으로 활용 가능하다.
    - 데이터의 크기나 특징을 많이 준비하여 학습에 활용해도 된다.


- 데이터(유저)의 잠재적 특성(선호하는 취향)을 파악할 수 있다.
    - 그렇기 때문에 새로운 content가 들어와도 선호할 지 안 할지 판단할 근거로 활용한다.
    
## 장점
- 알고리즘의 크기
    - 수많은 데이터로 구성된 행렬보다 압축된 형태로 저장할 수 있다.
    
- 알고리즘의 학습과 예측 속도
    - 데이터 전처리와 학습 과정을 통해 미리 모델을 준비하여 => 준비된 모델로 예측을 바로 수행한다.
    
- 알고리즘의 과적합 방지
    - 데이터를 다양하게 학습할 수 있고, 새로운 추천을 할 가능성이 있다.

# 모델기반 협업필터링 종류
- Association Rule Mining


- ***Matrix Factorization***
    - SVD(Singular Value Decomposition), ALS(Alternating Least Square)
    
    
- Probabilistic Models
    - Clustering(K-Means), Bayes Rules
    

- Etc.
    - SVM, Regression methods(Logistic regression), Deep Learning

# 예시
- Netflix Prize라는 대회에서 1, 2등을 한 팀이 모델기반 협업 필터링을 사용했다.
- 그 중에서도 주로 ***Matrix Factorization***을  사용했다.
![image.png](attachment:image.png)


# Latent Factor Model
Latent : 잠재하는, 잠재되어 있는

Factor : 요소, 특징

즉, Latent Factor Model은 잠재된 특징을 가지고 있는 모델이다.

- 사용자/아이템 특성을 벡터로 간략하게 모델링한다.


- 사용자/아이템 특성 간 복잡한 관계를 **학습**한다.
    - 복잡하거나 간단한 벡터를 주면 간략화하고 스스로 요약한다.
    
    
- 사용자와 아이템이 같은 vector 공간에 표현시킨다.


- 같은 vector 공간에서 사용자와 아이템이 가까우면 유사한 것이고 멀리 떨어져 있으면 유사하지 않은 것이다.

이를 그림으로 표현하면
![image.png](attachment:image.png)

# Singular Value Decomposition (SVD)
[특이값 분해-위키피디아](https://ko.wikipedia.org/wiki/%ED%8A%B9%EC%9E%87%EA%B0%92_%EB%B6%84%ED%95%B4)
- 특이값 분해 => 행렬을 분해하겠다.
- **$M$이라는 $m * n$ 행렬을 3개의 행렬의 곱으로 분해하는 것이다.**
- 분해를 하므로써 얻는 벡터값들이 Latent vector라고 한다.


- **$M = U \sum{} V^T$**
![image.png](attachment:image.png)
- 차원축소기법 중 하나이다.
- 행렬 $U$는 사용자와 latent factor, $V$는 아이템과 latent factor이다.
- 행렬 $\sum$의 대각성분은 $M$의 특이값이다.

## SVD를 하는 이유
- 데이터의 차원을 축소한다.
    - 노이즈 제거, Sparse matrix 형태의 큰 데이터를 축소한다.
    

- 행렬 $U$는 user와 latent factor간의 관계이다.


- 행렬 $V$는 item과 latent factor간의 관계이다.


- 행렬 $\sum$는 대각행렬이고, latent factor의 중요도이다.


- Latent factor는 user와 item이 공통으로 갖는 특징이다.

# Matrix Factorization
![image.png](attachment:image.png)
- Latent Factor Model을 구현하는 방법이다.
- 아래와 같이 평가를 반영한 m X n 행렬을 m X k 행렬과 k X n 행렬 2개로 나눠서
- 여기서 K는 직접 정한다.
- 하나는 User 행렬, 하나는 Item 행렬이다.
- User 행렬 U와 Item 행렬 V의 곱 $A^{'} = UV^T$ 를 구할 수 있고
- 이 때 기존의 행렬 $A$와 $A^{'}$의 차이를 최소화 하도록 $U$와 $V$를 구성해야 한다.
- $U$와 $V$의 행렬을 구했다면, User i와 Item j 의 내적을 통해 $A_{ij}$를 예측할 수 있다.

![image-2.png](attachment:image-2.png)

실제값 $A_{ij}$와 예측값 $\hat{A_{ij}}$의 차이를 최소로 해야한다.

즉, 비어있는 기존의 행렬을 예측값으로 채워넣는 matrix completion 문제라고 할 수 있다.

## 목적 함수
- $min\sum_{(i,j)\in obs} (A_{ij} - <U_i, V_j>)^2$ = $min\sum (A_{ij} - U_{i}^{T}V_j)^2$

$A_{ij}$ : 실제 평가 값

$<U_i, V_j>$ : 예측 평가 값

![image.png](attachment:image.png)
이 때 관측되지 않은 값에 대해서는 모두 0으로 놓고 다시 목적함수를 구하면 아래와 같다.

즉, 관측값과 관측되지 않은 값에 각각 가중치를 곱하여 더한 최종적인 목적함수이다.

- **$min\sum_{(i,j)\in obs} w_{ij}(A_{ij} - <U_i, V_j>)^2 + w_{0} \sum_{(i,j)\notin obs}<U_i, V_j>^2$**

## 그림으로 이해해보자
![image.png](attachment:image.png)
- 위와 같이 User(사람)와 Item(영화)에 대한 평가 점수 행렬이 있다고 해보자.


- 위의 예시에서는 4명의 사람이 5개의 영화에 대해 평가를 했기 때문에 4 * 5 = 20개의 요소가 있다.


- 만약 2000명의 사람이 있고 1000개의 영화에 대해 평가를 했다고 하면 2000 * 1000 = 2,000,000개의 요소가 필요하며, 이 자체로 무겁지만 모든 사람이 모든 영화를 본 것이 아니기 때문에 평가를 하지 못하여 비어있는 요소가 많을 것이며 이는 굉장이 Sparse하고 큰 공간 낭비를 한다.


- 그렇기 때문에 Matrix Factorization은 이 행렬을 2개의 행렬로 분해한다.
![image-2.png](attachment:image-2.png)
- 위와 같이 붉은 색의 2000 * 1000 행렬의 위쪽 푸른색 2000 * 100 행렬과 왼쪽 푸른색 100 * 1000 행렬 2개로 표현할 수 있다.


- 여기서 위 예시 특성(100개)의 수는 임의로 정하면 된다.


- 2백만 개의 항목이 저장될 공간을 20만개와 10만개 간의 행렬 내적을 통하여 표시할 수 있게한 점에서 정보 저장 공간의 절약의 이점이 있다.


- 파란색 2개의 행렬의 요소 값을 잘 찾는 과정이 학습하는 과정이다!

![image-2.png](attachment:image-2.png)
1. 파란색 행렬을 의미하는 위쪽과 왼쪽의 행렬의 초기값이 아래와 같이 설정되었다고 가정해보자.


2. 그럼 폴라가 아이언맨에 대한 평점을 행렬 내적을 통해 계산해보면 1.44로 나온다.


3. 이 값을 예측값이라고 하고 원래의 값인 3보다 더 작은 것을 알 수 있다.


4. 그럼 예측값을 더 높히기 위해 왼쪽 행렬의 특성 1, 2의 값을 조금 증가시키고, 위쪽 행렬의 특성 1, 2의 값도 조금 증가시키면 예측값도 조금 증가될 것이다.


5. 위와 같은 과정을 반복하면서 모든 요소의 예측값과 원래값의 차이를 최소화 해가는 특성값들을 찾아가는 과정, 즉 훈련을 한다.

![image.png](attachment:image.png)
- 위의 과정의 반복을 통해(훈련을 통해) 인수분해 값을 최종적으로 얻었다고 하자.


- 이제 모든 요소의 값이 정해졌기 때문에 모든 사람의 모든 영화에 대한 평가를 예측할 수 있다.


- 폴라의 경우를 보면 위쪽과 왼쪽 행렬의 내적을 통해 3점으로 예측한 것을 알 수 있다.


- 여기서 왼쪽 행렬의 1은 선호, 0은 비선호이며 폴라는 특성 1은 선호하며 특성 2는 비선호 한다는 의미이다.

![image.png](attachment:image.png)
- 만약 위와 같이 사용자별 영화에 대한 평점이 비어있는 상태라면 평점 예측이 가능하다.


- 써리의 경우 '스파이더맨', '건축학개론', '토르'를 관람한 평점을 기준으로 영화를 추천하게 된다면


- 비어있는 값을 계산(예측)해 봤을 때 '스파이더맨'은 4점, '쏘우'는 5점으로 나온다.


- 따라서 써리의 영화 추천은 가장 높은 5점으로 예측한 '쏘우'를 추천하게 되는 것이다.

----
많은 사용자들이 수많은 영화를 관람하고 평점을 남겨준 데이터를 기반으로 학습을 통하여 특성(feature)들을 추출한다. 

위의 예시에서는 특성 1, 2라는 2개의 특성만 사용했지만 이는 우리가 정하는 하이퍼 파라미터이다.

훈련을 통해 영화별, 사용자별로 만들어진 특성 1, 2 값을 바탕으로 행렬 인수분해를 활용하여 비어 있는 사용자의 영화평을 예측하고, 예측값들 중 가장 높은 값에 해당하는 영화를 추천하는 구조이다.

# Reference

1. [Google Developers newsletter - Recommendation Systems](https://developers.google.com/machine-learning/recommendation/collaborative/matrix)


2. [ITBizNews](https://www.itbiznews.com/news/articleView.html?idxno=45731)


3. [특이값 분해-위키피디아](https://ko.wikipedia.org/wiki/%ED%8A%B9%EC%9E%87%EA%B0%92_%EB%B6%84%ED%95%B4)