<a href="https://colab.research.google.com/github/KevinTheRainmaker/Recommendation_Algorithms/blob/main/colab/fastcampus/Model_based_Collaborative_Filtering_Docs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 모델기반 협업필터링

## 1. 모델기반 협업필터링이란

- 머신러닝과 그 특징을 가장 잘 활용한 추천 알고리즘의 일종
- 주어진 데이터를 활용하여 모델 학습
  - 학습과정에서 모델이 데이터를 배워서 데이터 정보를 압축

- 항목간 유사성에서 벗어나, 데이터의 패턴을 학습
- 데이터 크기 또는 데이터의 feature를 동적으로 활용 가능
- 데이터(유저)의 잠재적 특성(선호 취향)을 파악하는 모델 (Latent Factor Model)

<br>

#### 장점
- 추천모델의 크기가 작다
  - 수많은 데이터로 구성된 행렬(ex. Rating Matrix)보다 압축된 형태로 저장
- 추천모델의 학습과 예측 속도가 빠르다
  - 데이터 전처리와 학습과정으로 미리 모델을 준비하여, 준비된 모델로 예측
- 추천모델의 과적합 방지
  - 데이터를 다양하게 학습할 수 있고, 새로운 추천을 할 가능성이 있음
- Sparse data에 대하여 적용이 가능
- Limited Coverage 문제(유저 혹은 아이템 간 교집합이 적은 문제) 해결 가능

## 2. 모델기반 협업필터링 종류

- Association Rule Mining
- Matrix Factorization
  - SVD(Singular Value Decomposition), ALS(Alternating Least Square)
- Probabilistic Models
  - Clustering, Bayes Rules
- Etc.
  - SVM, Regression methods(Logistic Regression), Deep Learning...





### 2-1. Association Rule Mining (feat. Rule-based CF)

- 데이터의 모델 
> 데이터 간 관계, 접근과 흐름 파악을 위한 추상화된 모형

- 데이터 간의 연관 법칙을 찾는 data mining 기법 중 하나로, 데이터의 여러 특징을 파악해서 모델링

- 기존 데이터를 기반으로 Association Rule(연관 규칙)을 만든다

- 이산형 변수로의 데이터 Profiling 통해 Association Rule 적용 가능
  - Profile Association Rule

<br>

#### 정의
- Minimum Support와 Minimum Confidence 값을 넘는 Rule을 찾는 과정
- 데이터에서 흥미로운 관계를 찾는 Rule-based ML 기법 중 하나
- 특정 measure를 통해 interestingness를 평가하여 Strong Rule을 찾는 과정

1) Support(지지도)
- 데이터 관계 설정을 위해 아이템이 동시에 발생할 확률
- 전체 데이터 중 규칙 (A,B)를 포함하는 데이터 비율


2) Confidence(신뢰도)
- 특정 아이템 A가 선택된 상태에서 다른 아이템 B를 선택할 확률
- (A,B)의 관계를 가정하고, A를 선택한 사람이 B를 선택한 비율

3) Lift(향상도)
- (A,B)의 관계를 직접적으로 나타내는 measurement
- 1보다 크면, 이어서 B를 선택할 확률이 높고, 1보다 작다면 확률이 낮다

#### 1) Support
$support(A \rightarrow B) = {\# \ of \ (A \cap B) \over \# \ of \ data(rows)} = P(A\cap B)$

- 0~1 사이 값
- 1에 가까울수록 A와 B 관계가 중요하다는 것을 의미
- 0에 가까운 연관관계를 먼저 제거 $\rightarrow$ 자주 발생하지 않음을 의미
- 단점) $support(A \rightarrow B)$ 와 $support(B \rightarrow A)$ 차이 파악 불가

#### 2) Confidence
$confidence(A\rightarrow B) = {\# \ of \ (A\cap B)\over \# \ of \ A} = {P(A\cap B)\over P(A)}$

- 0~1 사이 값
- A를 선택했을 때, B를 선택할 확률 $\rightarrow$ $confidence(A \rightarrow B)$ 와 $confidence(B \rightarrow A)$ 차이 파악 가능
- 1에 가까울수록 A는 B에 많은 영향을 받음 $\rightarrow$ minimum support 중 가장 큰 confidence 선택

#### 3) Lift
$lift(A\rightarrow B) = {confidence(A\rightarrow B)\over support(B)} = {P(A\cap B)\over P(A)\ * \ P(B)}$

- 0~1 사이 확률값이 아닌 A와 B사이의 관계를 파악하는 용도로 사용
- $lift(A\rightarrow B) < 1$: 상호대체 $\rightarrow$ A와 B는 반비례
- $lift(A\rightarrow B) > 1$: 상호보완 $\rightarrow$ A와 B는 정비례
- $lift(A\rightarrow B) = 1$: 독립 $\rightarrow$ A와 B는 서로에게 영향을 끼치지 않음

### 2-2. Latent Factor Model (feat. Matrix Factorization)


- 사용자/아이템 특성을 벡터로 간략화(요약)하는 모델링

- 사용자/아이템 특성 간 복잡한 관계를 학습한다

- 사용자/아이템 행렬에서 사용자와 아이템을 factor로 나타내는 방법

- **사용자와 아이템이 같은 vector 공간에 표현된다**

- 사용자와 아이템을 모르는 차원(dimension)에 표현하는데, 이때 차원의 수는 알 수 없다

- 같은 vector 공간에서 사용자와 아이템이 가까우면 유사, 멀리 떨어져 있으면 유사하지 않다고 판단한다.

#### Singular Value Decomposition

- 차원 축소 기법 (Dimensionality Reduction) 중 하나
  - 노이즈 제거, Sparse matrix 형태로 큰 데이터 축소
  - 참고: PCA(Principle Component Analysis)
- 사용자와 아이템 간 데이터를 행렬 R로 나타낸다.

  $A = U\Sigma V^T$

- $U$는 고유값 분해(SVD)로 얻은 m x m 직교 행렬
  - $AA^T = U(\Sigma \Sigma^T)U^T$
  - $U$의 열벡터는 $A$의 left singular vector

- $V$는 고유값 분해로 얻은 n x n 직교 행렬
  - $A^TA = V(\Sigma^T\Sigma)V^T$
  - $V$의 열벡터는 $A$의 right singular vector

- $\Sigma$는 m x n 대각행렬
  - 고유값 분해해서 나온 eigenvalue의 제곱근이 대각성분
  - 대각성분 = $A$의 특이값
  - latent factor의 중요도

- 행렬 $U$는 사용자와 latent factor, $V$는 아이템과 latent factor간의 관계를 나타낸다
  - 사용자와 아이템의 관계를 2차원 직교좌표계로 표현한다 
    - 사용자와 아이템의 고유값 계산 $\rightarrow$ 고유값으로 기존 평점데이터를 다시 계산

- 행렬 $U$와 $V$의 모든 열벡터는 특이벡터(singular vector)
  
  모든 특이벡터는 서로 직교한다

  $U^TU = I,\ V^TV = I$


#### Matrix Factorization

- Latent Factor Model을 구현하는 방법
- Rating Matrix를 분해하는 과정
- $|U|X|I|$: user-item rating matrix (rank k < n)
- $P \rightarrow |U|Xk$: matrix of user factors
- $Q \rightarrow |I|Xk$: matrix of item factors
- 분해한 행렬 P와 Q를 곱하여 평점을 예측한다
- 임의의 차원 수 k는 직접 정한다
- $R_{ui} = P^T_u X Q_i$
- $R$(원본 rating matrix)과 $R'$(예측 matrix)이 서로 유사하도록 학습하는 과정
  - 관측된 data만 사용
  - (true rating - predicted rating)으로 근사값을 추론하는 문제
  -  user u가 item i에 대해 줄 예측 rating 값 (predicted rating) = $\hat {R_{ui}} = P^T_u X Q_i$

#### Objective Function of MF

  $min \Sigma_{(u,i)\in Training} (R_{ui} - P^T_uQ_i)^2 + \lambda(||P_u||^2 + ||Q_i||^2)$

- $\lambda(||P_u||^2 + ||Q_i||^2)$: 정규화 (regularization) - Overfitting을 피하기 위한 error term

#### Stochastic Gradient Descent

- 학습 데이터의 모든 rating을 훑는 방법
- 실제 평점과 예측 평점의 차이를 Error term으로 정의
  - $e_{ui} = R_{ui} - P^T_uQ_i$
- Gradient 반대 방향으로 $P^T_u$와 $Q_i$을 update
  - $P_u \leftarrow P_u + \gamma(e_{ui} * Q_i - \lambda * P_u)$
  - $Q_i \leftarrow Q_i + \gamma(e_{ui} * P_u - \lambda * Q_i)$
- 구현이 쉽고 계산이 빠르다

#### Alternating Least Squares

- 일반적으로 $P_u$와 $Q_i$를 모두 알 수는 없는 경우가 대다수
  - loss function이 non-convex(=최적해를 빠르고 정확하게 찾기 힘들다)
- $P_u$와 $Q_i$ 중 한 쪽을 고정하고 식을 quadratic equation으로 하여 최적화 문제 해결
- $P_u$와 $Q_i$를 번갈아 고정시키면서, least-square(최소제곱) 문제를 풀게 된다
  - $P_u$와 $Q_i$를 독립적으로 계산하기 때문에 병렬처리에 사용할 수 있다
- Implicit feedback 처리 시 유용 (Explicit에 비해 dense하여 연산량 $\uparrow$


#### More on Matrix Factorization

- Matrix Completion 문제로, 다양한 SVD 기법을 통해 행렬 분해를 수행하여 특이값을 도출한다.
- loss function을 최적화하기 위해 SGD, ALS 등의 Optimization을 이용
- 정보를 추가하여 모델링 할 수 있다
  - Explicit과 Implicit feedback을 Matrix Factorization에 녹여낸다

- Adding Bias: User u와 Item i의 개별 특성을 함께 표현하기 위해 bias term 추가

  $\hat{r_{ui}} = \mu + bias_i + bias_u + P^T_uQ_i$
    - $\mu$: 모든 item의 평균(모든 평점 평균)
    - $bias_i$: 전체 item 평균에 대한 item i의 편차(deviation)
    - $bias_u$: 전체 user 평균에 대한 user u의 편차(deviation)

- Additional Input Sources
  - Behavior Information 등 추가 정보를 활용한 모델링 가능
  - $\Sigma_{i\in N(u)}Q_i$: User u의 Item i에 대한 implicit feedback
    - $N(u)$: 전체 Item에 대한 User u의 implicit feedback
  - $\Sigma_{a\in A(a)}P_a$: User u의 Personal or non-item related information
    - 성별, 나이, 주소 등 Context data
  
  $\hat{r_{ui}} = \mu + bias_i + bias_u + P^T_u[Q_i + |N(u]|^{-0.5} \Sigma_{i\in N(u)}Q_i * \Sigma_{a\in A(a)}P_a]$

- Temporal Dynamics
  - 데이터를 시간의 변화에 따라 동적으로 반영하는 모델링
  - t는 시간의 변화를 표현
  - item i의 인기도가 시간이 흐름에 따라 변하는 경우
  
  $\hat{ r_{ui}(t) } = \mu + bias_i(t) + bias_u(t) + P^T_iQ_u(t)$

- Inputs with Varying Confidence Levels
  - 데이터가 동일한 가중치 또는 신뢰도가 아닌 상황을 모델링
  - 대규모 광고에 영향을 받은 item이 자주 선택되는 경우
  - Implicit feedback 데이터에서 user가 실제로 선호하는지 판단하기 어려운 경우

    $min \Sigma_{(u,i)\in Train} c_{ui}(r_{ui} - \mu - bias_i - bias_u - P^T_uQ_i)^2 + \lambda(||P_u||^2 + ||Q_i||^2 + bias_i^2 + ias_u^2)$
      - $c_{ui}$: $r_{ui}$에 대한 신뢰도 (또는 가중치)

### 2-3. Advanced Matrix Factorization (feat. Bayesian Personalized Ranking)



- 참고 논문: [BPR: Bayesian Personalized Ranking from Implicit Feedback](https://arxiv.org/abs/1205.2618)

  - Implicit Feedback으로 추천알고리즘을 다루는 논문
  - Matrix Factorization과 (adaptive) k-NN으로 personalized ranking 실험
  - Bayesian을 활용한 최적화 기법(BPR-Opt) 제시: Maximum Posterior Estimator에 기반
    - BPR-Opt 위한 학습 알고리즘인 LearnBPR 제안: 기존 SGD보다 우수한 성능
  - 위 최적화 기법을 적용하여 기존 방식 대비 우수성 입증
  - Implicit feedback으로 ranking을 추천할 수 있는 알고리즘 제시

#### Personalized Ranking

- User에게 ranked list of ites를 추천하는 것
- Item Recommendation이라고도 함