# "[Recommender System] BPR: Bayesian Personalized Ranking from Implicit Feedback"
> 2009, Bayesian Personalized Ranking from Implicit Feedback

- toc: true
- badges: true
- comments: true
- categories: [Paper]
- tags: [paper, recommender system, bayesian ranking, implicit feedback]

# BPR: Bayesian Personalized Ranking from Implicit Feedback

![](../images/paper/recommendation/bpr/bpr-001.png)

## Abstract

<img src="../images/paper/recommendation/bpr/bpr-002.png" width="35%" height="35%"/>

- **Implicit Feedback**으로 추천 알고리즘을 다루는 논문
- **Matrix Factorization**과 **(adaptive) k-nearest-neighbor** (**kNN**)으로 personalized ranking 실험
- Bayesian을 활용한 최적화 기법(**BPR-Opt**)을 제시
- 위의 최적화 기법을 적용하여 기존의 **MF**, **kNN** 보다 더 우수한 성능을 증명

## Contribution

<img src="../images/paper/recommendation/bpr/bpr-003.png" width="40%" height="40%"/>

- **Maximum Posterior Estimator**에 기반한 최적화 기법인 **BPR-Opt**를 제안
- **BPR-Opt**를 위한 **LearnBPR**를 제안, 기존 성능보다 우수
- **LearnBPR**을 그 당시 최신 모델에 적용
- **BPR-Opt**가 다른 방법보다 우수함을 실험적으로 증명

## Introduction & Related Work
- 추천 시스템을 구현하기 위해 2가지 형태가 일반적; Explicit과 Implicit 데이터
- 보통 Implicit 데이터가 더 많은 비중을 차지하고, 더 어려운 문제
- Implicit 데이터로 User의 선호도 또는 취향을 파악해야 함
- **Implicit feedback**으로 ranking을 추천할 수 있는 알고리즘을 제시
- 저자가 정의한 ranking을 추천하기 위한 Optimization 알고리즘
    - item $i$와 $j$가 있고, item $i$보다 item $j$를 더 선호 함 &rarr; $item\;i > item\;j$
    - 이 때, 학습할 파라미터를 최적화하는 것이 목적

## Personalized Ranking

- Personalized Ranking이란 User에게 ranked list of items를 제안(또는 추천) 하는 것
- Item Recommendation이라고도 함
- 본 논문은 Implicit Feedback으로 user의 취향을 고려
- implicit feedback은 주로 positive feedback이 대부분
- Non-observed Item을 다루는 것이 중요한 포인트
> **Non-observed Item = real negative feedback + missing values**

## Formalization

- $U$는 모든 users의 집합, $I$는 모든 items의 집합
- 이 때, 각 user별 personalized total ranking(${>}_{u} \subset I^2$)를 구하는 것
- ${>}_{u}$는 다음과 같은 특성을 지님
> $\forall i, j \in I : i \neq j \Rightarrow i \, {>}_{u} \, j \lor j \, {>}_{u} \, i \quad (totality)$  
> $\forall i, j \in I : i \, {>}_{u} \, j \land j \, {>}_{u} \, i \Rightarrow i = j \quad (antisymmetry)$  
> $\forall i, j, k \in I : i \, {>}_{u} \, j \land j \, {>}_{u} \, k \Rightarrow i \, {>}_{u} \, k \quad (transitivity)$  

<img src="../images/paper/recommendation/bpr/bpr-004.png" width="50%" height="50%"/>

- 기존에 많이 사용하던 데이터 처리 방법
- **?** 는 관측되지 않은 데이터, **+** 는 관측된 데이터
- **0** 은 관측되지 않은 데이터 = 선호하지 않음
- **1** 은 관측된 데이터 = 선호함
- **Implicit data**를 다루는 중요한 문제점이 있음

<img src="../images/paper/recommendation/bpr/bpr-005.png" width="50%" height="50%"/>

### 저자가 제안하는 방법
- 전체 데이터를 pairwise preference $i {>}_{u} i$로 나타냄
- **+** 는 user가 $item \, j$에 비해 $item \, i$를 선호
- **-** 는 user가 $item \, i$에 비해 $item \, j$를 선호
- User가 보지 못한 $item \, j$에 비해 관측한 $item \, i$를 더 선호한다고 가정
- 유저가 $(i, j)$ 모두 관측했거나, 관측하지 않았다면 어떤 선호도도 추론할 수 없음
> $ {D}_{s} := \{(u, i, j) \, | \, i \in {I}_{u}^{+} \land j \in I \setminus {I}_{u}^{+} \}$  

- User u는 $item \, j$ 보다 $item \, i$를 더 선호
- ${>}_{u}$는 antisymmetric이기 때문에 negative는 implicit이라고 가정

### 저자가 제안하는 방법의 장점
- 학습셋 ${D}_{s}$은 positive, negative, missing value로 구성
- 아이템쌍 $(i, j)$에서 관측되지 않은 결측값은 테스트셋
- 학습셋과 테스트셋은 disjoint
- 학습셋은 실제 랭킹 목적에 맞게 만들어짐
- 관측된 데이터의 부분집합인 ${D}_{s}$을 학습 데이터로 사용

## Bayesian Personalized Ranking (BPR)

- 주어진 학습 데이터 ${D}_{s}$로 **Bayesian Personalized Ranking** 구하는 방법을 설명
- $p(i \, {>}_{u} \, j | \Theta )$에 대한 **likelihood function** 과 model parameter $p(\Theta)$에 대한 **prior probability**를 사용한 베이지안 문제로 볼 수 있음
- 다음과 같은 순서로 selection 구성
    - 4.1 BPR Optimization Criterion
        - 4.1.1 Analogies to AUC optimization
    - 4.2 BPR Learning Algorithm
    - 4.3 Learning models with BPR
        - 4.3.1 Matrix Factorization
        - 4.3.2 Adaptive K-Nearest Neighbor

### BPR Optimization Criterion

- Totality와 Antisymmetry에 따라 다음과 같이 정리할 수 있음

 $$
{\Large P(\Theta | \, {>}_{u}) \propto p({>}_{u} | \, \Theta)p(\Theta)}
$$  
  
  

  
$ \displaystyle\prod_{u \in U} p({>}_{u} | \, \Theta) = \displaystyle\prod_{(u,i,j) \in U \times I \times J)}{p(i \, {>}_{u} \, j | \, \Theta )}^{\delta((u,i,j) \in {D}_{s})} \cdot {(1 - p(i \, {>}_{u} \, j| \Theta))}^{\delta((u,i,j) \notin {D}_{s}} $  
  
이 때, $\delta$ 는 
$ \delta(b) := \begin{cases} 1, & \mbox{if b is true} \\ 0, & \mbox{else} \end{cases} $
  

$ \displaystyle\prod_{u \in U} p(>_{u} \, | \Theta) = \displaystyle\prod_{u,i,j \in D_{s}} p(i \, >_{u} \, j|\Theta)$

$$
{\Large p(i \, >_{u} \, j|\Theta) := \sigma(\widehat{x_{uij}}(\Theta))}
$$

$\widehat{x_{uij}}(\Theta)$는 $user \, u$와 $item \, i, j$의 관계를 나타내는 모델 파라미터 벡터의 실제 함수
- 즉, $\widehat{x_{uij}}(\Theta)$를 추정하면서 $u,i,j$ 사이의 관계를 모델링
- 전체 순서를 모델링하는 것이 비교적 간단해 짐

$$
\Large { p(\Theta | \, >_{u} ) \propto p(>_{u} |\Theta)p(\Theta) } 
$$

- 사전확률분포 $p(\Theta) \sim N(0, \Sigma_{\Theta})$로 나타내고, $\Sigma_{\Theta} = \lambda_{\Theta}I$로 정함
- **Likelihood**와 **prior** 모두 정의했으므로, **posterior**를 공식에 따라 구할 수 있음

<img src="../images/paper/recommendation/bpr/bpr-006.png" width="50%" height="50%"/>
<img src="../images/paper/recommendation/bpr/bpr-007.png" width="50%" height="50%"/>
<img src="../images/paper/recommendation/bpr/bpr-008.png" width="50%" height="50%"/>

- 미분가능하기 때문에 **gradient descent**로 **optimization** 함
- **SGD**가 적절한 선택지가 아니기 때문에 **LEARN-BPR**을 제안
    - Triples를 학습하는 Bootstrap 기반 **Stochatic Gradient-descent** 알고리즘
- 랜덤하게 triples를 선택하는 **SGD** 알고리즘을 사용
    - 동일한 쌍의 데이터 선택할 확률이 적음
    - 데이터 전수가 아닌 **bootstrap sampling**만 해도 데이터가 많기 때문에 충분

- Matrix Factorization

<img src="../images/paper/recommendation/bpr/bpr-009.png" width="50%" height="50%"/>

- Adaptive k-Nearest Neighbor

<img src="../images/paper/recommendation/bpr/bpr-010.png" width="50%" height="50%"/>

- **LearnBPR** 최적화를 위해 모든 모델 파라미터 $\Theta$에 대한 $\widehat{x_{uij}}$ 의 **gradient**를 알면 됨

## Evaluation

![](../images/paper/recommendation/bpr/bpr-011.png)

## Conclusion

- 사후확률을 최대화하려는 베이지안에 의한 새로운 방법을 제안
- **Personalized Ranking**을 위한 optimization 기법(**BPR-OPT**)을 제안
- **Bootstrap Sampling**을 통한 **Stochastic Gradient Descent**를 사용하여 모델 파라미터를 업데이트 함
- 기존 **Matrix Factorization**, **k-Nearest Neighbor** 모두 적용했으며 성능이 우수