# "[Recommender System] Factorization Machines"
> SVM과 Factorization Model의 장점을 합친 모델

- toc: true
- badges: true
- comments: true
- categories: [Paper]
- tags: [paper, recommender system, factorization machines]

# Factorization Machines

![](../images/paper/recommendation/fm/fm-001.png)

## Abstract

- **Factorization machine**은 **SVM**과 **Factorization Model**의 장점을 합친 모델
    - **Factorization Model**의 예시: **Matrix Factorization**, **Parallel factor analysis**, **specialized model** (**SVD++**, **PITF** or **FPMC**)
- Real valued Feature Vector를 활용한 General Predictor
- Factorization Machine의 식은 linear time
- 일반적인 추천 시스템은 special input data, optimization algorithm 등이 필요
- 반면, Factorization Machine은 어느 곳이든 쉽게 적용 가능

## Introduction

- **Factorization Machine**은 general predictor이며, high sparsity에서도 reliable parameter를 예측할 수 있음
- Sparse한 상황에서 **SVM**은 부적절
    - Cannot learn reliable parameters(hyperplanes) in complex(non-linear) kernel spaces
- FM은 복잡한 interaction도 모델링하고, factorized parameterization를 사용
- Linear Complexity이며, linear number of parameters 임

## Contributions

![](../images/paper/recommendation/fm/fm-002.png)

- **Factorization Machine**의 장점
    - Sparse data(일반적인 상황)
    - Linear Complexity
    - General Predictor로써 추천시스템 이외 다른 머신러닝에서 사용 가능

## Prediction Under Sparsity

![](../images/paper/recommendation/fm/fm-003.png)

- 일반적으로 볼 수 있는 영화 평점 데이터의 설명
- **Matrix Factorization**은 user와 movie, 그리고 해당 rating만 사용
- **Factorization Machine**은 더 다양하게 사용할 수 있음

![](../images/paper/recommendation/fm/fm-004.png)

## Factorization Machine (FM)
### Model Equation

$ \Large \displaystyle \hat{y}(x) := w_{0} + \sum_{i=1}^{n}w_{i}x_{i} + \sum_{i=1}^{n} \sum_{j=i+1}^{n}<v_{i},v_{j}>x_{i}x_{y}$

> $w_{0}$ &larr; Global Bias  
  
> $w_{i}x_{i}$ &larr; $i$번째 weight를 모델링 함  
  
> $<v_{i}, v_{j}>$
> - $<v_{i}, v_{j}> := \displaystyle\sum_{f=1}^{k}v_{i,f} \cdot v_{j,f} $  
> - Size $k$의 두 벡터를 내적 함 
  
> $\displaystyle\sum_{i=1}^{n}w_{i}x_{i}$  
> - Matrix Factorization &larr; $W_{u} \times W_{j} $  
>     - user와 item latent vector  
> - Factorization Machine  &larr; $W_{i} \times x_{i} $
>     - $x_{i}$마다 구함
  
> $<v_{i},v_{j}>x_{i}x_{y}$
> - 변수간 latent vector 조합을 고려
> - 이 때, degree = 2인 경우 모든 interaction을 얻을 수 있음
> - pairwise feature interaction을 고려하기 때문에 sparse한 환경에 적합
<br><br/>

- $w_{0} \in \mathbb{R}, w \in \mathbb{R}^n, V \in \mathbb{R}^{n \times k}$ &rarr; 추정해야 할 파라미터
- 2-way FM(degree = 2): 개별 변수 또는 변수 간 interaction 모두 모델링 함
- 다항 회귀와 매우 흡사하지만, coefficient 대신 파라미터마다 embedding vector를 만들어서 내적

### Computation

![](../images/paper/recommendation/fm/fm-005.png)

- Factorization of pairwise interaction
- 2개 변수에 직접적으로 연관있는 model parameter가 없음
- Pairwise interaction 식을 정리하면 다음과 같음
    - $O(kn^2)$ &rarr; $O(kn)$

![](../images/paper/recommendation/fm/fm-006-1.png)

![](../images/paper/recommendation/fm/fm-006-2.png)

### d-way Factorization machine

![](../images/paper/recommendation/fm/fm-007.png)

- 2-way FM을 d-way FM으로 일반화할 수 있음
- 마찬가지로 computation cost는 linear임
- [http://www.libfm.org](http://www.libfm.org) 에 다양하게 활용할 수 있는 module을 공개

![](../images/paper/recommendation/fm/fm-008.png)

![](../images/paper/recommendation/fm/fm-009.png)

## Conclusion

- Factorized Interaction을 사용하여 feature vector x의 모든 가능한 interaction을 모델링
- (High) sparse한 상황에서 interaction을 추정할 수 있음. Unobserved interaction에 대해서도 일반화할 수 있음
- 파라미터 수, 학습과 예측 시간 모두 linear 함 (Linear Complexity)
- 이는 **SGD**를 활용한 최적화를 진행할 수 있고 다양한 loss function을 사용할 수 있음
- **SVM**, **matrix**, **tensor and specialized factorization model** 보다 더 나은 성능을 증명