# "[Recommender System] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction"
> 2017, Factorization Machine의 장점과 Deep Learning의 장점을 모두 합친 모델

- toc: true
- badges: true
- comments: true
- categories: [Paper]
- tags: [paper, recommender system, deepfm]

# DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

![](../images/paper/recommendation/dfm/dfm-001.png)

## Abstract

![](../images/paper/recommendation/dfm/dfm-002.png)

- Click Through Rate(CTR)을 예측하는 모델
- Low와 High-order interactions 모두 학습할 수 있음
- Factorization Machine의 장점과 Deep Learning의 장점을 모두 합친 모델이 DeepFM
- 추가 feature engineering 없이 raw feature를 그대로 사용
- 벤치마크 데이터와 commercial 데이터에서 모두 실험을 완료

## Introduction

- CTR: user가 추천된 항목을 click할 확률을 예측하는 문제
    - CTR(estimated probability)에 의해 user가 선호할 item 랭킹을 부여
- Learn Implicit Feature Interaction
    - App category와 Timestamp 관계: 음식 배달 어플은 식사시간 근처에 다운로드가 많음
    - User gender와 Age 관계: 남자 청소년들은 슈팅과 RPG 게임을 선호
    - 숨겨진 관계: 맥주와 기저귀를 구매하는 사람들이 많음
> low와 high-order feature interaction을 모두 고려  
> Explicit과 Implicit features를 모두 모델링할 수 있음

### 선행 연구
1. Generalized Linear Model(ex. FTRL)[McMahan et al., 2013]
    - 당시 성능은 좋은 모델이었으나, High-order feature interaction을 반영하기 어려움
2. Factorization Machine[Rendle, 2010]
    - Latent vector간의 내적을 통해 pairwise feature interaction 모델링
    - Low와 high-order 모두 모델링이 가능하지만, high-order의 경우 complexity가 증가
3. CNN and RNN for CTR Prediction[Liu et al., 2015; Zhang et al., 2014]
    - CNN-based는 주변 feature에 집중하지만, RNN-based는 sequential해서 더 적합
4. Factorization-machine supported Neural Network(FNN), Product-based Neural Network
    - [Qu et al., 2016; Cheng et al., 2016]
    - Neural Network 기반으로 high-order 가능하지만 lower-order는 부족
    - Pre-trained FM 성능에 의존할 수 있음
5. Wide & Deep [Cheng et al., 2016]
    - Low와 high-order 모두 가능하지만, wide component에 feature engineering이 필요

### Contiributions

![](../images/paper/recommendation/dfm/dfm-003.png)

- DeepFM이라는 모델 구조를 제안
    - Low-order는 FM, High-order DNN
    - End-to-end 학습 가능
- DeepFM은 다른 비슷한 모델보다 더 효율적으로 학습 가능
    - Input과 embedding vector를 share 함
- DeepFM은 benchmark와 commercial 데이터의 CTR prediction에서 의미있는 성능 향상을 이룸

## Our Approach

### DeepFM

![](../images/paper/recommendation/dfm/dfm-004.png)

- Sparse features의 노란색 부분은 embedding vector($x_{field_{i}}w_{i} = V_{i}$)에 해당

$ x = [x_{field_1}, x_{field_2}, ...,x_{field_m}], \, \hat{y} \in (0, 1)$  

$ \hat{y} = CTR\_model(x) $

![](../images/paper/recommendation/dfm/dfm-005.png)

### FM Component

![](../images/paper/recommendation/dfm/dfm-006.png)

- embedding vector의 내적을 order-2의 가중치로 사용한다는 것이 포인트

$y_{FM} = \, <w, x> + \displaystyle\sum_{j_{1}=1}^d\sum_{j_{2}=j_{1}+1}^{d}<V_{i},V_{j}>x_{x_{j1}}\cdot x_{j2}, \; w \in R^d \, and \, V_{i} \in R^k $

### Deep Component

![](../images/paper/recommendation/dfm/dfm-007.png)

- 모든 embedding vector을 모두 합친 것이 input이 됨

$ a^{(0)} = [e_{1}, e_{2}, ..., e_{m}]$  
$ a^{(l+1)} = \sigma(W^{(l)}a^{(l)} + b^{(l)})$  
$ y_{DNN} = \sigma(W^{|H|+1}\cdot a^H + b^{|H|+1}) $

### Relationship with the other Neural Networks

![](../images/paper/recommendation/dfm/dfm-008.png)

![](../images/paper/recommendation/dfm/dfm-009.png)

## Experiments

1. Criteo Dataset
    - 45 million user's click records
    - 13 continous features, 26 categorical ones
    - 90% for training and 10% for testing
2. Company* Dataset
    - 7 consecutive days of user's click records from Company* App Store(game center)
    - Next 1 day for testing
    - Approximately 1 billion records
    - App features(identification, category)
    - User features(user's downloaded apps)
    - Context features(operation time)
3. Evaluation Metrics
    - AUC(Area Under ROC) and Logloss(Cross Entopy)

### Efficiency Comparison

![](../images/paper/recommendation/dfm/dfm-010.png)

- Linear model 대비 각 모델이 학습에 걸린 시간을 나타냄
- FNN은 pre-training에 시간을 많이 쏟음
- IPNN과 OPNN은 hidden layer에서 inner product를 하면서 시간이 매우 오래 걸림

### Effective Comparison

![](../images/paper/recommendation/dfm/dfm-011.png)

### Hyper-parameter Study

![](../images/paper/recommendation/dfm/dfm-012.png)

![](../images/paper/recommendation/dfm/dfm-013.png)

![](../images/paper/recommendation/dfm/dfm-014.png)

![](../images/paper/recommendation/dfm/dfm-015.png)

![](../images/paper/recommendation/dfm/dfm-016.png)

## Conclusion

- DeepFM
    - deep component와 FM component를 합쳐서 학습
    - Pre-training이 필요하지 않음
    - High와 Low-order feature interactions 둘 다 모델링
    - Input과 embedding vector를 share 함
- From experiments
    - CTR task에서 더 좋은 성능을 얻을 수 있음
    - 다른 SOTA 모델보다 AUC와 LogLoss에서 성능이 뛰어남
    - DeepFM이 가장 efficient한 모델