# "[Recommender System] Deep Neural Networks for YouTube Recommendations"
> 2016, Google, 딥러닝 기반 YouTube 추천 시스템

- toc: true
- badges: true
- comments: true
- categories: [Paper]
- tags: [paper, recommender system, deep, youtube]

# Deep Neural Networks for YouTube Recommendations

![](../images/paper/recommendation/dub/dub-001.png)

## Abstract

![](../images/paper/recommendation/dub/dub-002.png)

- YouTube는 가장 크고 정교한 상업 추천시스템
- 딥러닝을 적용하고 성능이 dramatic하게 향상됨
- Two-stage information retrieval dichotomy를 소개
    - Deep candidate generation model
    - Deep ranking model
- 거대한 추천 시스템을 구축할 때의 인사이트도 함께 제시

## Introduction

- YouTube 추천은 수많은 사용자에게 개인화된 컨텐츠 추천을 해야될 책임이 있음
- 추천시스템 구현시 고민 사항
   - Scale
       - YouTube의 수많은 사용자와 코퍼스를 다루기 위해서 효율적인 서빙과 특화된 추천알고리즘이 필요
   - Freshness
       - YouTube에는 매분매초 수많은 영상이 업로드 되고, 추천시스템은 새롭게 올라오는 컨텐츠와 사용자의 행동에 적절하게 대응해야 함
       - 잘 만들어진 영상과 새로운 컨텐츠 사이에서 적절하게 적용 및 반영할 수 있어야 함
   - Noise
       - Sparsity와 수많은 외부요인으로 사용자 행동을 예측하기 어려움
       - Implicit feedback을 적절히 사용하고, poorly structured metadata도 활용할 수 있어야 함

## System Overview

![](../images/paper/recommendation/dub/dub-003.png)

- Candidate Generation과 Ranking 부분으로 나눌 수 있음
- Candidate Generation
    - Input: 사용자의 YouTube 히스토리
    - Output: 사용자와 관련 있을만한 영상 집합
    - 협업필터링을 사용하고, 시청기록, 검색키워드, demographics 정보를 활용
- Ranking Model
    - 영상과 사용자 features로 각 영상에 대해 점수를 매김
- 학습할 때, offline metirc(precision, recall, ranking loss 등) 활용
- (라이브) A/B 테스트를 통해 최종 알고리즘을 선택

## Candidate Generation

- Non-linear generation of factorization technique

### Recommendation as Classification

$ \large P(w_t = i \, | \, U, C ) = \displaystyle {e^{v_{i}u} \over \sum_{j \in V}e^{v_{j}u}} $  

- $u \in \mathbb{R}^N$: high-dimensional user-embedding
- $v_j \in \mathbb{R}^N$: 개별 video의 embedding
- $C$: context
- 사용자와 context의 vector u를 학습하여 영상을 시청할 확률을 학습하는 Softmax Classifier
- Sparse한 Explicit feedback과 많은 implicit feedback을 활용
- Negative Sampling을 통해 효율적인 학습을 함

![](../images/paper/recommendation/dub/dub-004.png)

### Model Architecture

- 다음의 embedding을 모두 concat
- 사용자의 시청기록 (embedded video watches)
- 사용자의 검색기록 (embedded search token)
- geographic embedding
- 추가 meta 정보 (age, gender 등)

### Heterogeneous Signals

- Continuous와 categorical features를 deep neural network에 사용할 수 있음
- 보통 새로운 영상은 사용자가 선호하는 경향을 보임
- Age feature는 영상 콘텐츠의 시간 정보

### Label and Context Selection

![](../images/paper/recommendation/dub/dub-005.png)

- 추천시스템은 surrogate problem(실제 상황과 evaluation metric 차이)를 항상 고려해야 함
- 유튜브 이외 데이터도 학습데이터에 포함해야 함
- 사용자의 가중치를 동일하게 하기 위해 사용자의 학습데이터 수를 고정
- 무작위로 아이템을 선정하여 예측하는 것보다 특정 시점 기준으로 예측하는 것이 더 효과적

### Experiments

![](../images/paper/recommendation/dub/dub-006.png)

- Features 수와 depth에 따라 달라지는 성능을 비교

## Ranking

- Ranking에서는 영상과 사용자 사이의 관계를 표현하는 features를 많이 사용해야 함
- Candidate generation과 비슷한 모델 구조를 사용
- Categorial과 continuous features를 사용
- 사용자의 이전 행동을 고려하여 이이템과의 interaction을 모델링 해야 함
- 각 features에 대한 feature engineering이 필요
    - Embedding Categorical features
    - Normailizing Continous features
- 사용자가 선택한 아이템과 그렇지 않은 아이템의 expected watch time을 예측하는 것이 목표

![](../images/paper/recommendation/dub/dub-007.png)

## Conclusions

- YouTube 영상 추천시스템은 candidate generation과 ranking 부분으로 나눠져 있음
- Deep collaborative filtering 모델은 더 많은 특징과 interaction을 반영할 수 있음
- Age feature를 추가하여 time-dependent한 부분을 반영하고 watch time이 증가함을 확인
- Embedding categorical features와 normalized continuous features을 활용
- 여러 층의 신경망은 수많은 features 사이의 non-linear interactions를 효과적으로 모델링 할 수 있음