# Wide & Deep Learning for Recommender System

- Google에서 App Store를 활용해서 발표한 논문([링크](https://arxiv.org/pdf/1606.07792.pdf))

## Wide & Deep Learning for Recommender System

![deep31](./image/deep31.PNG)


## Abstract

![deep32](./image/deep32.PNG)

* **Wide : Memorization** -> 주어진 정보를 다 외운다. : 입력된 정보를 모두 저장한다.
    - **장점** : Cross-product feature transformation : feature간의 interaction도 고려하면서 외운다.
    - **단점** : More feature engineering effort.
        + Feature간의 상관성을 고려해야 하므로, feature engineering 노력이 필요하다.
        
* **Deep : Generalization** -> 우리가 알지 못한(보지 못한) hidden layer의 feature를 찾아보자.
    + **잠점** : 우리가 알지 못한(보지 못한) hidden layer의 feature를 찾아보자.
    + **단점** : Over Generalized 되서 사소한 부분을 못 볼 수 있다.
    
* **Wide와 Deep의 장점을 모두 결합**
    + hidden layer의 feature 고려 : 우리가 고려하지 못한 latent feature 고려
    + Deep의 단점인 Over Generalized 문제를 Wide 부분에서 각각의 정보를 기억함으로서 개선  

## Introduction (1)

![deep33](./image/deep33.PNG)

* **Memorization의 정의**
    * 동시에 등장하는 아이탬, feature의 빈도.
    * Correlation을 전부 학습해서 기억한다.

* **Generalization 정의**
    - 주어진 feature에서 우리가 모르는 feature combination을 통해 hidden layer feature를 만들어보자. 

* **추천시스템에서 M과 G**
    * Memorization : 아이탬과 더 관련있는 데이터를 추천
    * Generalization : 우리가 알지 못한 데이터를 추천, long tail 부분 추천!
        + 추천 시스템에서 diversity는 매우 중요하다.

## Introduction (2)

![deep34](./image/deep34.PNG)

* **1. Generalized Linear Model**
    - feature를 직접 만들어서 학습시켜야 한다면, 관련 도메인 지식이 필수적이다.
    
* **2. Embedding based Model**
    - 일반화 vs 섬세한 추천 불가

## Contributions 

![deep35](./image/deep35.PNG)

+ **Feed-forward neural network** + **linear model**

+ **Key point** : **학습과 서비스 속도를 충족**
    + 실 서비스를 사용할 수 있다.
    
* Open Source로 제공!

## Wide & Deep Learning Framework Overview

![deep36](./image/deep36.PNG)

* **왜 Deep Learning만 쓰지 않고, Wide한 부분을 추가적으로 고려하는 것일까?**
    - **1.** **추천 시스템은 정답이 없다.** 
        + RMSE등의 평가지표가 정답이 아니다.
        + 결국, 사람에 의해 평가 되는 것
<br><br>
    - **2.** **아무거나 막 추천하는 것이 아니라, 어느정도 보장이 된 데이터(Wide)와 우리가 고려하지 못하는 부분(Deep)을 고려하는 것이 아닐까?**
        + Wide : 과거의 history 데이터
        + Deep : history정보에서 추출하지 못하는 내용으로 학습 후 추천하는 내용

## Recommender System Overview

![deep37](./image/deep37.PNG)

* 일반적인 추천 시스템의 flow : 모두가 그런 것은 아니다.
    - **Query** : 고객의 요청, 접속, 아이탬 검색
    - **Recommendation Sysytem(Retrieval + Ranking)** : 기존에 학습된 모델으로 아이탬을 추천해준다.
    - **User Actions** : 아이탬이 추천된 상황에서 User Action을 Log정보로 기록한다.
    - **Learner, Model** : Log정보를 새로 입력해서 학습 및 모델을 업데이트 한다.

## The Wide Component(Memorization)

![deep38](./image/deep38.PNG)

* Generalized Linear model

* 여기서 y는 model이 예측한 유저 행동여부(앱을 구매했는지 안했는지)
    - 평점으로 할 수 있을까? 
    - FM방식으로 x를 만들고, w를 학습시키면 어떨까?
    
* Raw input features & Cross-product features : raw한 feature뿐만 아니라, cross-product feature도 feature로 넣어준다.
    - 즉, Linear한 부분 뿐만 아니라, feature들 간의 상관성을 고려하여, Non-Linear한 부분까지도 고려해준다.

## The Deep Component  

![deep39](./image/deep39.PNG)

* 기본적인 neural network 학습

## Joint Training of Wide & Deep Model (1)

![deep40](./image/deep40.PNG)



## Joint Training of Wide & Deep Model (2)

![deep41](./image/deep41.PNG)

* 앱 추천 내용!

* **Backpropagation**
    - Wide, Deep을 Simultaneously하게 진행한다.

* **Optimizer(최적화)**
    - **Wide** 부분은 **L1 Regularization을 사용한 FTRL(Follow-the-regularization-leader)를 사용**함.
    - **Deep** 부분은 **AdaGrad**를 사용함.

## Joint Training of Wide & Deep Model (3)

![deep42](./image/deep42.PNG)

* 결과는 확률 값으로 나오고, app을 다운 받을지 안받을지로 구성
    - Sigmoid

## System Implementation

![deep43](./image/deep43.PNG)

* 추천 시스템은 상용화 되는 것이 목적이다.
* 실제 서비스에 적용하는 것이 목표
* 추천 시스템 서비스 제공 Pipeline

## Experiments (1)

![deep44](./image/deep44.PNG)

* 실제 서비스에서도 잘 작동함


## Experiments (2) 

![deep45](./image/deep45.PNG)

* 성능도 좋은데 시간도 신경씀!

## Conclusions 

![deep46](./image/deep46.PNG)

# [구현] Wide & Deep Learning for Recommender System

- Google에서 App Store를 활용해서 발표한 논문([링크](https://arxiv.org/pdf/1606.07792.pdf))

## (Project) 이거로 보자

## Google 공식 문서
- Google의 AI Blog([링크](https://ai.googleblog.com/2016/06/wide-deep-learning-better-together-with.html))
- Google의 Tensorflow github([링크](https://github.com/tensorflow/tensorflow/blob/v2.4.0/tensorflow/python/keras/premade/wide_deep.py#L34-L219))
- TensorFlow v2.4 API
  - [tf.keras.experimental.WideDeepModel](https://www.tensorflow.org/api_docs/python/tf/keras/experimental/WideDeepModel?hl=en#methods_2)
  - [tf.estimator.DNNLinearCombinedClassifier](https://www.tensorflow.org/api_docs/python/tf/estimator/DNNLinearCombinedClassifier)

## (Not Project) 함께볼만한 PyTorch Library 이건 못쓰겠다.
- [pytorch-widedeep](https://github.com/jrzaurin/pytorch-widedeep)

- text, image 정보도 같이 고려할 수 있게 만들어 놓음

In [None]:
!pip install pytorch-widedeep

In [2]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

C:\Anaconda3\lib\site-packages\numpy\.libs\libopenblas.PYQHXLVVQ7VESDPUVUADXEVJOBGHJPAY.gfortran-win_amd64.dll
C:\Anaconda3\lib\site-packages\numpy\.libs\libopenblas.WCDJNK7YVMPZQ2ME2ZZHJJRJ3JIKNDB7.gfortran-win_amd64.dll


## DataLoader

from google.colab import drive
drive.mount('/content/drive')

data_path = "/content/drive/My Drive/data/kmrd"
%cd $data_path

if not os.path.exists(data_path):
  !git clone https://github.com/lovit/kmrd
  !python setup.py install
else:
  print("data and path already exists!")

path = data_path + '/kmr_dataset/datafile/kmrd-small'

In [5]:
data_path = "../data/kmrd"
path = data_path + '/kmr_dataset/datafile/kmrd-small'

In [6]:
df = pd.read_csv(os.path.join(path,'rates.csv'))
train_df, val_df = train_test_split(df, test_size=0.2, random_state=1234, shuffle=True)

In [7]:
train_df.shape

(112568, 4)

In [8]:
train_df = train_df[:1000]

In [9]:
# Load all related dataframe
movies_df = pd.read_csv(os.path.join(path, 'movies.txt'), sep='\t', encoding='utf-8')
movies_df = movies_df.set_index('movie')

castings_df = pd.read_csv(os.path.join(path, 'castings.csv'), encoding='utf-8')
countries_df = pd.read_csv(os.path.join(path, 'countries.csv'), encoding='utf-8')
genres_df = pd.read_csv(os.path.join(path, 'genres.csv'), encoding='utf-8')

# Get genre information
genres = [(list(set(x['movie'].values))[0], '/'.join(x['genre'].values)) for index, x in genres_df.groupby('movie')]
combined_genres_df = pd.DataFrame(data=genres, columns=['movie', 'genres'])
combined_genres_df = combined_genres_df.set_index('movie')

# Get castings information
castings = [(list(set(x['movie'].values))[0], x['people'].values) for index, x in castings_df.groupby('movie')]
combined_castings_df = pd.DataFrame(data=castings, columns=['movie','people'])
combined_castings_df = combined_castings_df.set_index('movie')

# Get countries for movie information
countries = [(list(set(x['movie'].values))[0], ','.join(x['country'].values)) for index, x in countries_df.groupby('movie')]
combined_countries_df = pd.DataFrame(data=countries, columns=['movie', 'country'])
combined_countries_df = combined_countries_df.set_index('movie')

movies_df = pd.concat([movies_df, combined_genres_df, combined_castings_df, combined_countries_df], axis=1)

print(movies_df.shape)
display(movies_df.head())

(999, 7)


Unnamed: 0_level_0,title,title_eng,year,grade,genres,people,country
movie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10001,시네마 천국,"Cinema Paradiso , 1988",2013.0,전체 관람가,드라마/멜로/로맨스,"[4374, 178, 3241, 47952, 47953, 19538, 18991, ...","이탈리아,프랑스"
10002,빽 투 더 퓨쳐,"Back To The Future , 1985",2015.0,12세 관람가,SF/코미디,"[1076, 4603, 917, 8637, 5104, 9986, 7470, 9987]",미국
10003,빽 투 더 퓨쳐 2,"Back To The Future Part 2 , 1989",2015.0,12세 관람가,SF/코미디,"[1076, 4603, 917, 5104, 391, 5106, 5105, 5107,...",미국
10004,빽 투 더 퓨쳐 3,"Back To The Future Part III , 1990",1990.0,전체 관람가,서부/SF/판타지/코미디,"[1076, 4603, 1031, 5104, 10001, 5984, 10002, 1...",미국
10005,스타워즈 에피소드 4 - 새로운 희망,"Star Wars , 1977",1997.0,PG,판타지/모험/SF/액션,"[1007, 535, 215, 1236, 35]",미국


### Wide 부분에서 cross product feature를 구할때 movie 정보를 사용한다.(project)

+ 어떤 feature를 사용할지는 내가 정하기

In [11]:
movies_df.columns

Index(['title', 'title_eng', 'year', 'grade', 'genres', 'people', 'country'], dtype='object')

In [12]:
dummy_genres_df = movies_df['genres'].str.get_dummies(sep='/')
train_genres_df = train_df['movie'].apply(lambda x: dummy_genres_df.loc[x])
train_genres_df.head()

Unnamed: 0,SF,가족,공포,느와르,다큐멘터리,드라마,로맨스,멜로,모험,뮤지컬,...,범죄,서부,서사,스릴러,애니메이션,액션,에로,전쟁,코미디,판타지
137023,0,0,0,0,0,1,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
92868,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
94390,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
22289,0,0,0,0,0,1,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
80155,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


In [13]:
dummy_grade_df = pd.get_dummies(movies_df['grade'], prefix='grade')
train_grade_df = train_df['movie'].apply(lambda x: dummy_grade_df.loc[x])
train_grade_df.head()

Unnamed: 0,grade_12세 관람가,grade_15세 관람가,grade_G,grade_NR,grade_PG,grade_PG-13,grade_R,grade_전체 관람가,grade_청소년 관람불가
137023,1,0,0,0,0,0,0,0,0
92868,0,0,0,0,1,0,0,0,0
94390,1,0,0,0,0,0,0,0,0
22289,0,0,0,0,0,0,0,1,0
80155,1,0,0,0,0,0,0,0,0


In [14]:
train_df['year'] = train_df.apply(lambda x: movies_df.loc[x['movie']]['year'], axis=1)

#### movie정보를 concat(project)

In [15]:
train_df = pd.concat([train_df, train_grade_df, train_genres_df], axis=1)
train_df.head()

Unnamed: 0,user,movie,rate,time,year,grade_12세 관람가,grade_15세 관람가,grade_G,grade_NR,grade_PG,...,범죄,서부,서사,스릴러,애니메이션,액션,에로,전쟁,코미디,판타지
137023,48423,10764,10,1212241560,1987.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
92868,17307,10170,10,1122185220,1985.0,0,0,0,0,1,...,0,0,0,0,0,1,0,0,0,0
94390,18180,10048,10,1573403460,2016.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
22289,1498,10001,9,1432684500,2013.0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
80155,12541,10022,10,1370458140,1980.0,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


### (project) wide column을 뭘 쓸거냐 장르와 grade를 사용한다. -> wide와 interaction을 보고 싶다.
### (project) 이런 feature들의 cross column을 만든다.!! 조합을 만드는 것!!
### (project) 여러개는 못 넣나? And니까 넣을 수 있지 않을까? --> 그럼 dimension이 3차원이 되는데... 생각해보자!!

![k](./image/k.PNG)

* 아래 과정은 Wide한 부분 하는 중!

In [16]:
wide_cols = list(dummy_genres_df.columns) + list(dummy_grade_df.columns)
wide_cols

['SF',
 '가족',
 '공포',
 '느와르',
 '다큐멘터리',
 '드라마',
 '로맨스',
 '멜로',
 '모험',
 '뮤지컬',
 '미스터리',
 '범죄',
 '서부',
 '서사',
 '스릴러',
 '애니메이션',
 '액션',
 '에로',
 '전쟁',
 '코미디',
 '판타지',
 'grade_12세 관람가',
 'grade_15세 관람가',
 'grade_G',
 'grade_NR',
 'grade_PG',
 'grade_PG-13',
 'grade_R',
 'grade_전체 관람가',
 'grade_청소년 관람불가']

#### (check) 여기서 feature를 모두 사용해서 combination을 만들면 너무 커지므로 3개만 사용

In [17]:
print(len(wide_cols))
print(wide_cols)

wide_cols = wide_cols[:3]

30
['SF', '가족', '공포', '느와르', '다큐멘터리', '드라마', '로맨스', '멜로', '모험', '뮤지컬', '미스터리', '범죄', '서부', '서사', '스릴러', '애니메이션', '액션', '에로', '전쟁', '코미디', '판타지', 'grade_12세 관람가', 'grade_15세 관람가', 'grade_G', 'grade_NR', 'grade_PG', 'grade_PG-13', 'grade_R', 'grade_전체 관람가', 'grade_청소년 관람불가']


In [18]:
# wide_cols = ['genre', 'grade']
# cross_cols = [('genre', 'grade')]
wide_cols

['SF', '가족', '공포']

### (Project) itertool을 사용해서 wide 부분의 cross column을 만들어줌

In [21]:
import itertools
from itertools import product  
unique_combinations = list(list(zip(wide_cols, element)) 
                           for element in product(wide_cols, repeat = len(wide_cols))) 

print(unique_combinations)
cross_cols = [item for sublist in unique_combinations for item in sublist]
cross_cols = [x for x in cross_cols if x[0] != x[1]]
cross_cols = list(set(cross_cols))
cross_cols

[[('SF', 'SF'), ('가족', 'SF'), ('공포', 'SF')], [('SF', 'SF'), ('가족', 'SF'), ('공포', '가족')], [('SF', 'SF'), ('가족', 'SF'), ('공포', '공포')], [('SF', 'SF'), ('가족', '가족'), ('공포', 'SF')], [('SF', 'SF'), ('가족', '가족'), ('공포', '가족')], [('SF', 'SF'), ('가족', '가족'), ('공포', '공포')], [('SF', 'SF'), ('가족', '공포'), ('공포', 'SF')], [('SF', 'SF'), ('가족', '공포'), ('공포', '가족')], [('SF', 'SF'), ('가족', '공포'), ('공포', '공포')], [('SF', '가족'), ('가족', 'SF'), ('공포', 'SF')], [('SF', '가족'), ('가족', 'SF'), ('공포', '가족')], [('SF', '가족'), ('가족', 'SF'), ('공포', '공포')], [('SF', '가족'), ('가족', '가족'), ('공포', 'SF')], [('SF', '가족'), ('가족', '가족'), ('공포', '가족')], [('SF', '가족'), ('가족', '가족'), ('공포', '공포')], [('SF', '가족'), ('가족', '공포'), ('공포', 'SF')], [('SF', '가족'), ('가족', '공포'), ('공포', '가족')], [('SF', '가족'), ('가족', '공포'), ('공포', '공포')], [('SF', '공포'), ('가족', 'SF'), ('공포', 'SF')], [('SF', '공포'), ('가족', 'SF'), ('공포', '가족')], [('SF', '공포'), ('가족', 'SF'), ('공포', '공포')], [('SF', '공포'), ('가족', '가족'), ('공포', 'SF')], [('SF', '공포'), ('가족', '가족'), ('

[('SF', '가족'),
 ('공포', '가족'),
 ('공포', 'SF'),
 ('SF', '공포'),
 ('가족', 'SF'),
 ('가족', '공포')]

### (project) Categorical data인 genre는 embeding size가 16인 공간으로 사상하겠다.
   - (내생각) 16차원으로 사상하겠다?? 이렇게 해석하면 될까?
   - continuous하지 않은 데이터는 embedding을 

In [23]:
# embed_cols = [('genre', 16),('grade', 16)]
embed_cols = list(set([(x[0], 16) for x in cross_cols]))
print(embed_cols)

[('SF', 16), ('공포', 16), ('가족', 16)]


### (project) Continuous data인 year는 그대로 사용한다.

In [24]:
continuous_cols = ['year']
print(continuous_cols)

['year']


### (Project) 여기서 핵심은! 위 과정은 이진 분류 과정 
### (target) ----> 평점 9점 이상을 1로, 아니면 0으로!!!

In [25]:
target = train_df['rate'].apply(lambda x: 1 if x > 9 else 0).values

## Wide & Deep

In [26]:
from pytorch_widedeep.preprocessing import WidePreprocessor, DensePreprocessor
from pytorch_widedeep.models import Wide, DeepDense, WideDeep
from pytorch_widedeep.metrics import Accuracy

ModuleNotFoundError: No module named 'pytorch_widedeep'

### Wide Component

In [21]:
preprocess_wide = WidePreprocessor(wide_cols=wide_cols, crossed_cols=cross_cols)
X_wide = preprocess_wide.fit_transform(train_df)
wide = Wide(wide_dim=np.unique(X_wide).shape[0], pred_dim=1)

In [24]:
X_wide.size

9000

In [22]:
wide

Wide(
  (wide_linear): Embedding(29, 1, padding_idx=0)
)

### Deep Component

In [25]:
preprocess_deep = DensePreprocessor(embed_cols=embed_cols, continuous_cols=continuous_cols)
X_deep = preprocess_deep.fit_transform(train_df)
deepdense = DeepDense(
    hidden_layers=[64, 32],
    deep_column_idx=preprocess_deep.deep_column_idx,
    embed_input=preprocess_deep.embeddings_input,
    continuous_cols=continuous_cols,
)

In [26]:
deepdense

DeepDense(
  (embed_layers): ModuleDict(
    (emb_layer_가족): Embedding(3, 16)
    (emb_layer_공포): Embedding(3, 16)
    (emb_layer_SF): Embedding(3, 16)
  )
  (embed_dropout): Dropout(p=0.0, inplace=False)
  (dense): Sequential(
    (dense_layer_0): Sequential(
      (0): Linear(in_features=49, out_features=64, bias=True)
      (1): LeakyReLU(negative_slope=0.01, inplace=True)
      (2): Dropout(p=0.0, inplace=False)
    )
    (dense_layer_1): Sequential(
      (0): Linear(in_features=64, out_features=32, bias=True)
      (1): LeakyReLU(negative_slope=0.01, inplace=True)
      (2): Dropout(p=0.0, inplace=False)
    )
  )
)

### Build and Train

In [27]:
# build, compile and fit
model = WideDeep(wide=wide, deepdense=deepdense)
model.compile(method="binary", metrics=[Accuracy])
model.fit(
    X_wide=X_wide,
    X_deep=X_deep,
    target=target,
    n_epochs=5,
    batch_size=256,
    val_split=0.1,
)

  0%|          | 0/4 [00:00<?, ?it/s]

Training


epoch 1: 100%|██████████| 4/4 [00:00<00:00, 10.65it/s, loss=nan, metrics={'acc': 0.1556}]
valid: 100%|██████████| 1/1 [00:00<00:00, 15.18it/s, loss=nan, metrics={'acc': 0.14}]
epoch 2: 100%|██████████| 4/4 [00:00<00:00, 29.81it/s, loss=nan, metrics={'acc': 0.0}]
valid: 100%|██████████| 1/1 [00:00<00:00, 15.34it/s, loss=nan, metrics={'acc': 0.0}]
epoch 3: 100%|██████████| 4/4 [00:00<00:00, 30.95it/s, loss=nan, metrics={'acc': 0.0}]
valid: 100%|██████████| 1/1 [00:00<00:00, 14.27it/s, loss=nan, metrics={'acc': 0.0}]
epoch 4: 100%|██████████| 4/4 [00:00<00:00, 30.49it/s, loss=nan, metrics={'acc': 0.0}]
valid: 100%|██████████| 1/1 [00:00<00:00, 14.39it/s, loss=nan, metrics={'acc': 0.0}]
epoch 5: 100%|██████████| 4/4 [00:00<00:00, 27.75it/s, loss=nan, metrics={'acc': 0.0}]
valid: 100%|██████████| 1/1 [00:00<00:00, 14.39it/s, loss=nan, metrics={'acc': 0.0}]


In [None]:
X_deep.shape

In [None]:
X_wide.shape