# Neural Collaborative Filtering
- Paper Review with Code
- Comparision btw NCF and MF
- 이를 토대로 실전 추천 프로젝트를 위한 코드 복습을 실시한다.

## Matrix Factorization에 대한 복습

Latent Factor을 찾는 관점에 대해서도 바라볼 수 있으나, 여기서는 다음과 같이 진행하려고 한다.

- Step 1 : Rating Matrix 를 입력 받은 후 전처리
- Step 2 : SVD 알고리즘을 통한 행렬 분해, 절단 후 다시 재병합
- Step 3 : 새롭게 생성된 행렬 pred-matrix와, 기존 rating matrix와의 error 계산

물론, 단순히 k개의 ranking을 구하는 방법도 있겠지만 여기서는 전체에 대한 prediction을 실시하자.

### 기존 Matrix Factorization의 한계점
Matrix Factorization은 기본적으로 User와 item를 같은 latent space에 매핑하고, 이를 inner_product 를 활용하여 유사도를 구한다.
이 때, 세로운 유저가 들어왔을때, user-item 에서의 유사도와 latent-space의 유사도가 역전될 수 있다.
이의 역전 현상은 ranking-loss로 이어질 수 있다.

### Review : SVD를 활용한 Matrix Factorizations

In [1]:
import pandas as pd
import numpy as np
import scipy.sparse
from sklearn.metrics import mean_squared_error

In [2]:
ratings = pd.read_csv('./ratings.csv')

In [3]:
ratings

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
...,...,...,...,...
100831,610,166534,4.0,1493848402
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047
100834,610,168252,5.0,1493846352


여기서는 간략하게, svd를 바로 적용하려고 한다.

In [4]:
rating_mtx = pd.pivot_table(ratings,
                            index = 'userId',
                            columns = 'movieId',
                            values = 'rating')

In [5]:
rating_mtx

movieId,1,2,3,4,5,6,7,8,9,10,...,193565,193567,193571,193573,193579,193581,193583,193585,193587,193609
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.0,,4.0,,,4.0,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
606,2.5,,,,,,2.5,,,,...,,,,,,,,,,
607,4.0,,,,,,,,,,...,,,,,,,,,,
608,2.5,2.0,2.0,,,,,,,4.0,...,,,,,,,,,,
609,3.0,,,,,,,,,4.0,...,,,,,,,,,,


평점 기록이 없는 경우는 0점으로 채운다.

In [6]:
rating_mtx_filled = rating_mtx.fillna(0).to_numpy()

scipy의 svds를 이용하자.

In [7]:
import scipy.sparse.linalg
U, sigma, Vt = scipy.sparse.linalg.svds(rating_mtx_filled, k = 15)

In [8]:
U.shape

(610, 15)

In [9]:
sigma.shape

(15,)

In [10]:
Vt.shape

(15, 9724)

여기서는, 전체 rating에 대한 예측을 확인하고자 한다.
따라서, 이를 위해서 sigma를 15 * 15 형태의 대각 행렬로 변경하고 U.shape * sigma * Vt를 계산해야 한다.

In [11]:
sigma = np.diag(sigma)

In [12]:
pred = U @ sigma @ Vt

In [13]:
pred

array([[ 2.48313562e+00,  1.35885909e+00,  1.10637440e+00, ...,
        -3.49319264e-03, -3.49319264e-03, -2.47602496e-02],
       [ 4.22544294e-02,  1.03805400e-02,  3.20579362e-02, ...,
         9.95659214e-03,  9.95659214e-03,  1.31613972e-02],
       [ 1.38016774e-02,  2.86395855e-02,  3.19043736e-02, ...,
         9.42462913e-04,  9.42462913e-04, -1.75137511e-03],
       ...,
       [ 2.17103278e+00,  1.92389820e+00,  1.71015130e+00, ...,
        -5.55603096e-02, -5.55603096e-02, -9.01278061e-03],
       [ 8.38486877e-01,  6.37344297e-01,  3.19950208e-01, ...,
         4.27295325e-04,  4.27295325e-04,  1.65256080e-03],
       [ 5.86830717e+00, -1.00804430e-01, -1.49624909e+00, ...,
         2.66883644e-02,  2.66883644e-02,  8.02635842e-02]])

In [14]:
not np.isnan(rating_mtx.iloc[0, 1])

False

In [15]:
def get_error_with_nan(answer, pred):
    error = 0
    count = 0
    for i in range(len(pred)):
        for j in range(len(pred[0])):
            if not np.isnan(answer.iloc[i, j]):
                count += 1
                error += (answer.iloc[i, j] - pred[i][j]) ** 2
    return (error ** 0.5) / count

In [16]:
get_error_with_nan(rating_mtx, pred)

0.00770260978376579

이제 해당 결과와, NCF의 결과를 비교하고자 한다.

### Neural Collaborative Filtering의 기본 구조
Neural Collaborative Filtering의 기본 구조는
- GMF : (latent feature interaction)
  - latent factor의 
- MLP : (data에서 interaction을 배우기 위해 non-linear kernel 도입)
  - latent factor들을 합쳐 multi-layer perceptron을 활용한다.a

기본적으로는 이들을 별도로 embedding으로 학습 후, last hidden layer로 concating하는 구조를 취한다.

다음의 내용을 바탕으로 실습하였습니다.  
https://doheelab.github.io/recommender-system/ncf_mlp/  

In [17]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as data

우선, 전체적 학습과정을 만들기 전에 모델에 대한 이해를 하기 위해 GMF, NCF가 어떻게 구현되는지부터 알아보려고 한다.

### GMF 구조의 확인

In [18]:
class GMF(nn.Module):
    def __init__(self, user_num, item_num, factor_num, num_layers, dropout, model):
        super(GMF, self).__init__()
        self.dropout = dropout
        self.model = model
        
        # embedding을 위한 저장공간 확보 (user 수, item 수 만큼)
        self.embed_user_GMF = nn.Embedding(user_num, factor_num)
        self.embed_item_GMF = nn.Embedding(item_num, factor_num)
        predict_size = factor_num
        
        # 최종 예측 layer
        self.predict_layer = nn.Linear(predict_size, 1)
        self._init_weight_()
        
    # 가중치 초기화 함수
    def _init_weight_(self):
        # weight 초기화 (user emb, item emb, 최종 예측층에 대한 초기화)
        nn.init.normal_(self.embed_user_GMF.weight, std=0.01)
        nn.init.normal_(self.embed_item_GMF.weight, std=0.01)
        nn.init.kaiming_uniform_(self.predict_layer.weight, a=1, nonlinearity="sigmoid")

        # bias 초기화
        for m in self.modules():
            if isinstance(m, nn.Linear) and m.bias is not None:
                m.bias.data.zero_()
                
    # 실제 층을 쌓는 과정
    def forward(self, user, item):
        embed_user_GMF = self.embed_user_GMF(user)
        embed_item_GMF = self.embed_user_GMF(item)
        # GMF의 경우는 elementwise product
        # 이 때, latent_factor 차원 만큼 가지게 된다.
        output_GMF = embed_user_GMF * embed_item_GMF
        concat = output_GMF
        
        prediction = self.predict_layer(concat)
        return prediction 

GMF의 가장 큰 특징은 user 정보와 item 정보를 latent vector로 만든 후에, 이를 elementwise하게 곱하는 것이 주가 된다.

### MLP 구조의 확인

In [20]:
class NCF(nn.Module):
    def __init__(
        self, user_num, item_num, factor_num, num_layers, dropout, model,
    ):
        super(NCF, self).__init__()
        self.dropout = dropout
        self.model = model

        # 임베딩 저장공간 확보; num_embeddings, embedding_dim
        self.embed_user_MLP = nn.Embedding(
            user_num, factor_num * (2 ** (num_layers - 1))
        )
        self.embed_item_MLP = nn.Embedding(
            item_num, factor_num * (2 ** (num_layers - 1))
        )

        MLP_modules = []
        for i in range(num_layers):
            input_size = factor_num * (2 ** (num_layers - i))
            MLP_modules.append(nn.Dropout(p=self.dropout))
            MLP_modules.append(nn.Linear(input_size, input_size // 2))
            MLP_modules.append(nn.ReLU())
        self.MLP_layers = nn.Sequential(*MLP_modules)
        predict_size = factor_num
        self.predict_layer = nn.Linear(predict_size, 1)
        self._init_weight_()

    def _init_weight_(self):
        # weight 초기화
        nn.init.normal_(self.embed_user_MLP.weight, std=0.01)
        nn.init.normal_(self.embed_item_MLP.weight, std=0.01)
        for m in self.MLP_layers:
            if isinstance(m, nn.Linear):
                nn.init.xavier_uniform_(m.weight)
        nn.init.kaiming_uniform_(self.predict_layer.weight, a=1, nonlinearity="sigmoid")

        # bias 초기화
        for m in self.modules():
            if isinstance(m, nn.Linear) and m.bias is not None:
                m.bias.data.zero_()

    def forward(self, user, item):
        embed_user_MLP = self.embed_user_MLP(user)
        embed_item_MLP = self.embed_item_MLP(item)
        interaction = torch.cat((embed_user_MLP, embed_item_MLP), -1)
        output_MLP = self.MLP_layers(interaction)
        concat = output_MLP

        prediction = self.predict_layer(concat)
        return prediction.view(-1)