# 4. Matrix Factorization 기반 추천
  - 알고리즘 
    - 메모리 기반 - collaborative filtering
    - 모델 기반 - matrix factorization

## 4.1 Matrix Factorization 방식의 원리
 - 행렬 요인화 - 사용자x아이템으로 구성된 하나의 행렬을 2개의 행렬로 분해하는 방법
 - R : rating matrix, P : User latent matrix, Q : item latent matrix
 - R을 사용자 행렬 P와 아이템 행렬 Q로 쪼개어 분석하는 것
 - $R \approx P \times Q^T = \hat{R}$을 구하는 것
  - 이 때 $\hat{R}$은 $R$의 예측치이며 $R$과 비슷하게 되도록하는 $P$와 $Q$를 구하는 것이 목표
  - $P$와 $Q$에는 $K$개의 요인의 값으로 행렬이 이루어져 있는데 $P$에서는 $K$개의 사용자의 특성을, $Q$에서는 $K$개의 아이템의 특성을 나타냄, 그리고 이를 잠재요인(latent factor)라고 부름

## 4.2 SGD(Stochastic Gradient Decent)를 사용한 MF 알고리즘
 - 알고리즘
  1. 잠재요인 $K$의 개수 선정
  2. 주어진 $K$에 따라 행렬 $P$,$Q$ 초기화
  3. 예측 평점을 구함
  4. $R$에 있는 실제 평점과 $\hat{R}$의 예측 평점의 오차를 줄이기 위해 $P$,$Q$ 값 수정 -> SGE 방법 사용
  5. 전체오차를 줄이기 위해 iteration 값 혹은 목표치에 근접할 때까지 3,4번을 반복
 - 수식 생략
 - 고려사항
  1. 과적합 방지를 위해 정규화(regularization)항 추가
  2. 사용자와 아이템의 경향성 -> 평가가 높거나 낮거나 할 수 있음

## 4.3 SGD를 사용한 MF 기본 알고리즘
 - class 활용한 코딩 진행

In [12]:
import numpy as np
import pandas as pd
from utility import *
from sklearn.utils import shuffle

In [6]:
_ ,_ , ratings = getData()
ratings.reset_index(inplace=True)
ratings = ratings.drop('timestamp',axis=1)
ratings = ratings[['user_id','movie_id','rating']].astype(int)

In [10]:
# MF class
class MF:
    def __init__(self, ratings, K, alpha, beta, iterations, verbose=True):
        self.R = np.array(ratings.fillna(0))
        self.num_users, self.num_items = np.shape(self.R)
        self.K = K
        self.alpha = alpha
        self.beta = beta
        self.iterations = iterations
        self.verbose = verbose
    
    # RMSE 계산
    def rmse(self):
        xs, ys = self.R.nonzero() # 0이 아닌 인덱스 리턴
        self.predictions = []
        self.errors = []
        for x,y in zip(xs, ys):
            prediction = self.get_prediction(x,y)
            self.predictions.append(prediction)
            self.errors.append(self.R[x,y] - prediction)
        self.predictions = np.array(self.predictions)
        self.errors = np.array(self.errors)
        return np.sqrt(np.mean(self.errors**2))
    
    def train(self):
        # P행렬과 Q행렬 초기화
        self.P = np.random.normal(scale=1./self.K, size=(self.num_users, self.K)) # (num_users, K)
        self.Q = np.random.normal(scale=1./self.K, size=(self.num_items, self.K)) # (num_items, K)
        self.b_u = np.zeros(self.num_users) # (num_users,)
        self.b_d = np.zeros(self.num_items) # (num_items,)
        self.b = np.mean(self.R[self.R.nonzero()]) # 전체 평균
        rows, columns = self.R.nonzero()
        self.samples = [(i,j,self.R[i,j]) for i,j in zip(rows,columns)]
        
        training_process = []
        for i in range(self.iterations):
            np.random.shuffle(self.samples)
            self.sgd()
            rmse = self.rmse()
            training_process.append((i+1,rmse))
            if self.verbose:
                if (i+1)%10 ==0:
                    print(f'iteration : {i+1} ; Train RMSE = {rmse}')
        return training_process
    
    # 예측값 계산
    def get_prediction(self, i, j):
        prediction = self.b + self.b_u[i] + self.b_d[j] + self.P[i,:].dot(self.Q[j,:].T)
        return prediction
    
    # stochastic gradient descent 
    def sgd(self):
        for i, j, r in self.samples:
            prediction = self.get_prediction(i,j)
            e = r-prediction
            
            self.b_u[i] += self.alpha*(e - self.beta*self.b_u[i])
            self.b_d[j] += self.alpha*(e - self.beta*self.b_d[j])
            
            self.P[i,:] += self.alpha*(e*self.Q[j,:] - self.beta*self.P[i,:])
            self.Q[j,:] += self.alpha*(e*self.P[i,:] - self.beta*self.Q[j,:])

In [11]:
R_temp = ratings.pivot(index='user_id', columns='movie_id', values = 'rating')
mf = MF(R_temp, 30, 0.001, 0.02, 100, True)
train_process = mf.train()

iteration : 10 ; Train RMSE = 0.9584980212318277
iteration : 20 ; Train RMSE = 0.9373561041328844
iteration : 30 ; Train RMSE = 0.9280656868205587
iteration : 40 ; Train RMSE = 0.9225230970275939
iteration : 50 ; Train RMSE = 0.9183510357036374
iteration : 60 ; Train RMSE = 0.9143836352410551
iteration : 70 ; Train RMSE = 0.9096480759600305
iteration : 80 ; Train RMSE = 0.903154973886412
iteration : 90 ; Train RMSE = 0.8941048495610546
iteration : 100 ; Train RMSE = 0.8825226802288026


## 4.4 train/test 분리 MF 알고리즘
 - shuffle을 사용한 train_test split 방법 사용

In [13]:
TRAIN_SIZE = 0.75
ratings = shuffle(ratings, random_state = 1)
cutoff = int(TRAIN_SIZE*len(ratings))
ratings_train = ratings.iloc[:cutoff]
ratings_test = ratings.iloc[cutoff:]

In [None]:
class NEW_MF:
    def __init__(self, ratings, K, alpha, beta, iterations, verbose = True):
        self.R = np.array(ratings)
        self.K = K
        self.alpha = alpha
        self.beta = beta
        self.iterations = iterations
        self.verbose = verbose
        # user_id, item_id를 R의 index와 매핑하기 위한 dictinary 생성
        item_id_index = []
        index_item_id = []
        for i, one_id in enumerate(ratings):
            item_id_index.append([one_id, i])
            index_item_id.append([i, one_id])
        self.item_id_index = dict(item_id_index)
        self.index_item_id = dict(index_item_id)
        user_id_index = []
        index_user_id = []
        for i, one_id in enumerate(ratings.index):
            user_id_index.append([one_id, i])
            index_user_id.append([i, one_id])
        self.user_id_index = dict(user_id_index)
        self.index_item_id = dict(index_user_id)
    
    # RMSE 계산
    def rmse(self):
        xs, ys = self.R.nonzero() # 0이 아닌 인덱스 리턴
        self.predictions = []
        self.errors = []
        for x,y in zip(xs, ys):
            prediction = self.get_prediction(x,y)
            self.predictions.append(prediction)
            self.errors.append(self.R[x,y] - prediction)
        self.predictions = np.array(self.predictions)
        self.errors = np.array(self.errors)
        return np.sqrt(np.mean(self.errors**2))
    
    def train(self):
        # P행렬과 Q행렬 초기화
        self.P = np.random.normal(scale=1./self.K, size=(self.num_users, self.K)) # (num_users, K)
        self.Q = np.random.normal(scale=1./self.K, size=(self.num_items, self.K)) # (num_items, K)
        self.b_u = np.zeros(self.num_users) # (num_users,)
        self.b_d = np.zeros(self.num_items) # (num_items,)
        self.b = np.mean(self.R[self.R.nonzero()]) # 전체 평균
        rows, columns = self.R.nonzero()
        self.samples = [(i,j,self.R[i,j]) for i,j in zip(rows,columns)]
        
        training_process = []
        for i in range(self.iterations):
            np.random.shuffle(self.samples)
            self.sgd()
            rmse = self.rmse()
            training_process.append((i+1,rmse))
            if self.verbose:
                if (i+1)%10 ==0:
                    print(f'iteration : {i+1} ; Train RMSE = {rmse}')
        return training_process
    
    # 예측값 계산
    def get_prediction(self, i, j):
        prediction = self.b + self.b_u[i] + self.b_d[j] + self.P[i,:].dot(self.Q[j,:].T)
        return prediction
    
    # stochastic gradient descent 
    def sgd(self):
        for i, j, r in self.samples:
            prediction = self.get_prediction(i,j)
            e = r-prediction
            
            self.b_u[i] += self.alpha*(e - self.beta*self.b_u[i])
            self.b_d[j] += self.alpha*(e - self.beta*self.b_d[j])
            
            self.P[i,:] += self.alpha*(e*self.Q[j,:] - self.beta*self.P[i,:])
            self.Q[j,:] += self.alpha*(e*self.P[i,:] - self.beta*self.Q[j,:])
            
    