In [1]:
# 행렬 인수분해를 통한 상품 추천 시스템
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# 출력 옵션
RATING_DATA_PATH = '../data/ratings.csv'
np.set_printoptions(precision=2)
np.set_printoptions(suppress=True)

In [3]:
"""유저 취향과 상품 속성을 곱해서 예측 값을 계산하는 함수"""
def predict(Theta, X):
    return Theta @ X

In [4]:
"""행렬 인수분해 알고리즘의 손실을 계산해주는 함수"""
def cost(prediction, R):
    return np.nansum((prediction - R)**2)

In [5]:
"""임의로 유저 취향과 상품 속성 행렬들을 만들어주는 함수"""
def initialize(R, num_features):
    num_users, num_items = R.shape
    
    # np.random.rand(a,b) 는 임의의 a X b 크기의 행렬을 만들어준다
    Theta = np.random.rand(num_users, num_features)
    X = np.random.rand(num_features, num_items)
    
    return Theta, X

In [6]:
"""행렬 인수분해 경사 하강 함수"""
def gradient_descent(R, Theta, X, iteration, alpha, lambda_):
    num_user, num_items = R.shape
    num_features = len(X)
    costs = []
        
    for _ in range(iteration):
        prediction = predict(Theta, X)
        error = prediction - R
        costs.append(cost(prediction, R))
                          
        for i in range(num_user):
            for j in range(num_items):
                if not np.isnan(R[i][j]):
                    for k in range(num_features):
                        Theta[i][k] -= alpha * (np.nansum(error[i,:]*X[k,:]) + lambda_*Theta[i][k])
                        X[k][j] -= alpha * (np.nansum(error[:,j]*Theta[:,k]) + lambda_*X[k][j])
                        
    return Theta, X, costs

In [7]:
# 평점 데이터
ratings_df = pd.read_csv(RATING_DATA_PATH, index_col='user_id')

In [8]:
# 평점 데이터에 mean normalization을 적용
for row in ratings_df.values:
    row -= np.nanmean(row)
       
R = ratings_df.values

In [None]:
Theta, X = initialize(R, 5)  # 행렬 초기화
Theta, X, costs = gradient_descent(R, Theta, X, 200, 0.001, 0.01)  # 경사 하강
    

In [None]:
# 손실값을 matplot을 통해 시각화
plt.plot(costs)

In [None]:
# 인수분해한 두 행렬의 값
Theta, X