In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 체점을 위해 임의성을 사용하는 numpy 도구들의 결과가 일정하게 나오도록 해준다
np.random.seed(5)

In [3]:
def predict(Theta, X):
    """유저 취향과 상품 속성을 곱해서 예측 값을 계산하는 함수"""
    return Theta @ X


def cost(prediction, R):
    """행렬 인수분해 알고리즘의 손실을 계산해주는 함수"""
    return np.nansum((prediction - R)**2)


def initialize(R, num_features):
    """임의로 유저 취향과 상품 속성 행렬들을 만들어주는 함수"""
    num_users, num_items = R.shape
    
    Theta = np.random.rand(num_users, num_features)
    X = np.random.rand(num_features, num_items)
    
    return Theta, X

In [4]:
def gradient_descent(R, Theta, X, iteration, alpha, lambda_):
    """행렬 인수분해 경사 하강 함수"""
    num_user, num_items = R.shape
    num_features = len(X)
    costs = []
        
    for _ in range(iteration):
        prediction = predict(Theta, X)
        error = prediction - R
        costs.append(cost(prediction, R))
                          
        for i in range(num_user):
            for j in range(num_items):
                if not np.isnan(R[i][j]):
                    for k in range(num_features):
                        # 아래 코드를 채워 넣으세요.
                        Theta[i][k] -= alpha * (np.nansum(error[i, :]*X[k, :]) + lambda_*Theta[i][k])
                        X[k][j] -= alpha * (np.nansum(error[:, j]*Theta[:, k]) + lambda_*X[k][j])
                        
    return Theta, X, costs

In [5]:
#----------------------실행(채점) 코드----------------------
# 평점 데이터를 가지고 온다
ratings_df = pd.read_csv('ratings.csv', index_col='user_id')

# 평점 데이터에 mean normalization을 적용한다
for row in ratings_df.values:
    row -= np.nanmean(row)
       
R = ratings_df.values
        
Theta, X = initialize(R, 5)  # 행렬들 초기화
Theta, X, costs = gradient_descent(R, Theta, X, 200, 0.001, 0.01)  # 경사 하강
    
# 손실이 줄어드는 걸 시각화 하는 코드 (디버깅에 도움이 됨)
# plt.plot(costs)

Theta, X

(array([[-0.34823436,  1.56372261,  0.3114746 , -0.21123174, -0.26470307],
        [ 0.91982211,  0.20611378,  0.36372693,  0.56300674,  0.99011654],
        [ 0.4797815 ,  0.55489131, -0.18933284,  0.05965297,  1.71343583],
        [-0.64281508,  1.02553287,  0.34681094, -0.32311679,  0.13473763],
        [-0.39431811, -0.68415657,  0.43576131,  0.05185204,  1.04799349],
        [ 0.06555337, -0.63748963,  0.91577868,  1.23153897, -0.58087092],
        [ 0.3284413 ,  0.92875864, -1.20859156,  2.0879098 ,  0.26705306],
        [ 0.79141972, -0.48138091,  1.11850548,  0.05410733,  0.45618086],
        [ 1.05687517, -0.67693952, -0.2819093 ,  0.17523871, -1.11577249],
        [ 0.39268121,  0.62530563,  0.13572579,  0.98395791,  0.09587492],
        [ 1.46995999,  0.62453507, -0.90684391, -0.28638724, -0.34780167],
        [-1.5594908 ,  0.77322748,  0.83385427,  1.09662983,  0.12838855],
        [-0.88959633,  0.47374703,  0.46534493, -0.24505346,  0.80542255],
        [ 0.86015258, -0.