In [3]:
import numpy as np
from sklearn.metrics import mean_squared_error

R = np.array([[4, np.NaN, np.NaN, 2, np.NaN],
              [np.NaN, 5, np.NaN, 3, 1],
              [np.NaN, np.NaN, 3, 4, 4],
              [5, 2, 1, 2, np.NaN]])

# 실제 R 행렬과 예측 행렬의 오차를 구하는 함수
def calculate_rmse(R, P, Q, non_zeros):
    error = 0

    full_pred_matrix = np.dot(P, Q.T)

    # 여기서 non_zeros는 아래 함수에서 확인할 수 있다.
    x_non_zero_ind = [non_zeros[0] for non_zeros in non_zeros]
    y_non_zero_ind = [non_zeros[1] for non_zeros in non_zeros]

    # 원 행렬 R에서 0이 아닌 값들만 추출한다.
    R_non_zeros = R[x_non_zero_ind, y_non_zero_ind]

    # 예측 행렬에서 원 행렬 R에서 0이 아닌 위치의 값들만 추출하여 저장한다.
    full_pred_matrix_non_zeros = full_pred_matrix[x_non_zero_ind, y_non_zero_ind]

    mse = mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse = np.sqrt(mse)

    return rmse



def matrix_factorization(R, K, steps=200, learning_rate=0.01, r_lambda=0.01):
    num_users, num_items = R.shape

    np.random.seed(1)
    P = np.random.normal(scale=1.0/K, size=(num_users, K))
    Q = np.random.normal(scale=1.0/K, size=(num_items, K))

    # R>0인 행 위치, 열 위치, 값을 non_zeros 리스트에 저장한다.
    non_zeros = [ (i, j, R[i, j]) for i in range(num_users)
                  for j in range(num_items) if R[i, j] > 0 ]

    # SGD 기법으로 P, Q 매트릭스를 업데이트 함
    for step in range(steps):
        for i, j, r in non_zeros:
            # 잔차 구함
            eij = r - np.dot(P[i, :], Q[j, :].T)

            # Regulation을 반영한 SGD 업데이터 적용
            P[i, :] = P[i, :] + learning_rate*(eij * Q[j, :] - r_lambda*P[i, :])
            Q[j, :] = Q[j, :] + learning_rate*(eij * P[i, :] - r_lambda*Q[j, :])

        rmse = calculate_rmse(R, P, Q, non_zeros)
        if step % 10 == 0:
            print("iter step: {0}, rmse: {1:4f}".format(step, rmse))

    return P, Q

P, Q = matrix_factorization(R, K=3)
pred_matrix = np.dot(P, Q.T)
print(pred_matrix)


iter step: 0, rmse: 3.238805
iter step: 10, rmse: 2.916635
iter step: 20, rmse: 2.198707
iter step: 30, rmse: 1.304553
iter step: 40, rmse: 0.756513
iter step: 50, rmse: 0.487672
iter step: 60, rmse: 0.356231
iter step: 70, rmse: 0.279523
iter step: 80, rmse: 0.226563
iter step: 90, rmse: 0.187008
iter step: 100, rmse: 0.156434
iter step: 110, rmse: 0.132346
iter step: 120, rmse: 0.113113
iter step: 130, rmse: 0.097591
iter step: 140, rmse: 0.084944
iter step: 150, rmse: 0.074551
iter step: 160, rmse: 0.065941
iter step: 170, rmse: 0.058753
iter step: 180, rmse: 0.052710
iter step: 190, rmse: 0.047599
[[ 3.96311456  0.58878009  1.38600854  2.07204285  1.76861388]
 [ 6.86778919  4.98327571  0.98571887  2.94471781  1.00853046]
 [ 6.67506941 -0.16906059  3.00103235  3.93786401  3.99091101]
 [ 4.9500403   2.00049712  0.98425613  2.07888389  1.07283042]]


In [5]:
print(max(pred_matrix[0])

SyntaxError: unexpected EOF while parsing (<ipython-input-5-5e9baae3fb32>, line 1)