In [None]:
# 행렬분해, 경사하강법(딥러닝) 을 이용한 알고리즘
# 행렬분해 - matrix를 두개의 서로 다른 행렬로 분해하는 것,
#            분해된 행렬은 원래 행렬의 내재된 다른 의미를 갖는 행렬로 변환됨
#
# 경사하강법 - 함수의 값을 최소화하는 파라미터들을 찾는 방식
#                f(x) = w1x1 + w2x2 ... => f(x)를 최소화하는 w1, w2
#                f(x)를 w1으로 미분한 값을 w1에 더해서 업데이트..
#                f(x)를 w2로 미분한 값을 w2에 더해서 업데이트..

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# 경사하강법을 이용한  행렬분해

In [2]:
# 
R = np.array(
[
    [4, np.nan, np.nan, 2, np.nan],
    [np.nan, 5, np.nan, 3, 1],
    [np.nan, np.nan, 3, 4, 4],
    [5, 2, 1, 2, np.nan]
]
)

R

array([[ 4., nan, nan,  2., nan],
       [nan,  5., nan,  3.,  1.],
       [nan, nan,  3.,  4.,  4.],
       [ 5.,  2.,  1.,  2., nan]])

In [3]:
num_users, num_items = R.shape

In [14]:
print(num_users, num_items) # 이용자수, 영화수

4 5


In [15]:
# R = P * 0.7

In [16]:
k = 3

In [None]:
# a*b = c:
# a의 row원소수, b의 칼럼 수가 갈아야..
# c 의 shape은 (a row num, b col num)

In [17]:
P = np.random.normal(scale=1/k, size=(num_users, k))
Q = np.random.normal(scale=1/k, size=(num_items, k))

In [19]:
P

array([[-0.00677944,  0.70735486, -0.21519951],
       [-0.22621718, -0.314161  ,  0.09997725],
       [ 0.19656735,  0.1723233 ,  0.60000037],
       [ 0.01831138,  0.13523998, -0.80754566]])

In [20]:
Q

array([[-0.10077541,  0.13679384, -0.19420742],
       [-0.13952026,  0.31659272,  0.40951968],
       [ 0.14995849,  0.1468515 ,  0.2267828 ],
       [-0.03023782, -0.09180984, -0.01181346],
       [-0.04051542, -0.62708928,  0.41349354]])

In [23]:
from sklearn.metrics import mean_squared_error

def get_rmse(R, P, Q, non_zeros):
    full_predict_matrix = np.dot(P, Q.T)
    
    error = 0
    
    x_non_zero_ind = [non_zero[0] for non_zero in non_zero]
    y_non_zero_ind = [non_zero[1] for non_zero in non_zero]
    R_non_zeros = R[x_non_zero_ind, y_non_zero_ind]
    
    # 실제값(실제 matrix R)과 예측 값(가상으로 만든 matrix full_predict_matrix)으로 mse 계산
    # matrix에서의 mse를 계산
    mse = mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse = np.sqrt(mse)
    
    return rmse

In [24]:
[(i, j, R[i, j]) for i in range(num_users) for j in range(num_items) if R[i, j] > 0]

[(0, 0, 4.0),
 (0, 3, 2.0),
 (1, 1, 5.0),
 (1, 3, 3.0),
 (1, 4, 1.0),
 (2, 2, 3.0),
 (2, 3, 4.0),
 (2, 4, 4.0),
 (3, 0, 5.0),
 (3, 1, 2.0),
 (3, 2, 1.0),
 (3, 3, 2.0)]

In [31]:
# 경사 하강법

In [32]:
steps = 1000
learning_rate = 0.01
r_lambda = 0.01

In [33]:
for step in range(steps):
    for i, j, r in non_zeros:
        eij = r - np.dot(P[i, :], Q[j, :].T)
        P[i, :] = P[i:, :] + learning_rate*(eij * Q[j, :] - r_lambda * P[i, :])
        Q[j, :] = P[j:, :] + learning_rate*(eij * P[i, :] - r_lambda * P[j, :])
        
        rmse = get_rmse(R, P, Q, non_zeros)
        
        if(step%50) == 0:
            print('### iternation step : ', step, " rmse", rmse)

NameError: name 'non_zeros' is not defined

In [None]:
import pickle
with open('ratings_matrix.pickle', 'wb') as f:
    f. 