In [262]:
import os
import numpy as np
import pandas as pd

from sklearn.neighbors import NearestNeighbors

In [263]:
ratings = pd.read_csv("./user_data.csv", encoding='cp949')
ratings

Unnamed: 0,user_id,pattern_id,fave_date
0,Crocheturlay,720780,2017/02/19 15:08:49 -0500
1,cozykrisknits,393166,2014/12/25 14:31:01 -0500
2,cozykrisknits,447781,2014/12/25 14:29:06 -0500
3,cozykrisknits,117296,2013/01/07 22:42:44 -0500
4,cozykrisknits,224811,2013/01/07 22:39:07 -0500
...,...,...,...
3756709,alchemia,173758,2013/03/28 16:34:16 -0400
3756710,alchemia,195006,2013/03/28 16:34:07 -0400
3756711,alchemia,143595,2013/03/28 16:34:02 -0400
3756712,alchemia,181436,2013/03/28 16:33:52 -0400


In [264]:
users = ratings.groupby('user_id')['user_id'].count()

In [265]:
patterns = ratings.groupby('pattern_id')['pattern_id'].count()
print(patterns)

pattern_id
10        157
13         27
16        172
17        308
20        123
         ... 
774662      1
774666      1
774667      1
774670      1
774676      1
Name: pattern_id, Length: 410633, dtype: int64


In [266]:
# 신뢰할만한 user를 걸러내자.
# 어떤 user가 평가한 패턴의 개수가 N개 이상이라면, 이 user는 여러 개의 패턴을 보고 평가한 것으로 볼 수 있다.
# 그러므로 이 사용자의 평가는 믿을만하다고 가정한다.
N = 100
reliable_users = users[users > N]
reliable_users = reliable_users.to_frame()
# index와, 첫번째 column의 이름이 user_id라 pd.merge 연산이 불가하므로 column name 치환
reliable_users.rename(columns={'user_id':'count'}, inplace=True)
print(reliable_users)

                  count
user_id                
A-Bear              293
A-KN                615
A-Ko-Cloudartowl   3699
A-L                 192
A2Knitzi            280
...                 ...
cutiepie3000        150
cutiepiemommy       107
cutikula            226
cutloose            458
cvjunebug           207

[5638 rows x 1 columns]


In [278]:
# 위에서 거른 믿을만한 사용자 집단과 rating set의 교집합을 걸러내어,
# 믿을만한 사용자 집단이 평가하지 않은 pattern id는 dataset에서 제외한다.
merge_ratings = pd.merge(ratings, reliable_users, on=['user_id'], how='inner')

In [279]:
merge_ratings

Unnamed: 0,user_id,pattern_id,fave_date,count
0,Bibicoco,193187,2017/04/29 07:32:06 -0400,111
1,Bibicoco,277368,2017/04/02 00:48:07 -0400,111
2,Bibicoco,241913,2016/04/23 23:55:12 -0400,111
3,Bibicoco,368955,2015/10/12 21:39:27 -0400,111
4,Bibicoco,547501,2015/10/12 21:35:50 -0400,111
...,...,...,...,...
3483196,asmaloy,186328,2011/01/07 07:09:58 -0500,128
3483197,asmaloy,40292,2011/01/07 06:43:35 -0500,128
3483198,asmaloy,146846,2011/01/05 07:29:34 -0500,128
3483199,asmaloy,215288,2011/01/01 13:38:16 -0500,128


In [280]:
# 교집합 연산이 잘 되었는지 확인을 위한 작업
# 교집합 연산 전 reliable users 의 row 길이와, 
# 현재 merge된 ratings에서 user id끼리 groupby한 연산의 결과가 같으므로, 
# 이는 옳게 교집합 연산이 되었다
users = merge_ratings.groupby('user_id')['user_id'].count()
print(users)

user_id
A-Bear               293
A-KN                 615
A-Ko-Cloudartowl    3699
A-L                  192
A2Knitzi             280
                    ... 
cutiepie3000         150
cutiepiemommy        107
cutikula             226
cutloose             458
cvjunebug            207
Name: user_id, Length: 5638, dtype: int64


In [281]:
patterns = merge_ratings.groupby('pattern_id')['pattern_id'].count()
print(patterns)
# 그러나, 사람마다 취향이 너무 달라서 제외된 패턴임에도 row가 410000개이다. 여전히 너무 많아 MF를 실행할 수 없다.

pattern_id
10        143
13         25
16        149
17        286
20        109
         ... 
774662      1
774666      1
774667      1
774670      1
774676      1
Name: pattern_id, Length: 402067, dtype: int64


In [282]:
# 이젠 신뢰할만한 pattern을 걸러내자.
# 어떤 pattern이 평가된 횟수가 M개 이상이라면, 이 패턴은 많은 사용자에게 평가받았다.
# 그러므로 이 패턴은 보편적 취향에 부합하며, 다른 이에게도 추천할만하다.
M = 100
reliable_patterns = patterns[patterns > M]
reliable_patterns = reliable_patterns.to_frame()
reliable_patterns.rename(columns={'pattern_id':'count'}, inplace=True)
print(reliable_patterns)

            count
pattern_id       
10            143
16            149
17            286
20            109
29            587
...           ...
761594        117
763023        116
763263        112
763264        130
766149        107

[3901 rows x 1 columns]


In [283]:
# 위에서 거른 믿을만한 사용자 집단과 rating set의 교집합을 걸러내어,
# 믿을만한 사용자 집단이 평가하지 않은 pattern id는 dataset에서 제외한다.
s_merge_ratings = pd.merge(merge_ratings, reliable_patterns, on=['pattern_id'], how='inner')
s_merge_ratings = s_merge_ratings.drop(columns = ['fave_date','count_x', 'count_y'])

In [284]:
# user는 줄지 않았다
users = s_merge_ratings.groupby('user_id')['user_id'].count()
print(users)

user_id
A-Bear               67
A-KN                 99
A-Ko-Cloudartowl    457
A-L                  76
A2Knitzi             86
                   ... 
cutiepie3000          6
cutiepiemommy         9
cutikula             43
cutloose             59
cvjunebug            11
Name: user_id, Length: 5630, dtype: int64


In [285]:
# 교집합 연산이 잘 되었는지 확인을 위한 작업
# 교집합 연산 전 reliable patterns 의 row 길이와, 
# 현재 merge된 ratings에서 pattern id끼리 groupby한 연산의 결과가 같으므로, 
# 이는 옳게 교집합 연산이 되었다
patterns = s_merge_ratings.groupby('pattern_id')['pattern_id'].count()
print(patterns)

pattern_id
10        143
16        149
17        286
20        109
29        587
         ... 
761594    117
763023    116
763263    112
763264    130
766149    107
Name: pattern_id, Length: 3901, dtype: int64


In [286]:
print(s_merge_ratings)

                 user_id  pattern_id
0               Bibicoco      277368
1         churncreeklady      277368
2           anneliesbaes      277368
3       ConstanceTricote      277368
4                 Ann357      277368
...                  ...         ...
741623         Brewst502      164869
741624   charliehrtsmatt      164869
741625        ArgyleLove      164869
741626        badpallone      164869
741627            aerynn      164869

[741628 rows x 2 columns]


In [287]:
s_merge_ratings['values'] = 1

s_merge_ratings = s_merge_ratings.pivot_table( index='user_id', columns='pattern_id')

print(s_merge_ratings)

                 values                                                   \
pattern_id       10     16     17     20     29     38     40     45       
user_id                                                                    
A-Bear              NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A-KN                NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A-Ko-Cloudartowl    NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A-L                 NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A2Knitzi            NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
...                 ...    ...    ...    ...    ...    ...    ...    ...   
cutiepie3000        NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cutiepiemommy       NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cutikula            NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cutloose            NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cvjunebug   

In [200]:
'''responses = [0, 1]
p = np.array([2.5, 1])
m = 6
n = 12


R = np.random.choice(responses, size=m*n, p=p / p.sum()).reshape((m, n))

R = R.astype('float')
R[R == 0] = np.NaN

print('실제 행렬:\n', R)'''

실제 행렬:
 [[ 1.  1.  1. nan nan  1. nan nan nan  1. nan nan]
 [nan nan nan  1. nan nan  1. nan nan nan  1. nan]
 [nan nan nan  1.  1.  1. nan nan nan nan nan nan]
 [nan  1. nan nan nan nan  1.  1.  1. nan nan nan]
 [nan nan nan nan nan  1. nan nan nan nan  1.  1.]
 [nan nan nan nan nan  1. nan nan nan nan nan nan]]


In [213]:
from sklearn.metrics import mean_squared_error
 
def get_rmse(R, P, Q, non_zeros):
    error = 0
    # 두개의 분해된 행렬 P와 Q.T의 내적 곱으로 예측 R 행렬 생성
    full_pred_matrix = np.dot(P, Q.T)
     
    # 실제 R 행렬에서 널이 아닌 값의 위치 인덱스 추출하여 실제 R 행렬과 예측 행렬의 RMSE 추출
    x_non_zero_ind = [non_zero[0] for non_zero in non_zeros]
    y_non_zero_ind = [non_zero[1] for non_zero in non_zeros]
    R_non_zeros = R[x_non_zero_ind, y_non_zero_ind]
     
    full_pred_matrix_non_zeros = full_pred_matrix[x_non_zero_ind, y_non_zero_ind]
       
    mse = mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse = np.sqrt(mse)
     
    return rmse
 
 
def matrix_factorization(R, K, steps=200, learning_rate=0.01, r_lambda = 0.01):
    num_users, num_items = R.shape
    # P와 Q 매트릭스의 크기를 지정하고 정규분포를 가진 랜덤한 값으로 입력합니다.
    np.random.seed(1)
    P = np.random.normal(scale=1./K, size=(num_users, K))
    Q = np.random.normal(scale=1./K, size=(num_items, K))
 
    break_count = 0
    # R > 0 인 행 위치, 열 위치, 값을 non_zeros 리스트 객체에 저장.
    non_zeros = [ (i, j, R[i,j]) for i in range(num_users) for j in range(num_items) if R[i,j] > 0 ]
     
    # SGD기법으로 P와 Q 매트릭스를 계속 업데이트.
    for step in range(steps):
        for i, j, r in non_zeros:
            # 실제 값과 예측 값의 차이인 오류 값 구함
            eij = r - np.dot(P[i, :], Q[j, :].T)
            # Regularization을 반영한 SGD 업데이트 공식 적용
            P[i,:] = P[i,:] + learning_rate*(eij * Q[j, :] - r_lambda*P[i,:])
            Q[j,:] = Q[j,:] + learning_rate*(eij * P[i, :] - r_lambda*Q[j,:])
         
        rmse = get_rmse(R, P, Q, non_zeros)
        if step % 10 == 0:
            print("### iteration step : ", step," rmse : ", np.round(rmse, 7))
             
    return P, Q

In [296]:
R = pd.DataFrame(R)
s_merge_ratings = pd.DataFrame(s_merge_ratings)
#ratings_matrix = R.pivot_table()

P, Q = matrix_factorization(s_merge_ratings.values, K=30, steps=11, learning_rate=0.01, r_lambda = 0.01)

### iteration step :  0  rmse :  0.9884702160617621
### iteration step :  10  rmse :  0.032030947975957215


In [297]:
pred_matrix = np.dot(P, Q.T) # P @ Q.T 도 가능
# print('실제 행렬:\n', s_merge_ratings)
print('\n예측 행렬:\n', np.round(pred_matrix, 2))


예측 행렬:
 [[0.99 0.98 0.99 ... 0.98 0.97 0.99]
 [0.98 0.99 0.98 ... 0.98 0.98 0.99]
 [0.98 0.99 0.99 ... 0.98 0.99 0.99]
 ...
 [0.99 0.98 0.98 ... 0.98 0.97 0.98]
 [0.99 0.98 0.99 ... 0.98 0.99 0.98]
 [0.66 0.66 0.66 ... 0.66 0.65 0.66]]


In [298]:
ratings_pred_matrix = pd.DataFrame(data=pred_matrix, index= s_merge_ratings.index,
                                   columns = s_merge_ratings.columns)
ratings_pred_matrix.head(3)

Unnamed: 0_level_0,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values
pattern_id,10,16,17,20,29,38,40,45,54,58,...,754478,757448,758675,760169,760196,761594,763023,763263,763264,766149
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
A-Bear,0.986024,0.981455,0.994507,0.980489,0.984341,0.978426,0.973417,0.996362,0.986497,0.990533,...,0.975599,0.983524,0.993976,0.986921,0.979994,0.986165,0.983087,0.981705,0.972477,0.987832
A-KN,0.98398,0.989341,0.982866,0.988471,0.990657,0.974517,0.993133,0.989163,0.994777,0.988189,...,0.978427,0.986412,0.989572,0.98669,0.994529,0.982662,0.986668,0.981588,0.979067,0.992871
A-Ko-Cloudartowl,0.98408,0.991684,0.988089,0.990738,0.994796,0.98491,0.991624,0.991636,0.995552,0.989137,...,0.985589,0.988376,0.992264,0.993543,0.9955,0.983833,0.989569,0.98038,0.985477,0.990357


In [233]:
ratings_pred_matrix = np.round(ratings_pred_matrix, 2)
ratings_pred_matrix.tail(3)

Unnamed: 0_level_0,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values
pattern_id,10,16,17,20,29,38,40,45,54,58,...,754478,757448,758675,760169,760196,761594,763023,763263,763264,766149
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
cutikula,0.97,0.92,0.96,0.91,1.0,1.01,0.98,0.97,0.94,1.02,...,0.99,0.98,0.98,0.96,0.99,1.02,1.0,0.97,1.01,0.9
cutloose,0.97,0.99,0.94,0.96,0.97,0.93,0.98,0.99,0.99,0.97,...,0.97,0.98,0.99,0.93,0.99,0.93,1.01,0.97,0.96,0.97
cvjunebug,0.6,0.63,0.61,0.48,0.63,0.65,0.63,0.66,0.62,0.58,...,0.6,0.59,0.63,0.61,0.61,0.59,0.67,0.65,0.67,0.61


In [293]:
r = ratings_pred_matrix.tail(13)

In [294]:
r = pd.DataFrame(r)
r.to_csv("./sgd.csv")