In [1]:
import os
import numpy as np
import pandas as pd

from sklearn.neighbors import NearestNeighbors

In [81]:
ratings = pd.read_csv("./user_data.csv", encoding='cp949')
ratings

Unnamed: 0,user_id,pattern_id,fave_date
0,Crocheturlay,720780,2017/02/19 15:08:49 -0500
1,cozykrisknits,393166,2014/12/25 14:31:01 -0500
2,cozykrisknits,447781,2014/12/25 14:29:06 -0500
3,cozykrisknits,117296,2013/01/07 22:42:44 -0500
4,cozykrisknits,224811,2013/01/07 22:39:07 -0500
...,...,...,...
3756709,alchemia,173758,2013/03/28 16:34:16 -0400
3756710,alchemia,195006,2013/03/28 16:34:07 -0400
3756711,alchemia,143595,2013/03/28 16:34:02 -0400
3756712,alchemia,181436,2013/03/28 16:33:52 -0400


In [82]:
# 좋아요 두개 이상 누른 사용자 
much_liker = ratings.groupby(['user_id', 'pattern_id']).count() 
bool_liker = much_liker['fave_date'] > 1
much_liker = much_liker[bool_liker]
print(much_liker)

                             fave_date
user_id          pattern_id           
A-Bear           5708                2
                 13085               2
A-Ko-Cloudartowl 165798              2
                 188720              2
                 293756              2
...                                ...
curlyredheadgirl 159043              2
                 487111              2
cushing          48126               2
cute2go          395263              2
cutevira         725964              2

[17751 rows x 1 columns]


In [83]:
# 정말 이런식으로 A-Bear처럼 두개씩 누른 사람들이 있다
user = ratings['user_id'] == 'A-Bear' 
pat = ratings['pattern_id'] == 5708

print(ratings[pat & user])

        user_id  pattern_id                  fave_date
3547964  A-Bear        5708  2009/03/05 22:02:47 -0500
3547966  A-Bear        5708  2009/03/05 22:00:56 -0500


In [87]:
# 중복 제거
ratings = ratings.drop_duplicates(['user_id', 'pattern_id'], keep='last')

In [88]:
# A-Bear가 5708을 누른 데이터도 이제 한개뿐
user = ratings['user_id'] == 'A-Bear' 
pat = ratings['pattern_id'] == 5708
print(ratings[pat & user])

Empty DataFrame
Columns: [fave_date]
Index: []
        user_id  pattern_id                  fave_date
3547966  A-Bear        5708  2009/03/05 22:00:56 -0500


In [3]:
users = ratings.groupby('user_id')['user_id'].count()
print(users)

user_id
A-Bear               293
A-Jar-Of-Bees         23
A-KN                 615
A-Kelli               65
A-Ko-Cloudartowl    3699
                    ... 
cvilleknits           38
cvitt                 24
cvivianay             44
cvjunebug            207
cvkasdan              16
Name: user_id, Length: 17636, dtype: int64


In [4]:
patterns = ratings.groupby('pattern_id')['pattern_id'].count()
print(patterns)

pattern_id
10        157
13         27
16        172
17        308
20        123
         ... 
774662      1
774666      1
774667      1
774670      1
774676      1
Name: pattern_id, Length: 410633, dtype: int64


In [5]:
# 신뢰할만한 user를 걸러내자.
# 어떤 user가 평가한 패턴의 개수가 N개 이상이라면, 이 user는 여러 개의 패턴을 보고 평가한 것으로 볼 수 있다.
# 그러므로 이 사용자의 평가는 믿을만하다고 가정한다.
N = 100
reliable_users = users[users > N]
reliable_users = reliable_users.to_frame()
# index와, 첫번째 column의 이름이 user_id라 pd.merge 연산이 불가하므로 column name 치환
reliable_users.rename(columns={'user_id':'count'}, inplace=True)
print(reliable_users)

                  count
user_id                
A-Bear              293
A-KN                615
A-Ko-Cloudartowl   3699
A-L                 192
A2Knitzi            280
...                 ...
cutiepie3000        150
cutiepiemommy       107
cutikula            226
cutloose            458
cvjunebug           207

[5638 rows x 1 columns]


In [6]:
# 위에서 거른 믿을만한 사용자 집단과 rating set의 교집합을 걸러내어,
# 믿을만한 사용자 집단이 평가하지 않은 pattern id는 dataset에서 제외한다.
merge_ratings = pd.merge(ratings, reliable_users, on=['user_id'], how='inner')

In [7]:
merge_ratings

Unnamed: 0,user_id,pattern_id,fave_date,count
0,Bibicoco,193187,2017/04/29 07:32:06 -0400,111
1,Bibicoco,277368,2017/04/02 00:48:07 -0400,111
2,Bibicoco,241913,2016/04/23 23:55:12 -0400,111
3,Bibicoco,368955,2015/10/12 21:39:27 -0400,111
4,Bibicoco,547501,2015/10/12 21:35:50 -0400,111
...,...,...,...,...
3483196,asmaloy,186328,2011/01/07 07:09:58 -0500,128
3483197,asmaloy,40292,2011/01/07 06:43:35 -0500,128
3483198,asmaloy,146846,2011/01/05 07:29:34 -0500,128
3483199,asmaloy,215288,2011/01/01 13:38:16 -0500,128


In [8]:
# 교집합 연산이 잘 되었는지 확인을 위한 작업
# 교집합 연산 전 reliable users 의 row 길이와, 
# 현재 merge된 ratings에서 user id끼리 groupby한 연산의 결과가 같으므로, 
# 이는 옳게 교집합 연산이 되었다
users = merge_ratings.groupby('user_id')['user_id'].count()
print(users)

user_id
A-Bear               293
A-KN                 615
A-Ko-Cloudartowl    3699
A-L                  192
A2Knitzi             280
                    ... 
cutiepie3000         150
cutiepiemommy        107
cutikula             226
cutloose             458
cvjunebug            207
Name: user_id, Length: 5638, dtype: int64


In [9]:
patterns = merge_ratings.groupby('pattern_id')['pattern_id'].count()
print(patterns)
# 그러나, 사람마다 취향이 너무 달라서 제외된 패턴임에도 row가 410000개이다. 여전히 너무 많아 MF를 실행할 수 없다.

pattern_id
10        143
13         25
16        149
17        286
20        109
         ... 
774662      1
774666      1
774667      1
774670      1
774676      1
Name: pattern_id, Length: 402067, dtype: int64


In [10]:
# 이젠 신뢰할만한 pattern을 걸러내자.
# 어떤 pattern이 평가된 횟수가 M개 이상이라면, 이 패턴은 많은 사용자에게 평가받았다.
# 그러므로 이 패턴은 보편적 취향에 부합하며, 다른 이에게도 추천할만하다.
M = 100
reliable_patterns = patterns[patterns > M]
reliable_patterns = reliable_patterns.to_frame()
reliable_patterns.rename(columns={'pattern_id':'count'}, inplace=True)
print(reliable_patterns)

            count
pattern_id       
10            143
16            149
17            286
20            109
29            587
...           ...
761594        117
763023        116
763263        112
763264        130
766149        107

[3901 rows x 1 columns]


In [11]:
# 위에서 거른 믿을만한 사용자 집단과 rating set의 교집합을 걸러내어,
# 믿을만한 사용자 집단이 평가하지 않은 pattern id는 dataset에서 제외한다.
s_merge_ratings = pd.merge(merge_ratings, reliable_patterns, on=['pattern_id'], how='inner')
# s_merge_ratings = s_merge_ratings.drop(columns = ['fave_date','count_x', 'count_y'])
s_merge_ratings = s_merge_ratings.drop(columns = ['count_x', 'count_y'])

In [12]:
# user는 줄지 않았다
users = s_merge_ratings.groupby('user_id')['user_id'].count()
print(users)

user_id
A-Bear               67
A-KN                 99
A-Ko-Cloudartowl    457
A-L                  76
A2Knitzi             86
                   ... 
cutiepie3000          6
cutiepiemommy         9
cutikula             43
cutloose             59
cvjunebug            11
Name: user_id, Length: 5630, dtype: int64


In [13]:
# 교집합 연산이 잘 되었는지 확인을 위한 작업
# 교집합 연산 전 reliable patterns 의 row 길이와, 
# 현재 merge된 ratings에서 pattern id끼리 groupby한 연산의 결과가 같으므로, 
# 이는 옳게 교집합 연산이 되었다
patterns = s_merge_ratings.groupby('pattern_id')['pattern_id'].count()
print(patterns)

pattern_id
10        143
16        149
17        286
20        109
29        587
         ... 
761594    117
763023    116
763263    112
763264    130
766149    107
Name: pattern_id, Length: 3901, dtype: int64


In [14]:
print(s_merge_ratings)

                 user_id  pattern_id                  fave_date
0               Bibicoco      277368  2017/04/02 00:48:07 -0400
1         churncreeklady      277368  2014/05/15 13:10:56 -0400
2           anneliesbaes      277368  2014/08/15 04:08:53 -0400
3       ConstanceTricote      277368  2012/10/28 11:30:45 -0400
4                 Ann357      277368  2015/07/22 16:00:25 -0400
...                  ...         ...                        ...
741623         Brewst502      164869  2010/11/25 18:06:12 -0500
741624   charliehrtsmatt      164869  2012/05/01 23:47:49 -0400
741625        ArgyleLove      164869  2016/07/17 17:21:11 -0400
741626        badpallone      164869  2010/10/11 09:18:01 -0400
741627            aerynn      164869  2011/01/22 22:39:15 -0500

[741628 rows x 3 columns]


In [22]:
s = s_merge_ratings.groupby(['user_id', 'pattern_id']).count() # 성별과 요일에 따른 tip의 평균으로 통계량을 계산
over = s['fave_date'] > 1
new_s = s[over]
# s.reset_index(inplace=True)
print(new_s)

                             fave_date
user_id          pattern_id           
A-Ko-Cloudartowl 188720              2
                 293756              2
                 342404              2
                 395171              2
A9920            18179               2
...                                ...
cupoftea         144941              2
curlyredheadgirl 4124                2
                 103626              2
                 150257              2
cute2go          395263              2

[4565 rows x 1 columns]


In [16]:
print(s)

          user_id  pattern_id  fave_date
0          A-Bear          58          1
1          A-Bear         190          1
2          A-Bear         278          1
3          A-Bear        1379          1
4          A-Bear        1549          1
...           ...         ...        ...
737030  cvjunebug       17060          1
737031  cvjunebug       37845          1
737032  cvjunebug       46656          1
737033  cvjunebug       56417          1
737034  cvjunebug       57230          1

[737035 rows x 3 columns]


In [17]:
# s_merge_ratings['values'] = 1

s_merge_ratings = s_merge_ratings.pivot( index='user_id', columns='pattern_id')

print(s_merge_ratings)

ValueError: Index contains duplicate entries, cannot reshape

In [140]:
s_merge_ratings.loc[1]

user_id                  churncreeklady
pattern_id                       277368
fave_date     2014/05/15 13:10:56 -0400
Name: 1, dtype: object

In [None]:
s_merge_ratings.head(3)

In [90]:
merge_ratings

Unnamed: 0,user_id,pattern_id,fave_date,count
0,Bibicoco,193187,2017/04/29 07:32:06 -0400,111
1,Bibicoco,277368,2017/04/02 00:48:07 -0400,111
2,Bibicoco,241913,2016/04/23 23:55:12 -0400,111
3,Bibicoco,368955,2015/10/12 21:39:27 -0400,111
4,Bibicoco,547501,2015/10/12 21:35:50 -0400,111
...,...,...,...,...
3483196,asmaloy,186328,2011/01/07 07:09:58 -0500,128
3483197,asmaloy,40292,2011/01/07 06:43:35 -0500,128
3483198,asmaloy,146846,2011/01/05 07:29:34 -0500,128
3483199,asmaloy,215288,2011/01/01 13:38:16 -0500,128


In [40]:
responses = [0, 1,2,3,4,5]
p = np.array([2,1,1,1,1,1])
m = 10
n = 10


R = np.random.choice(responses, size=m*n, p=p / p.sum()).reshape((m, n))

R = R.astype('float')
R[R == 0] = np.NaN

print('실제 행렬:\n', R)

실제 행렬:
 [[ 5.  5. nan  1.  4.  5. nan  5.  5.  4.]
 [ 4.  5. nan  4.  4. nan nan  4.  3. nan]
 [nan nan  2.  2.  1.  4.  4.  3.  3. nan]
 [ 3. nan  1.  1. nan  1.  1.  5.  5.  1.]
 [ 2.  4.  3.  5.  5.  5.  2.  1.  4. nan]
 [ 1.  3.  4.  4. nan  5.  2.  3.  1. nan]
 [nan  2.  1.  3. nan  3.  4.  4. nan  3.]
 [ 2. nan  2.  4.  5. nan  1.  2.  2.  4.]
 [nan  4.  3. nan  1.  4. nan  1.  4.  4.]
 [ 3.  5.  2. nan nan  1.  3.  5.  5.  5.]]


In [78]:
from sklearn.metrics import mean_squared_error
 
def get_rmse(R, P, Q, non_zeros):
    error = 0
    # 두개의 분해된 행렬 P와 Q.T의 내적 곱으로 예측 R 행렬 생성
    full_pred_matrix = np.dot(P, Q.T)
     
    # 실제 R 행렬에서 널이 아닌 값의 위치 인덱스 추출하여 실제 R 행렬과 예측 행렬의 RMSE 추출
    x_non_zero_ind = [non_zero[0] for non_zero in non_zeros]
    y_non_zero_ind = [non_zero[1] for non_zero in non_zeros]
    R_non_zeros = R[x_non_zero_ind, y_non_zero_ind]
     
    full_pred_matrix_non_zeros = full_pred_matrix[x_non_zero_ind, y_non_zero_ind]
       
    mse = mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse = np.sqrt(mse)
     
    return rmse
 
 
def matrix_factorization(R, K, steps=200, learning_rate=0.01, r_lambda = 0.01):
    num_users, num_items = R.shape
    # P와 Q 매트릭스의 크기를 지정하고 정규분포를 가진 랜덤한 값으로 입력합니다.
    np.random.seed(1)
    P = np.random.normal(scale=1./K, size=(num_users, K))
    Q = np.random.normal(scale=1./K, size=(num_items, K))
 
    break_count = 0
    # R > 0 인 행 위치, 열 위치, 값을 non_zeros 리스트 객체에 저장.
    non_zeros = [ (i, j, R[i,j]) for i in range(num_users) for j in range(num_items) if R[i,j] > 0 ]
     
    # SGD기법으로 P와 Q 매트릭스를 계속 업데이트.
    for step in range(steps):
        for i, j, r in non_zeros:
            # 실제 값과 예측 값의 차이인 오류 값 구함
            eij = r - np.dot(P[i, :], Q[j, :].T)
            # Regularization을 반영한 SGD 업데이트 공식 적용
            P[i,:] = P[i,:] + learning_rate*(eij * Q[j, :] - r_lambda*P[i,:])
            Q[j,:] = Q[j,:] + learning_rate*(eij * P[i, :] - r_lambda*Q[j,:])
         
        rmse = get_rmse(R, P, Q, non_zeros)
        if step % 10 == 0:
            print("### iteration step : ", step," rmse : ", np.round(rmse, 7))
             
    return P, Q

In [79]:
R = pd.DataFrame(R)
s_merge_ratings = pd.DataFrame(s_merge_ratings)
#ratings_matrix = R.pivot_table()

P, Q = matrix_factorization(s_merge_ratings.values, K=30, steps=21, learning_rate=0.01, r_lambda = 0.01)

### iteration step :  0  rmse :  1.8005519
### iteration step :  10  rmse :  0.0616525
### iteration step :  20  rmse :  0.025872


In [80]:
pred_matrix = np.dot(P, Q.T) # P @ Q.T 도 가능
print('실제 행렬:\n', s_merge_ratings)
print('\n예측 행렬:\n', np.round(pred_matrix, 2))

실제 행렬:
                  values                                                   \
pattern_id       10     16     17     20     29     38     40     45       
user_id                                                                    
A-Bear              NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A-KN                NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A-Ko-Cloudartowl    NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A-L                 NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
A2Knitzi            NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
...                 ...    ...    ...    ...    ...    ...    ...    ...   
cutiepie3000        NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cutiepiemommy       NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cutikula            NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cutloose            NaN    NaN    NaN    NaN    NaN    NaN    NaN    NaN   
cvju

In [81]:
ratings_pred_matrix = pd.DataFrame(data=pred_matrix, index= s_merge_ratings.index,
                                   columns = s_merge_ratings.columns)
ratings_pred_matrix.head(3)

Unnamed: 0_level_0,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values,values
pattern_id,10,16,17,20,29,38,40,45,54,58,...,754478,757448,758675,760169,760196,761594,763023,763263,763264,766149
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
A-Bear,2.855393,2.910974,2.904905,2.900425,2.912663,2.857247,2.894439,2.893554,2.876074,2.904782,...,2.764324,2.757973,2.824681,2.79077,2.761123,2.752993,2.78132,2.766355,2.762268,2.778267
A-KN,2.994283,3.005699,2.996075,2.993595,2.997807,2.979695,3.003232,2.99197,3.001153,3.001444,...,2.951692,2.950399,2.974199,2.963227,2.95883,2.945309,2.963013,2.949139,2.954554,2.964621
A-Ko-Cloudartowl,3.000956,3.008423,3.001669,2.996392,2.998324,2.994001,3.004374,3.000247,3.006359,3.005139,...,2.971535,2.969333,2.987848,2.980916,2.97374,2.963277,2.97892,2.966126,2.973218,2.975474


In [None]:
ratings_pred_matrix = np.round(ratings_pred_matrix, 2)
ratings_pred_matrix.tail(3)

In [21]:
r = ratings_pred_matrix.tail(13)

NameError: name 'ratings_pred_matrix' is not defined

In [294]:
r = pd.DataFrame(r)
r.to_csv("./sgd.csv")