## 행렬 요인화(MF) 기반 추천 시스템 구현

In [2]:
import numpy as np
import pandas as pd

import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

import warnings

In [3]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

mpl.rc('font', family='NanumGothic') # 폰트 설정
mpl.rc('axes', unicode_minus=False) # 유니코드에서 음수 부호 설정

# 차트 스타일 설정
sns.set(font="NanumGothic", rc={"axes.unicode_minus":False}, style='darkgrid')
plt.rc("figure", figsize=(10,8))

warnings.filterwarnings("ignore")

In [4]:
import surprise
print(surprise.__version__)

1.1.1


In [5]:
from surprise import Dataset
from surprise.model_selection import train_test_split

# ml-100k: 10만 개 평점 데이터, 무비렌즈 사이트에서 제공하는 ml-100k 지원
data = Dataset.load_builtin('ml-100k')

# surprise의 train_test_split() 사용, 10만 개의 데이터를 train 75,000, test 25,000으로 나누었다.
trainset, testset = train_test_split(data, test_size=0.25, random_state=0)

In [6]:
from surprise import SVD # MF

# SVD를 이용한 잠재 요인 협업 필터링
model = SVD()
model.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x1ac6e4ee648>

In [7]:
# 사용자 아이디(uid), 아이템 아이디(iid)는 문자열로 입력
uid = str(196)
iid = str(302)

# 추천 예측 평점 (.predict)
pred = model.predict(uid, iid)
pred
# surprise에서 추천을 예측하는 메소드는 test()와 predict()가 있다.
# predict()는 개별 사용자의 아이템에 대한 추천 평점을 예측하며 prediction 객체를 반환한다.
# prediction 객체는 사용자 아이디(uid), 아이템 아이디(iid), 실제 평점(r_ui), 예측 평점(est)를 튜플 형태로 가진다.
# prediction 객체의 details속성은 추천 예측을 할 수 없는 경우 True, 아닌 경우 False이다.

Prediction(uid='196', iid='302', r_ui=None, est=4.080332805369289, details={'was_impossible': False})

In [8]:
# 추천 예측 평점 (.test)
predictions = model.test(testset)

print('prediction type :',type(predictions), ' size:',len(predictions))
print('prediction 결과의 최초 5개 추출')

predictions[:5]
# test()의 경우 사용자-아이템 평점 데이터 셋 전체에 대해서 추천을 예측한다.
# 반환된 리스트 객체는 25,000개의 prediction 객체를 내부에 가지고 있다.
# test()는 모든 사용자와 아이템 아이디에 대해서 predict()를 반복적으로 수행한 결과이다.
# Prediction(uid='120', iid='282', r_ui=4.0, est=3.677713792622501, details={'was_impossible': False}),
# 120번 사용자는 282번 영화를 시청하고 4.0의 평점을 부여하였으며
# SVD 기반의 MF 모델에서 평점을 예측했더니 3.68이 예측되었음.

prediction type : <class 'list'>  size: 25000
prediction 결과의 최초 5개 추출


[Prediction(uid='120', iid='282', r_ui=4.0, est=3.5165497151871623, details={'was_impossible': False}),
 Prediction(uid='882', iid='291', r_ui=4.0, est=3.792878651416534, details={'was_impossible': False}),
 Prediction(uid='535', iid='507', r_ui=5.0, est=3.9837207520457873, details={'was_impossible': False}),
 Prediction(uid='697', iid='244', r_ui=5.0, est=3.619781644997471, details={'was_impossible': False}),
 Prediction(uid='751', iid='385', r_ui=4.0, est=3.7481678392069218, details={'was_impossible': False})]

In [9]:
# 속성 확인, False: 예측 가능
[ (pred.uid, pred.iid, pred.est, pred.details) for pred in predictions[:3] ]

[('120', '282', 3.5165497151871623, {'was_impossible': False}),
 ('882', '291', 3.792878651416534, {'was_impossible': False}),
 ('535', '507', 3.9837207520457873, {'was_impossible': False})]

In [10]:
from surprise import accuracy

# 성능 평가
accuracy.rmse(predictions)

RMSE: 0.9474


0.9474435269081111

In [10]:
# user_id, item_id, rating, time_stamp로 구성된 데이터가 있다면 앞 3개 컬럼만 로딩한다.
# 일반 데이터 파일이나 판다스 데이터 프레임도 로딩 가능하나 컬럼 순서가 반드시 사용자 아이디, 아이템 아이디, 평점 순이어야 한다.

In [11]:
# load_builtin()으로 무비렌즈 데이터를 불러올 수 있다.
# 디폴트로 ml-100k(10만 개 평점 데이터)를 불러오며 ml-1M(100만 개 평점 데이터)를 불러 올 수 있다.
# load_from_file()은 OS 파일을 로딩할 때 사용한다.
# 주의할 점은 원본 파일에 컬럼명이 없어야 한다.

In [11]:
# index와 header를 제거한 ratings_noh.csv 파일 생성
ratings = pd.read_csv('./data/ratings.csv')
ratings.to_csv('./data/ratings_noh.csv', index=False, header=False)

In [13]:
from surprise import Reader

# Reader 객체 생성, line_format: 변수명, sep: 구분자
reader = Reader(line_format='user item rating timestamp', sep=',', 
                rating_scale=(0.5, 5))
# surprise 데이터 셋은 기본적으로 무비렌즈 데이터 형식을 따른다.
# 무비렌즈 데이터 형식이 아닌 다른 OS 파일은 Reader() 클래스를 먼저 설정하여야 한다.
# line_format: 컬럼을 순서대로 나열한다(컬럼명은 공백으로 분리).
# sep: 구분자로 디폴트는 \t이다.
# rating_scale: 평점 값의 최소, 최대를 설정한다(디폴트는 1,5).
# Reader() 객체를 입력해 데이터를 불러온다.
data = Dataset.load_from_file('./data/ratings_noh.csv', reader=reader)
data 

<surprise.dataset.DatasetAutoFolds at 0x1ac6bbc83c8>

In [14]:
# surprise의 train_test_split() 사용
trainset, testset = train_test_split(data, test_size=0.25, random_state=0)

# SVD를 이용한 잠재 요인 협업 필터링 (잠재 요인 크기(feature) = 50) 
model = SVD(n_factors=50, random_state=0)
model.fit(trainset) # 훈련

# 추천 예측 평점 (.test)
predictions = model.test(testset)

# 성능 평가
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

In [15]:
# load_from_df()을 이용하여 데이터 프레임을 surprise 데이터 셋으로 로딩 가능하다.
# 주의할 점은 컬럼 순서가 반드시 사용자 아이디, 아이템 아이디, 평점 순이어야 한다.
# 데이터 불러오기 (데이터 프레임)
ratings = pd.read_csv('./data/ratings.csv') 

# Reader 객체 생성
reader = Reader(rating_scale=(0.5, 5.0))

# 사용자 아이디, 아이템 아이디, 평점 순서 (원래는 timestamp도 있으나 제외)
data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)

# surprise의 train_test_split() 사용
trainset, testset = train_test_split(data, test_size=.25, random_state=0)

# SVD를 이용한 잠재 요인 협업 필터링 (잠재 요인 크기 = 50)
model = SVD(n_factors=50, random_state=0)
model.fit(trainset) # 모델 생성

# 추천 예측 평점 (.test)
predictions = model.test(testset) # 전체 데이터중 25%만 테스트

# 성능 평가
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

### 교차 검증

In [16]:
import time
from surprise.model_selection import cross_validate 


# 데이터 불러오기 (데이터 프레임)
ratings = pd.read_csv('./data/ratings.csv') 

# Reader 객체 생성
reader = Reader(rating_scale=(0.5, 5.0))

# 사용자 아이디, 아이템 아이디, 평점 순서 (원래는 timestamp도 있으나 제외)
data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)

# SVD를 이용한 잠재 요인 협업 필터링
model = SVD(random_state=0)

start = time.time()
# 교차 검증 수행, cv=5: 모든 데이터를 5등분, MAE(평균 절대 오차): 오차의 절대값의 평균
cross_validate(model, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)
end = time.time()
print('Runtime: {0:.2f} 초'.format(end-start))

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.8739  0.8809  0.8708  0.8737  0.8741  0.8747  0.0033  
MAE (testset)     0.6714  0.6761  0.6714  0.6713  0.6696  0.6719  0.0022  
Fit time          7.81    7.84    7.81    7.78    7.94    7.84    0.05    
Test time         0.24    0.23    0.36    0.23    0.23    0.26    0.05    
Runtime: 41.69 초


### 하이퍼파라미터
- GridSearchCV()로 하이퍼 파라미터 튜닝이 가능하다.

In [17]:
from surprise.model_selection import GridSearchCV

# n_epochs: SGD 수행 시 반복 횟수, n_factors: 잠재 요인 크기
param_grid = {
    'n_epochs': [20, 40, 60], 
    'n_factors': [50, 100, 200]
}

# GridSearchCV
gs = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=3) # algo가 아닌 SVD 입력하였다.

start = time.time()
gs.fit(data)
end = time.time()
print('Runtime: {0:.2f} 초'.format(end-start))

# 최적 하이퍼 파라미터 및 그 때의 최고 성능
print(gs.best_params['rmse'])
print(gs.best_score['rmse'])

Runtime: 401.08 초
{'n_epochs': 20, 'n_factors': 50}
0.8775359232505586


In [None]:
# 오류 코드
# 실습 데이터는 ratings.csv를 train, test 분리 없이 전체로 사용한다.
# 다만 surprise는 TrainSet 객체로 변환하지 않으면 fit()으로 학습시 오류가 발생한다.
# data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)
# algo = SVD(n_factors=50, random_state=0)
# algo.fit(data)

In [20]:
# DatasetAutoFolds(): 훈련 및 테스트 데이터 분할을 자동 적용, 1 fold
from surprise.dataset import DatasetAutoFolds

reader = Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5))

data_folds = DatasetAutoFolds(ratings_file='./data/ratings_noh.csv', reader=reader)
trainset = data_folds.build_full_trainset()
trainset

<surprise.trainset.Trainset at 0x1ac6ca35bc8>

In [21]:
# SVD를 이용한 잠재 요인 협업 필터링 (잠재 요인 크기 = 50)
model = SVD(n_epochs=20, n_factors=50, random_state=0)
model.fit(trainset)  # 훈련

# 사용자 아이디, 아이템 아이디 문자열로 입력
uid = str(9)
iid = str(42)

# 추천 예측 평점 (.predict)
pred = model.predict(uid, iid, verbose=True) # 9번 회원은 42번 영화를 추천한 적이 없으며 예측 점수는 3.13점이다.

user: 9          item: 42         r_ui = None   est = 3.13   {'was_impossible': False}


In [27]:
ratings['userId']== 9

0         False
1         False
2         False
3         False
4         False
          ...  
100831    False
100832    False
100833    False
100834    False
100835    False
Name: userId, Length: 100836, dtype: bool

In [29]:
ratings[ratings['userId']== 9]

Unnamed: 0,userId,movieId,rating,timestamp
1073,9,41,3.0,1044656650
1074,9,187,3.0,1044657119
1075,9,223,4.0,1044656650
1076,9,371,3.0,1044656716
1077,9,627,3.0,1044657102
1078,9,922,4.0,1044657026
1079,9,923,5.0,1044657026
1080,9,1037,2.0,1044656650
1081,9,1095,4.0,1044657088
1082,9,1198,5.0,1044656716


In [30]:
ratings[ratings['userId']== 9]['movieId']

1073      41
1074     187
1075     223
1076     371
1077     627
1078     922
1079     923
1080    1037
1081    1095
1082    1198
1083    1270
1084    1674
1085    1987
1086    2011
1087    2012
1088    2023
1089    2300
1090    2877
1091    2901
1092    3173
1093    3328
1094    3735
1095    4131
1096    4558
1097    4993
1098    5218
1099    5378
1100    5445
1101    5447
1102    5451
1103    5481
1104    5507
1105    5841
1106    5843
1107    5872
1108    5890
1109    5891
1110    5893
1111    5902
1112    5952
1113    5956
1114    5962
1115    5965
1116    5988
1117    6001
1118    6044
Name: movieId, dtype: int64

In [31]:
ratings[ratings['userId']== 9]['movieId'].tolist()

[41,
 187,
 223,
 371,
 627,
 922,
 923,
 1037,
 1095,
 1198,
 1270,
 1674,
 1987,
 2011,
 2012,
 2023,
 2300,
 2877,
 2901,
 3173,
 3328,
 3735,
 4131,
 4558,
 4993,
 5218,
 5378,
 5445,
 5447,
 5451,
 5481,
 5507,
 5841,
 5843,
 5872,
 5890,
 5891,
 5893,
 5902,
 5952,
 5956,
 5962,
 5965,
 5988,
 6001,
 6044]

In [32]:
movies['movieId'].tolist()

[1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 34,
 36,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 52,
 53,
 54,
 55,
 57,
 58,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 85,
 86,
 87,
 88,
 89,
 92,
 93,
 94,
 95,
 96,
 97,
 99,
 100,
 101,
 102,
 103,
 104,
 105,
 106,
 107,
 108,
 110,
 111,
 112,
 113,
 116,
 117,
 118,
 119,
 121,
 122,
 123,
 125,
 126,
 128,
 129,
 132,
 135,
 137,
 140,
 141,
 144,
 145,
 146,
 147,
 148,
 149,
 150,
 151,
 152,
 153,
 154,
 155,
 156,
 157,
 158,
 159,
 160,
 161,
 162,
 163,
 164,
 165,
 166,
 168,
 169,
 170,
 171,
 172,
 173,
 174,
 175,
 176,
 177,
 178,
 179,
 180,
 181,
 183,
 184,
 185,
 186,
 187,
 188,
 189,
 190,
 191,
 193,
 194,
 195,
 196,
 198,
 199,
 201,
 202,
 203,
 204,
 205,
 206,
 207,
 208,
 209,
 210,
 211,
 212,
 213,
 214,

In [33]:
# 영화에 대한 상세 속성 정보 DataFrame로딩
movies = pd.read_csv('./data/movies.csv')

# 아직 보지 않은 영화 리스트 함수
def get_unseen_surprise(ratings, movies, userId):
     # 특정 userId가 평점을 매긴 모든 영화 리스트
    seen_movies = ratings[ratings['userId']== userId]['movieId'].tolist()
    
    # 모든 영화명을 list 객체로 만듬. 
    total_movies = movies['movieId'].tolist()
      
    # 한줄 for + if문으로 안 본 영화 리스트 생성
    unseen_movies = [ movie for movie in total_movies if movie not in seen_movies]
    
    total_movie_cnt = len(total_movies) # 전체 영화수
    seen_cnt = len(seen_movies)         # 시청한 영화수
    unseen_cnt = len(unseen_movies)     # 시청하지 않은 영화수
    
    print(f"전체 영화 수: {total_movie_cnt}, 평점 매긴 영화 수: {seen_cnt}, 추천 대상 영화 수: {unseen_cnt}")
    
    return unseen_movies

In [34]:
unseen_movies = get_unseen_surprise(ratings, movies, 9) # ratings, movies, userId

전체 영화 수: 9742, 평점 매긴 영화 수: 46, 추천 대상 영화 수: 9696


In [35]:
# Prediction(uid='120', iid='282', r_ui=4.0, est=3.5165497151871623, details={'was_impossible': False})
def recomm_movie_by_surprise(algo, userId, unseen_movies, top_n=10): # algo = model
    # 아직 보지 않은 영화의 예측 평점: prediction 객체 생성
    predictions = []    
    for movieId in unseen_movies: # 시청하지 않은 영화에 대한 평점을 예측
        predictions.append(algo.predict(str(userId), str(movieId)))
    
    # 리스트 내의 prediction 객체의 est를 기준으로 내림차순 정렬
    def sortkey_est(pred):
        return pred.est # est: 예측평점

    predictions.sort(key=sortkey_est, reverse=True) # reverse=True: 내림 차순
    
    # 상위 top_n개의 prediction 객체
    top_predictions = predictions[:top_n]
    
    # 영화 아이디, 제목, 예측 평점 출력
    print(f"Top-{top_n} 추천 영화 리스트")
    
    for pred in top_predictions:
        movie_id = int(pred.iid) # 영화 id
        movie_title = movies[movies["movieId"] == movie_id]["title"].tolist() # 영화 id에 해당하는 영화명
        movie_rating = pred.est  # 평점 예측
        
        print(f"{movie_title}: {movie_rating:.2f}")

In [36]:
recomm_movie_by_surprise(model, 9, unseen_movies, top_n=10) # model, userId, unseen_movies, top_n=추천수

Top-10 추천 영화 리스트
['Godfather, The (1972)']: 4.31
['Star Wars: Episode IV - A New Hope (1977)']: 4.28
['Pulp Fiction (1994)']: 4.28
['Star Wars: Episode V - The Empire Strikes Back (1980)']: 4.23
['Usual Suspects, The (1995)']: 4.19
['Streetcar Named Desire, A (1951)']: 4.15
['Star Wars: Episode VI - Return of the Jedi (1983)']: 4.12
['Goodfellas (1990)']: 4.11
['Glory (1989)']: 4.08
['Silence of the Lambs, The (1991)']: 4.08


### 모델 저장및 사용

In [37]:
import pickle # 파이썬 자료형 저장 지원
import joblib # 병렬 프로그래밍, 모델 저장, 로딩

joblib.dump(model, './ml-latest-small.pkl') 

['./ml-latest-small.pkl']