## 다음 코드에서는 id가 4번인 사용자가 보지 않은 영화들 중 애니메이션 장르 상위 2개 영화를 출력한다.

In [10]:
# -*- coding: utf-8 -*-

%matplotlib inline

import time
import operator

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

In [11]:
# Data Source : https://grouplens.org/datasets/movielens

rating_file_path = "../data/ml-1m/ratings.dat"
movie_file_path = "../data/ml-1m/movies.dat"
user_file_path = "../data/ml-1m/users.dat"

rating_data = pd.io.parsers.read_csv(rating_file_path, 
                                     names=['user_id', 'movie_id', 'rating', 'time', 'title'], delimiter='::')
movie_data = pd.io.parsers.read_csv(movie_file_path, 
                                    names=['movie_id', 'title', 'genre'], delimiter='::')
user_data = pd.io.parsers.read_csv(user_file_path, 
                                   names=['user_id', 'gender', 'age', 'occupation', 'zipcode'], delimiter='::')

In [12]:
!pip install surprise



In [52]:
# 장르가 Animation인 행만 추출합니다.
movie_data = movie_data[movie_data['genre'] == 'Animation']

In [53]:
# SVD 사용을 위한 데이터셋을 생성합니다.
data = Dataset.load_from_df(df=df[["user_id", "item_id", "rating"]], reader=reader)
train_data = data.build_full_trainset()

In [54]:
# SVD 모델을 학습합니다.
model = SVD(n_factors=8,
            lr_all=0.005,
            reg_all=0.02,
            n_epochs=10)
model.fit(train_data)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x1b8be024eb0>

In [55]:
# 학습한 모델을 기반으로 빈공간의 점수를 예측합니다.

"""
build_anti_testset() : 

학습에 사용된 matrix에서 0으로 평가되어 있는(rating이 0인 지점) 부분의 데이터.
user 혹은 item은 학습에 반드시 등장한 적이 있어야 한다는 전제조건을 통해 추출.
"""

# test_data : 학습에 사용된 유저, 혹은 아이템이지만 점수는 매겨지지 않은 데이터입니다.
test_data = train_data.build_anti_testset()
predictions = model.test(test_data)

# 아래의 결과는 빈공간(test_data)의 점수를 예측한 결과입니다.
for _, iid, _, predicted_rating, _ in predictions:
    print("Item id", iid, "|", "predicted rating :", predicted_rating)

Item id 4 | predicted rating : 5
Item id 2 | predicted rating : 5
Item id 4 | predicted rating : 5
Item id 1 | predicted rating : 5
Item id 3 | predicted rating : 5
Item id 2 | predicted rating : 5
Item id 4 | predicted rating : 5


In [56]:
# SVD 라이브러리를 사용하기 위한 학습 데이터를 생성합니다.
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(rating_data[['user_id', 'movie_id', 'rating']], reader)
train_data = data.build_full_trainset()

# SVD 모델을 학습합니다.
train_start = time.time()
model = SVD(n_factors=8,
            lr_all=0.005,
            reg_all=0.02,
            n_epochs=100)
model.fit(train_data)
train_end = time.time()
print("training time of model: %.2f seconds" % (train_end - train_start))

training time of model: 11.63 seconds


In [57]:
# user_id가 4인 유저의 영화 평가 데이터입니다.
target_user_id = 4
target_user_data = rating_data[rating_data['user_id']==target_user_id]
target_user_data.head(5)

Unnamed: 0,user_id,movie_id,rating,time,title
233,4,3468,5,978294008,
234,4,1210,3,978293924,
235,4,2951,4,978294282,
236,4,1214,4,978294260,
237,4,1036,4,978294282,


In [58]:
# user_id 4인 유저가 평가한 영화 히스토리 정보를 추출합니다.
target_user_movie_rating_dict = {}

for index, row in target_user_data.iterrows():
    movie_id = row['movie_id']
    target_user_movie_rating_dict[movie_id] = row['rating']
print(target_user_movie_rating_dict)

{3468.0: 5.0, 1210.0: 3.0, 2951.0: 4.0, 1214.0: 4.0, 1036.0: 4.0, 260.0: 5.0, 2028.0: 5.0, 480.0: 4.0, 1196.0: 2.0, 1198.0: 5.0, 1954.0: 5.0, 1097.0: 4.0, 3418.0: 4.0, 3702.0: 4.0, 2366.0: 4.0, 1387.0: 5.0, 3527.0: 1.0, 1201.0: 5.0, 2692.0: 5.0, 2947.0: 5.0, 1240.0: 5.0}


In [59]:
# 타겟 유저(user_id가 4인 유저)가 보지 않은 영화 정보를 테스트 데이터로 생성합니다.
test_data = []
for index, row in movie_data.iterrows():
    movie_id = row['movie_id']
    rating = 0
    if movie_id in target_user_movie_rating_dict:
        continue
    test_data.append((target_user_id, movie_id, rating))

In [60]:
# 타겟 유저의 평점 점수를 예측합니다.
target_user_predictions = model.test(test_data)

# 예측된 점수 중, 타겟 유저의 영화별 점수를 target_user_movie_predict_dict로 저장합니다.
def get_user_predicted_ratings(predictions, user_id, user_history):
    target_user_movie_predict_dict = {}
    for uid, mid, rating, predicted_rating, _ in predictions:
        if user_id == uid:
            if mid not in user_history:
                target_user_movie_predict_dict[mid] = predicted_rating
    return target_user_movie_predict_dict

target_user_movie_predict_dict = get_user_predicted_ratings(predictions=target_user_predictions, 
                                                            user_id=target_user_id, 
                                                            user_history=target_user_movie_rating_dict)

In [61]:
# target_user_movie_predict_dict에서 예측된 점수 중, 타겟 유저의 Top 2 영화를 선정합니다.
target_user_top2_predicted = sorted(target_user_movie_predict_dict.items(), 
                                     key=operator.itemgetter(1), reverse=True) [:2]

In [62]:
# 예측된 Top 2 영화
target_user_top2_predicted

[(2189, 5), (720, 4.601962534210581)]

In [63]:
# 타이틀 정보로 출력하기 위해 movie_id마다 movie_title을 딕셔너리 형태로 저장합니다.
movie_dict = {}
for index, row in movie_data.iterrows():
    movie_id = row['movie_id']
    movie_title = row['title']
    movie_dict[movie_id] = movie_title

In [64]:
# 앞서 계산한 Top 2 영화에 movie_title을 매핑하여 출력합니다.
for predicted in target_user_top2_predicted:
    movie_id = predicted[0]
    predicted_rating = predicted[1]
    print(movie_dict[movie_id], ":", predicted_rating)

I Married A Strange Person (1997) : 5
Wallace & Gromit: The Best of Aardman Animation (1996) : 4.601962534210581
