## 추천 시스템 (Recommender Systems)

참고: 이수안컴퓨터연구소 (https://www.youtube.com/watch?v=6TP51jvjLsE)

* 추천 시스템은 크게 두 가지로 구분 가능
    - 컨텐츠 기반 필터링 (content-based filtering)
    - 협업 필터링 (collaborative filtering)
* 두 가지를 조합한 hybrid 방식도 가능
* 컨텐츠 기반 필터링: 지금까지 사용자의 이전 행동과 명시적 피드백을 통해 사용자가 좋아하는 것과 유사한 항목을 추천
* 협업 필터링: 사용자와 항목 간의 유사성을 동시에 사용해 추천

## Surprise

* 추천 시스템 개발을 위한 라이브러리
* 다양한 모델과 데이터 제공
* scikit-learn과 유사한 사용 방법

In [1]:
!pip install scikit-surprise

간단한 surprise 실습

In [2]:
from surprise import SVD
from surprise import Dataset
from surprise.model_selection import cross_validate

In [3]:
# 데이터를 가져오고, 그 중 10개만 출력해봄
data = Dataset.load_builtin('ml-100k', prompt=False)
data.raw_ratings[:10]

Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to C:\Users\phi49/.surprise_data/ml-100k


[('196', '242', 3.0, '881250949'),
 ('186', '302', 3.0, '891717742'),
 ('22', '377', 1.0, '878887116'),
 ('244', '51', 2.0, '880606923'),
 ('166', '346', 1.0, '886397596'),
 ('298', '474', 4.0, '884182806'),
 ('115', '265', 2.0, '881171488'),
 ('253', '465', 5.0, '891628467'),
 ('305', '451', 3.0, '886324817'),
 ('6', '86', 3.0, '883603013')]

순서대로 User, 영화, 평점, ID를 의미

In [4]:
model = SVD()

In [5]:
cross_validate(model, data, measures=['rmse', 'mae'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9358  0.9357  0.9359  0.9387  0.9354  0.9363  0.0012  
MAE (testset)     0.7386  0.7376  0.7382  0.7399  0.7351  0.7379  0.0016  
Fit time          2.69    2.58    3.33    3.56    3.17    3.07    0.37    
Test time         0.39    0.71    0.85    0.79    0.78    0.70    0.16    


{'test_rmse': array([0.93584554, 0.93566706, 0.93585999, 0.93865975, 0.93535381]),
 'test_mae': array([0.73858165, 0.73764591, 0.73818362, 0.73993557, 0.73506555]),
 'fit_time': (2.6931746006011963,
  2.5786073207855225,
  3.327638626098633,
  3.5583882331848145,
  3.17398738861084),
 'test_time': (0.392200231552124,
  0.7141571044921875,
  0.8533916473388672,
  0.7868013381958008,
  0.7754931449890137)}

RMSE와 MAE의 Mean 값이 93%, 73%임을 확인할 수 있음

## 컨텐츠 기반 필터링 (Content-based Filtering)

* 컨텐츠 기반 필터링: 이전의 행동과 명시적 피드백을 통해 좋아하는 것과 유사한 항목을 추천
    - ex) 내가 지금까지 시청한 영화 목록과 다른 사용자의 시청 목록을 비교해 나와 비슷한 취향의 사용자가 시청한 영화를 추천
    
    
* **유사도**를 기반으로 추천


* 컨텐츠 기반 필터링의 장단점
    - 장점
        - 많은 수의 사용자를 대상으로 쉽게 확장 가능
        - 사용자가 관심을 갖지 않던 상품 추천 가능
    - 단점
        - 입력 특성을 직접 설계해야 하므로, 많은 도메인 지식이 필요
        - 사용자의 기존 관심사항을 기반으로만 추천 가능

In [6]:
import numpy as np
from surprise import Dataset

* 이진 벡터의 내적을 통해 다른 사용자들과의 유사도 구하기
* 나와 가장 높은 유사도를 가진 사용자의 시청 목록을 추천

In [8]:
data = Dataset.load_builtin('ml-100k', prompt=False)
raw_data = np.array(data.raw_ratings, dtype=int)

In [9]:
raw_data[:, 0] -= 1
raw_data[:, 1] -= 1

In [10]:
n_users = np.max(raw_data[:, 0])
n_movies = np.max(raw_data[:, 1])
shape = (n_users + 1, n_movies + 1)
shape

(943, 1682)

In [11]:
# 인접행렬 만들기
adj_matrix = np.ndarray(shape, dtype=int)

for user_id, movie_id, rating, time in raw_data:
    adj_matrix[user_id][movie_id] = 1.
adj_matrix

array([[1, 1, 1, ..., 0, 0, 0],
       [1, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [1, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0]])

In [12]:
my_id, my_vector = 0, adj_matrix[0]
best_match, best_match_id, best_match_vector = -1, -1, []

for user_id, user_vector in enumerate(adj_matrix):
    if my_id != user_id:
        similarity = np.dot(my_vector, user_vector)
        if similarity > best_match:
            best_match = similarity
            best_match_id = user_id
            best_match_vector = user_vector

print('Best Match: {}, Best Match ID: {}'.format(best_match, best_match_id))

Best Match: 183, Best Match ID: 275


In [13]:
recommend_list = []
for i, log in enumerate(zip(my_vector, best_match_vector)):
    log1, log2 = log
    if log1 < 1. and log2 > 0:
        recommend_list.append(i)
print(recommend_list)

[272, 273, 275, 280, 281, 283, 287, 288, 289, 290, 292, 293, 297, 299, 300, 301, 302, 306, 312, 314, 315, 316, 317, 321, 322, 323, 324, 327, 330, 331, 332, 333, 339, 342, 345, 346, 353, 354, 355, 356, 357, 363, 364, 365, 366, 372, 374, 378, 379, 381, 382, 383, 384, 385, 386, 387, 390, 391, 392, 394, 395, 396, 398, 400, 401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 412, 414, 416, 417, 418, 419, 420, 422, 424, 425, 426, 427, 428, 430, 431, 432, 435, 442, 446, 447, 448, 449, 450, 451, 452, 454, 455, 457, 460, 461, 462, 468, 469, 470, 471, 472, 473, 474, 478, 495, 500, 507, 517, 522, 525, 530, 539, 540, 543, 545, 546, 548, 549, 550, 551, 553, 557, 558, 560, 561, 562, 563, 565, 566, 567, 568, 570, 571, 574, 575, 576, 577, 580, 581, 582, 585, 587, 589, 590, 594, 596, 602, 623, 626, 627, 630, 633, 635, 639, 646, 648, 651, 652, 654, 657, 664, 668, 671, 677, 678, 681, 683, 684, 685, 690, 691, 692, 695, 696, 708, 709, 714, 718, 719, 720, 724, 726, 727, 731, 733, 734, 736, 738, 741, 742, 745,

* 유클리드 거리를 사용해 추천
 17:33부터 https://www.youtube.com/watch?v=6TP51jvjLsE