# 120. User-Based Collaborative Filtering (협업 필터링)

### User-Based CF 의 알고리즘

| USER | M1 | M2 | M3 | M4 | M5 | U1과의 유사도 |
| --- | --- |--- |--- | ---|--- | --- |
| U1 | 2 | 5 | 3 |   |   |
|U2|4|4|3|5|1|0.19|
|U3|1|5|4| | 5| 0.89|
|U4|3|5|3|2|5  |0.94|
|U5|4|5|3|4| |0.65|
|U3, U4 평균|2|5|3.5|2|5|

1) U1과 취향이 비슷한 사용자를 찾는다. 취향은 각 사용자의 영화에 대한 평가의 유사성을 계산하여 찾는다. .U3와 U4가 U1과 가장 높은 상관 관계를 보임.  

2) U1 과 가장 유사한 U3와 U4가 가장 좋게 평가한 영화를 찾는다. U1 이 아직 보지 않은 영화 M4, M5 에 대해 U3, U4 의 평점 평균을 내면 각각 2 와 5 이다. 따라서 평점 평균이 높은 M5를 U1도 좋아할 것으로 예상.

### MovieLens dataset
- MovieLens 라는 테스트 추천 시스템으로부터 수집된 데이터  
- 사용자들이 영화에 대해서 평가한 데이터  
- MovieLens에서는 사용자가 각 영화를 1점(최악)에서 5점(최고) 사이의 점수로 평가  

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics.pairwise import cosine_similarity

i_cols = ['movie_id', 'title', 'release date', 'video release date', 'IMDB URL', 'unknown', 
          'Action', 'Adventure', 'Animation', 'Children\'s', 'Comedy', 'Crime', 'Documentary', 
          'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 
          'Thriller', 'War', 'Western']

movies = pd.read_csv('data/u.item', sep='|', names=i_cols, encoding='latin-1')

r_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('data/u.rating', sep='\t', names=r_cols, encoding='latin-1')

- content-based filtering 과 달리 user-based CF 에는 similarity 를 이용하므로 item 정보가 필요하지 않기 때문에 movies dataframe에서 title 을 제외한 모든 다른 열을 drop 한다.  

- ratings 만을 입력으로 사용

In [2]:
# timestamp 제거 
ratings = ratings.drop('timestamp', axis=1)
ratings.head()

Unnamed: 0,user_id,movie_id,rating
0,196,242,3
1,186,302,3
2,22,377,1
3,244,51,2
4,166,346,1


In [3]:
# item 정보가 필요하지 않으므로 
#movie ID와 title 빼고 다른 데이터 제거
movies = movies[['movie_id', 'title']]
movies.head()

Unnamed: 0,movie_id,title
0,1,Toy Story (1995)
1,2,GoldenEye (1995)
2,3,Four Rooms (1995)
3,4,Get Shorty (1995)
4,5,Copycat (1995)


In [4]:
# ratings를 train, test set 으로 분리
X = ratings.copy()
y = ratings['user_id']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=0)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((75000, 3), (25000, 3), (75000,), (25000,))

### train 데이터로 Full matrix 구하기 

In [5]:
rating_matrix = X_train.pivot(index="user_id", columns="movie_id", values="rating")
rating_matrix

movie_id,1,2,3,4,5,6,7,8,9,10,...,1672,1673,1674,1675,1676,1677,1679,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,3.0,3.0,5.0,4.0,,5.0,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,3.0,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
939,,,,,,,,,,,...,,,,,,,,,,
940,,,,2.0,,,4.0,5.0,3.0,,...,,,,,,,,,,
941,5.0,,,,,,4.0,,,,...,,,,,,,,,,
942,,,,,,,,,,,...,,,,,,,,,,


### User-Based CF 알고리즘

1) 모든 사용자간의 평가의 유사도를 계산  
2) 현재 추천 대상이 되는 사용자와 다른 사용자의 유사도를 추출  
3) 현재 사용자가 평가하지 않은 모든 아이템에 대해서 현재 사용자의 예상 평가값 계산. 예상 평가값은 다른 사용자의 해당 아이템에 대한 평가(평점)를 현재 사용자와 그 사용자의 유사도로 가중 평균  
4) 아이템 중에서 예상 평가값이 가장 높은 N 개의 아이템을 추천  

이 알고리즘이 작동하기 위해서는 추천 대상 사용자가 평가한 아이템과 다른 사용자들이 평가한 동일한 아이템이 유사하게 계산되면 신뢰할 수 있는 모델이 만들어진 것이고, 이 모델을 이용하여 추천 대상 사용자가 보지 않은 아이템(영화)의 평점을 계산하고 가장 예상 평점이 높은 N 개 아이템을 추천하면 된다.    

이때, 추천 대상 사용자와 가장 유사도가 높은 K 개의 다른 사용자의 평가만 반영하여 예측 평가의 품질을 높인다.

이를 위해 추천 사용자, 영화 id 를 parameter 로 받아 예상 평점을 반환하는 함수를 작성

In [6]:
# train set의 모든 가능한 사용자 pair의 Cosine similarities 계산
matrix_dummy = rating_matrix.copy().fillna(0)
user_similarity = cosine_similarity(matrix_dummy, matrix_dummy)
user_similarity = pd.DataFrame(user_similarity, index=rating_matrix.index, columns=rating_matrix.index)
user_similarity

user_id,1,2,3,4,5,6,7,8,9,10,...,934,935,936,937,938,939,940,941,942,943
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.000000,0.146106,0.020959,0.073627,0.266786,0.349511,0.336385,0.265537,0.066955,0.308059,...,0.294237,0.091677,0.220804,0.140603,0.151270,0.082095,0.217120,0.116121,0.181831,0.308788
2,0.146106,1.000000,0.046366,0.188601,0.080649,0.172223,0.132118,0.120089,0.163150,0.178841,...,0.189153,0.242051,0.317460,0.325482,0.320099,0.133631,0.190645,0.196577,0.135189,0.093075
3,0.020959,0.046366,1.000000,0.201146,0.030111,0.037289,0.068344,0.044449,0.000000,0.023211,...,0.033415,0.038807,0.137362,0.068030,0.153861,0.000000,0.100049,0.026789,0.111799,0.036240
4,0.073627,0.188601,0.201146,1.000000,0.030620,0.062455,0.109107,0.125329,0.074373,0.065446,...,0.030339,0.000000,0.124018,0.138360,0.130671,0.000000,0.132919,0.149830,0.097676,0.063175
5,0.266786,0.080649,0.030111,0.030620,1.000000,0.152663,0.278289,0.212590,0.040081,0.160161,...,0.265527,0.063802,0.078795,0.113338,0.105631,0.060989,0.131768,0.126624,0.147562,0.206405
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
939,0.082095,0.133631,0.000000,0.000000,0.060989,0.032311,0.078483,0.104167,0.000000,0.066829,...,0.058891,0.307262,0.130482,0.072153,0.298874,1.000000,0.053484,0.123318,0.017396,0.111533
940,0.217120,0.190645,0.100049,0.132919,0.131768,0.266058,0.244320,0.175642,0.077327,0.273920,...,0.250251,0.079782,0.166647,0.115085,0.151951,0.053484,1.000000,0.137686,0.223830,0.171054
941,0.116121,0.196577,0.026789,0.149830,0.126624,0.114965,0.054641,0.115746,0.057054,0.056584,...,0.037820,0.186251,0.164300,0.208964,0.284403,0.123318,0.137686,1.000000,0.030709,0.031552
942,0.181831,0.135189,0.111799,0.097676,0.147562,0.229443,0.221978,0.135490,0.122405,0.201978,...,0.218200,0.027804,0.063279,0.063948,0.041671,0.017396,0.223830,0.030709,1.000000,0.152818


현재 추천 대상이 되는 사용자와 다른 사용자의 유사도를 추출

In [7]:
 # 현재 추천 대상이 되는 사용자
user_id = 1    
sim_scores = user_similarity[user_id]
print(sim_scores.shape)
sim_scores.head()

(943,)


user_id
1    1.000000
2    0.146106
3    0.020959
4    0.073627
5    0.266786
Name: 1, dtype: float64

### 추천 대상이 되는 사용자에게 보지 않은 영화를 추천할 때 사용자가 부여할 rating 예측

1. 추천 대상 영화에 대한 모든 사용자의 rating값 가져오기  
2. 추천 대상 영화를 평가하지 않은 사용자의 index 가져오기
3. 대상 영화를 평가하지 않은 사용자의 rating (null) 제거 --> 추천 대상 영화를 평가한 사용자만 남김

In [8]:
 # 현재 추천 대상이 되는 영화에 대한 모든 사용자 평가
movie_id = 1  
movie_ratings = rating_matrix[movie_id]
print(movie_ratings.shape)
movie_ratings.head()

(943,)


user_id
1    5.0
2    4.0
3    NaN
4    NaN
5    4.0
Name: 1, dtype: float64

In [9]:
# 대상 영화를 평가하지 않은 사용자의 index 가져오기
non_rating_idx = movie_ratings[movie_ratings.isnull()].index

print(non_rating_idx.shape)
non_rating_idx

(599,)


Int64Index([  3,   4,   7,   8,   9,  11,  12,  13,  14,  19,
            ...
            925, 926, 928, 931, 932, 937, 939, 940, 942, 943],
           dtype='int64', name='user_id', length=599)

In [10]:
# 대상 영화를 평가하지 않은 사용자의 rating (null) 제거
movie_ratings = movie_ratings.drop(non_rating_idx)

print( movie_ratings.shape)
movie_ratings.head()

(344,)


user_id
1     5.0
2     4.0
5     4.0
6     4.0
10    4.0
Name: 1, dtype: float64

In [11]:
# 현재 영화를 평가하지 않은 사용자의 similarity값 제거
sim_scores = sim_scores.drop(non_rating_idx)
print(sim_scores.shape)
sim_scores

(344,)


user_id
1      1.000000
2      0.146106
5      0.266786
6      0.349511
10     0.308059
         ...   
934    0.294237
935    0.091677
936    0.220804
938    0.151270
941    0.116121
Name: 1, Length: 344, dtype: float64

추천하려는 대상 영화에 대한 예상 rating 계산

In [12]:
#영화를 평가한 모든 사용자와의  유사도를 가중치로 하는 rating 구하기
predicted_rating = np.dot(sim_scores, movie_ratings)  / sim_scores.sum()
predicted_rating

3.9308999733822954

In [13]:
# 가장 유사도가 높은 K 사용자의  유사도로 가중평균한 rating 구하기
K = 10
sorted_user_idx = np.argsort(sim_scores)
sorted_user_idx[-K:]

user_id
924    117
927    109
929     80
930    130
933    185
934    114
935     98
936    156
938    163
941      0
Name: 1, dtype: int64

In [14]:
sim_scores = sim_scores.values[sorted_user_idx][-K:]
sim_scores

array([0.40005842, 0.40151022, 0.40322733, 0.40466411, 0.40606194,
       0.41464486, 0.4173128 , 0.4256763 , 0.4502696 , 1.        ])

In [15]:
movie_ratings = movie_ratings.values[sorted_user_idx][-K:]
movie_ratings

array([4., 2., 4., 5., 2., 4., 3., 5., 4., 5.])

In [16]:
predicted_rating = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
predicted_rating

3.9572097204383447

### 모델 성능 평가 - 모델별 RMSE를 계산하는 함수 
- Test set을 이용하여 측정  
- 위의 과정을 model 함수로 작성

In [17]:
def score(model, n_neighbors=0):
    id_pairs = zip(X_test['user_id'], X_test['movie_id'])
    y_pred = np.array([model(user, movie, n_neighbors) for (user, movie) in id_pairs])
    y_true = np.array(X_test['rating'])
    return mean_squared_error(y_true, y_pred, squared=True)

###  특정 사용자에게 추천하는 영화(movie_id)의  가중평균 rating을 계산하는 함수
- 위에서 개별 사용자와 아이템에 대해 구하던 predicted_rating을 함수로 작성
- 가중치는 주어진 사용자와 다른 사용자 간의 유사도(user_similarity)

In [18]:
def UBCF_knn_model(user_id, movie_id, n_neighbors=0):
    if movie_id in rating_matrix:  # 현재 영화가 train set에 있는지 확인
        # 현재 사용자와 다른 사용자 간의 similarity 가져오기
        sim_scores = user_similarity[user_id]
        # 현재 추천 대상이 되는 영화에 대한 모든 사용자 평가
        movie_ratings = rating_matrix[movie_id]
        # 현재 영화를 평가하지 않은 사용자의 index 가져오기
        non_rating_idx = movie_ratings[movie_ratings.isnull()].index
        # 현재 영화를 평가하지 않은 사용자의 rating (null) 제거
        movie_ratings = movie_ratings.drop(non_rating_idx)
        # 현재 영화를 평가하지 않은 사용자의 similarity값 제거
        sim_scores = sim_scores.drop(non_rating_idx)
        
        if n_neighbors == 0:   # 영화를 평가한 모든 사용자의  유사도로 가중평균한 rating 구하기
            predicted_rating = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
        else:
            if len(sim_scores) > 1: #해당 영화를 평가한 사용자 수가 2 명 이상인 경우만 계산
                neighbor_size = min(n_neighbors, len(sim_scores))
                sorted_user_idx = np.argsort(sim_scores)
                sim_scores = sim_scores.values[sorted_user_idx][-neighbor_size:]
                movie_ratings = movie_ratings.values[sorted_user_idx][-neighbor_size:]
                # 가장 유사도가 높은 K 사용자의  유사도로 가중평균한 rating 구하기
                predicted_rating = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
            else:
                predicted_rating = 3.0
    else:
        predicted_rating = 3.0
    return predicted_rating

# 정확도 계산
print("knn 감안하지 않은 simple CF - 모든 다른 사용자를 포함")
print(score(UBCF_knn_model, n_neighbors=0))
K = 30
print(f"knn 감안한 CF - {K} 개의 가장 유사한 사용자만 포함")
print(score(UBCF_knn_model, n_neighbors=K))

knn 감안하지 않은 simple CF - 모든 다른 사용자를 포함
1.0308914251743724
knn 감안한 CF - 30 개의 가장 유사한 사용자만 포함
1.0139329834658362


### 특정 사용자에 대하여 영화 추천

In [30]:
def recom_movie(user_id, n_items, neighbor_size=30):
    # 현 사용자가 평가한 영화 ratings 가져오기
    user_movie_ratings = rating_matrix.loc[user_id]
    
    for movie in rating_matrix:       
        if pd.notnull(user_movie_ratings.loc[movie]):
             # 현 사용자가 이미 평가한 영화는 제외 (평점을 0으로) 
            user_movie_ratings.loc[movie] = 0
        else:
            # 현 사용자가 평가하지 않은 영화의 예상 평점 계산
            user_movie_ratings.loc[movie] = UBCF_knn_model(user_id, movie, neighbor_size)
    # 영화를 예상 평점에 따라 정렬해서 제목을 뽑아서 돌려 줌
    movie_sorted = user_movie_ratings.sort_values(ascending=False)[:n_items]
    recom_movies = movies.loc[movie_sorted.index]
    recommendations = recom_movies['title']
    return recommendations

recom_movie(user_id=2, n_items=5, neighbor_size=30)

movie_id
1                       GoldenEye (1995)
1092              Live Nude Girls (1995)
1102                        Trust (1990)
1101                     Two Much (1996)
1100    Six Degrees of Separation (1993)
Name: title, dtype: object

### 최적의 neighbor size 구하기

In [22]:
# for neighbor_size in [10, 20, 30, 40, 50, 60]:
#     print(f"Neighbor size = {neighbor_size} : RMSE = {score(UBCF_knn_model, neighbor_size):.4f}")