# 130. Item-Based Collaborative Filtering (아이템 기반 협업 필터링)

### User-Based CF vs Item_Basef CF

| 사용자 | 기생충 | 겨울왕국 | 부산행 | 백두산 | 
| --- | --- |--- |--- | ---|
| 철수|4 | 3 | 5 |   |  
|영희| |2|1|2|
|길동|1|5| | 3| 
|정숙| | |4|5|

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FpxM35%2FbtrbAIgrefV%2FKPUOwAAuXRUw5DOaQshNi1%2Fimg.png" width="500" />

### UBCF

- 장점 : 각 사용자별로 맞춤형 추천을 하므로 정확한 추천이 가능
- 단점 : 
    - 데이터가 풍부한 경우(구매나 평가 정보) 추천이 가능   
    - 데이터가 조금만 바뀌어도 업데이트 필요
    

### IBCF

- 장점 :
    - 사용자별로 따로 계산 않으므로 계산 속도가 빠르다.
    - 데이터가 조금 바뀌어도 추천 결과에 영향이 크지 않으므로 업데이트를 자주하지 않아도 된다.  
    - 대규모 사이트에 적합
- 단점 : 사용자의 최신 취향 반영에 시간이 걸릴 수 있음


In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import root_mean_squared_error
from sklearn.metrics.pairwise import cosine_similarity

i_cols = ['movie_id', 'title', 'release date', 'video release date', 'IMDB URL', 'unknown', 
          'Action', 'Adventure', 'Animation', 'Children\'s', 'Comedy', 'Crime', 'Documentary', 
          'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 
          'Thriller', 'War', 'Western']

movies = pd.read_csv('data/u.item', sep='|', names=i_cols, encoding='latin-1')
movies.head(3)

Unnamed: 0,movie_id,title,release date,video release date,IMDB URL,unknown,Action,Adventure,Animation,Children's,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


- content-based filtering 과 달리 CF 는 similarity 를 이용하므로 **item 정보가 필요하지 않기 때문에** movies dataframe에서 title 을 제외한 모든 다른 열을 drop 한다.  

In [2]:
# item 정보가 필요하지 않으므로 movie ID와 title 빼고 다른 데이터 제거
movies = movies[['movie_id', 'title']]
movies.head(3)

Unnamed: 0,movie_id,title
0,1,Toy Story (1995)
1,2,GoldenEye (1995)
2,3,Four Rooms (1995)


In [3]:
r_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('data/u.rating', sep='\t', names=r_cols, encoding='latin-1')
ratings

Unnamed: 0,user_id,movie_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596
...,...,...,...,...
99995,880,476,3,880175444
99996,716,204,5,879795543
99997,276,1090,1,874795795
99998,13,225,2,882399156


- ratings 만을 입력으로 사용

In [4]:
# timestamp 제거 
ratings = ratings.drop('timestamp', axis=1)
ratings.head(3)

Unnamed: 0,user_id,movie_id,rating
0,196,242,3
1,186,302,3
2,22,377,1


### 평점 Matrix 생성 
- item 간의 유사도를 계산하므로 ratings를 UF 처럼 X_train, X_test 분리하면 안되고 전체 item data 사용

In [5]:
# movie_id를 인덱스로, user_id를 컬럼으로 사용하여
# 각 사용자가 각 영화에 부여한 평점을 값으로 하는 사용자-영화 평점 행렬을 생성합니다.
# 결과적으로, 이 행렬은 영화와 사용자 간의 평점 관계를 2차원 배열 형태로 나타냅니다.
rating_matrix = ratings.pivot(index="movie_id", columns="user_id", values="rating")

print(rating_matrix.shape)
rating_matrix

(1682, 943)


user_id,1,2,3,4,5,6,7,8,9,10,...,934,935,936,937,938,939,940,941,942,943
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,4.0,,,4.0,4.0,,,,4.0,...,2.0,3.0,4.0,,4.0,,,5.0,,
2,3.0,,,,3.0,,,,,,...,4.0,,,,,,,,,5.0
3,4.0,,,,,,,,,,...,,,4.0,,,,,,,
4,3.0,,,,,,5.0,,,4.0,...,5.0,,,,,,2.0,,,
5,3.0,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1678,,,,,,,,,,,...,,,,,,,,,,
1679,,,,,,,,,,,...,,,,,,,,,,
1680,,,,,,,,,,,...,,,,,,,,,,
1681,,,,,,,,,,,...,,,,,,,,,,


### Item-Based CF 알고리즘

1) 모든 Item 간의 평가의 유사도를 계산  
2) 현재 추천 대상이 되는 아이템과 다른 아이템들의 유사도를 추출  
3) 현재 사용자가 평가하지 않은 모든 아이템에 대해서 현재 사용자의 예상 평가 값 계산. 예상 평가 값은 추천하려는 영화와 사용자가 평가한 영화의 유사도로 가중 평균  
4) 아이템 중에서 예상 평가 값이 가장 높은 N 개의 아이템을 추천  

이때, 추천 대상 영화와 가장 유사도가 높은 K 개의 다른 영화만 반영하여 예측 평가의 품질을 높인다.

이를 위해 추천 사용자, 영화 id 를 parameter 로 받아 예상 평점을 반환하는 함수를 작성

In [6]:
# 평점 매트릭스의 복사본을 생성하고, NaN 값을 0으로 채웁니다.
# 이렇게 함으로써, 평점을 부여하지 않은 영화는 평점이 0인 것으로 처리하여 계산을 용이하게 합니다.
matrix_dummy = rating_matrix.copy().fillna(0)
print(matrix_dummy.shape)

# 모든 가능한 아이템(movie) pair의 Cosine similarities 계산
item_similarity = cosine_similarity(matrix_dummy, matrix_dummy)
item_similarity = pd.DataFrame(item_similarity, index=rating_matrix.index, columns=rating_matrix.index)
print(item_similarity.shape)
item_similarity.head(10)

(1682, 943)
(1682, 1682)


movie_id,1,2,3,4,5,6,7,8,9,10,...,1673,1674,1675,1676,1677,1678,1679,1680,1681,1682
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.0,0.402382,0.330245,0.454938,0.286714,0.116344,0.620979,0.481114,0.496288,0.273935,...,0.035387,0.0,0.0,0.0,0.035387,0.0,0.0,0.0,0.047183,0.047183
2,0.402382,1.0,0.273069,0.502571,0.318836,0.083563,0.383403,0.337002,0.255252,0.171082,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.078299,0.078299
3,0.330245,0.273069,1.0,0.324866,0.212957,0.106722,0.372921,0.200794,0.273669,0.158104,...,0.0,0.0,0.0,0.0,0.032292,0.0,0.0,0.0,0.0,0.096875
4,0.454938,0.502571,0.324866,1.0,0.334239,0.090308,0.489283,0.490236,0.419044,0.252561,...,0.0,0.0,0.094022,0.094022,0.037609,0.0,0.0,0.0,0.056413,0.075218
5,0.286714,0.318836,0.212957,0.334239,1.0,0.037299,0.334769,0.259161,0.272448,0.055453,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.094211
6,0.116344,0.083563,0.106722,0.090308,0.037299,1.0,0.139617,0.083876,0.151064,0.203097,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,0.620979,0.383403,0.372921,0.489283,0.334769,0.139617,1.0,0.423515,0.527462,0.318623,...,0.0,0.051498,0.0,0.0,0.051498,0.0,0.0,0.0,0.051498,0.051498
8,0.481114,0.337002,0.200794,0.490236,0.259161,0.083876,0.423515,1.0,0.424429,0.267764,...,0.0,0.082033,0.065627,0.065627,0.082033,0.0,0.0,0.0,0.082033,0.0
9,0.496288,0.255252,0.273669,0.419044,0.272448,0.151064,0.527462,0.424429,1.0,0.288514,...,0.0,0.0,0.05736,0.05736,0.0717,0.0,0.0,0.0,0.05736,0.0717
10,0.273935,0.171082,0.158104,0.252561,0.055453,0.203097,0.318623,0.267764,0.288514,1.0,...,0.0,0.0,0.080264,0.080264,0.0,0.0,0.0,0.0,0.0,0.0


현재 추천 대상이 되는 영화와 다른 영화의 유사도를 추출

In [15]:
user_id = 255     # 현재 추천 대상이 되는 사용자
movie_id = 51   # 현재 추천 대상이 되는 영화

# 현재 영화와 다른 영화 간의 유사도 가져오기
sim_scores = item_similarity.loc[movie_id]
print(sim_scores.shape)
sim_scores.head()

(1682,)


movie_id
1    0.309616
2    0.342136
3    0.249061
4    0.374914
5    0.239340
Name: 51, dtype: float64

### 추천 대상이 되는 사용자에게 보지 않은 영화를 추천할 때 사용자가 부여할 rating 예측

1. 현 사용자의 모든 rating값 가져오기  
2. 현 사용자가 평가하지 않은 영화의 index 가져오기
3. 현 사용자가 평가하지 않은 영화의 rating (null) 제거 --> 사용자가 평가한 영화만 남김

In [16]:
# 1. 현재 사용자의 모든 평가 가져오기
user_ratings = rating_matrix.loc[:, user_id]
print(user_ratings.shape)
user_ratings.head()

(943,)


user_id
1    2.0
2    4.0
3    NaN
4    NaN
5    NaN
Name: 255, dtype: float64

In [19]:
# 2. 현 사용자가 평가하지 않은 영화의 인덱스 가져오기
non_rating_idx = user_ratings[user_ratings.isnull()].index
print(non_rating_idx.shape)
non_rating_idx

(0,)


Index([], dtype='int64', name='user_id')

In [21]:
# 3. 현 사용자가 평가하지 않은 영화의 평점 제거 --> 사용자가 평가한 영화만 남김
user_ratings = user_ratings.drop(non_rating_idx)
print(user_ratings.shape)
user_ratings.head()

(172,)


user_id
1     2.0
2     4.0
15    5.0
26    3.0
30    4.0
Name: 255, dtype: float64

In [23]:
# 현 사용자가 평가하지 않은 영화의 similarity제거
sim_scores = sim_scores.drop(non_rating_idx)
sim_scores /= sim_scores.sum()  # 유사도 정규화
print(sim_scores.shape)
sim_scores.head()

(1682,)


movie_id
1    0.001274
2    0.001408
3    0.001025
4    0.001543
5    0.000985
Name: 51, dtype: float64

### 추천하려는 대상 영화에 대한 사용자의 예상 rating 계산

In [24]:
n_neighbors = 10
# 4. 유사도가 높은 아이템 순으로 정렬
top_items = sim_scores.sort_values(ascending=False).head(n_neighbors)
top_items

movie_id
51     0.004115
402    0.002064
739    0.002031
451    0.001992
549    0.001978
161    0.001942
241    0.001939
77     0.001938
97     0.001930
54     0.001920
Name: 51, dtype: float64

In [25]:
# 5. 상위 n_neighbors에 해당하는 valid한 평점만 추출
# top_items에 대응하는 user_ratings 값을 추출합니다. 이때, user_ratings에 일부 인덱스가 없을 수도 있으므로,
# reindex를 사용하여 해당 인덱스가 없는 경우 NaN 값으로 채워 넣습니다.
top_ratings = user_ratings.reindex(top_items.index)
top_ratings

movie_id
51     NaN
402    4.0
739    NaN
451    NaN
549    NaN
161    NaN
241    NaN
77     NaN
97     NaN
54     3.0
Name: 255, dtype: float64

In [26]:
# NaN 값을 가진 요소들을 제거합니다.
top_ratings = top_ratings.dropna()
top_ratings

movie_id
402    4.0
54     3.0
Name: 255, dtype: float64

In [27]:
# 가중평균 계산을 위해 유효한 top_items와 top_ratings만 사용합니다.
valid_indices = top_ratings.index  # NaN이 아닌 값들의 인덱스를 가져옵니다.
top_items = top_items.loc[valid_indices]

### Implicit Rating을 이용한 추천 공식

$$\tilde{r}_{ui} = \frac{\sum_{j \in KNN(i)}r_{uj} \cdot S_{ji}}{\sum_{j \in KNN(i)}S_{ji}}$$

In [28]:
# 6. 가중평균 계산
predicted_rating = np.dot(top_items, top_ratings) / top_items.sum()
predicted_rating

3.518049950932307

###  특정 사용자에게 추천하는 영화(movie_id)의  가중평균 rating을 계산하는 함수
- 위의 과정을 model 함수로 작성
- 위에서 개별 사용자와 아이템에 대해 구하던 predicted_rating을 함수로 작성
- 가중치는 주어진 영화와 주어진 사용자가 평가한 영화의 유사도(user_similarity)

In [32]:
def IBCF_knn_model(user_id, movie_id, rating_matrix, item_similarity, n_neighbors=0):
    """
    Item-Based Collaborative Filtering을 사용하여 특정 영화에 대한 사용자의 예상 평점을 계산합니다.

    Parameters:
    - user_id (int): 평점을 예측하고자 하는 사용자의 ID.
    - movie_id (int): 예상 평점을 계산하고자 하는 영화의 ID.
    - rating_matrix (DataFrame): 사용자-영화 평점 행렬. 사용자 ID가 인덱스이고, 영화 ID가 컬럼입니다.
    - item_similarity (DataFrame): 영화 간의 유사도를 나타내는 데이터프레임. 영화 ID가 인덱스이고 컬럼입니다.
    - n_neighbors (int): 고려할 이웃의 수. 0인 경우 모든 이웃을 고려합니다. 기본값은 0입니다.

    Returns:
    - predicted_rating (float): 지정된 영화에 대한 사용자의 예상 평점. 예상 평점을 계산할 수 없는 경우 기본값으로 3.0을 반환합니다.

    이 함수는 사용자가 평가한 영화의 평점과 해당 영화와 유사한 영화 간의 유사도를 기반으로 예상 평점을 계산합니다.
    유사도와 평점 데이터를 사용하여 가중평균을 계산하며, 특정 조건에서는 기본 평점을 할당합니다.
    """
    if movie_id in item_similarity.index:  # 현재 영화가 item_similarity 인덱스에 있는지 확인
        # 현재 영화와 다른 영화 간의 유사도 가져오기
        sim_scores = item_similarity.loc[movie_id]
        # 1. 현재 사용자의 모든 평가 가져오기
        user_ratings = rating_matrix.loc[user_id]
        # 2. 사용자가 평가하지 않은 영화의 인덱스 가져오기
        non_rating_idx = user_ratings[user_ratings.isnull()].index
        # 3. 사용자가 평가하지 않은 영화의 평점과 유사도 제거
        sim_scores = sim_scores.drop(non_rating_idx)
        user_ratings = user_ratings.drop(non_rating_idx)
        
        # 유사도의 합이 0이 아닌 경우에만 계산
        if sim_scores.sum() > 0:
            # 유사도 정규화
            sim_scores /= sim_scores.sum()
            
            if n_neighbors == 0:  # n_neighbors가 지정되지 않은 경우 모든 유사도 사용
                n_neighbors = len(sim_scores)
            
            # n_neighbors가 1 이상이면, 유사도가 높은 상위 n_neighbors만 고려
            if n_neighbors > 1 and len(sim_scores) > 1:
                # 4. 유사도가 높은 아이템 순으로 정렬
                top_items = sim_scores.sort_values(ascending=False).head(n_neighbors)
                # 5. 상위 n_neighbors에 해당하는 valid한 평점만 추출
                # reindex를 사용하여 해당 인덱스가 없는 경우 NaN 값으로 채워 넣습니다.
                top_ratings = user_ratings.reindex(top_items.index)
                # NaN 값을 가진 요소들을 제거합니다.
                top_ratings = top_ratings.dropna()
                # # 가중평균 계산을 위해 유효한 top_items와 top_ratings만 사용합니다.
                valid_indices = top_ratings.index  # NaN이 아닌 값들의 인덱스를 가져옵니다.
                top_items = top_items.loc[valid_indices]
                # 6. 가중평균 계산
                if top_items.sum() > 0:
                    predicted_rating = np.dot(top_items, top_ratings) / top_items.sum()
                else:
                    predicted_rating = 3.0
            else:
                predicted_rating = 3.0  # 유사한 아이템이 충분하지 않은 경우 기본 평점 할당
        else:
            predicted_rating = 3.0  # 유사도의 합이 0인 경우 기본 평점 할당
    else:
        predicted_rating = 3.0  # 영화가 item_similarity에 없으면 기본 평점 할당
    return predicted_rating

In [33]:
IBCF_knn_model(12, 203, rating_matrix, item_similarity, n_neighbors=30)

3.9124701836089573

In [34]:
IBCF_knn_model(255, 51, rating_matrix, item_similarity, n_neighbors=30)

3.391002868026238

In [35]:
IBCF_knn_model(13, 9999, rating_matrix, item_similarity, n_neighbors=30)

3.0

### 모델 성능 평가 - 모델별 RMSE를 계산하는 함수 
- Test set을 이용하여 측정  

In [36]:
X = ratings.copy()

_, X_test = train_test_split(X, test_size=0.25, random_state=0)
X_test.shape

(25000, 3)

In [55]:
def score(model, n_neighbors=0):
    # X_test 데이터셋에서 사용자 ID와 영화 ID의 쌍을 생성합니다.
    id_pairs = zip(X_test['user_id'], X_test['movie_id'])
    
    # 생성된 각 ID 쌍에 대해 모델을 사용하여 예상 평점을 계산합니다.
    y_pred = np.array([model(user, movie, rating_matrix, item_similarity, n_neighbors) for (user, movie) in id_pairs])
    
    # X_test 데이터셋에서 실제 평점을 가져옵니다.
    y_true = np.array(X_test['rating'])
    
    # 실제 평점과 예측 평점 사이의 RMSE를 계산하여 반환합니다.
    return root_mean_squared_error(y_true, y_pred)

In [56]:
%%time
# 정확도 계산
print("knn 감안하지 않은 simple IF - 모든 item 유사도를 포함")
print(score(IBCF_knn_model, n_neighbors=0))

K = 30
print(f"knn 감안한 IF - {K} 개의 가장 유사한 item만 포함")
print(score(IBCF_knn_model, n_neighbors=K))

knn 감안하지 않은 simple IF - 모든 item 유사도를 포함
1.3348251293701021
knn 감안한 IF - 30 개의 가장 유사한 item만 포함
1.3660006793700357
Wall time: 45.2 s


### 특정 사용자에 대하여 영화 추천

In [39]:
# 현사용자가 평가한 영화 ratings
user_id = 1
user_movie_ratings = rating_matrix.loc[:, user_id]
user_movie_ratings.head()

user_id
1    5.0
2    4.0
3    NaN
4    NaN
5    4.0
Name: 1, dtype: float64

In [40]:
movies_unrated = user_movie_ratings[user_movie_ratings.isnull()].index.values
movies_unrated[:10]

array([ 3,  4,  7,  8,  9, 11, 12, 14, 19, 22], dtype=int64)

In [41]:
# 현 사용자가 평가하지 않은 영화의 예상 평점 계산
for movie in movies_unrated:
    user_movie_ratings.loc[movie] = IBCF_knn_model(user_id, movie, rating_matrix, item_similarity, n_neighbors=30)
    
user_movie_ratings.head()

user_id
1    5.000000
2    4.000000
3    4.008312
4    3.980444
5    4.000000
Name: 1, dtype: float64

영화를 예상 평점에 따라 정렬해서 제목을 뽑아서 돌려 줌

In [42]:
movie_ratings_sorted = user_movie_ratings.sort_values(ascending=False)[:5]
movie_ratings_sorted

user_id
1      5.0
402    5.0
330    5.0
339    5.0
340    5.0
Name: 1, dtype: float64

In [47]:
recom_movies = movies.loc[movie_ratings_sorted.index]
recommendations = recom_movies['title']
recommendations

user_id
1          GoldenEye (1995)
402           Batman (1989)
330        Edge, The (1997)
339    Boogie Nights (1997)
340    Critical Care (1997)
Name: title, dtype: object

### 특정 사용자에 대하여 추천 받는 함수

In [53]:
def recom_movie(user_id, n_items, neighbor_size=30):
    """
    사용자에게 영화를 추천하는 함수입니다. 이 함수는 Item-Based Collaborative Filtering (IBCF) 방법을 사용하여,
    사용자가 아직 평가하지 않은 영화들 중에서 예상 평점이 가장 높은 영화들을 추천합니다.

    Parameters:
    - user_id (int): 추천을 받을 사용자의 ID입니다.
    - n_items (int): 추천 받을 영화의 개수입니다.
    - neighbor_size (int): 유사한 아이템을 결정할 때 고려할 이웃의 크기입니다. 기본값은 30입니다.

    Returns:
    - recommendations (Series): 추천 영화의 제목을 담은 pandas Series 객체입니다. 이 Series는 영화의 예상 평점에 따라 정렬됩니다.

    이 함수는 다음 단계를 통해 작동합니다:
    1. 현재 사용자가 평가한 영화의 평점 데이터를 가져옵니다.
    2. 사용자가 이미 평가한 영화는 추천 대상에서 제외하기 위해 평점을 0으로 설정합니다.
    3. 사용자가 평가하지 않은 각 영화에 대해 IBCF 방식으로 예상 평점을 계산합니다.
    4. 계산된 예상 평점에 따라 영화를 정렬하고, 상위 n_items개의 영화를 추천 목록으로 선정합니다.
    5. 추천 영화의 제목을 반환합니다.
    """    
    # 현 사용자가 평가한 영화 ratings 가져오기
    user_movie_ratings = rating_matrix.loc[user_id]
    
    for movie in rating_matrix:       
        if pd.notnull(user_movie_ratings.loc[movie]):
             # 현 사용자가 이미 평가한 영화는 제외 (평점을 0으로) 
            user_movie_ratings.loc[movie] = 0
        else:
            # 현 사용자가 평가하지 않은 영화의 예상 평점 계산
            user_movie_ratings.loc[movie] = IBCF_knn_model(user_id, movie, rating_matrix, item_similarity, neighbor_size)
            
    # 영화를 예상 평점에 따라 정렬해서 제목을 뽑아서 돌려 줌
    movie_sort = user_movie_ratings.sort_values(ascending=False)[:n_items]
    recom_movies = movies.loc[movie_sort.index]
    recommendations = recom_movies['title']
    return recommendations

recom_movie(user_id=2, n_items=5, neighbor_size=30)

user_id
1                    GoldenEye (1995)
634                   Fog, The (1980)
622     Angels in the Outfield (1994)
623      Three Caballeros, The (1945)
624    Sword in the Stone, The (1963)
Name: title, dtype: object

### 최적의 neighbor size 구하기

In [54]:
%%time
for neighbor_size in [10, 20, 30, 40, 50, 60]:
    print(f"Neighbor size = {neighbor_size} : RMSE = {score(IBCF_knn_model, neighbor_size):.4f}")

Neighbor size = 10 : RMSE = 1.3986
Neighbor size = 20 : RMSE = 1.3731
Neighbor size = 30 : RMSE = 1.3660
Neighbor size = 40 : RMSE = 1.3636
Neighbor size = 50 : RMSE = 1.3602
Neighbor size = 60 : RMSE = 1.3598
Wall time: 2min 9s
