# 100. Non-Personalized Recommendation - Best Seller 추천

In [1]:
import pandas as pd
import numpy as np
#from sklearn.metrics import root_mean_squared_error   # sklearn latest version
from sklearn.metrics import mean_squared_error  # sklearn old version
import warnings
warnings.filterwarnings('ignore')
import sklearn
sklearn.__version__

'1.2.2'

## 영화 데이터 (u.item) 파일을 DataFrame으로 읽기
- title : 제목  
- release data : 개봉 날짜  
- 장르 : unknown에서 Western까지 19가지 변수 (0, 1)로 multi-hot encoding

In [2]:
i_cols = ['movie_id', 'title', 'release date', 'video release date', 'IMDB URL', 
          'unknown', 'Action', 'Adventure', 'Animation', 'Children\'s', 'Comedy', 
          'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 
          'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western']
movies = pd.read_csv('data/u.item', sep='|', names=i_cols, encoding='latin-1')
movies = movies.set_index('movie_id')
movies.head()

Unnamed: 0_level_0,title,release date,video release date,IMDB URL,unknown,Action,Adventure,Animation,Children's,Comedy,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


## 사용자의 영화평점 데이터 (u.data) 파일을 DataFrame으로 읽기

- 사용자-영화-평점으로 구성

In [3]:
r_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('data/u.rating', sep='\t', names=r_cols, encoding='latin-1') 
ratings = ratings.set_index('user_id')
ratings.head()

Unnamed: 0_level_0,movie_id,rating,timestamp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
196,242,3,881250949
186,302,3,891717742
22,377,1,878887116
244,51,2,880606923
166,346,1,886397596


# 베스트셀러 추천 방식

- 이 방식은 모든 사용자에게 가장 인기 있는 동일한 상품을 추천합니다.
- 상품에 대한 모든 평가의 평균을 계산하고, 이 평균 점수가 높은 순서대로 상품을 추천합니다.

In [4]:
ratings.groupby('movie_id').mean().head()

Unnamed: 0_level_0,rating,timestamp
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3.878319,882805400.0
2,3.206107,883417400.0
3,3.033333,882226900.0
4,3.550239,882717500.0
5,3.302326,882588200.0


In [5]:
# 각 영화별 평균 평점 계산
movie_mean_rating = ratings.groupby('movie_id').mean()['rating']
movie_mean_rating.head()

movie_id
1    3.878319
2    3.206107
3    3.033333
4    3.550239
5    3.302326
Name: rating, dtype: float64

In [6]:
# 각 영화의 평균 평가를 내림차순으로 정렬
top_movies = movie_mean_rating.sort_values(ascending=False)[:5]
top_movies

movie_id
814     5.0
1599    5.0
1201    5.0
1122    5.0
1653    5.0
Name: rating, dtype: float64

In [7]:
movies_best = movies.loc[top_movies.index]
movies_best.title

movie_id
814                         Great Day in Harlem, A (1994)
1599                        Someone Else's America (1995)
1201           Marlene Dietrich: Shadow and Light (1996) 
1122                       They Made Me a Criminal (1939)
1653    Entertaining Angels: The Dorothy Day Story (1996)
Name: title, dtype: object

## 추천 시스템의 정확도 측정

$$RMSE=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y_i})^2}$$

RMSE는 실제 값과 예측 값 사이의 차이를 제곱하여 평균낸 값의 제곱근입니다. 이 값은 예측이 실제 값에서 얼마나 벗어났는지를 나타내는 지표로, 오차의 크기를 측정합니다. 따라서, RMSE 값이 작을수록 모델의 예측이 실제 값에 가깝다는 것을 의미하며, 모델의 성능이 더 좋다고 할 수 있습니다.

## Best Seller 추천 방식의 정확도 계산

In [8]:
# movie id  별 평균 rating
movie_mean_rating.head(3)

movie_id
1    3.878319
2    3.206107
3    3.033333
Name: rating, dtype: float64

In [9]:
# 특정 user가 특정 movie_id 에 부여한 rating
user = 196
ratings.loc[user, ['movie_id', 'rating']].head(3)

Unnamed: 0_level_0,movie_id,rating
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1
196,242,3
196,393,4
196,381,4


특정 user가 실제로 평가한 값 (y_true)과 그 영화의 평균 rating (y_pred)의 MSE 측정

In [10]:
# 현재 사용자가 평가한 영화들의 실제 평점
y_true = ratings.loc[user, 'rating']   
y_true.head(3)

user_id
196    3
196    4
196    4
Name: rating, dtype: int64

In [11]:
# movie_mean_rating에서 사용자가 평가한 영화들의 평균 평점을 가져옵니다.
y_pred = movie_mean_rating.loc[ratings.loc[user, 'movie_id']]
y_pred.head()

movie_id
242    3.991453
393    3.411458
381    3.550000
251    4.260870
655    3.881057
Name: rating, dtype: float64

In [12]:
# 실제 평점과 예측 평점의 길이가 같은지 확인합니다. 다르면 에러를 발생시킵니다.
assert len(y_true) == len(y_pred), "length different"

In [13]:
# 실제 평점과 예측 평점 사이의 RMSE를 계산합니다.
#root_mean_squared_error(y_true, y_pred)    # sklearn latest version
mean_squared_error(y_true, y_pred, squared=True)  # sklearn old version

0.9713138060658363

모든 사용자에게 위와 같은 accuracy 계산을 하여 전체적인 정확도를 rmse 평균으로 계산

In [14]:
# RMSE(Root Mean Squared Error) 값을 저장할 리스트를 초기화
rmse = []

# ratings 데이터프레임의 인덱스에서 user ID를 추출하여 각 사용자별로 반복
for user in set(ratings.index):
    y_true = ratings.loc[user, 'rating']   # 현재 사용자가 평가한 영화들의 실제 평점
    
    # 사용자가 평가한 영화들의 평균 평점
    y_pred = movie_mean_rating.loc[ratings.loc[user, 'movie_id']]
    
    # 실제 평점과 예측 평점의 길이가 같은지 확인
    assert len(y_true) == len(y_pred), "length different"
    
    # 실제 평점과 예측 평점 사이의 RMSE를 계산
    #loss = root_mean_squared_error(y_true, y_pred)    # sklearn latest version
    loss = mean_squared_error(y_true, y_pred, squared=True)    # sklearn old version
    
    # 계산된 RMSE 값을 rmse 리스트에 추가
    rmse.append(loss)
    
# rmse 리스트에 저장된 모든 RMSE 값의 평균을 계산하여 출력
# 이 값은 "Best Seller 추천 방식"의 전체적인 정확도를 나타냅니다.
print("Best Seller 추천 방식의 RMSE = ", np.mean(rmse))

Best Seller 추천 방식의 RMSE =  1.0435720790919452
