# 실습 - Non-Personalized Recommendation - Best Seller 추천

In [1]:
import pandas as pd
import numpy as np

#from sklearn.metrics import root_mean_squared_error   # sklearn latest version
from sklearn.metrics import mean_squared_error  # sklearn old version

import warnings
warnings.filterwarnings('ignore')
import sklearn
sklearn.__version__

'1.2.2'

## 영화 데이터(movies.csv) 파일을 DataFrame으로 읽기

In [3]:
# movies.csv 파일 읽기
movies = pd.read_csv('data/ml-latest-small/movies.csv', index_col=0)
print(movies.shape)
movies.head()

(9742, 2)


Unnamed: 0_level_0,title,genres
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy


## 사용자 평점 (ratings.csv) 파일을 DataFrame으로 읽기 

In [4]:
# ratings.csv 파일 읽기
ratings = pd.read_csv('data/ml-latest-small/ratings.csv', index_col=0)
ratings.shape
ratings.head()

Unnamed: 0_level_0,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931


# 베스트셀러 추천 방식

- 이 방식은 모든 사용자에게 가장 인기 있는 동일한 영화를 추천합니다.
- 상품에 대한 모든 평가의 평균을 계산하고, 이 평균 점수가 높은 순서대로 상품을 추천합니다.

In [5]:
# 각 영화별 평균 평점 계산
movie_mean_rating = ratings.groupby('movieId')['rating'].mean()
movie_mean_rating.head()

movieId
1    3.920930
2    3.431818
3    3.259615
4    2.357143
5    3.071429
Name: rating, dtype: float64

In [7]:
# 평균 평점이 가장 높은 상위 5개 영화 찾기
top_movies = movie_mean_rating.sort_values(ascending=False)[:5]
top_movies_titles = movies.loc[top_movies.index, 'title']
top_movies_titles

movieId
88448     Paper Birds (Pájaros de papel) (2010)
100556               Act of Killing, The (2012)
143031                          Jump In! (2007)
143511                             Human (2015)
143559                      L.A. Slasher (2015)
Name: title, dtype: object

## 추천 시스템의 정확도 측정

In [9]:
# RMSE 계산을 위한 빈 리스트 초기화
rmse = []

# 평가 데이터프레임의 인덱스에서 고유한 사용자 ID를 추출하여 각 사용자별로 반복
for user in set(ratings.index):
    # 해당 사용자의 실제 평점 데이터
    y_true = ratings.loc[user, 'rating']
    # 예측 평점 데이터: 해당 사용자가 평가한 각 영화의 평균 평점
    y_pred = movie_mean_rating.loc[ratings.loc[user, 'movieId']]
    
    # 실제값과 예측값의 길이가 동일한지 확인
    assert len(y_true) == len(y_pred), "length different"
    
    # 실제 평점과 예측 평점 사이의 RMSE를 계산
    #loss = root_mean_squared_error(y_true, y_pred)    # sklearn latest version
    loss = mean_squared_error(y_true, y_pred, squared=True)
    
    # 계산된 오류를 리스트에 추가
    rmse.append(loss)

# 모든 사용자에 대한 RMSE의 평균을 계산하여 출력
print("Best Seller 추천 방식의 RMSE = ", np.mean(rmse))

Best Seller 추천 방식의 RMSE =  0.9008684066524535
