### 회원이 평가한 점수를 바탕으로  [영화별 평균 점수]와의 오차를 산출하여 [영화별 평균 점수]가 얼마나 대표성이 있는지 확인
- 1. 훈련 데이터를 산출하여 영화별 평점을 산출함
- 2. 검증데이터에서 회원의 실제 평점을 산출 
- 3. 검증데이터에서 회원의 실제 평점과 훈련데이터에서 산출한 영화별 평점과의 오차를 계산하며, 0에 가까울수록 좋은 값
- rmse가 0에 가까우면 모든 회원의 평점은 영화의 평점의 평균과 같음으로 평점을 이용하여 영화를 시청하지 않은 회원에게 추천을 하는 것은 최적의 방법이다(거의 발생 불가능).

In [1]:
# 분석 절차(PDCNLDNSAER)
# 1. Package import
# 2. Data loading
# 3. Column select: 구조 파악 및 필요한 컬럼 선별
# 4. NaN: 결측치 처리
# 5. Label encoding: 범주형 변수의 변환
# 6. Derivative variable: 파생 변수 만들기
# 7. Normal: 정규화
# 8. Split: 데이터 분할
# 9. Analysis: 분석, 모델 제작
# 10. Evaluation: 평가
# 11. Result save: 결과 저장, 모델 저장

In [2]:
# NPTLSMRRXX
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import roc_auc_score
from sklearn.metrics import r2_score
# from xgboost import XGBClassifier
# from xgboost import XGBRegressor

In [3]:
# 데이터 읽어 오기 
u_cols = ['user_id', 'age', 'gender', 'occupation', 'zip_code']
users = pd.read_csv('./data/u.user', sep='|', names=u_cols, encoding='latin-1')
i_cols = ['movie_id', 'title', 'release date', 'video release date', 'IMDB URL', 'unknown', 
          'Action', 'Adventure', 'Animation', 'Children\'s', 'Comedy', 'Crime', 'Documentary', 
          'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 
          'Thriller', 'War', 'Western']
movies = pd.read_csv('./data/u.item', sep='|', names=i_cols, encoding='utf-8')
r_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv('./data/u.data', sep='\t', names=r_cols, encoding='utf-8')

In [4]:
ratings.head(3)

Unnamed: 0,user_id,movie_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116


In [5]:
ratings.describe() # timestamp ?

Unnamed: 0,user_id,movie_id,rating,timestamp
count,100000.0,100000.0,100000.0,100000.0
mean,462.48475,425.53013,3.52986,883528900.0
std,266.61442,330.798356,1.125674,5343856.0
min,1.0,1.0,1.0,874724700.0
25%,254.0,175.0,3.0,879448700.0
50%,447.0,322.0,4.0,882826900.0
75%,682.0,631.0,4.0,888260000.0
max,943.0,1682.0,5.0,893286600.0


In [6]:
# timestamp 삭제
ratings = ratings.drop(columns=['timestamp'], axis=1)
ratings.head(3)

Unnamed: 0,user_id,movie_id,rating
0,196,242,3
1,186,302,3
2,22,377,1


In [7]:
movies.head(3)

Unnamed: 0,movie_id,title,release date,video release date,IMDB URL,unknown,Action,Adventure,Animation,Children's,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [8]:
# movie_id, title 컬럼만 사용
movies = movies[['movie_id', 'title']]
movies.head(3)

Unnamed: 0,movie_id,title
0,1,Toy Story (1995)
1,2,GoldenEye (1995)
2,3,Four Rooms (1995)


In [9]:
# 8. Split: 데이터 분할
# 독립 변수(요인 변수, 원인 변수)
x = ratings.copy()
print(x.head())

# 종속 변수(결과 변수)
y = ratings['user_id']
print(y.head())

   user_id  movie_id  rating
0      196       242       3
1      186       302       3
2       22       377       1
3      244        51       2
4      166       346       1
0    196
1    186
2     22
3    244
4    166
Name: user_id, dtype: int64


In [10]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.25,
                                                  stratify=y, random_state=0)
print(x_train.shape)
print(x_val.shape)
print(y_train.shape)
print(y_val.shape)

(75000, 3)
(25000, 3)
(75000,)
(25000,)


In [11]:
# 정확도 계산(RMSE)
def rmse(y_real, y_pred): # 실제값, 예측값, 오차 계산
    y_real = np.array(y_real)
    y_pred = np.array(y_pred)
    
    return np.sqrt(np.mean((y_real - y_pred) ** 2))

In [12]:
# a=['A', 'B', 'C']
# b = [100, 200, 300]
# ab = zip(a, b)
# ab

In [13]:
# for grade, price in ab:
#     print(grade, price)

In [14]:
x_val.head()

Unnamed: 0,user_id,movie_id,rating
7936,114,507,3
467,269,217,2
77913,109,175,1
87378,927,29,5
59811,854,318,5


In [15]:
y_real = np.array(x_val['rating']) # 회원이 부여한 실제 평가 점수
print(y_real[0:10])

[3 2 1 5 5 5 3 3 3 4]


In [16]:
# 모델별 RMSE를 계산하는 함수 , x_val은 사전에 준비가 되어 있어야함.
def score(model):
    y_real = np.array(x_val['rating']) # 회원이 부여한 실제 평가 점수 25,000 건
    
    # id_pairs = zip(x_val['user_id'], x_val['movie_id'])
    # model인 train_mean에서 검증 데이터의 user_id, movie_id를 이용하여 평점을 예측
    # y_pred = np.array([model(user, movie) for (user, movie) in id_pairs]) 
    # user_id는 사용하지 않은채 movie_id를 전달받아 평점을 산출함

    # 75,000건에 대한 movie_id별 평점에서 검증 데이터 건수 만큼
    # movie_id별 평균 평점을 추출하였음으로 25,000 이 추출됨.
    y_pred = np.array([model(movie) for movie in x_val['movie_id']]) 
    print('y_pred.shape:', y_pred.shape) # 25000
        
    # 검증 데이터 회원이 부여한 평가 점수, 영화별 평점의 오차 계산
    return rmse(y_real, y_pred) 

In [17]:
x_train.head()

Unnamed: 0,user_id,movie_id,rating
93435,472,419,4
95019,866,303,4
80776,829,294,2
75349,924,632,4
78986,854,188,4


In [18]:
rating_matrix = x_train.pivot(index='user_id', columns=['movie_id'], values='rating')
rating_matrix.head(5)

movie_id,1,2,3,4,5,6,7,8,9,10,...,1667,1669,1670,1672,1673,1675,1678,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,3.0,5.0,4.0,1.0,5.0,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,2.0,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,3.0,,,,,,,,,...,,,,,,,,,,


In [19]:
# 훈련: 영화별 평점만 산출하는 간단한 모델
# 훈련 데이터의 영화별 rating 평점
train_mean = x_train.groupby(['movie_id'])['rating'].mean()
train_mean.head()

movie_id
1    3.841463
2    3.202020
3    3.059701
4    3.487179
5    3.225806
Name: rating, dtype: float64

In [20]:
def movie_id_mean(movie_id):
    try:
        rating = train_mean[movie_id]
    except:
        rating=3.0 # 결측치가 있는 경우, 평가를 아무도 안한 경우
        
    return rating

score(movie_id_mean) # 함수 전달 -> def score(model) -> 1.0266715908206363
# 1. x_train 훈련 데이터를 산출하여 영화별 평점을 산출함
# 2. x_val 검증데이터에서 회원의 실제 평점을 산출 
# 3. x_val에서 실제 평점과 x_train에서 산출한 영화별 평균 점수와의 오차를 계산
# 4. 회원이 평가한 점수를 바탕으로 
#    rmse 값을 가지고 [영화별 평균 점수]가 얼마나 대표성이 있는지 확인
#    0에 가까울수록 좋은 값

y_pred.shape: (25000,)


1.0266715908206363

In [21]:
train_mean.loc[x_val.head()['movie_id']]

movie_id
507    3.805556
217    3.195652
175    3.819355
29     2.569620
318    4.463830
Name: rating, dtype: float64

In [22]:
# 오차 1.0266715908206363 점수는 모든 회원의 평점과 모든 영화의 평점 평균의
# 차이를 계산한 0.996007224010567보다 작은데,
# 이유는 데이터를 분할하여 75000건의 훈련데이터에서 평점을 계산하고,
# 그 결과를 이용하여 검증데이터의 평점과의 rmse를 계산했기 때문에,
# 데이터 분할되어 훈련과 검증이 진행됬고
# 결국 검증에 참여한 데이터가 적음으로 정확도는 상대적으로 떨어짐