# 추천 시스템
- 사용자 집단별 추천
    - 성별 

In [31]:
import pandas as pd
import numpy as np

## 전처리

In [32]:
# 사용자 
users = pd.read_csv('users.csv')
users[:3]

Unnamed: 0,user_id,age,gender,job,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067


In [33]:
# 영화 평점
ratings = pd.read_csv('ratings.csv')
ratings[:3]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,55,5,875072688
1,1,203,4,878542231
2,1,183,5,875072262


In [34]:
# 영화 정보
movies = pd.read_csv('movies.csv')
movies[:3]

Unnamed: 0,movie_id,title,release date,imdb url,action,adventure,animation,children,comedy,crime,...,fantasy,film-noir,horror,musical,mystery,romance,sci-fi,thriller,war,western
0,1,Toy Story (1995),01-Jan-1995,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,1,1,1,0,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,http://us.imdb.com/M/title-exact?GoldenEye%20(...,1,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [35]:
# ratings의 timestamp 컬럼 삭제
del ratings['timestamp']

In [36]:
ratings.columns

Index(['user_id', 'movie_id', 'rating'], dtype='object')

In [37]:
# movies의 movie_id, title만 사용
movies = movies[['movie_id', 'title']]
movies[:3]

Unnamed: 0,movie_id,title
0,1,Toy Story (1995)
1,2,GoldenEye (1995)
2,3,Four Rooms (1995)


## 데이터 셋 분리
- Train data
    - 모델을 학습하기 위한 데이터 셋
    - 학습은 최적의 파라미터를 찾는 것
    - 학습을 위한 데이터
    <br><br>
- Test data
    - 모델의 '최종 성능'을 평가하기 위한 데이터 셋
    - 모델 학습에 관여하지 않음
    <br><br>
- Train data로 학습을 하고, Test data로 최종 성능 평가

In [38]:
# train, test set 분리
from sklearn.model_selection import train_test_split

In [39]:
x= ratings.copy()
y= ratings.user_id

In [40]:
# x_train : 학습용 데이터
# x_test : 정확도 검증용 데이터
# y_train, y_test : 사용자 ID
x_train, x_test, y_train, y_test = train_test_split(
    x, 
    y,
    test_size=0.25,
    stratify=y,
)
# x(feature) : 속성, 변수, 입력값
# y(target, label) : 결과값
# test_size : 테스트용 데이터의 비율
# random_state : 정수값(random seed)을 기준으로 데이터 분리 -> 항상 일정한 결과로 데이터 분리
# shuffle : 데이터를 분리하기 전에 데이터를 섞음(default = True)
# stratify(계층) : 설정한 데이터를 기준으로 데이터를 분리해 편향되지 않게 설정

## Gender 기준 추천 모델

In [41]:
# x_train과 users merge
merged_ratings = pd.merge(x_train, users)
merged_ratings

Unnamed: 0,user_id,movie_id,rating,age,gender,job,zip_code
0,151,488,4,38,F,administrator,48103
1,151,260,1,38,F,administrator,48103
2,151,428,5,38,F,administrator,48103
3,151,507,5,38,F,administrator,48103
4,151,169,5,38,F,administrator,48103
...,...,...,...,...,...,...,...
74995,241,690,2,26,F,student,20001
74996,241,689,3,26,F,student,20001
74997,241,880,5,26,F,student,20001
74998,241,288,5,26,F,student,20001


In [42]:
# 영화별 성별별 평점 평균 계산
g_mean = merged_ratings.groupby(['movie_id', 'gender']).rating.mean()
g_mean

movie_id  gender
1         F         3.714286
          M         3.913386
2         F         3.266667
          M         3.130952
3         F         2.600000
                      ...   
1676      M         2.000000
1677      F         3.000000
1678      M         1.000000
1679      M         3.000000
1682      M         3.000000
Name: rating, Length: 3018, dtype: float64

In [43]:
users.set_index('user_id', inplace=True)
users

Unnamed: 0_level_0,age,gender,job,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067
4,24,M,technician,43537
5,33,F,other,15213
...,...,...,...,...
939,26,F,student,33319
940,32,M,administrator,02215
941,20,M,student,97229
942,48,F,librarian,78209


In [44]:
# 피벗 테이블 : 행과 열이 교차되는 부분에 값이 존재하는 테이블

# train 데이터를 full matrix로 변환
# full matrix : 모든 행과 모든 열이 존재하는 2차원 배열
rating_matrix = x_train.pivot(index='user_id', columns='movie_id', values='rating')
rating_matrix[:2]

movie_id,1,2,3,4,5,6,7,8,9,10,...,1670,1671,1672,1674,1675,1676,1677,1678,1679,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,,3.0,3.0,5.0,4.0,1.0,5.0,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,,...,,,,,,,,,,


## 정확도 계산

In [45]:
## 모델별 RMSE 계산하는 함수 정의
## 모델별 예측치의 정확도 계산
def score(model):
    id_pairs = zip(x_test['user_id'], x_test['movie_id'])
    
    y_pred = np.array([model(user, movie) for (user, movie) in id_pairs])

    y_true = np.array(x_test['rating'])
    
    return RMSE(y_true, y_pred)

In [46]:
# gender 기준 추천 모델
# gender별 평균을 예측치로 돌려주는 함수
def cf_gender(user_id, movie_id):
    if movie_id in rating_matrix:
        gender = users.loc[user_id]['gender']
        
        if gender in g_mean[movie_id]:
            gender_rating = g_mean[movie_id][gender]
        else:
            gender_rating=3.0
            
    else:
        gender_rating=3.0
    return gender_rating

## 정확도 (Accuracy)
- 10분 동안 줄넘기 횟수

이름 | 홍길동 | 박보검 | 이미자
- | - | - | -
예측 | 50 | 35 | 40
실제 | 60 | 20 | 45

- 오차(잔차) : 실제값 - 예측값 (y - y^)
    - 오차 : 10,-15, 5
- 오차(잔차) 합 : 0, 양수, 음수가 될 수 있음 -> 0을 제거하기 위해 제곱의 합을 구함
- 평균 제곱 오차(MSE : Mean Square Error) : 오차의 제곱 합의 평균
    - 이상치(극단값)이 더욱 극대화되는 단점이 생김
- 평균 제곱근 오차(RMSE : Root Mean Square Error) : 오차의 제곱 합의 평균의 제곱근
    - 0에 가까울 수록 훈련이 잘 된 상태

### RMSE 정의

In [49]:
## 정확도(RMSE) 계산하는 함수 정의
def RMSE(y_true, y_pred):
    return np.sqrt(np.mean((np.array(y_true) - np.array(y_pred))**2))

In [50]:
score(cf_gender)

1.0364725180062917