##02 콘텐츠 기반 필터링 추천 시스템

사용자가 특정한 아이템을 매우 선호하는 경우, 그 아이템과 비슷한 콘텐츠를 가진 다른 아이템을 추천하는 방식  
Ex) 사용자가 높은 평점을 준 그 영화의 장르, 출연 배우, 감독, 영화 키워드 등의 콘텐츠와 유사한 다른 영화를 추천해주는 방식

##03 최근접 이웃 협업 필터링 / 04 잠재 요인 협업 필터링

협업 필터링 : 사용자가 아이템에 매긴 평점 정보나 상품 구매 이력과 같은 사용자 행동 양식(User Behavior)만을 기반으로 추천을 수행하는 것  
주요 목표 : 사용자-아이템 평점 매트릭스와 같은 축적된 사용자 행동 데이터를 기반으로 사용자가 아직 평가하지 않은 아이템을 예측 평가하는 것  



**<사용자-아이템 평점 행렬 특징>** 

*   행 - 개별 사용자
*   열 - 개별 아이템  
*   행,열 위치에 해당하는 값 - 평점
*   많은 아이템을 열로 가지는 다차원 행렬
*   희소 행렬(spare matrix) (사용자가 아이템에 대한 평점을 매기는 경우가 많지 않기 때문)





**<협업 필터링 기반의 추천 시트템의 두 가지 방식>**  
두 방식의 공통점 : 사용자-아이템 평점 행렬 데이터에만 의지해 추천 수행

1.   최근접 이웃 방식(메모리 형업 필터링)


    1.   사용자 기반(User-User) : 당신과 비슷한 고객들이 다음 상품도 구매했습니다.  
         *   특정 사용자와 타 사용자 간의 유사도(Similarity)를 측정한 뒤 가장 유사도가 높은 TOP-NJ 사용자를 추출해 그들이 선호하는 아이템을 추천

    2.   항목 추가(Item-Item) : 이 상품을 선택한 다른 고객들은 다음 상품도 구매했습니다.


        *   '아이템 간의 속성' 이 얼마나 비슷한지를 기반으로 추천하는 것 아님.
        *   사용자들이 그 아이템을 좋아하는지/싫어하는지의 평가 척도가 유사한 아이템을 추천하는 기준이 되는 알고리즘  
        *   Ex) '다크나이트' 는 '스타워즈' 보다 '프로메테우스'와 사용자들의 평점 분포가 훨씬 더 비슷하므로 '다크 나이트'와 '프로메테우스'는 상호 간 아이템 유사도가 상대적으로 매우 높다.  
        따라서 '다크 나이트'를 매우 좋아하는 사용자 D에게 아이템 기반 협업 필터링은 D가 아직 관람하지 못한 '프로메테우스'와 '스타워즈' 중 '프로메테우스'를 추천한다.


    일반적으로 사용자 기반보다는 아이템 기반 협업 필터링이 정확도가 더 높다.   
    이유는 비슷한 영화(또는 상품)를 좋아(또는 구입)한다고 해서 사람들의 취향이 비슷하다고 판단하기는 어려운 경우가 많기 때문이다.
    매우 유명한 영화는 취향과 관계없이 대부분의 사람이 관람하는 경우가 많고, 사용자들이 평점을 매긴 영화(또는 상품)의 개수가 많지 않은 경우가 일반적인데 이를 기반으로 다른 사람과의 유사도를 비교하기가 어려운 부분도 있다.
    따라서 최근접 이웃 협업 필터링은 대부분 아이템 기반의 알고리즘을 적용한다.


2. 잠재 요인 협업 필터링  
사용자-아이템 평점 행렬 속에 숨어 있는 잠재 요인을 추출해 추천 예측을 할 수 있게 하는 기법  
대규모 다찬원 행렬을 SVD 와 같은 차원 감소 기법으로 분해하는 과정에서 잠재 요인을 추출하는데, 이러한 기법을 **행렬 분해(Matrix Factorization)** 

    Ex) 사용자 아이템 평점 행렬 R  = 사용자별 장르 선호도 행렬(P) * 영화별 장르 요소 행렬(Q)의 전치행렬(Q.T)  
    여기서 잠재요인 factor 1 : 액션 / factor 2 : 로맨스  
    사용자가 액션 영화를 매우 좋아하고 특정 영화가 액션 영화의 특성이 매우 크다면 사용자가 해당 영화에 높은 평점을 줄 것이다.

##04-3 확률적 경사 하강법을 이용한 행렬 분해

P와 Q행렬로 계산된 예측 R 행렬 값이 실제 R 행렬 값과 가장 최소의 오류를 가질 수 있도록 반복적인 비용 함수 최적화를 통해 P와 Q를 유추해내는 것  
일반적으로 사용자-아이템 평점 행렬의 경우 행렬 분해를 위해서 단순히 예측 오류값의 최소화와 학습 시 과적합을 피하기 위해서 규제를 반영한 비용 함수를 적용한다.

In [None]:
#행렬 분해
import numpy as np

#원본 행렬 R 생성, 분해 행렬 P와 Q 초기화, 잠재 요인 차원 k는 3으로 설정
R = np.array([[4,np.NaN, np.NaN, 2, np.NaN],
              [np.NaN, 5, np.NaN, 3, 1],
              [np.NaN, np.NaN, 3, 4, 4],
              [5, 2, 1, 2, np.NaN]])
num_users, num_items = R.shape

In [None]:
R

array([[ 4., nan, nan,  2., nan],
       [nan,  5., nan,  3.,  1.],
       [nan, nan,  3.,  4.,  4.],
       [ 5.,  2.,  1.,  2., nan]])

In [None]:
num_users, num_items

(4, 5)

In [None]:
#P와 Q 행렬의 크기를 지정하고 정규 분포를 가진 임의의 값으로 입력한다.
k=3
np.random.seed(1)
P = np.random.normal(scale=1./k,size = (num_users,k))
Q = np.random.normal(scale=1./k,size = (num_items,k))

In [None]:
P

array([[ 0.54144845, -0.2039188 , -0.17605725],
       [-0.35765621,  0.28846921, -0.76717957],
       [ 0.58160392, -0.25373563,  0.10634637],
       [-0.08312346,  0.48736931, -0.68671357]])

In [None]:
Q

array([[-0.1074724 , -0.12801812,  0.37792315],
       [-0.36663042, -0.05747607, -0.29261947],
       [ 0.01407125,  0.19427174, -0.36687306],
       [ 0.38157457,  0.30053024,  0.16749811],
       [ 0.30028532, -0.22790929, -0.04096341]])

In [None]:
#get_rmse() 함수 : 실제 R 행렬과 예측 행렬의 오차를 구함
#실제 R행렬의 널이 아닌 행렬 값의 위치 인텍스를 추출해 이 인텍스에 있는 실제 R행렬 값과 분해된 P,Q를 이용해 다시 조합된 예측 행렬 값의 RMSE 값을 반환
from sklearn.metrics import mean_squared_error

def get_rmse(R,P,Q,non_zeros):
    error = 0
    #두 개의 분해된 행렬 P와 Q.T의 내적으로 예측 R 행렬 생성
    full_pred_matrix = np.dot(P,Q.T)

    #실제 R 행렬에서 널이 아닌 값의 위치 인텍스 추출해 실제 R행렬과 예측 행렬의 RMSE 추출
    x_non_zero_ind = [non_zero[0] for non_zero in non_zeros]
    y_non_zero_ind = [non_zero[1] for non_zero in non_zeros]
    R_non_zeros = R[x_non_zero_ind, y_non_zero_ind]
    full_pred_matrix_non_zeros = full_pred_matrix[x_non_zero_ind,y_non_zero_ind]
    mse = mean_squared_error(R_non_zeros,full_pred_matrix_non_zeros)
    rmse = np.sqrt(mse)

    return rmse

SGD 기반으로 행렬 분해 수행한다. 먼저 R에서 널 값을 제외한 데이터의 행렬 인덱스를 추출한다. steps 는 SGD를 반복해서 업데이트할 횟수를 의미하며, learning_rate는 SGD의 학습률, r_lambda는 L2 Regularization 계수

In [None]:
#R > 0 인 행 위치, 열 위치, 값을 non_zeros 리스트에 저장
non_zeros =[(i,j,R[i,j]) for i in range(num_users) for j in range(num_items) if R[i,j]>0]

steps = 1000
learning_rate = 0.01
r_lambda = 0.01

#SGD 기법으로 P와 Q 매트릭스를 계속 업데이트
for step in range(steps):
    for i,j,r in non_zeros:
        #실제 값과 예측 값의 차이인 오류 값 구함.
        eij = r - np.dot(P[i,:], Q[j,:].T)
        #Regularization을 반영한 SGD 업데이트 공식 적용
        P[i,:] = P[i,:] + learning_rate*(eij * Q[j, :] - r_lambda*P[i,:])
        Q[j,:] = Q[j,:] + learning_rate*(eij * P[i, :] - r_lambda*Q[j,:])

    rmse = get_rmse(R,P,Q,non_zeros)
    if (step % 50) == 0:
        print('### iteration step : ',step,'rmse :', rmse)

### iteration step :  0 rmse : 3.2388050277987723
### iteration step :  50 rmse : 0.4876723101369648
### iteration step :  100 rmse : 0.1564340384819247
### iteration step :  150 rmse : 0.07455141311978046
### iteration step :  200 rmse : 0.04325226798579314
### iteration step :  250 rmse : 0.029248328780878973
### iteration step :  300 rmse : 0.022621116143829466
### iteration step :  350 rmse : 0.019493636196525135
### iteration step :  400 rmse : 0.018022719092132704
### iteration step :  450 rmse : 0.01731968595344266
### iteration step :  500 rmse : 0.016973657887570753
### iteration step :  550 rmse : 0.016796804595895633
### iteration step :  600 rmse : 0.01670132290188466
### iteration step :  650 rmse : 0.01664473691247669
### iteration step :  700 rmse : 0.016605910068210026
### iteration step :  750 rmse : 0.016574200475705
### iteration step :  800 rmse : 0.01654431582921597
### iteration step :  850 rmse : 0.01651375177473524
### iteration step :  900 rmse : 0.016481465738

In [None]:
pred_matrix = np.dot(P,Q.T)
print('예측 행렬:\n', np.round(pred_matrix,3))

예측 행렬:
 [[3.991 0.897 1.306 2.002 1.663]
 [6.696 4.978 0.979 2.981 1.003]
 [6.677 0.391 2.987 3.977 3.986]
 [4.968 2.005 1.006 2.017 1.14 ]]


원본 행렬과 비교해 널이 아닌 값은 큰 차이가 나지 않으며, 널인 값은 새로운 예측값으로 채워졌다.

#05 콘텐츠 기반 필터링 실습 - TMDB 5000 영화 데이터 세트

##장르 속성을 이용한 영화 콘텐츠 기반 필터링

**콘텐츠 기반 필터링** :영화(또는 상품/서비스) 간의 유사성을 판단하는 기준이 영화를 구성하는 다양한 콘텐츠(장르, 감독, 배우, 평점, 키워드, 영화 설명) 를 기반으로 하는 방식

## 데이터 로딩 및 가공

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

movies = pd.read_csv('/content/drive/MyDrive/ESAA(22-1)/Week11/TMDB 5000 영화 데이터/tmdb_5000_movies.csv')
print(movies.shape)
movies.head(1)

(4803, 20)


Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800


콘텐츠 기반 필터링 추천 분석에 사용할 주요 칼럼만 추출해 새롭게 데이터프레임을 만들어 보자. 



*   id 
*   title : 영화제목
*   genres : 영화 장르
*   vote_average : 평균 평점
*   vote_count : 평점 투표 수
*   popularity : 영화의 인기
*   keywords : 영화를 설명하는 주요 키워드 문구
*   overview : 영화에 대한 개요 설명









In [3]:
movies_df = movies[['id','title','genres','vote_average','vote_count','popularity','keywords','overview']]

'genres','keywords' 칼럼 주의!!  
파이썬 리스트 내부에 여러 개의 딕셔너리(dict) 가 있는 형태의 문자열로 표기되어 있음. 이는 한꺼번에 여러 개의 값을 표현하기 위한 표기 방식이다.  
EX) 영화 '아바타'의 genres 는 'Action'과 'Adventure' 등의 여러 가지 장르로 구성될 수 있음.   
이러한 칼럼들을 가공하지 않고서는 필요한 정보를 추출할 수가 없다.

In [4]:
pd.set_option('max_colwidth',100)
movies_df[['genres','keywords']]

Unnamed: 0,genres,keywords
0,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp..."
1,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {""id"": 28, ""name"": ""Action""}]","[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""name"": ""drug abuse""}, {""id"": 911, ""name"": ""exotic is..."
2,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 80, ""name"": ""Crime""}]","[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name"": ""based on novel""}, {""id"": 4289, ""name"": ""secret..."
3,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""name"": ""Crime""}, {""id"": 18, ""name"": ""Drama""}, {""id"": ...","[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853, ""name"": ""crime fighter""}, {""id"": 949, ""name"": ""te..."
4,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 878, ""name"": ""Science Fic...","[{""id"": 818, ""name"": ""based on novel""}, {""id"": 839, ""name"": ""mars""}, {""id"": 1456, ""name"": ""medal..."
...,...,...
4798,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""name"": ""Crime""}, {""id"": 53, ""name"": ""Thriller""}]","[{""id"": 5616, ""name"": ""united states\u2013mexico barrier""}, {""id"": 33649, ""name"": ""legs""}, {""id""..."
4799,"[{""id"": 35, ""name"": ""Comedy""}, {""id"": 10749, ""name"": ""Romance""}]",[]
4800,"[{""id"": 35, ""name"": ""Comedy""}, {""id"": 18, ""name"": ""Drama""}, {""id"": 10749, ""name"": ""Romance""}, {""...","[{""id"": 248, ""name"": ""date""}, {""id"": 699, ""name"": ""love at first sight""}, {""id"": 2398, ""name"": ""..."
4801,[],[]


genres 칼럼은 여러 개의 개별 장르 데이터를 가지고 있고, 이 개별 장르의 명칭은 딕셔너리의 키(key)인 'name' 으로 추출할 수 있다. keywords 도 마찬가지 구조이다. genres 칼럼의 문자열을 분해해서 개별 장르를 파이썬 리스트 객체로 추출하겠다.  
파이썬의 ast 모듈의 literal_eval() 함수 이용해 이 문자열이 의미하는 list[dict1,dict2] 객체로 만들 수 있다.

In [5]:
from ast import literal_eval
movies_df['genres'] = movies_df['genres'].apply(literal_eval)
movies_df['keywords'] = movies_df['keywords'].apply(literal_eval)

In [6]:
movies_df['genres']

0       [{'id': 28, 'name': 'Action'}, {'id': 12, 'name': 'Adventure'}, {'id': 14, 'name': 'Fantasy'}, {...
1            [{'id': 12, 'name': 'Adventure'}, {'id': 14, 'name': 'Fantasy'}, {'id': 28, 'name': 'Action'}]
2              [{'id': 28, 'name': 'Action'}, {'id': 12, 'name': 'Adventure'}, {'id': 80, 'name': 'Crime'}]
3       [{'id': 28, 'name': 'Action'}, {'id': 80, 'name': 'Crime'}, {'id': 18, 'name': 'Drama'}, {'id': ...
4       [{'id': 28, 'name': 'Action'}, {'id': 12, 'name': 'Adventure'}, {'id': 878, 'name': 'Science Fic...
                                                       ...                                                 
4798            [{'id': 28, 'name': 'Action'}, {'id': 80, 'name': 'Crime'}, {'id': 53, 'name': 'Thriller'}]
4799                                       [{'id': 35, 'name': 'Comedy'}, {'id': 10749, 'name': 'Romance'}]
4800    [{'id': 35, 'name': 'Comedy'}, {'id': 18, 'name': 'Drama'}, {'id': 10749, 'name': 'Romance'}, {'...
4801                        

In [7]:
movies_df['keywords']

0       [{'id': 1463, 'name': 'culture clash'}, {'id': 2964, 'name': 'future'}, {'id': 3386, 'name': 'sp...
1       [{'id': 270, 'name': 'ocean'}, {'id': 726, 'name': 'drug abuse'}, {'id': 911, 'name': 'exotic is...
2       [{'id': 470, 'name': 'spy'}, {'id': 818, 'name': 'based on novel'}, {'id': 4289, 'name': 'secret...
3       [{'id': 849, 'name': 'dc comics'}, {'id': 853, 'name': 'crime fighter'}, {'id': 949, 'name': 'te...
4       [{'id': 818, 'name': 'based on novel'}, {'id': 839, 'name': 'mars'}, {'id': 1456, 'name': 'medal...
                                                       ...                                                 
4798    [{'id': 5616, 'name': 'united states–mexico barrier'}, {'id': 33649, 'name': 'legs'}, {'id': 162...
4799                                                                                                     []
4800    [{'id': 248, 'name': 'date'}, {'id': 699, 'name': 'love at first sight'}, {'id': 2398, 'name': '...
4801                        

문자열을 객체로 저장한다.

여기서 ['Action','Adventure'] 와 같은 장르명만 리스트 객체로 추출해보자.

In [8]:
movies_df['genres'] = movies_df['genres'].apply(lambda x: [y['name'] for y in x])
movies_df['keywords'] = movies_df['keywords'].apply(lambda x :[y['name'] for y in x])
movies_df[['genres','keywords']][:1]

Unnamed: 0,genres,keywords
0,"[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colony, society, space travel, futuristic, romance, spa..."


##장르 콘텐츠 유사도 측정

genres 칼럼은 여러 개의 개별 장르가 리스트로 구성되어 있다.  
영화 A [Action, Adventure, Fantasy,Science Fiction]  
영화 B [Adventure, Fantasy, Action]   
으로 되어 있다면 어떻게 장르별 유사도를 측정할까?

genres 를 문자열로 변경한 뒤 이를 CountVectorizer로 피처벡터화한 행렬 데이터 값을 코사인 유사도로 비교하는 것이다. 



*   문자열로 변환된 genres 칼럼을 Count 기반으로 피처 벡터화 변환한다.
*   genres 문자열을 피처 벡터화 행렬로 변환한 데이터 세트를 코사인 유사도를 통해 비교한다. 이를 위해 데이터 세트의 레코드별로 타 레코드와 장르에서 코사인 유사도 값을 가지는 객체를 생성한다.  
*   장르 유사도가 높은 영화 중에 평점이 높은 순으로 영화를 추천한다.





In [9]:
from sklearn.feature_extraction.text import CountVectorizer

#CountVectorizer를 적용하기 위해 공백문자로 word 단위가 구분되는 문자열로 변환.
movies_df['genres_literal'] = movies_df['genres'].apply(lambda x: (' ').join(x))
movies_df['genres_literal']

0       Action Adventure Fantasy Science Fiction
1                       Adventure Fantasy Action
2                         Action Adventure Crime
3                    Action Crime Drama Thriller
4               Action Adventure Science Fiction
                          ...                   
4798                       Action Crime Thriller
4799                              Comedy Romance
4800               Comedy Drama Romance TV Movie
4801                                            
4802                                 Documentary
Name: genres_literal, Length: 4803, dtype: object

In [10]:
count_vect = CountVectorizer(min_df=0,ngram_range=(1,2))
genre_mat = count_vect.fit_transform(movies_df['genres_literal'])
print(genre_mat.shape)

(4803, 276)


CountVectorizer 로 변환해 4803 개의 레코드와 276개의 개별 단어 피처로 구성된 피처 벡터 행렬이 만들어 졌다.

이렇게 생성된 피처 벡터 행렬에 사이킷런의 cosine_similarity() 를 이용해 코사인 유사도를 계산하자.

In [11]:
from sklearn.metrics.pairwise import cosine_similarity

genre_sim = cosine_similarity(genre_mat,genre_mat)
print(genre_sim.shape)
print(genre_sim[:1])

(4803, 4803)
[[1.         0.59628479 0.4472136  ... 0.         0.         0.        ]]


genre_sim 객체는 movies_df의 genre_literal 칼럼을 피처 벡터화한 행렬(genre_mat) 데이터의 행(레코드)별 유사도 정보를 가지고 있으며, 결국은 movies_df 데이터프레임의 행별 장르 유사도 값을 가지고 있다.

genre_sim 객체의 기준 행별로 비교 대상이 되는 행의 유사도 값이 높은 순으로 정렬된 행렬의 위치 인덱스 값을 추출하면 된다. 값이 높은 순으로 정렬된 비교 대상 행의 유사도 값이 아니라 비교 대상 행의 위치 인덱스임을 주의하자!!

In [12]:
genre_sim_sorted_ind = genre_sim.argsort()[:,::-1]
print(genre_sim_sorted_ind[:1])

[[   0 3494  813 ... 3038 3037 2401]]


In [13]:
genre_sim_sorted_ind.shape

(4803, 4803)

[[   0 3494  813 ... 3038 3037 2401]] 이 의미하는 바  
0번 레코드의 경우 자신인 0번 레코드를 제외하면 3494번 레코드가 가장 유사도가 높고, 그 다음이 813번 레코드이며, 가장 유사도가 낮은 레코드는 2401번 레코드이다.

##장르 콘텐츠 필터링을 이용한 영화 추천

In [15]:
#장르 유사도에 따라 영화를 추천하는 함수 find_sim_movie()
def find_sim_movie(df,sorted_ind,title_name,top_n=10):
    #인자로 입력된 movies_df DataFrame에서 'title' 칼럼이 입력된 title_name 값인 DataFrame 추출
    title_movie = df[df['title']==title_name]

    #title_name을 가진 DataFrame 의 index 객체를 ndarray로 반환하고
    #sorted_ind 인자로 입력된 genre_sorted_ind 객체에서 유사도 기준으로 top_n개의 index 추출
    title_index = title_movie.index.values
    similar_indexes = sorted_ind[title_index, :(top_n)]

    #추출된 top_n index 출력. top_n index는 2차원 데이터임.
    #dataframe에서 index로 사용하기 위해서 1차원 array로 변경
    print(similar_indexes)
    similar_indexes = similar_indexes.reshape(-1)

    return df.iloc[similar_indexes]

find_sim_movie() 함수를 이용해 영화 '대부'와 장르별로 유사한 영화 10개를 추천해보자.

In [16]:
similar_movies = find_sim_movie(movies_df,genre_sim_sorted_ind,'The Godfather',10)
similar_movies[['title','vote_average']]

[[2731 1243 3636 1946 2640 4065 1847 4217  883 3866]]


Unnamed: 0,title,vote_average
2731,The Godfather: Part II,8.3
1243,Mean Streets,7.2
3636,Light Sleeper,5.7
1946,The Bad Lieutenant: Port of Call - New Orleans,6.0
2640,Things to Do in Denver When You're Dead,6.7
4065,Mi America,0.0
1847,GoodFellas,8.2
4217,Kids,6.8
883,Catch Me If You Can,7.7
3866,City of God,8.1


'대부 2편'이 가장 먼저 추천되었다. 그 외에 1847번 인덱스의 '좋은 친구들(Goodfellas)'도 대부와 비슷한 유형으로 , 대부를 재미있게 봤다면 이 두 가지 모두 추천해야 할 영화일 것이다.  
하지만 낯선 영화도 많다. 'Light Sleeper','Mi America','Kids' 등 대부를 좋아하는 고객에게 섣불리 추천하기에는 이해하기 어려운 영화도 있다. '라이트 슬리퍼'의 경우 평점이 낮은 편이고, 게다가 'Mi America'의 경우에는 평점이 0이다. 좀 더 개선이 필요하다.

이번에는 일단 좀 더 많은 후보군을 선정한 뒤에 영화의 평점에 따라 필터링해서 최종 추천하는 방식으로 변경하겠다. 영화의 평점 정보인 'vote_averge' 값을 이용하는 데 주의해야 할 점이 있다.  
vote_average 는 0부터 10점 만점까지의 점수로 돼 있는데, 여러 관객이 평가한 평점을 평균한 것이다. 그런데 소수의 관객이 특정 영화에 만점이나 매우 높은 평점을 부여해 왜곡된 데이터를 가지고 있다. 이를 확인하기 위해 sort_values()를 이용해 평점('vote_average') 오름차순으로 movies_df를 정렬해서 10개만 출력해 보겠다.

In [17]:
movies_df[['title','vote_average','vote_count']].sort_values('vote_average',ascending=False)[:10]

Unnamed: 0,title,vote_average,vote_count
3519,Stiff Upper Lips,10.0,1
4247,Me You and Five Bucks,10.0,2
4045,"Dancer, Texas Pop. 81",10.0,1
4662,Little Big Top,10.0,1
3992,Sardaarji,9.5,2
2386,One Man's Hero,9.3,2
2970,There Goes My Baby,8.5,2
1881,The Shawshank Redemption,8.5,8205
2796,The Prisoner of Zenda,8.4,11
3337,The Godfather,8.4,5893


'쇼생크 탈출'이나 '대부'같은 명작보다 높은 순위에 'Still Upper Lips','Me You and Five Bucks'와 같이 이름도 들어본 적 없는 영화가 더 높은 평점으로 있다. 이들은 모두 평가 횟수가 매우 작다. 이와 같은 왜곡된 평점 데이터를 회피할 수 있도록 평점에 평가 횟수를 반영할 수 있는 새로운 평가 방식이 필요하다.

유명한 영화 평점 사이트인 IMDV에서는 평가 횟수에 대한 가중치가 부여된 평점(Weighted Rating)방식을 사용한다. 

가중 평점(Weighted Rating) = (v/(v+m)) * R + (m/(v+m)) * C  



*   v : 개별 영화에 평점을 투표한 횟수  -> 'vote_count' 값
*   m : 평점을 부여하기 위한 최소 투표 횟수  -> 투표 횟수에 따른 가중치를 직접 조절하는 역할(m 값을 높이면 평점 투표 횟수가 많은 영화에 더 많은 가중 평점을 부여한다. m값은 전체 투표 횟수에서 상위 60% 에 해당하는 횟수를 기준으로 정한다.)
*   R : 개별 영화에 대한 평균 평점  -> 'vote_average' 값
*   C : 전체 영화에 대한 평균 평점  -> movies_df['vote_average'].mean()




In [18]:
C = movies_df['vote_average'].mean()
m = movies_df['vote_count'].quantile(0.6)
print('C:',round(C,3),'m:',round(m,3))

C: 6.092 m: 370.2


In [28]:
#기존 평점을 새로운 평점으로 변경하는 함수 weighted_vote_average()
percentile = 0.6
m = movies['vote_count'].quantile(percentile)
C = movies['vote_average'].mean()

def weighted_vote_average(record):
    v = record['vote_count']
    R = record['vote_average']

    return ((v/(v+m)) * R) + ( (m/(m+v)) * C)

movies_df['weighted_vote'] = movies.apply(weighted_vote_average,axis=1)

In [29]:
movies_df['weighted_vote']

0       7.166301
1       6.838594
2       6.284091
3       7.541095
4       6.098838
          ...   
4798    6.290894
4799    6.089611
4800    6.106650
4801    6.084894
4802    6.100782
Name: weighted_vote, Length: 4803, dtype: float64

In [30]:
movies_df.head()

Unnamed: 0,id,title,genres,vote_average,vote_count,popularity,keywords,overview,genres_literal,weighted_vote
0,19995,Avatar,"[Action, Adventure, Fantasy, Science Fiction]",7.2,11800,150.437577,"[culture clash, future, space war, space colony, society, space travel, futuristic, romance, spa...","In the 22nd century, a paraplegic Marine is dispatched to the moon Pandora on a unique mission, ...",Action Adventure Fantasy Science Fiction,7.166301
1,285,Pirates of the Caribbean: At World's End,"[Adventure, Fantasy, Action]",6.9,4500,139.082615,"[ocean, drug abuse, exotic island, east india trading company, love of one's life, traitor, ship...","Captain Barbossa, long believed to be dead, has come back to life and is headed to the edge of t...",Adventure Fantasy Action,6.838594
2,206647,Spectre,"[Action, Adventure, Crime]",6.3,4466,107.376788,"[spy, based on novel, secret agent, sequel, mi6, british secret service, united kingdom]",A cryptic message from Bond’s past sends him on a trail to uncover a sinister organization. Whil...,Action Adventure Crime,6.284091
3,49026,The Dark Knight Rises,"[Action, Crime, Drama, Thriller]",7.6,9106,112.31295,"[dc comics, crime fighter, terrorist, secret identity, burglar, hostage drama, time bomb, gotham...","Following the death of District Attorney Harvey Dent, Batman assumes responsibility for Dent's c...",Action Crime Drama Thriller,7.541095
4,49529,John Carter,"[Action, Adventure, Science Fiction]",6.1,2124,43.926995,"[based on novel, mars, medallion, space travel, princess, alien, steampunk, martian, escape, edg...","John Carter is a war-weary, former military captain who's inexplicably transported to the myster...",Action Adventure Science Fiction,6.098838


In [31]:
movies_df[['title','vote_average','weighted_vote','vote_count']].sort_values('weighted_vote',ascending=False)[:10]

Unnamed: 0,title,vote_average,weighted_vote,vote_count
1881,The Shawshank Redemption,8.5,8.396052,8205
3337,The Godfather,8.4,8.263591,5893
662,Fight Club,8.3,8.216455,9413
3232,Pulp Fiction,8.3,8.207102,8428
65,The Dark Knight,8.2,8.13693,12002
1818,Schindler's List,8.3,8.126069,4329
3865,Whiplash,8.3,8.123248,4254
809,Forrest Gump,8.2,8.105954,7927
2294,Spirited Away,8.3,8.105867,3840
2731,The Godfather: Part II,8.3,8.079586,3338


In [34]:
def find_sim_movie(df,sorted_ind,title_name,top_n=10):
    title_movie = df[df['title']==title_name]
    title_index = title_movie.index.values

    #top_n의 2배에 해당하는 장르 유사성이 높은 인덱스 추출
    similar_indexes = sorted_ind[title_index,:(top_n*2)]
    similar_indexes = similar_indexes.reshape(-1)
    #기준 영화 인덱스는 제외
    similar_indexes = similar_indexes[similar_indexes != title_index]

    #top_n의 2배에 해당하는 후보군에서 weighted_vote가 높은 순으로 top_n만큼 추출
    return df.iloc[similar_indexes].sort_values('weighted_vote',ascending=False)[:top_n]

In [35]:
similar_movies = find_sim_movie(movies_df,genre_sim_sorted_ind,'The Godfather',10)
similar_movies[['title','vote_average','weighted_vote']]

Unnamed: 0,title,vote_average,weighted_vote
2731,The Godfather: Part II,8.3,8.079586
1847,GoodFellas,8.2,7.976937
3866,City of God,8.1,7.759693
1663,Once Upon a Time in America,8.2,7.657811
883,Catch Me If You Can,7.7,7.557097
281,American Gangster,7.4,7.141396
4041,This Is England,7.4,6.739664
1149,American Hustle,6.8,6.717525
1243,Mean Streets,7.2,6.626569
2839,Rounders,6.9,6.530427


이전에 추천된 영화보다 훨씬 나은 영화가 추천되었다. 

하지만 장르만으로 영화가 전달하는 많은 요소와 분윅, 그리고 개인이 좋아하는 성향을 반영하기에는 부족할 수 있다. 아마 좋아하는 영화배우나 감독을 보고 영화를 선택하는 경우가 더 많을 것이다. 다른 콘텐츠 기반으로 확장해 추천 시스템을 고도화해볼 수도 있다.