# 🍎 파이썬 머신러닝 완벽 가이드 혼공

### 2019.05.27 ~ 2019.06.02 교재 09장

### 09. 추천 시스템

#### 05. 콘텐츠 기반 필터링 실습 - TMDB 5000 영화 데이터 세트 

사용자가 특정 영화를 좋아했다면 그 영화와 비슷한 특성/속성, 구성 요소 등을 가진 다른 영화를 추천하는 것. 장르 칼럼 값의 유사도를 비교한 뒤 그중 높은 평점을 가지는 영화를 추천하는 방식.

##### 데이터 로딩 및 가공

In [1]:
import pandas as pd 
import numpy as np 
import warnings; warnings.filterwarnings('ignore')

movies = pd.read_csv('data/09. tmdb_5000_movies.csv')
print(movies.shape)
movies.head(1)

(4803, 20)


Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800


In [2]:
movies_df = movies[['id','title','genres','vote_average','vote_count','popularity',
                   'keywords','overview']]

In [3]:
pd.set_option('max_colwidth', 100)
movies_df[['genres', 'keywords']][:1]

Unnamed: 0,genres,keywords
0,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp..."


ㅋㅋㅋㅋ전처리 망할놈. 문자열로 되어 있으니까 이를 문자열이 의미하는 리스트 딕트 형태로 바꾸어주는 것이 바로 ast 모듈의 literal_eval()

In [4]:
from ast import literal_eval 
movies_df['genres'] = movies_df['genres'].apply(literal_eval)
movies_df['keywords'] = movies_df['keywords'].apply(literal_eval)

여기에서 name에만 담겨있는 장르명만 추출할 것. 

In [5]:
movies_df['genres'] = movies_df['genres'].apply(lambda x: [ y['name'] for y in x])
movies_df['keywords'] = movies_df['keywords'].apply(lambda x: [ y['name'] for y in x])
movies_df[['genres', 'keywords']][:1]

Unnamed: 0,genres,keywords
0,"[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colony, society, space travel, futuristic, romance, spa..."


##### 장르 콘텐츠 유사도 측정 
genres를 문자열로 변경한 뒤 이를 CountVectorizer로 피처 백터화한 행렬 데이터 값을 코사인 유사도로 비교하는 것.

In [9]:
from sklearn.feature_extraction.text import CountVectorizer 

movies_df['genres_literal'] = movies_df['genres'].apply(lambda x: (' ').join(x))
count_vect = CountVectorizer(min_df=0, ngram_range=(1,2))
genre_mat = count_vect.fit_transform(movies_df['genres_literal'])
print(genre_mat.shape)

(4803, 276)


In [11]:
# join을 활용하면 리스트를 ' '을 기준으로 한 string으로 만들어줌 
movies_df['genres_literal']

0       Action Adventure Fantasy Science Fiction
1                       Adventure Fantasy Action
2                         Action Adventure Crime
3                    Action Crime Drama Thriller
4               Action Adventure Science Fiction
                          ...                   
4798                       Action Crime Thriller
4799                              Comedy Romance
4800               Comedy Drama Romance TV Movie
4801                                            
4802                                 Documentary
Name: genres_literal, Length: 4803, dtype: object

In [13]:
genre_mat

<4803x276 sparse matrix of type '<class 'numpy.int64'>'
	with 20631 stored elements in Compressed Sparse Row format>

In [14]:
from sklearn.metrics.pairwise import cosine_similarity 

genre_sim = cosine_similarity(genre_mat, genre_mat)
print(genre_sim.shape)
print(genre_sim[:1])

(4803, 4803)
[[1.         0.59628479 0.4472136  ... 0.         0.         0.        ]]


In [17]:
# 유사도가 높은 순으로 정리된 genre_sim 객체의 비교행 위치 인덱스 값 얻을 수 있음. 
genre_sim_sorted_ind = genre_sim.argsort()[:, ::-1]
genre_sim_sorted_ind[:3]

array([[   0, 3494,  813, ..., 3038, 3037, 2401],
       [ 262,    1,  129, ..., 3069, 3067, 2401],
       [   2, 1740, 1542, ..., 3000, 2999, 2401]])

제일 첫번째 0 자기자신을 제외하고, 3494, 813 순으로 유사도가 높다는 뜻임. 인덱스를 알려주는 것.

##### 장르 콘텐츠 필터링을 이용한 영화 추천 


In [18]:
# 데이터프레임, 유사도 순으로 정렬, 기준 영화, 추천영화수
def find_sim_movie(df, sorted_ind, title_name, top_n=10):
    #인자로 입력된 movies_df DataFramedptj 'title'칼럼이 입력된 title_name 값인 DataFrame 추출 
    title_movie = df[df['title'] == title_name]
    
    # title_name을 가진 데이터프레임의 index 객체를 ndarray로 반환하고
    # sorted_ind 인자로 입력된 genre_sim_sorted_ind 객체에서 유사도 순으로 top_n개의 index 추출 
    title_index = title_movie.index.values
    similar_indexes = sorted_ind[title_index, :(top_n)]
    
    # 추출된 top_n index 출력. top_n index는 2차원 데이터. 
    # DataFrame에서 index로 사용하기 위해서 1차원 array로 변경 
    print(similar_indexes)
    similar_indexes = similar_indexes.reshape(-1)
    
    return df.iloc[similar_indexes]

In [20]:
# 영화 '대부'와 장르별로 유사한 영화 10개 
similar_movies = find_sim_movie(movies_df, genre_sim_sorted_ind, 'The Godfather', 10)
similar_movies[['title','vote_average']]

[[2731 1243 3636 1946 2640 4065 1847 4217  883 3866]]


Unnamed: 0,title,vote_average
2731,The Godfather: Part II,8.3
1243,Mean Streets,7.2
3636,Light Sleeper,5.7
1946,The Bad Lieutenant: Port of Call - New Orleans,6.0
2640,Things to Do in Denver When You're Dead,6.7
4065,Mi America,0.0
1847,GoodFellas,8.2
4217,Kids,6.8
883,Catch Me If You Can,7.7
3866,City of God,8.1


평점이 0인것도 있고, 낯선 영화도 많아서 좀 더 많은 후보군을 선정한 다음 영화의 평점에 따라 필터링해서 최종 추천하는 방식으로 변경

In [21]:
movies_df[['title','vote_average','vote_count']].sort_values('vote_average', 
                                                             ascending=False)[:10]

Unnamed: 0,title,vote_average,vote_count
3519,Stiff Upper Lips,10.0,1
4247,Me You and Five Bucks,10.0,2
4045,"Dancer, Texas Pop. 81",10.0,1
4662,Little Big Top,10.0,1
3992,Sardaarji,9.5,2
2386,One Man's Hero,9.3,2
2970,There Goes My Baby,8.5,2
1881,The Shawshank Redemption,8.5,8205
2796,The Prisoner of Zenda,8.4,11
3337,The Godfather,8.4,5893


아무래도 소수만 평점 높게 줘버리면 평점이 확연히 높게 나옴. 그래서 평점에 평가 횟수를 반영할 수 있는 새로운 평가방식이 필요함. 평가 횟수에 대한 가중치가 부여된 평점(weighted Rating) 방식을 사용함.
- 가중평점 = (v/(v+m)*R + (m/(v+m))*C

In [22]:
C = movies_df['vote_average'].mean()
m = movies_df['vote_count'].quantile(0.6)
print('C:', round(C,3), 'm:', round(m,3))

C: 6.092 m: 370.2


In [35]:
# 가중평점이 반영된 새로운 평점 정보 함수 생성 
percentile = 0.6 
m = movies['vote_count'].quantile(percentile)
C = movies['vote_average'].mean()

def weighted_vote_average(record):
    v = record['vote_count']
    R = record['vote_average']
    
    return  (v/(v+m) * R ) + ( (m/(m+v))* C)

movies_df['weighted_vote'] = movies_df.apply(weighted_vote_average, axis=1)

In [36]:
movies_df[['title','vote_average','weighted_vote','vote_count']].sort_values('weighted_vote', ascending=False)[:10]

Unnamed: 0,title,vote_average,weighted_vote,vote_count
1881,The Shawshank Redemption,8.5,8.396052,8205
3337,The Godfather,8.4,8.263591,5893
662,Fight Club,8.3,8.216455,9413
3232,Pulp Fiction,8.3,8.207102,8428
65,The Dark Knight,8.2,8.13693,12002
1818,Schindler's List,8.3,8.126069,4329
3865,Whiplash,8.3,8.123248,4254
809,Forrest Gump,8.2,8.105954,7927
2294,Spirited Away,8.3,8.105867,3840
2731,The Godfather: Part II,8.3,8.079586,3338


In [37]:
movies_df.columns.values

array(['id', 'title', 'genres', 'vote_average', 'vote_count',
       'popularity', 'keywords', 'overview', 'genres_literal',
       'weighted_vote'], dtype=object)

In [38]:
def find_sim_movie(df, sorted_ind, title_name, top_n=10): 
    title_movie = df[df['title'] == title_name]
    title_index = title_movie.index.values
    
    # top_n의 2배에 해당하는 장르 유사성이 높은 인덱스 추출
    similar_indexes = sorted_ind[title_index, :(top_n*2)]
    similar_indexes = similar_indexes.reshape(-1)
    # 기준 영화 인덱스는 제외 
    similar_indexes = similar_indexes[similar_indexes != title_index]
    
    # top_n의 2배에 해당하는 후보군에서 weighted_vote가 높은 순으로 top_n만큼 추출 
    return df.iloc[similar_indexes].sort_values('weighted_vote', ascending=False)[:top_n]

similar_movies = find_sim_movie(movies_df, genre_sim_sorted_ind, 'The Godfather', 10)
similar_movies[['title', 'vote_average', 'weighted_vote']]

Unnamed: 0,title,vote_average,weighted_vote
2731,The Godfather: Part II,8.3,8.079586
1847,GoodFellas,8.2,7.976937
3866,City of God,8.1,7.759693
1663,Once Upon a Time in America,8.2,7.657811
883,Catch Me If You Can,7.7,7.557097
281,American Gangster,7.4,7.141396
4041,This Is England,7.4,6.739664
1149,American Hustle,6.8,6.717525
1243,Mean Streets,7.2,6.626569
2839,Rounders,6.9,6.530427
