### 장르 속성을 이용한 영화 콘텐츠 기반 필터링
#### 콘텐츠 기반 필터링 : 
- 유저가 특정 영화를 감상하고 좋아했다면 비슷한 특성/ 속성, 구성요소를 갖는 다른 영화를 추천하는 것 
    - Ex. <인셉션> 재밌게 봤다면 인셉션의 장르인 액션, 공상과학으로 높은 평점을 받은 영화를 추천하거나, 크리스토퍼 놀란 감독의 다른 영화를 추천하는 방식 
- 상품/ 서비스간의 유사성을 판단하는 기준이 영화를 구성하는 다양한 콘텐츠(장르, 감독, 배우, 평점, 키워드, 영화 설명)을 기반으로 하는 방식

- 아래 분석 내용은 장르 칼럼을 기준으로 유사도 비교, 높은 평점을 가지는 영화를 추천하는 방식.

In [7]:
import pandas as pd
import numpy as np
import warnings; warnings; warnings.filterwarnings('ignore')

movies = pd.read_csv("tmdb_5000_movies.csv")
print(movies.shape) 
movies.head(1)

(4803, 20)


Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp...",en,Avatar,"In the 22nd century, a paraplegic Marine is dispatched to the moon Pandora on a unique mission, ...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289}, {""name"": ""Twentieth Century Fox Film Corporatio...","[{""iso_3166_1"": ""US"", ""name"": ""United States of America""}, {""iso_3166_1"": ""GB"", ""name"": ""United ...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso_639_1"": ""es"", ""name"": ""Espa\u00f1ol""}]",Released,Enter the World of Pandora.,Avatar,7.2,11800


In [8]:
movies.columns 

Index(['budget', 'genres', 'homepage', 'id', 'keywords', 'original_language',
       'original_title', 'overview', 'popularity', 'production_companies',
       'production_countries', 'release_date', 'revenue', 'runtime',
       'spoken_languages', 'status', 'tagline', 'title', 'vote_average',
       'vote_count'],
      dtype='object')

- 추천시스템을 만들기 위한 새로운 데이터셋 생성

In [9]:
movies_df = movies[['id', 'title', 'genres', 'vote_average', 'vote_count', 'popularity',
                   'keywords', 'overview']] 
movies_df.head(1) # genres, keywords 칼럼같은 경우, dictionary 형태로 되어있기 때문에 전처리 필요

Unnamed: 0,id,title,genres,vote_average,vote_count,popularity,keywords,overview
0,19995,Avatar,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...",7.2,11800,150.437577,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp...","In the 22nd century, a paraplegic Marine is dispatched to the moon Pandora on a unique mission, ..."


In [10]:
pd.set_option('max_colwidth', 100)
movies_df[['genres','keywords']][:1]

Unnamed: 0,genres,keywords
0,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp..."


In [11]:
from ast import literal_eval

movies_df['genres'] = movies_df['genres'].apply(literal_eval)
movies_df['keywords'] = movies_df['keywords'].apply(literal_eval)

    # 문자열을 객체로 변환하기 위해 literal_eval 함수 사용
    # 문자 그대로 evaluate 실행. 즉, 기본 타입 변환해주는 용도로 사용
    # 이렇게 안해주면 string 형태로 들어가게 됨.

movies_df['genres'] = movies_df['genres'].apply(lambda x: [ i['name'] for i in x])
movies_df['keywords'] = movies_df['keywords'].apply(lambda x: [ i['name'] for i in x])
movies_df[['genres', 'keywords']][:1]

# 장르, keywords 의 name 만 list 형태로 잘 들어옴. 

Unnamed: 0,genres,keywords
0,"[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colony, society, space travel, futuristic, romance, spa..."


#### 장르 콘텐츠 유사도 측정 
- 1. 리스트에 담아둔 genres 칼럼을 Count 기반으로 피처 벡터 행렬 변환.
- 2. 코사인 유사도 측정해 비교.
- 3. 장르 유사도 높은 영화 중 평점 높은 영화순 추천

In [37]:
from sklearn.feature_extraction.text import CountVectorizer

# CounterVectorizer 적용하기 위해 공백 단위로 word 구분되는 문자열로 변환하기
movies_df['genres_literal'] = movies_df['genres'].apply(lambda x: ' '.join(x)) # (apply,lambda 함께 사용하는거 편리! 익숙해져야지)
movies_df.head(1)

Unnamed: 0,id,title,genres,vote_average,vote_count,popularity,keywords,overview,genres_literal
0,19995,Avatar,"[Action, Adventure, Fantasy, Science Fiction]",7.2,11800,150.437577,"[culture clash, future, space war, space colony, society, space travel, futuristic, romance, spa...","In the 22nd century, a paraplegic Marine is dispatched to the moon Pandora on a unique mission, ...",Action Adventure Fantasy Science Fiction


In [41]:
count_vect = CountVectorizer(min_df = 0, ngram_range=(1,2)) 
    # min_df : 단어장에 포함되기 위한 최소 빈도 
    # ngram_range : 단어장 생성에 사용할 토큰의 크기 
        # 모노그램(1-그램)은 토큰 하나만 단어로, 바이그램(2-그램)은 두 개의 연결된 토큰을 하나의 단어로 사용한다.

genre_mat = count_vect.fit_transform(movies_df['genres_literal'])
print(genre_mat.shape)

(4803, 276)
