# 🍎 파이썬 머신러닝 완벽 가이드 혼공

### 2019.05.27 ~ 2019.06.02 교재 09장

### 09. 추천 시스템

#### 05. 콘텐츠 기반 필터링 실습 - TMDB 5000 영화 데이터 세트 

사용자가 특정 영화를 좋아했다면 그 영화와 비슷한 특성/속성, 구성 요소 등을 가진 다른 영화를 추천하는 것. 장르 칼럼 값의 유사도를 비교한 뒤 그중 높은 평점을 가지는 영화를 추천하는 방식.

##### 데이터 로딩 및 가공

In [1]:
import pandas as pd 
import numpy as np 
import warnings; warnings.filterwarnings('ignore')

movies = pd.read_csv('data/09. tmdb_5000_movies.csv')
print(movies.shape)
movies.head(1)

(4803, 20)


Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800


In [2]:
movies_df = movies[['id','title','genres','vote_average','vote_count','popularity',
                   'keywords','overview']]

In [3]:
pd.set_option('max_colwidth', 100)
movies_df[['genres', 'keywords']][:1]

Unnamed: 0,genres,keywords
0,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp..."


ㅋㅋㅋㅋ전처리 망할놈. 문자열로 되어 있으니까 이를 문자열이 의미하는 리스트 딕트 형태로 바꾸어주는 것이 바로 ast 모듈의 literal_eval()

In [4]:
from ast import literal_eval 
movies_df['genres'] = movies_df['genres'].apply(literal_eval)
movies_df['keywords'] = movies_df['keywords'].apply(literal_eval)

여기에서 name에만 담겨있는 장르명만 추출할 것. 

In [5]:
movies_df['genres'] = movies_df['genres'].apply(lambda x: [ y['name'] for y in x])
movies_df['keywords'] = movies_df['keywords'].apply(lambda x: [ y['name'] for y in x])
movies_df[['genres', 'keywords']][:1]

Unnamed: 0,genres,keywords
0,"[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colony, society, space travel, futuristic, romance, spa..."


##### 장르 콘텐츠 유사도 측정 
genres를 문자열로 변경한 뒤 이를 CountVectorizer로 피처 백터화한 행렬 데이터 값을 코사인 유사도로 비교하는 것.

In [9]:
from sklearn.feature_extraction.text import CountVectorizer 

movies_df['genres_literal'] = movies_df['genres'].apply(lambda x: (' ').join(x))
count_vect = CountVectorizer(min_df=0, ngram_range=(1,2))
genre_mat = count_vect.fit_transform(movies_df['genres_literal'])
print(genre_mat.shape)

(4803, 276)


In [11]:
# join을 활용하면 리스트를 ' '을 기준으로 한 string으로 만들어줌 
movies_df['genres_literal']

0       Action Adventure Fantasy Science Fiction
1                       Adventure Fantasy Action
2                         Action Adventure Crime
3                    Action Crime Drama Thriller
4               Action Adventure Science Fiction
                          ...                   
4798                       Action Crime Thriller
4799                              Comedy Romance
4800               Comedy Drama Romance TV Movie
4801                                            
4802                                 Documentary
Name: genres_literal, Length: 4803, dtype: object

In [13]:
genre_mat

<4803x276 sparse matrix of type '<class 'numpy.int64'>'
	with 20631 stored elements in Compressed Sparse Row format>

In [14]:
from sklearn.metrics.pairwise import cosine_similarity 

genre_sim = cosine_similarity(genre_mat, genre_mat)
print(genre_sim.shape)
print(genre_sim[:1])

(4803, 4803)
[[1.         0.59628479 0.4472136  ... 0.         0.         0.        ]]


In [16]:
# 유사도가 높은 순으로 정리된 genre_sim 객체의 비교행 위치 인덱스 값 얻을 수 있음. 
genre_sim_sorted_ind = genre_sim.argsort()[:, ::-1]
genre_sim_sorted_ind[:1]

array([[   0, 3494,  813, ..., 3038, 3037, 2401]])

제일 첫번째 0 자기자신을 제외하고, 3494, 813 순으로 유사도가 높다는 뜻임. 인덱스를 알려주는 것.