# Chapter 9. 추천 시스템

# 05. 콘텐츠 기반 필터링 실습 - TMDB 5000 영화 데이터 세트

p573(592)~

In [1]:
import warnings
warnings.filterwarnings('ignore')

<br>

## 5.1 TMDB 5000 영화 데이터 세트

- 유명한 영화 데이터 정보 사이트인 IMDB의 많은 영화 중 주요 5000개 영화에 대한 메타 정보를 새롭게 가공해 캐글(Kaggle)에서 제공하는 데이터 세트
- 이 TMDB 5000 데이터 세트에 기반해 콘텐츠 기반 필터링을 수행
- [데이터 다운로드 링크](https://www.kaggle.com/tmdb/tmdb-movie-metadata)
- `tmdb_5000_credits.csv`와 `tmdb_5000_movies.csv` 두 개의 파일 다운로드

<br>

## 5.2 장르 속성을 이용한 영화 콘텐츠 기반 필터링

### 5.2.1 콘텐츠 기반 필터링

- 사용자가 특정 영화를 감상하고 그 영화를 좋아했다면 그 영화와 비슷한 특성/속성, 구성 요소 등을 가진 다른 영화를 추천하는 것
  - ex) 영화 '인셉션'을 재밌게 봤다
    - '인셉션'의 장르인 액션, 공상과학으로 높은 평점을 받은 다른 영화를 추천
    - '인셉션'의 감독인 크리스토퍼 놀란의 다른 영화를 추천  
    
    
- 이렇게 영화(또는 상품/서비스) 간의 유사성을 판단하는 기준이 영화를 구성하는 다양한 콘텐츠(장르, 감독, 배우, 평점, 키워드, 영화 설명)를 기반으로 하는 방식이 바로 콘텐츠 기반 필터링이다.  
  
  
- 콘텐츠 기반 필터링 추천 시스템을 영화를 선택하는 데 중요한 요소인 **영화 장르 속성**을 기반으로 만듬
- 장르 컬럼 값의 유사도를 비교한 뒤 그 중 높은 평점을 가지는 영화를 추천하는 방식

<br>

## 5.3 데이터 로딩 및 가공

- 장르 속성을 이용해 콘텐츠 기반 필터링 수행
- `tmdb_5000_movies.csv` 파일을 DataFrame으로 로딩하고 개략적인 데이터 확인

In [28]:
import pandas as pd
import numpy as np

movies = pd.read_csv('./data/TMDB/tmdb_5000_movies.csv')
print(movies.shape, '\n')
movies.head(1)

(4803, 20) 



Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp...",en,Avatar,"In the 22nd century, a paraplegic Marine is dispatched to the moon Pandora on a unique mission, ...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289}, {""name"": ""Twentieth Century Fox Film Corporatio...","[{""iso_3166_1"": ""US"", ""name"": ""United States of America""}, {""iso_3166_1"": ""GB"", ""name"": ""United ...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso_639_1"": ""es"", ""name"": ""Espa\u00f1ol""}]",Released,Enter the World of Pandora.,Avatar,7.2,11800


- `tmdb_5000_movies.csv`는 4803개의 레코드와 20개의 피처로 구성
- 영화 제목, 개요, 인기도, 평점, 투표 수, 예산, 키워드 등 영화에 대한 다양한 메타 정보를 가지고 있음

<br>

### 5.3.1 컬럼 추출

- 이 중 콘텐츠 기반 필터링 추천 분석에 사용할 주요 컬럼만 추출해 새롭게 DataFrame 생성  
  
  
- 추출할 주요 컬럼
  - `id`
  - `title` : 영화 제목
  - `genres` : 영화가 속한 여러 가지 장르
  - `vote_average` : 평균 평점
  - `vote_count` : 평점 투표 수
  - `popularity` : 영화의 인기
  - `keywords` : 영화를 설명하는 주요 키워드 문구
  - `overview` : 영화에 대한 개요 설명

In [29]:
movies_df = movies[['id', 'title', 'genres', 'vote_average', 'vote_count',
                    'popularity', 'keywords', 'overview']]

<br>

### 5.3.2 딕셔너리 형태의 데이터

- `genres`, `keywords` 등과 같은 컬럼은 파이썬 리스트(list) 내부에 여러 개의 딕셔너리(dict)가 있는 형태의 문자열로 표기되어 있다.
- 이는 한꺼번에 여러 개의 값을 표현하기 위한 표기 방식이다.
  - ex) 영화 '아바타'의 `genres`는 'Action', 'Adventure' 등의 여러 가지 장르로 구성될 수 있다.
- 하지만 이 컬럼이 DataFrame으로 만들어질 때는 단순히 문자열 형태로 로딩된다.
- 먼저 해당 컬럼이 어떤 형태로 되어 있는 지 확인

In [30]:
pd.set_option('max_colwidth', 100)

print(type(movies_df['keywords'][0]))

movies_df[['genres', 'keywords']][:1]

<class 'str'>


Unnamed: 0,genres,keywords
0,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp..."


- `genres` 컬럼
  - 여러 개의 개별 장르 데이터를 가지고 있음
  - 이 개별 장르의 명칭은 딕셔너리의 키(Key)인 `name`으로 추출할 수 있다.  
  
  
- `keywords` 컬럼
  - 여러 개의 키워드 데이터를 가지고 있음
  - 이 개별 키워드의 명칭은 딕셔너리의 키(Key)인 `name`으로 추출할 수 있다.  
  
  
- `genres` 컬럼의 문자열을 분해해서 개별 장르를 파이썬 리스트 객체로 추출
- 파이썬 `ast` 모듈의 `literal_eval()` 함수를 이용하면 이 문자열을 문자열이 의미하는 `list[dict1, dict2]` 객체로 만들 수 있다.
- Series 객체의 `apply()`에 `literal_eval` 함수를 적용해 문자열을 객체로 변환

In [31]:
from ast import literal_eval

movies_df['genres'] = movies_df['genres'].apply(literal_eval)
movies_df['keywords'] = movies_df['keywords'].apply(literal_eval)

type(movies_df['keywords'][0])

list

- 이제 `genres` 컬럼은 문자열이 아니라 실제 리스트 내부에 여러 장르 딕셔너리로 구성된 객체를 가진다.

<br>

In [32]:
movies_df['genres'][0]

[{'id': 28, 'name': 'Action'},
 {'id': 12, 'name': 'Adventure'},
 {'id': 14, 'name': 'Fantasy'},
 {'id': 878, 'name': 'Science Fiction'}]

- 위와 같은 `genres` 컬럼의 데이터에서 `['Action', 'Adventure']`와 같은 장르명만 리스트 객체로 추출
- `genres` 컬럼에서 `name` Key에 해당하는 값을 추출하기 위해 `apply lambda` 식을 이용
- `apply(lambda x: [y['name'] for y in x])` 와 같이 변환하면 리스트 내 여러 개의 딕셔너리의 `name` Key에 해당하는 값을 찾아 이를 리스트 객체로 변환한다.

In [33]:
movies_df['genres'] = movies_df['genres'].apply(lambda x: [ y['name'] for y in x ])
movies_df['keywords'] = movies_df['keywords'].apply(lambda x: [ y['name'] for y in x ])
movies_df[['genres', 'keywords']][:1]

Unnamed: 0,genres,keywords
0,"[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colony, society, space travel, futuristic, romance, spa..."


<br>

## 5.4 장르 콘텐츠 유사도 측정

- `genres` 컬럼은 여러 개의 개별 장르가 리스트로 구성되어 있다.
- 다음과 같은 경우 장르별 유사도를 어떻게 측정할 수 있을까?
  - 영화 A의 `genres` : `[Action, Adventure, Fantasy, Science Fiction]`
  - 영화 B의 `genres` : `[Adventure, Fantasy, Action]`  
  
  
- 가장 간단한 방법은 `genres`를 문자열로 변경한 뒤 이를 `CountVectorizer`로 피처 벡터화한 행렬 데이터 값을 코사인 유사도로 비교하는 것

<br>

### 5.4.1 `genres` 컬럼 기반 콘텐츠 기반 필터링 구현 단계

- 문자열로 변환된 `genres` 컬럼을 Count 기반으로 피처 벡터화 변환
- `genres` 문자열을 피처 벡터화 행렬로 변환한 데이터 세트를 코사인 유사도를 통해 비교
  - 이를 위해 데이터 세트의 레코드별로 타 레코드와 장르에서 코사인 유사도 값을 가지는 객체 생성
- 장르 유사도가 높은 영화 중에 평점이 높은 순으로 영화를 추천

<br>

### 5.4.2 `CountVectorizer` 이용 피처 벡터화

- 리스트 객체 값으로 구성된 `genres` 컬럼을 `apply(lambda x: (' ').join(x))`를 적용해 개별 요소를 공백 문자로 구분하는 문자열로 변환해 별도의 컬럼인 `genres_literal` 컬럼으로 저장

In [35]:
from sklearn.feature_extraction.text import CountVectorizer

# CountVectorizer를 적용하기 위해 공백문자로 word 단위가 구분되는 문자열로 변환
movies_df['genres_literal'] = movies_df['genres'].apply(lambda x: (' ').join(x))

count_vect = CountVectorizer(min_df = 0, ngram_range=(1,2))
genre_mat = count_vect.fit_transform(movies_df['genres_literal'])
print(genre_mat.shape)

(4803, 276)


- `CountVectorizer`로 변환해 4803개의 레코드와 276개의 개별 단어 피처로 구성된 피처 벡터 행렬이 만들어졌다.

<br>

### 5.4.3 코사인 유사도 계산

- 생성된 피처 벡터 행렬에 사이킷런의 `cosine_similarity()`를 이용해 코사인 유사도 계산  
  
  
- `cosine_similarity()` 함수
  - 다음 그림과 같이 기준 행과 비교 행의 코사인 유사도를 행렬 형태로 반환하는 함수
  
<img src="images/Ch09/05/img001.jpg" />

- 피처 벡터화된 행렬에 `cosine_similarity()` 함수를 적용
- 반환된 코사인 유사도 행렬의 크기 및 앞 2개의 데이터만 추출

In [41]:
from sklearn.metrics.pairwise import cosine_similarity

genre_sim = cosine_similarity(genre_mat, genre_mat)
print(genre_sim.shape)
print(genre_sim[:1])

(4803, 4803)
[[1.         0.59628479 0.4472136  ... 0.         0.         0.        ]]


<br>

- `genre_sim` 객체는 `movies_df`의 `genre_literal` 컬럼을 피처 벡터화한 행렬(`genre_mat`) 데이터의 행(레코드)별 유사도 정보를 가지고 있음
- 결국 `genre_sim`이 `movies_df`DataFrame의 **행별 장르 유사도 값**을 가지고 있는 것이다.

<br>

### 5.4.4 유사도가 높은 순으로 정렬

- `movies_df`을 장르 기준으로 콘텐츠 기반 필터링을 수행하려면 `movies_df`의 개별 레코드에 대해서 가장 장르 유사도가 높은 순으로 다른 레코드를 추출해야 한다.
- 이를 위해 `genre_sim` 객체를 이용한다.  
  
  
- `genre_sim` 객체의 기준 행별로 비교 대상이 되는 행의 유사도 값이 높은 순으로 정렬된 행렬의 위치 인덱스 값 추출
- 값이 높은 순으로 정렬된 비교 대상 행의 유사도 값이 아니라 **비교 대상 행의 위치 인덱스**임을 주의  
  
  
- 이를 위해 넘파이의 `argsort()` 함수를 이용
- `argsort()[:, ::-1]`
  - 유사도가 높은 순으로 정리된 `genre_sim` 객체의 비교 행 위치 인덱스 값을 얻을 수 있다.
- 높은 순으로 정렬된 비교 행 위치 인덱스 값을 가져오고 그 중에 0번 레코드의 비교 행 위치 인덱스 값만 샘플로 추출

In [42]:
genre_sim_sorted_ind = genre_sim.argsort()[:,::-1]
print(genre_sim_sorted_ind[:1])

[[   0 3494  813 ... 3038 3037 2401]]


- 위의 출력값의 의미
  - 0번 레코드의 경우 자신인 0번 레코드를 제외하면 3494번 레코드와 가장 유사도가 높음
  - 그 다음이 813번 레코드
  - 가장 유사도가 낮은 레코드는 2401번 레코드

- 이 위치 인덱스를 이용해 언제든지 특정 레코드와 코사인 유사도가 높은 다른 레코드를 추출할 수 있다.

<br>

## 5.5 장르 콘텐츠 필터링을 이용한 영화 추천

### 5.5.1 `find_sim_movie()`

- 장르 유사도에 따라 영화를 추천하는 함수  
  
  
- 인자 (입력값)
  - `df` : 기반 데이터인 `movies_df` DataFrame
  - `sorted_ind` : 레코드별 장르 코사인 유사도 인덱스인 `genre_sim_sorted_ind`
  - `title_name` : 고객이 선정한 추천 기준이 되는 영화 제목
  - `top_n` : 추천할 영화 건수  
  
  
- 반환값
  - 추천 영화 정보를 가지는 DataFrame

In [49]:
def find_sim_movie(df, sorted_ind, title_name, top_n=10):
    
    # 인자로 입력된 movies_df DataFrame에서 'title' 컬럼이 입력된 title_name 값인 DataFrame 추출
    title_movie = df[df['title'] == title_name]
    
    # title_name을 가진 DataFrame의 index 객체를 ndarray로 반환
    # sorted_ind 인자로 입력된 genre_sim_sorted_ind 객체에서 유사도 순으로 top_n개의 index 추출
    title_index = title_movie.index.values
    similar_indexes = sorted_ind[title_index, :(top_n)]
    
    # 추출된 top_n index 출력. top_n index는 2차원 데이터임
    # dataframe에서 index로 사용하기 위해서 1차원 array로 변경
    print(similar_indexes)
    similar_indexes = similar_indexes.reshape(-1)
    
    return df.iloc[similar_indexes]

<br>

### 5.5.2 영화 '대부'와 장르별로 유사한 영화 10개 추천

p580(899)~