# 📽넷플릭스 대한민국 분석과 시각화 그리고 추천 시스템 구상

## 목표

```
1. 데이터 분석(EDA)
2. 시각화
3. 가공된 모델을 기반으로 사용자 컨텐츠 추천 시스템 구현
```

## 3_넷플릭스 장르 속성을 활용한 사용자 컨텐츠 추천 시스템 구축

컨텐츠 기반의 필터링은 <u>사용자가 특정 영화를 감상하고 해당 컨텐츠가 마음에 들었으면 해당 컨텐츠와 유사한 속성/특성, 구성 요소 등을 가진 다른 컨텐츠를 추천하는 것이 목적</u>이다.

예시를 들자면, 사용자(고객)가 영화 '인셉션(Inception)'를 재밌게 봤다면 영화 '인셉션'의 장르인 "액션", "공상 과학(sci-fi)", "판타지", "스릴러"로 높은 평점을 받은 다른 영화를 추천하거나 감독인 '크리스토퍼 놀란'의 다른 영화를 추천하는 방식이다.

이처럼 *컨텐츠(또는 서비스/상품 등) 간의 유사성을 판단하는 기준이 컨텐츠 기반 필터링*이다.

In [1]:
import pandas as pd
import scipy.sparse as spa

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

### 3_1_데이터 로딩 및 가공

데이터셋은 Part1_데이터 분석(EDA)에서 가공했던 데이터셋을 기반으로 컨텐츠 기반 필터링을 만들어 보자.

In [2]:
# 데이터셋 로드 후 'original_title' 컬럼값을 소문자로 변경함
def get_data():
    netflix_tmdb_data = pd.read_csv('dataset/netflix_tmdb_merge.csv.zip')
    netflix_tmdb_data['title'] = netflix_tmdb_data['title'].str.lower()
    
    return netflix_tmdb_data

In [6]:
# 'cast' 컬럼과 'genres' 컬럼을 'combine' 이라는 컬럼을 새로 생성하고 기존의 컬럼을 drop 시킴
def combine_data(data):
    comb_data = data.drop(columns=['type', 'title', 'date_added', 'rating', 'duration', 'movie_id', 'overview'])
    comb_data['combine'] = comb_data[comb_data.columns[0:2]].apply(lambda x: ','.join(x.dropna().astype(str)), axis=1)
    comb_data = comb_data.drop(columns=['cast', 'genres'])
       
    return comb_data

### 3_2_장르('combine') 컬럼으로 컨텐츠 유사도 측정

* [<u>`sklearn.feature_extraction.text.CountVectorizer`</u>](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=countvectorizer#sklearn-feature-extraction-text-countvectorizer)

* [<u>`sklearn.feature_extraction.text.TfidfVectorizer`</u>](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=tfidf#sklearn-feature-extraction-text-tfidfvectorizer)

* [<u>`scipy.sparse.hstack`</u>](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.hstack.html?highlight=hstack#scipy-sparse-hstack)

In [7]:
'''
위의 combine_data()가 반환한 값과 get_data()의 'overview' 컬럼을 가져온 후,
각각 CountVectorizer와 TfidfVectorizer를 적용하고 코사인 유사도를 계산함
'''
def transform_data(data_combine, data_overview):
    cnt = CountVectorizer(stop_words='english')
    cnt_mtx = cnt.fit_transform(data_combine['combine'])

    tfidf = TfidfVectorizer(stop_words='english')
    tfidf_mtx = tfidf.fit_transform(data_overview['overview'])

    combine_sparse = spa.hstack([cnt_mtx, tfidf_mtx], format='csr')
    cosine_sim = cosine_similarity(combine_sparse, combine_sparse)

    return cosine_sim

In [8]:
'''
"title": 컨텐츠 제목(영화), "data": get_data() 리턴값,
"combine": combine_data() 리턴값, "transform": transform_data() 리턴값
'''
def contents_recommendate(title, data, combine, transform):
    indices = pd.Series(data.index, index=data['title'])
    index = indices[title]

    similarity_scores = list(enumerate(transform[index]))
    similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
    similarity_scores = similarity_scores[1:11]  # 입력받은 영화와 유사한 Top10 영화를 추출함

    content_indices = [i[0] for i in similarity_scores]

    content_id = data['movie_id'].iloc[content_indices]
    content_title = data['title'].iloc[content_indices]
    content_genres = data['genres'].iloc[content_indices]

    recommendate_content = pd.DataFrame(columns=['Content_Id', 'Content_Name', 'Genres'])

    recommendate_content['Content_Id'] = content_id
    recommendate_content['Content_Name'] = content_title
    recommendate_content['Genres'] = content_genres

    return recommendate_content

In [9]:
def recommendate_result(content_name):
    content_name = content_name.lower()
    
    find_content = get_data()
    combine_result = combine_data(find_content)
    transform_result = transform_data(combine_result, find_content)

    if content_name not in find_content['title'].unique():
        return 'This Content does not exist in the DataBase.'
    else:
        recommendations = contents_recommendate(content_name, find_content, combine_result, transform_result)
        return recommendations.to_dict('records')

In [10]:
recommendate_result('inception')  # 영화 '인셉션'과 유사한 영화 필터링

[{'Content_Id': 81796,
  'Content_Name': 'lockout',
  'Genres': "['Action', 'Thriller', 'Science Fiction']"},
 {'Content_Id': 1635,
  'Content_Name': 'the island',
  'Genres': "['Action', 'Thriller', 'Science Fiction', 'Adventure']"},
 {'Content_Id': 12244,
  'Content_Name': '9',
  'Genres': "['Action', 'Adventure', 'Animation', 'Science Fiction', 'Thriller']"},
 {'Content_Id': 604,
  'Content_Name': 'the matrix reloaded',
  'Genres': "['Adventure', 'Action', 'Thriller', 'Science Fiction']"},
 {'Content_Id': 9659,
  'Content_Name': 'mad max',
  'Genres': "['Adventure', 'Action', 'Thriller', 'Science Fiction']"},
 {'Content_Id': 10003,
  'Content_Name': 'the saint',
  'Genres': "['Thriller', 'Action', 'Romance', 'Science Fiction', 'Adventure']"},
 {'Content_Id': 605,
  'Content_Name': 'the matrix revolutions',
  'Genres': "['Adventure', 'Action', 'Thriller', 'Science Fiction']"},
 {'Content_Id': 13811,
  'Content_Name': 'knowing',
  'Genres': "['Action', 'Adventure', 'Drama', 'Mystery',