# 컨텐츠 기반 필터링 추천 시스템

#### 컨텐츠 기반 필터링 추천 시스템

- 사용자가 특정한 아이템을 매우 선호하는 경우
- 그 아이템과 비슷한 컨텐츠를 가진 다른 아이템을 추천하는 방식
    - 예 : 특정 영화에 높은 평점을 주었다면
    - 그 영화의 장르, 출연배우, 감독, 영화 키워드 등의 컨텐츠와 유사한 다른 영화 추천
    - 컨텍트 : 8점
    - 프로메테우스 : 9점
    - 컨텍트와 프로메테우스의 장르, 감독, 출연 배우, 키워드 등의 컨텐츠를 감안해
    - 이와 유사한 영화 추천
    - 컨텐트
        - 장르 : SF, 미스터리
        - 영화 감독 : 드니 빌뇌브
    - 프로메테우스
        - 장르 : SF, 액션, 스릴러
        - 영화 감독 : 리들리 스콧

컨텐츠 기반 필터링 구현 프로세스

(1) 컨텐츠에 대한 여러 텍스트 정보들을 피처 벡터화

(2) 코사인 유사도로 컨텐츠별 유사도 계산

(3) 컨텐츠 별로 가중 평점 계산

(4) 유사도가 높은 컨텐츠 중에 평점이 좋은 컨텐츠 순으로 추천

**피처 벡터화**
- 텍스트를 특정 의미를 가지는 숫자형 값인 벡터 값으로 변환하는 것
- (머신러닝 알고리즘은 일반적으로 숫자형 피처를 데이터로 입력받아 동작
- 텍스트 등의 데이터는 머신러닝 알고리즘에 바로 입력 불가하기 때문)
- 텍스트를 단어로 추출해 피처로 할당하고
- 각 단어의 발생 빈도와 같은 값을 피처에 부여해서
- 단어 피처의 발생 빈도 값으로 구성된 벡터로 만드는 기법
- 피처 벡터화는 기존 텍스트 데이터를 또 다른 형태의 피처의 조합으로 변경하기 때문에
- 넓은 의미의 피처 추출에 포함
ㅡ

**피처 벡터화 방식**
- 카운드 기반의 벡터화
- TF-IDF(Term Frequency-Inverse Document Frequency) 기반의 벡터화


카운트 기반의 벡터화
- 단어 피처에 값을 부여할 때 단어의 빈도 수, 즉 Count를 부여하는 것
- 카운트 값이 높을수록 중요 단어로 인식

- 카운트만 부여할 경우 그 단어의 특징을 나타내기 보다는
- 언어의 특성상 문장에서 자주 사용될 수밖에 없는 단어까지 높은 값을 부여하게 됨

- 보완 : TF-IDF 벡터화

**TF-IDF(Term Frequency-Inverse Document Frequency) 기반의 벡터화**
- 개별 문서에서 자주 나타나는 단어에 높은 가중치
- 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 패널티를 주는 방식으로 값을 부여

- 어떤 문서에서 특정 단어가 자주 나타나면 그 단어는 해당 문서를 특징짓는 중요 단어일 수 있음
- 그러나 그 단어가 다른 문서에서도 자주 나타나는 단어라면 
- 해당 단어는 언어 특성상 범용적으로 자주 사용되는 단어일 가능성이 높음


- 예: 여러 뉴스 문서에서 '분쟁', '종교 대립', '유혈 사태' 같은 단어가 자주 나타나는 경우
    - 해당 문서는 지역 분쟁과 관련된 뉴스일 가능성이 높고
        - 해당 단어는 그 문서의 특징을 잘 나타낸다고 할 수 있음
    - 그러나 '많은', '빈번하게', '당연히', '조직', '업무' 등과 같은 단어는
        - 문서의 특징과 관련성이 적지만 보편적으로 많이 사용되기 때문에
        - 문서에 반복적으로 사용될 가능성이 높음
    - 이러한 단어는 단순히 등장하는 횟수에 따라 중요도로 평가받는다면 
        - 문서를 특징짓기 어려움
        - 따라서 모든 문서에서 반복적으로 자주 발생하는 단어에 대해서는
        - 패널티를 부여하는 방식으로 단어에 대한 가중치의 균형을 맞춤
    - 문서마다 텍스트가 길고 문서의 개수가 많은 경우
        - 카운드 방식보다는 TF-IDF 방식을 사용하는 것이 더 좋은 예측 성능을 보장할 수 있음



코사인 유사도 계산

- 벡터와 벡터 간의 코사인 각도를 이용하여 유사도 산정
- 즉, 두 벡터 사이의 사잇각을 구해서 얼마나 유사한지 수치로 적용한 것


- 두 벡터의 방향이 
    - 완전히 동일한 경우 : 1
    - 90°: 0  (상관관계 없음)
    - 180°: -1 (완전 반대)


- 피처 벡터 행렬은 음수 값이 없으므로
    - 코사인 유사도는 음수가 되지 않고
    - 0~1 사이의 값으로 1에 가까울수록 유사도가 높다고 판단
    

#### ex. 벡터값을 행렬로 표현하고
    - 배열 A,B의 값을 수식에 적용해서 유사도 구함

In [5]:
cols = ['사과', '바나나', '과일', '좋아요']
A = [1,3,0,2]
B = [2,0,2,4]

In [8]:
import pandas as pd
df = pd.DataFrame([A,B], columns=cols, index=['A','B'])

df

코사인 각도 계산 - cosine_similarity()


In [11]:
from sklearn.metrics.pairwise import cosine_similarity
df.values

array([[1, 3, 0, 2],
       [2, 0, 2, 4]], dtype=int64)

In [17]:
cosine_similarity(df.values)

array([[1.        , 0.54554473],
       [0.54554473, 1.        ]])

- TMDB 5000 영화 데이터 세트 사용
    - 유명한 영화 데이터 정보 사이트인 IMDB의 많은 영화 중 
    - 주요 5000개 영화에 대한 메타 정보를 새롭게 가공해 캐글에서 제공하는 데이터 세트
    - www.kaggle.com/tmdb/tmdb-movie-metadata
    - tmdb_5000_credits.csv와 tmdb_5000_movies.csv 두 개의 파일 다운로드


###  컨텐츠 기반 필터링 실습 – TMDB 5000 Movie Dataset

- tmdb_5000_movies.csv만 사용



In [19]:
import pandas as pd
import numpy as np
import warnings; warnings.filterwarnings('ignore')

# movies =pd.read_csv('./tmdb-5000-movie-dataset/tmdb_5000_movies.csv')
movies =pd.read_csv('./data/tmdb_5000_movies.csv')
print(movies.shape) # (4803개의 레코드와 20개의 피처로 구성)
movies.head(1)


(4803, 20)


Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800


### 데이터 설명
- 장르, 키워드, 평점평균, 평점수, 영화개요 
- 추천은 영화 장르 속성을 기반으로 추천
    - 장르와 유사도가 높은 영화를 추천 
    - 장르 값의 유사도를 비교 한 뒤
    - 유사도가 높은 영화 중에 평점이 높은 영화 추천

In [20]:
# 주요 컬럼 추출
# 장르, 평점 평균, 평점 투표수, 키워드
movies_df = movies[['id','title', 'genres', 'vote_average', 'vote_count',
                 'popularity', 'keywords', 'overview']]


In [22]:
pd.set_option('max_colwidth', 100)
movies_df[['genres','keywords']]

Unnamed: 0,genres,keywords
0,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"": 2964, ""name"": ""future""}, {""id"": 3386, ""name"": ""sp..."
1,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""name"": ""Fantasy""}, {""id"": 28, ""name"": ""Action""}]","[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""name"": ""drug abuse""}, {""id"": 911, ""name"": ""exotic is..."
2,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 80, ""name"": ""Crime""}]","[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name"": ""based on novel""}, {""id"": 4289, ""name"": ""secret..."
3,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""name"": ""Crime""}, {""id"": 18, ""name"": ""Drama""}, {""id"": ...","[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853, ""name"": ""crime fighter""}, {""id"": 949, ""name"": ""te..."
4,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""name"": ""Adventure""}, {""id"": 878, ""name"": ""Science Fic...","[{""id"": 818, ""name"": ""based on novel""}, {""id"": 839, ""name"": ""mars""}, {""id"": 1456, ""name"": ""medal..."
...,...,...
4798,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""name"": ""Crime""}, {""id"": 53, ""name"": ""Thriller""}]","[{""id"": 5616, ""name"": ""united states\u2013mexico barrier""}, {""id"": 33649, ""name"": ""legs""}, {""id""..."
4799,"[{""id"": 35, ""name"": ""Comedy""}, {""id"": 10749, ""name"": ""Romance""}]",[]
4800,"[{""id"": 35, ""name"": ""Comedy""}, {""id"": 18, ""name"": ""Drama""}, {""id"": 10749, ""name"": ""Romance""}, {""...","[{""id"": 248, ""name"": ""date""}, {""id"": 699, ""name"": ""love at first sight""}, {""id"": 2398, ""name"": ""..."
4801,[],[]


In [23]:
movies_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4803 entries, 0 to 4802
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            4803 non-null   int64  
 1   title         4803 non-null   object 
 2   genres        4803 non-null   object 
 3   vote_average  4803 non-null   float64
 4   vote_count    4803 non-null   int64  
 5   popularity    4803 non-null   float64
 6   keywords      4803 non-null   object 
 7   overview      4800 non-null   object 
dtypes: float64(2), int64(2), object(4)
memory usage: 300.3+ KB


In [24]:
movies_df['genres'][0]
type(movies_df['genres'][0])


str

In [None]:
# genres 피처에서 다른 데이터 제거 하고 장르명만 추출
