# 110. Content Based Filtering - manual feature engineering

- 사용자, 영화 및 feature 목록을 만듭니다. 사용자와 영화는 데이터베이스에서 가져왔다고 가정  

- 영화의 feature 는 수작업으로 작성되었으며 도메인 지식에 의존하여 최상의 임베딩 공간을 제공. 여기에서는 액션, 공상 과학, 코미디, 만화 및 드라마 카테고리를 사용하여 영화(및 사용자)를 설명합니다.

- 이 예에서는 데이터베이스가 아래에 나열된 4 명의 사용자와 6 개의 영화로 구성되어 있다고 가정합니다.

## Content-Based Recommender System algorithm

Step 1 : 사용자의 영화 평가를 근거로 weighted genre matrix 작성 (Genre 별로 평점 합산 및 normalize)  
Step 2 : Weighted genre matrix 로부터 User Profile 작성  
Step 3 : 사용자가 보지 않은 Movie matrix 에 User Feature Profile 을 적용하여 추천 영화 list 작성

In [1]:
import numpy as np
import pandas as pd
import tensorflow as tf
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
# 사용자 4 명
users = ['Ryan', 'Danielle',  'Vijay', 'Chris']  
# 영화 6 개
movies = [
    'Star Wars', 'The Dark Knight', 'Shrek', 'The Incredibles', 'Bleu', 'Memento'
         ]
# 영화 feature - 5 가지 장르
features = ['Action', 'Sci-Fi', 'Comedy', 'Cartoon', 'Drama']

num_users = len(users)
num_movies = len(movies)
num_features = len(features)

## 사용자, movie rating 및 feature 초기화

- 사용자의 영화 등급과 k-hot-encoding 된 영화 기능 매트릭스를 입력해야합니다.   
- users_movies matrix의 각 행은 각 영화에 대한 단일 사용자 등급 (1 ~ 10)을 나타냅니다. 0은 사용자가 해당 영화를 보거나 평가하지 않았음을 나타냅니다.   
- movies_feats matrix에는 주어진 영화 각각에 대한 feature가 포함되어 있습니다. 각 행은 6 개의 영화 중 하나를 나타내고 열은 5 개의 카테고리를 나타냅니다. 1 은 영화가 특정 장르/카테고리에 해당함을 나타냅니다.

In [3]:
# 각 행은 다른 영화에 대한 사용자의 평가를 나타냅니다.
# row - 사용자, column - 영화
users_movies = np.array([
                [4,  6,  8,  0, 0, 0],
                [0,  0, 10,  0, 8, 3],
                [0,  6,  0,  0, 3, 7],
                [10, 9,  0,  5, 0, 2]], dtype=np.float32)

# k-hot encoding 된 영화의 hand-engineered 특성
# row - 영화, column - ['Action', 'Sci-Fi', 'Comedy', 'Cartoon', 'Drama']
movies_features = np.array([
                [1, 1, 0, 0, 1],
                [1, 1, 0, 0, 0],
                [0, 0, 1, 1, 0],
                [1, 0, 1, 1, 0],
                [0, 0, 0, 0, 1],
                [1, 0, 0, 0, 1]], dtype=np.float32)

users_movies.shape, movies_features.shape

((4, 6), (6, 5))

In [4]:
df_user_item_ratings = pd.DataFrame(users_movies, columns=movies, index=users)
df_user_item_ratings

Unnamed: 0,Star Wars,The Dark Knight,Shrek,The Incredibles,Bleu,Memento
Ryan,4.0,6.0,8.0,0.0,0.0,0.0
Danielle,0.0,0.0,10.0,0.0,8.0,3.0
Vijay,0.0,6.0,0.0,0.0,3.0,7.0
Chris,10.0,9.0,0.0,5.0,0.0,2.0


In [5]:
df_movie_features = pd.DataFrame(movies_features, columns=features, index=movies)
df_movie_features

Unnamed: 0,Action,Sci-Fi,Comedy,Cartoon,Drama
Star Wars,1.0,1.0,0.0,0.0,1.0
The Dark Knight,1.0,1.0,0.0,0.0,0.0
Shrek,0.0,0.0,1.0,1.0,0.0
The Incredibles,1.0,0.0,1.0,1.0,0.0
Bleu,0.0,0.0,0.0,0.0,1.0
Memento,1.0,0.0,0.0,0.0,1.0


## step1) 사용자 특성 매트릭스 (weighted genre matrix) 계산

사용자의 영화 평가를 근거로 weighted genre matrix 작성 (Genre 별로 평점 합산 및 normalize)

즉, 5 차원 특성 공간에 각 사용자의 임베딩을 포함하는 행렬입니다.  

이것을 `users_movies` matrix와 `movies_feats` matrix의 행렬 곱셈으로 계산합니다.

In [6]:
users_features = np.matmul(users_movies, movies_features)
users_features

array([[10., 10.,  8.,  8.,  4.],
       [ 3.,  0., 10., 10., 11.],
       [13.,  6.,  0.,  0., 10.],
       [26., 19.,  5.,  5., 12.]], dtype=float32)

## step2) Weighted genre matrix 로부터 User Profile 작성
다음으로 각 사용자 특성 벡터를 정규화하여 1 이 되도록 정규화합니다. 

정규화는 꼭 필요한 것은 아니지만 사용자간에 등급 규모를 비교할 수 있도록 합니다.

In [7]:
np.sum(users_features, axis=1, keepdims=True)

array([[40.],
       [34.],
       [29.],
       [67.]], dtype=float32)

In [8]:
# user profile
users_features = users_features / np.sum(users_features, axis=1, keepdims=True)
users_features

array([[0.25      , 0.25      , 0.2       , 0.2       , 0.1       ],
       [0.0882353 , 0.        , 0.29411766, 0.29411766, 0.32352942],
       [0.44827586, 0.20689656, 0.        , 0.        , 0.3448276 ],
       [0.3880597 , 0.2835821 , 0.07462686, 0.07462686, 0.17910448]],
      dtype=float32)

In [9]:
# user profile
pd.DataFrame(users_features, columns=features, index=users)

Unnamed: 0,Action,Sci-Fi,Comedy,Cartoon,Drama
Ryan,0.25,0.25,0.2,0.2,0.1
Danielle,0.088235,0.0,0.294118,0.294118,0.323529
Vijay,0.448276,0.206897,0.0,0.0,0.344828
Chris,0.38806,0.283582,0.074627,0.074627,0.179104


## step3) 사용자가 보지 않은 Movie matrix 에 User Feature Profile 을 적용하여 추천 영화 list 작성

위에서 계산된 users_feats 를 사용하여 각 사용자에 대한 각 영화 카테고리의 상대적 중요성을 나타낼 수 있습니다.

```
tf.nn.top_k : 마지막 차원에 대한 'k' 가장 큰 항목의 값과 인덱스를 찾습니다.

result = tf.math.top_k([1, 2, 98, 1, 1, 99, 3, 1, 3, 96, 4, 1], k=3)
>>> result.values.numpy()
array([99, 98, 96], dtype=int32)
>>> result.indices.numpy()
array([5, 2, 9], dtype=int32)
```

각 사용자별로 선호 장르를 순서대로 나열

In [11]:
top_users_features = tf.nn.top_k(users_features, k=num_features)[1]
top_users_features

<tf.Tensor: shape=(4, 5), dtype=int32, numpy=
array([[0, 1, 2, 3, 4],
       [4, 2, 3, 0, 1],
       [0, 4, 1, 2, 3],
       [0, 1, 4, 2, 3]])>

장르 index 를 장르명으로 표시

In [12]:
for i in range(num_users):
    feature_names = [features[idx] for idx in top_users_features[i]]
    print('{}: {}'.format(users[i], feature_names))

Ryan: ['Action', 'Sci-Fi', 'Comedy', 'Cartoon', 'Drama']
Danielle: ['Drama', 'Comedy', 'Cartoon', 'Action', 'Sci-Fi']
Vijay: ['Action', 'Drama', 'Sci-Fi', 'Comedy', 'Cartoon']
Chris: ['Action', 'Sci-Fi', 'Drama', 'Comedy', 'Cartoon']


### 추천할 영화 결정

- 이제 위에서 계산 한 `users_features` 를 사용하여 각 사용자에 대한 영화 등급 및 추천을 결정합니다.  
- 각 영화의 예상 등급을 계산하기 위해 사용자의 특성 벡터와 해당 영화 특성 벡터간의 유사성 측정값을 계산합니다.  

In [21]:
all_users_ratings = cosine_similarity(users_features, movies_features)
all_users_ratings

array([[0.74708736, 0.7624929 , 0.6099943 , 0.80934465, 0.21566555,
        0.53374505],
       [0.4449492 , 0.11677483, 0.7784989 , 0.73098797, 0.6055301 ,
        0.54494923],
       [0.9587104 , 0.76928747, 0.        , 0.4297667 , 0.5725983 ,
        0.9312427 ],
       [0.9379618 , 0.9069189 , 0.20153752, 0.592397  , 0.34202054,
        0.7658427 ]], dtype=float32)

사용자 특성과 영화 특성간의 유사도

In [22]:
pd.DataFrame(all_users_ratings, columns=movies, index=users)

Unnamed: 0,Star Wars,The Dark Knight,Shrek,The Incredibles,Bleu,Memento
Ryan,0.747087,0.762493,0.609994,0.809345,0.215666,0.533745
Danielle,0.444949,0.116775,0.778499,0.730988,0.60553,0.544949
Vijay,0.95871,0.769287,0.0,0.429767,0.572598,0.931243
Chris,0.937962,0.906919,0.201538,0.592397,0.342021,0.765843


- 위의 계산은 데이터베이스의 각 사용자와 각 영화 간의 유사성 측정값을 계산합니다.  
- 새 영화의 등급에만 집중하기 위해 all_users_ratings 매트릭스에 마스크를 적용하여, 사용자가 이미 영화를 평가한 경우 해당 평가를 무시합니다. 이렇게 하면 이전에 본 적이 없거나 등급이 지정되지 않은 영화에 대한 등급에만 집중합니다.

In [24]:
np.zeros_like(users_movies)

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]], dtype=float32)

In [25]:
users_movies

array([[ 4.,  6.,  8.,  0.,  0.,  0.],
       [ 0.,  0., 10.,  0.,  8.,  3.],
       [ 0.,  6.,  0.,  0.,  3.,  7.],
       [10.,  9.,  0.,  5.,  0.,  2.]], dtype=float32)

In [26]:
users_unseen_movies = np.equal(users_movies, np.zeros_like(users_movies))
users_unseen_movies

array([[False, False, False,  True,  True,  True],
       [ True,  True, False,  True, False, False],
       [ True, False,  True,  True, False, False],
       [False, False,  True, False,  True, False]])

In [28]:
ignore_matrix = np.zeros_like(users_movies)
ignore_matrix

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]], dtype=float32)

In [30]:
users_ratings_new = np.where(
    users_unseen_movies,   # condition
    all_users_ratings,            # when True (안본영화)
    ignore_matrix)                # when False (본 영화)

users_ratings_new

array([[0.        , 0.        , 0.        , 0.80934465, 0.21566555,
        0.53374505],
       [0.4449492 , 0.11677483, 0.        , 0.73098797, 0.        ,
        0.        ],
       [0.9587104 , 0.        , 0.        , 0.4297667 , 0.        ,
        0.        ],
       [0.        , 0.        , 0.20153752, 0.        , 0.34202054,
        0.        ]], dtype=float32)

- 각 사용자에 대해 보지 않은 영화의 상위 2 개 등급의 영화를 가져와 인쇄해 봅니다.

In [31]:
top_movies = tf.nn.top_k(users_ratings_new, 2)[1]
top_movies

<tf.Tensor: shape=(4, 2), dtype=int32, numpy=
array([[3, 5],
       [3, 0],
       [0, 3],
       [4, 2]])>

In [33]:
movies

['Star Wars', 'The Dark Knight', 'Shrek', 'The Incredibles', 'Bleu', 'Memento']

In [34]:
users

['Ryan', 'Danielle', 'Vijay', 'Chris']

추천할 영화

In [20]:
for i in range(num_users):
    movie_names = [movies[idx] for idx in top_movies[i]]
    print('{}: {}'.format(users[i], movie_names))

Ryan: ['The Incredibles', 'Memento']
Danielle: ['The Incredibles', 'Star Wars']
Vijay: ['Star Wars', 'The Incredibles']
Chris: ['Bleu', 'Shrek']
