# TensorFlow Recommenders: Matrix Factorization Model

https://www.tensorflow.org/recommenders/examples/quickstart

TFRS와 함께 [MovieLens 100K 데이터 세트](https://grouplens.org/datasets/movielens/100k/)를 사용하여 간단한 행렬 분해(matrix factorization) 모델을 구축합니다. 이 모델을 사용하여 특정 사용자에게 영화를 추천할 수 있습니다.

In [1]:
!pip install -q tensorflow-recommenders
!pip install -q --upgrade tensorflow-datasets

In [2]:
from typing import Dict, Text

import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds
import tensorflow_recommenders as tfrs

import pprint

ModuleNotFoundError: No module named 'resource'

### Read the data

In [4]:
# Ratings data.
ratings = tfds.load('movielens/100k-ratings', split="train")
# Features of all the available movies.
movies = tfds.load('movielens/100k-movies', split="train")

Downloading and preparing dataset 4.70 MiB (download: 4.70 MiB, generated: 32.41 MiB, total: 37.10 MiB) to /root/tensorflow_datasets/movielens/100k-ratings/0.1.1...


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Extraction completed...: 0 file [00:00, ? file/s]

Generating splits...:   0%|          | 0/1 [00:00<?, ? splits/s]

Generating train examples...:   0%|          | 0/100000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/movielens/100k-ratings/0.1.1.incomplete9TJR2A/movielens-train.tfrecord*...…

Dataset movielens downloaded and prepared to /root/tensorflow_datasets/movielens/100k-ratings/0.1.1. Subsequent calls will reuse this data.
Downloading and preparing dataset 4.70 MiB (download: 4.70 MiB, generated: 150.35 KiB, total: 4.84 MiB) to /root/tensorflow_datasets/movielens/100k-movies/0.1.1...


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Extraction completed...: 0 file [00:00, ? file/s]

Generating splits...:   0%|          | 0/1 [00:00<?, ? splits/s]

Generating train examples...:   0%|          | 0/1682 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/movielens/100k-movies/0.1.1.incompleteURLMJO/movielens-train.tfrecord*...:…

Dataset movielens downloaded and prepared to /root/tensorflow_datasets/movielens/100k-movies/0.1.1. Subsequent calls will reuse this data.


In [5]:
for x in ratings.take(1).as_numpy_iterator():
    pprint.pprint(x)
print()
for x in movies.take(1).as_numpy_iterator():
    pprint.pprint(x)

{'bucketized_user_age': 45.0,
 'movie_genres': array([7]),
 'movie_id': b'357',
 'movie_title': b"One Flew Over the Cuckoo's Nest (1975)",
 'raw_user_age': 46.0,
 'timestamp': 879024327,
 'user_gender': True,
 'user_id': b'138',
 'user_occupation_label': 4,
 'user_occupation_text': b'doctor',
 'user_rating': 4.0,
 'user_zip_code': b'53211'}

{'movie_genres': array([4]),
 'movie_id': b'1681',
 'movie_title': b'You So Crazy (1994)'}


In [6]:
# 기본 features 선택
ratings = ratings.map(lambda x: {
    "movie_title": x["movie_title"],
    "user_id": x["user_id"]
})

movies = movies.map(lambda x: x["movie_title"])

In [7]:
for x in ratings.take(1).as_numpy_iterator():
    pprint.pprint(x)
print()
for x in movies.take(1).as_numpy_iterator():
    pprint.pprint(x)

{'movie_title': b"One Flew Over the Cuckoo's Nest (1975)", 'user_id': b'138'}

b'You So Crazy (1994)'


embedding layer를 위해 `사용자 ID`와 `영화 제목`을 정수 인덱스로 변환하는 vocabulary를 구축합니다.  

- `StringLookup` 레이어는 텍스트 데이터를 처리할 때 유용하게 사용됩니다. 이 경우, 사용자 ID와 영화 제목을 각각의 정수 인덱스로 매핑하여 모델이 이해할 수 있는 형태로 변환하는 역할을 합니다.  
-`adapt` 메소드는 주어진 데이터셋을 기반으로 어휘 사전을 자동으로 구성합니다. 이 과정에서 데이터셋의 모든 고유한 문자열 값을 스캔하여 인덱스를 할당합니다.  
- `mask_token=None` 옵션은 입력 데이터 중 어떤 값도 마스킹(무시)하지 않고 모두 처리하겠다는 것을 의미합니다. 일부 경우에는 특정 값을 무시하고 싶을 때 mask_token을 다르게 설정할 수 있습니다.  

이러한 어휘 사전을 사용하면 모델이 문자열 형태의 데이터를 쉽게 처리할 수 있으며, 추후에 이 데이터를 모델의 입력으로 사용할 때 일관된 방식으로 인코딩할 수 있습니다.

In [None]:
%%time

# 사용자 ID를 위한 어휘 사전 생성. mask_token=None은 어떤 토큰도 마스킹하지 않겠다는 의미입니다.
user_ids_vocabulary = tf.keras.layers.StringLookup(mask_token=None)
# ratings 데이터에서 사용자 ID를 추출하여 어휘 사전에 적용(adapt)하여 인덱싱합니다.
user_ids_vocabulary.adapt(ratings.map(lambda x: x["user_id"]))

# 영화 제목을 위한 어휘 사전 생성. 여기서도 mask_token=None으로 설정합니다.
movie_titles_vocabulary = tf.keras.layers.StringLookup(mask_token=None)
# movies 데이터셋을 사용하여 영화 제목에 대한 어휘 사전을 구성합니다.
movie_titles_vocabulary.adapt(movies)

Cause: could not parse the source code of <function <lambda> at 0x7cf74b1820e0>: no matching AST found among candidates:



Cause: could not parse the source code of <function <lambda> at 0x7cf74b1820e0>: no matching AST found among candidates:

CPU times: user 2min 48s, sys: 16.9 s, total: 3min 5s
Wall time: 3min 24s


In [None]:
# 사용자 id list
user_ids_vocabulary.get_vocabulary()[:10]

['[UNK]', '405', '655', '13', '450', '276', '416', '537', '303', '234']

In [None]:
# 영화 title list
movie_titles_vocabulary.get_vocabulary()[:10]

['[UNK]',
 "Ulee's Gold (1997)",
 'That Darn Cat! (1997)',
 'Substance of Fire, The (1996)',
 'Sliding Doors (1998)',
 'Nightwatch (1997)',
 'Money Talks (1997)',
 'Kull the Conqueror (1997)',
 'Ice Storm, The (1997)',
 'Hurricane Streets (1998)']

In [None]:
data = tf.constant(['405', '655', '450'])
user_ids_vocabulary(data)

<tf.Tensor: shape=(3,), dtype=int64, numpy=array([1, 2, 4])>

In [None]:
data = tf.constant(["Ulee's Gold (1997)", 'Nightwatch (1997)', 'Ice Storm, The (1997)'])
movie_titles_vocabulary(data)

<tf.Tensor: shape=(3,), dtype=int64, numpy=array([1, 5, 8])>

### model 정의

`tfrs.Model`을 상속하고 `compute_loss` 메서드를 구현하여 TFRS 모델을 정의할 수 있습니다.

In [None]:
class MovieLensModel(tfrs.Model):
  def __init__(self, user_model: tf.keras.Model,
                             movie_model: tf.keras.Model,
                             task: tfrs.tasks.Retrieval):
    super().__init__()

    # 사용자와 영화 표현(representation) 설정
    self.user_model = user_model  # 사용자 모델
    self.movie_model = movie_model  # 영화 모델
    # 검색(retrieval) 작업 설정
    self.task = task  # 검색 작업

  # 손실 함수(loss function) 계산을 위한 메소드
  # Dict[Text, tf.Tensor] --> 문자열 키와 Tensor값으로 구성된 dictionary
  def compute_loss(self, features: Dict[Text, tf.Tensor], training=False) -> tf.Tensor:
    # 사용자 ID로부터 사용자 임베딩 생성
    user_embeddings = self.user_model(features["user_id"])
    # 영화 제목으로부터 영화 임베딩 생성
    movie_embeddings = self.movie_model(features["movie_title"])

    # 생성된 사용자와 영화 임베딩을 이용하여 검색 작업을 수행하고, 손실을 반환
    return self.task(user_embeddings, movie_embeddings)

두 모델과 retrieval task를 정의합니다.

tfrs.tasks.Retrieval: 이는 TFRS에서 제공하는 검색(retrieval) 작업을 설정하는 클래스입니다. 검색 작업은 사용자에게 관련 아이템을 추천하는 모델의 능력을 평가하고 최적화하는 데 중점을 둡니다.

tfrs.metrics.FactorizedTopK: 이 메트릭은 모델이 얼마나 잘 사용자에게 상위 K개의 관련 아이템을 추천하는지 평가합니다. 즉, 모델이 생성한 아이템 임베딩들 중 사용자의 실제 선호와 가장 유사한 아이템을 정확하게 찾아낼 수 있는지를 측정합니다.

movies.batch(128).map(movie_model): 이 부분은 FactorizedTopK 메트릭에 전달되는 아이템 후보 데이터셋을 준비하는 과정입니다. movies 데이터셋을 배치 크기 128로 나누고, 각 배치에 대해 movie_model을 적용하여 영화 임베딩을 생성합니다. 이렇게 생성된 임베딩들은 메트릭 계산에 사용되는 아이템 후보군으로 활용됩니다.


In [None]:
# 사용자 모델 정의
user_model = tf.keras.Sequential([
    user_ids_vocabulary,  # 사용자 ID를 정수 인덱스로 매핑
    tf.keras.layers.Embedding(user_ids_vocabulary.vocabulary_size(), 64)  # 매핑된 인덱스를 64차원의 임베딩 벡터로 변환
])

# 영화 모델 정의 - 영화 임베딩 생성
# 이 모델은 영화의 제목을 입력으로 받아 임베딩 벡터를 출력
movie_model = tf.keras.Sequential([
    movie_titles_vocabulary,  # 영화 제목을 정수 인덱스로 매핑
    tf.keras.layers.Embedding(movie_titles_vocabulary.vocabulary_size(), 64)  # 매핑된 인덱스를 64차원의 임베딩 벡터로 변환
])

# 추천 시스템의 목적(목표) 함수 정의
# 생성된 영화 임베딩을 사용하여, 모델이 주어진 사용자에 대해 얼마나 관련성 높은 영화를 상위 K개로 추천할 수 있는지 평가
# FactorizedTopK 메트릭을 통해 계산된 성능 지표를 기반으로 모델을 학습하고 최적화
# 목표는 이 메트릭의 값을 최대화하는 것입니다.
task = tfrs.tasks.Retrieval(metrics=tfrs.metrics.FactorizedTopK(
    movies.batch(128).map(movie_model)  # 영화 데이터를 배치 크기 128로 나누고, 영화 모델을 적용하여 임베딩 생성
  )
)

영화 제목에 대한 임베딩을 직접 가져올 수 있습니다

In [None]:
movie_embedding = movie_model.predict(["Star Wars (1977)"])
print(movie_embedding.shape)
movie_embedding

(1, 64)


array([[-0.1107702 , -0.16371097, -0.10487822,  0.153784  ,  0.02921637,
        -0.17168012,  0.3223646 ,  0.36120915, -0.12461745, -0.07789123,
         0.04653415,  0.12228873, -0.1825487 ,  0.44092375,  0.19845402,
        -0.28909126, -0.25065425,  0.13332304,  0.00943295, -0.0158558 ,
         0.2198717 , -0.16237032, -0.21863179, -0.00113185,  0.2796414 ,
         0.20895192, -0.10516793,  0.31717288, -0.24398312, -0.25287065,
         0.15965277,  0.30933788,  0.39688677,  0.22219613, -0.0438349 ,
         0.05119025,  0.22492418,  0.18537955, -0.33796036, -0.26210898,
        -0.4437052 , -0.2932644 ,  0.03473925, -0.08119578, -0.16405621,
        -0.3852349 , -0.187034  ,  0.33749333, -0.46432218,  0.20218597,
         0.42967567, -0.27320364,  0.5856132 ,  0.5016914 , -0.31623048,
        -0.29490376,  0.02848816, -0.02402711, -0.23503225, -0.40927485,
         0.37940153, -0.2372302 ,  0.06713595, -0.07104857]],
      dtype=float32)


### Fit and evaluate it.

`tf.recommenders.layers.factorized_top_k`는 TensorFlow Recommenders (TFRS) 라이브러리 내에 있는 레이어 모음으로, 추천 시스템에서 사용자에게 아이템을 추천할 때 상위 K개의 가장 관련성 높은 아이템을 찾아내는 기능을 제공합니다. 이 레이어들은 추천 모델의 평가 단계에서 주로 사용되며, 모델이 얼마나 잘 사용자의 선호도를 예측하는지를 측정하는 데 도움을 줍니다.

### `factorized_top_k` 의 item 검색 방법:

1. **BruteForce**:  모든 아이템 후보에 대해 순차적으로 사용자 쿼리와의 유사성(또는 거리)을 계산하고, 가장 유사한 상위 K개의 아이템을 반환. 이 과정은 계산적으로 비효율적일 수 있지만, 작은 데이터셋에서는 실용적일 수 있습니다.

2. **ScaNN**: 대규모 데이터셋에서 더 효율적인 근사 최근접 이웃 검색을 수행하는 레이어입니다.


In [None]:
# 검색 모델 생성
model = MovieLensModel(user_model, movie_model, task)
# 손실 함수를 따로 지정하지 않는 경우, TFRS 모델은 task 객체에 정의된 내장 손실 함수를 사용하여 모델을 최적화
model.compile(optimizer=tf.keras.optimizers.Adagrad(0.5))

# 3 에폭 동안 훈련
model.fit(ratings.batch(4096), epochs=3)

# 훈련된 표현을 사용하여 검색을 수행하기 위해 무작위 탐색(brute-force search) 설정
index = tfrs.layers.factorized_top_k.BruteForce(model.user_model)
index.index_from_dataset(
    movies.batch(100).map(lambda title: (title, model.movie_model(title))))  # 영화 데이터셋으로부터 인덱스 생성

Epoch 1/3
Epoch 2/3
Epoch 3/3


<tensorflow_recommenders.layers.factorized_top_k.BruteForce at 0x7cf748659de0>

In [None]:
# 특정 사용자에 대한 추천 받기
_, titles = index(np.array(["42"]))  # 사용자 ID 42에 대한 상위 추천 영화 타이틀 가져오기
titles

<tf.Tensor: shape=(1, 10), dtype=string, numpy=
array([[b'Rent-a-Kid (1995)', b'Love in the Afternoon (1957)',
        b'Just Cause (1995)', b'House Arrest (1996)',
        b'Princess Caraboo (1994)', b'An Unforgettable Summer (1994)',
        b'Scarlet Letter, The (1926)',
        b'Land Before Time III: The Time of the Great Giving (1995) (V)',
        b'Halloween: The Curse of Michael Myers (1995)',
        b'Only You (1994)']], dtype=object)>

In [None]:
# 특정 사용자에 대한 추천 받기
_, titles = index(np.array(["42"]))  # 사용자 ID 42에 대한 상위 추천 영화 타이틀 가져오기

# 상위 3개 추천 영화 타이틀을 문자열 리스트로 변환하여 출력
top_3_titles = [title.decode('utf-8') for title in titles[0, :3].numpy()]
print(f"Top 3 recommendations for user 42: ")
for title in top_3_titles:
    print(title)

Top 3 recommendations for user 42: 
Rent-a-Kid (1995)
Love in the Afternoon (1957)
Just Cause (1995)
