In [None]:
import pickle
import pandas as pd
import numpy as np
import tqdm

## 콘텐츠 기반 추천을 위한 데이터셋을 만듭니다.

- 어느 정도 평가 빈도가 있는 영화 데이터를 고릅니다.

- 사용자가 이전에 평가한 영화를 구하고, 이전에 movieId를 이용하여 현재 movieId를 구하는 Task로 사용합니다.

- 가장 마지막의 3000건의 데이터만 남겨서 추천 결과를 평가하는데 사용합니다.

In [None]:
# movielens32 평점을 불러옵니다.
df_ratings = pd.read_parquet('dataset/ratings.parquet')
# 일자를 timestamp 형식(Integer)에서 일자형식으로 바꿉니다.
df_ratings['date'] = df_ratings.pop('timestamp').pipe(lambda x: pd.to_datetime(x, unit='s'))
# 평점수, 영화수, 사용자수
s_movieId =  df_ratings['movieId'].unique()
len(df_ratings), df_ratings['movieId'].nunique(), df_ratings['userId'].nunique()

In [None]:
display(df_ratings.head())
df_ratings.info()

In [None]:
# 평가 횟수가 1000건 이상인 영화 데이터만 남깁니다.
movie_id_1000 = df_ratings['movieId'].value_counts(normalize = False).pipe(lambda x: x.loc[x >= 1000]).index
df_ratings = df_ratings.loc[df_ratings['movieId'].isin(movie_id_1000)].sort_values(['userId', 'date'])

In [None]:
# 바로 이전에 평가 내역을 prev_movieId에 넣습니다.
df_ratings['prev_movieId'] = df_ratings['movieId'].shift(1)
df_ratings['prev_movieId'] = df_ratings['prev_movieId'].fillna(0).astype('int')
# 현 시점의 사용자와 이전에 시청한 이력의 사용자가 다를 경우에는 이전 시청 이력이 없는 것입니다.
# 이전 시청이 있는 것만 남깁니다.
df_ratings = df_ratings.loc[df_ratings['userId'] == df_ratings['userId'].shift(1)]
df_ratings.shape

In [None]:
# date로 내림차순 정렬을 하여 최근 3000 건만 남깁니다.
# 이를 추천 로직의 평점 데이터로 사용합니다.
df_ratings_3000 = df_ratings.sort_values('date', ascending = False).iloc[:3000][['prev_movieId', 'movieId']]
df_ratings_3000

### 평가 로직

이전에 시청한 영화를 추천 로직에 전달하면,

추천 로직은 10개의 콘텐츠를 추천합니다. 

현재 시청한 영화가 10개의 목록에 있으면 Hit입니다.

Hit Ratio를 구합니다.

In [None]:
# 추천 결과에 대한 평가 로직입니다.
def evaluate(df_eval, rcmd_func):
    """
    평가 데이터와 추천 로직을 입력 받아 추천 지표 (Hit ratio)를 계산합니다.
    Parameters:
        df_evel: pd.DataFrame
            평가 데이터프레임: prev_movieId / movieId / date 형태로 되어 있습니다.
        rcmd_func: function
            추천 로직 callback, prev_movieId를 전달하면 이에 따른  10개의 movie_id를 가진 리스트를 반환해줍니다.
    Returns:
        Hit ratio
    """
    result = list()
    # prev_movieId를 rcmd_func의 인자로 전달하고 rcmd_func
    # rcmd_func가 반환한 리스트  item id가 있으면 True(Hit)로 기록합니다.
    for x in tqdm.tqdm(df_eval[['prev_movieId', 'movieId']].values):
        result.append( x[1] in set(rcmd_func(x[0])[:10])) # 10개까지 만을 체크합니다.
    return np.mean(result) # True(Hit)인 비율, 즉 Hit Ratio를 반환합니다.

**가장 간단한 콘텐츠 추천 베이스라인**

- 등장한 movieId  중에서 10개의 movieId를 임의 뽑습니다.

In [None]:
# 전체 데이터에서 등장한 영화(약 8만 5천개)에서 랜덤으로 10개 뽑습니다.
def random_rcmd(prev_movieId):
    return np.random.choice(s_movieId, 10, replace = False)
evaluate(df_ratings_3000, random_rcmd)

# 콘텐츠 기반 추천 (Contents Based Recommendation) 

아이템 내용(컨텐츠)를 기반으로 사용자가 선호도를 가지고 있는 아이템과 유사한 컨텐츠를 추천해주는 추천 기법입니다.

## Resource

본 과정의 Docker 파일에는 Oracle DB와 Qdrant DB가 설치 되어 있습니다.

아래 스크립트를 사용하면 구동 시킬 수 있습니다.
```
docker compose up -d
```

###  Oracle DB

MovieLens 32m 의 영화 정보들이 들어 있습니다.

**Movie 테이블**

|필드|내용|
|----|----|
|movie_id|영화 ID|
|movie_title|영화제목|
|original_language|제작 언어|
|original_title|원제|
|poster_path|포스터 이미지 URL|
|overview|줄거리|
|series_id|시리즈 ID|
|release_date|개봉일|
|runtime|상영시간|
|tagline|주제|
|imdb_id|IMDB ID|
|adult|성인 전용 여부|
|useyn|사용 여부|
|regtime|등록 시간|

**Series 테이블**

|필드|내용|
|----|----|
|series_id|시리즈 아이디|
|series_title|시리즈 제목|
|useyn|사용 여부|
|regtime|등록 시간|

In [None]:
from sqlalchemy import create_engine, text, bindparam
import cx_Oracle

# Oracle 접속 정보 설정
DATABASE_URL = "oracle+cx_oracle://rcmd:rcmd_multi@oracle-db:1521/?service_name=XEPDB1"
engine = create_engine(DATABASE_URL)

# Oracle에 qry 수행 결과를 가져옵니다,
def get_rows(sql, params = {}):
    with engine.connect() as conn:
        bind_params = list()
        for k, v in params.items():
            if type(v) == list:
                bind_params.append(bindparam(k, expanding=True))
        t = text(sql)
        if len(bind_params) > 0:
            t = t.bindparams(*bind_params)
        result = conn.execute(t, params)
        
        df = pd.DataFrame(result.fetchall(), columns = result.keys())
        if len(df) == 1:
            return df.T.rename(columns = {0: 'value'})
        else:
            return df

In [None]:
# 테이블 내용 확인과 DB 테스트를 위해, DB에서 데이터를 하나 가져옵니다.
# movie 테이블에서 movie_id가 1인 인스턴스를 가져옵니다.
s = get_rows("SELECT * FROM movie WHERE movie_id = :movie_id", {'movie_id': 1}) # movie_id 1 Toy Story
s

In [None]:
def get_movies(movie_ids):
    """
    movie_ids에 해당하는 영화르 DB에서 가져옵니다.
    """
    return get_rows("SELECT * FROM movie WHERE movie_id in :movie_ids", {'movie_ids': movie_ids})
get_movies([1, 2, 3])

## Task 1

### 콘텐츠의 소속 그룹에서의 추천

영화에는 영화가 속한 시리즈 정보가 있습니다. 

**series_id**: Star Wars, Avengers와 같은 영화가 속한 series의 ID입니다. 아무 series에도 속하지 않은 영화는 0 입니다.

In [None]:
s = get_rows("SELECT * FROM movie WHERE movie_id = :movie_id", {'movie_id': 1}) # movie_id 1 Toy Story
s

- movieId 1번 토이 스토리는 series_id가 1번 입니다.

- series_id 1 번의 정보를 series 테이블에서 가져옵니다. 

In [None]:
s = get_rows("SELECT * FROM series WHERE series_id = 1")
s

**가정** 사용자는 series 중에서 하나를 평가 했다면 동일 series의 다른 영화도 볼 가능성이 높다.

이를 이용하여 이전 시청한 영화가 series에 속한다면, 다음에 평가한 영화도 동일 series에 해당할 가능성이 높다

In [None]:
# movie_id 1이 토이 스토리가 속한 series인 1번 series의 다른 영화들을 가져옵니다.
s = get_rows(
    #TODO-with
)
s

In [None]:
def series_rcmd(movieId):
    """
    movieId에 대한 동일 시리지 영화를 10개 추천합니다. 
    10개 미만일 경우 임의의 영화를 추천합니다.
    """
    movieId = int(movieId)
    # 현재 영화의 series_id를 가져옵니다.
    s = get_rows(#TODO-with , {'movie_id': movieId})    
    if len(s) == 0:
        # DB에 등록되지 않은 movieId는 임의의 영화를 10개 추천합니다.
        return np.random.choice(s_movieId, 10)
    series_id = int(s.loc['series_id'].iloc[0])
    if series_id > 0:
        # 동일 시리즈의 다른 영화들을 가져옵니다.
        series_list = get_rows(
            #TODO-with
        )
        if len(series_list) > 1:
            series_list = series_list['movie_id'].tolist() # 영화가 2개 이상일 때
        elif len(series_list) == 1:
            series_list = [series_list.loc['movie_id'].iloc[0]] # 영화가 1개 일 때
        else:
            series_list = list() # 없을 때
    else:
        series_list = list()
    # 10개가 안 될 경우 임의의 영화를 추천합니다.
    return (series_list + np.random.choice(s_movieId, 10 - len(series_list)).tolist())[:10] if len(series_list) < 10 else series_list[:10]

In [None]:
# movie_id 가 1인 추천 목록가져 오기
#TODO-with

In [None]:
evaluate(df_ratings_3000, series_rcmd)

### Qdrant DB: Vector DB

Vector DB는 벡터를 저장하고 탐색하기에 최적화된 DB 입니다.

Vector DB의 거리 탐색기능을 이용해보니다.

**movie_emb_kr** 컬렉션

MovieLens 32m 영화의 줄거리(Overview)와 Series 정보의 임베딩 벡터가 들어 있습니다.


벡터화된 줄거리를 이용하여, 근거리에 있는 영화를 추천하는 컨텐츠의 유사도 기반 추천을 합니다.

In [None]:
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct

# Qdrant Vector DB에 접근하기 위한 Client 입니다.
client = QdrantClient(host="qdrant", port=6333)

In [None]:
# movie_id: 토이 스토리의 벡터를 가져 옵니다.
response = client.retrieve(
    collection_name="movie_emb_kr",
    with_vectors = True,
    ids=[1]   # 리스트 형태로 ID 전달
)
response[0].vector

In [None]:
# 가져온 임베딩 벡터와 거리가 가까운 (유사도이 높은) 벡터의 movie Id 6개를 가져옵니다.
results = client.query_points(
    collection_name="movie_emb_kr",
    query=response[0].vector, # 위에서구한 토이 스토리의 줄거리 벡터를 입력합니다.
    limit=6
)
results

In [None]:
# 데이터 포인트를 가져옵니다.
# id: movie_id, score = 유사도 점수
results.points

In [None]:
[i.id for i in results.points[1:]]

In [None]:
# 영화 줄거리에 대한 openAI embedding을 통한 수치화 정보를 불러 옵니다.
with open('dataset/tmdb_movie_emb.pkl', 'rb') as f:
    dic_movie_emb = pickle.load(f)
dic_movie_emb[1] # movieId = 1(Toy Story)의 줄거리 수치화 정보입니다.

In [None]:
s_dist = pd.Series({
     k: np.dot(dic_movie_emb[1], v) / (np.linalg.norm(dic_movie_emb[1]) * np.linalg.norm(v)) for k, v in dic_movie_emb.items()
})
s_dist.sort_values(ascending = False).iloc[:11]

In [None]:
# 영화 DB에서 유사도 점수가 높다고 뽑힌 영화의 내용을 가져옵니다.
get_movies([i.id for i in results.points[1:]])

## Task 2

VectorDB에 movie_emb_kr에 있는 줄거리 임베딩 벡터를 이용하여, 

주어진 영화 벡터와 근거리 영화를 뽑아 추천합니다.

### Content의 메타 데이터를 기반 추천


In [None]:
def vector_rcmd(movieId, num = 10):
    movieId = int(movieId)
    # movieId의 영화 줄거리 벡터를 가져옵니다.
    response = client.retrieve(
        collection_name="movie_emb_kr",
        with_vectors = True,
        ids=[movieId]   # 리스트 형태로 ID 전달
    )
    # 조회가 되지 않은 영화는 임의의 영화정보로 반환합니다.
    if len(response) == 0:
        return np.random.choice(s_movieId, 10)
    results = client.query_points(
        collection_name="movie_emb_kr",
        query=response[0].vector,
        limit=num + 1
    )
    # 가장 근거리에 있는 영화는 질의한 벡터와 동일한 내용이며, 이를 제외하기 위 해
    # 두 번째 부터 movieId를 반환합니다.
    return [i.id for i in results.points[1:]]

In [None]:
get_movies(vector_rcmd(1))

In [None]:
evaluate(df_ratings_3000, vector_rcmd)

## Task 3

Series와 Vector를 합친 로직을 만들어 봅니다.

Series의 수가 10개가 안되는 만큼은 영화 벡터를 이용하여 추천합니다.

In [None]:
def series_vector_rcmd(movieId):
    movieId = int(movieId)
    s = get_rows("SELECT series_id FROM movie WHERE movie_id = :movie_id", {'movie_id': movieId})
    if len(s) == 0:
        return np.random.choice(s_movieId, 10)
    series_id = int(s.loc['series_id'].iloc[0])
    if series_id > 0:
        series_list = get_rows(
            "SELECT movie_id FROM movie WHERE series_id = :series_id AND movie_id <> :movie_id ORDER BY release_date DESC",
            {'series_id': series_id, 'movie_id': movieId}
        )
        if len(series_list) > 1:
            series_list = series_list['movie_id'].tolist()
        elif len(series_list) == 1:
            series_list = [series_list.loc['movie_id'].iloc[0]]
        else:
            series_list = list()
    else:
        series_list = list()
    # 10개 미만일 경우 줄거리 벡터를 이용한 추천을 수행합니다.
    return (series_list + [i for i in vector_rcmd(movieId, 10) if i not in series_list])[:10] if len(series_list) < 10 else series_list

In [None]:
get_movies(series_vector_rcmd(1))

In [None]:
evaluate(df_ratings_3000, series_vector_rcmd)

# 콘텐츠 기반 (Content Based Recommendation) 정리

- DB에 담겨 있는 메타 데이터를 기반으로 동일 그룹에 있는 아이템 위주로 추천합니다.

- 아이템의 내용을 나타내는 임베딩 벡터를 만들고, 이를 이용하여 근거리에 있는 아이템들을 골라 추천합니다.