In [1]:
import pandas as pd
import numpy as np
import tqdm
import os

dataset_path = os.environ.get('RCMD_DATASET_PATH', '../dataset')
print('Dataset path', dataset_path)

Dataset path ../dataset


## 콘텐츠 기반 추천을 위한 데이터셋을 만듭니다.

- 어느 정도 평가 빈도가 있는 영화 데이터를 고릅니다.

- 사용자가 이전에 평가한 영화를 구하고, 이전 movieId를 이용하여 현재 movieId를 구하는 Task로 사용합니다.

- 가장 마지막의 3000건의 데이터만 남겨서 추천 결과를 평가하는데 사용합니다.

In [2]:
# movielens32 평점을 불러옵니다.
df_ratings = pd.read_parquet(os.path.join(dataset_path, 'ratings.parquet'))
# 일자를 timestamp 형식(Integer)에서 일자형식으로 바꿉니다.
df_ratings['date'] = df_ratings.pop('timestamp').pipe(lambda x: pd.to_datetime(x, unit='s'))
# 평점수, 영화수, 사용자수
s_movieId =  df_ratings['movieId'].unique()
len(df_ratings), df_ratings['movieId'].nunique(), df_ratings['userId'].nunique()

(32000204, 84432, 200948)

In [3]:
display(df_ratings.head())
df_ratings.info()

  has_large_values = (abs_vals > 1e6).any()


Unnamed: 0,userId,movieId,rating,date
0,1,17,4.0,1999-12-03 19:24:37
1,1,25,1.0,1999-12-03 19:43:48
2,1,29,2.0,1999-11-22 00:36:16
3,1,30,5.0,1999-12-03 19:24:37
4,1,32,5.0,1999-11-22 00:00:58


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32000204 entries, 0 to 32000203
Data columns (total 4 columns):
 #   Column   Dtype         
---  ------   -----         
 0   userId   int64         
 1   movieId  int64         
 2   rating   float16       
 3   date     datetime64[ns]
dtypes: datetime64[ns](1), float16(1), int64(2)
memory usage: 793.5 MB


In [4]:
# 평가 횟수가 1000건 이상인 영화 데이터만 남깁니다.
movie_id_1000 = df_ratings['movieId'].value_counts(normalize = False).pipe(lambda x: x.loc[x >= 1000]).index
# 사용자, 평가 시점 순으로 정렬합니다.
df_ratings = df_ratings.loc[df_ratings['movieId'].isin(movie_id_1000)].sort_values(['userId', 'date'])

In [5]:
# 바로 이전에 평가 내역을 prev_movieId에 넣습니다.
df_ratings['prev_movieId'] = df_ratings['movieId'].shift(1)
df_ratings['prev_movieId'] = df_ratings['prev_movieId'].fillna(0).astype('int')
# 현 시점의 사용자와 이전에 시청한 이력의 사용자가 다를 경우에는 이전 시청 이력이 없는 것입니다.
# 이전 시청이 있는 것만 남깁니다.
df_ratings = df_ratings.loc[df_ratings['userId'] == df_ratings['userId'].shift(1)]
df_ratings.shape

(28327312, 5)

In [6]:
# date로 내림차순 정렬을 하여 최근 3000 건만 남깁니다.
# 이를 추천 로직의 평점 데이터로 사용합니다.
df_ratings_3000 = df_ratings.sort_values('date', ascending = False).iloc[:3000][['prev_movieId', 'movieId']]
df_ratings_3000

Unnamed: 0,prev_movieId,movieId
8663606,112818,104457
8663629,82667,112818
29853809,3107,4901
10532451,40278,33162
31923114,6,6711
...,...,...
7165373,106782,91529
7165375,99114,106782
31564556,5989,168252
31564518,135133,5989


### 평가 로직

이전에 시청한 영화를 추천 로직에 전달하면,

추천 로직은 10개의 콘텐츠를 추천합니다. 

현재 시청한 영화가 10개의 목록에 있으면 Hit입니다.

Hit Ratio를 구합니다.

In [7]:
# 추천 결과에 대한 평가 로직입니다.
def evaluate(df_eval, rcmd_func):
    """
    평가 데이터와 추천 로직을 입력 받아 추천 지표 (Hit ratio)를 계산합니다.
    Parameters:
        df_evel: pd.DataFrame
            평가 데이터프레임: prev_movieId / movieId / date 형태로 되어 있습니다.
        rcmd_func: function
            추천 로직 callback, prev_movieId를 전달하면 이에 따른  10개의 movie_id를 가진 리스트를 반환해줍니다.
    Returns:
        Hit ratio
    """
    result = list()
    # prev_movieId를 rcmd_func의 인자로 전달하고 rcmd_func
    # rcmd_func가 반환한 리스트  item id가 있으면 True(Hit)로 기록합니다.
    for x in tqdm.tqdm(df_eval[['prev_movieId', 'movieId']].values):
        result.append( x[1] in set(rcmd_func(x[0])[:10])) # 10개까지 만을 체크합니다.
    return np.mean(result) # True(Hit)인 비율, 즉 Hit Ratio를 반환합니다.

**가장 간단한 콘텐츠 추천 베이스라인**

- 등장한 movieId  중에서 10개의 movieId를 임의 뽑습니다.

In [8]:
# 전체 데이터에서 등장한 영화(약 8만 5천개)에서 랜덤으로 10개 뽑습니다.
def random_rcmd(prev_movieId):
    return np.random.choice(s_movieId, 10, replace = False)
evaluate(df_ratings_3000, random_rcmd)

100%|██████████| 3000/3000 [00:03<00:00, 889.07it/s]


np.float64(0.0)

# 콘텐츠 기반 추천 (Contents Based Recommendation) 

아이템 내용(컨텐츠)를 기반으로 사용자가 선호도를 가지고 있는 아이템과 유사한 컨텐츠를 추천해주는 추천 기법입니다.

## 준비한 리소스

###  Oracle DB

MovieLens 32m 의 영화 정보들이 들어 있습니다.

**Movie 테이블**

|필드|내용|
|----|----|
|movie_id|영화 ID|
|movie_title|영화제목|
|original_language|제작 언어|
|original_title|원제|
|poster_path|포스터 이미지 URL|
|overview|줄거리|
|series_id|시리즈 ID|
|release_date|개봉일|
|runtime|상영시간|
|tagline|주제|
|imdb_id|IMDB ID|
|adult|성인 전용 여부|
|useyn|사용 여부|
|regtime|등록 시간|

**Series 테이블**

|필드|내용|
|----|----|
|series_id|시리즈 아이디|
|series_title|시리즈 제목|
|useyn|사용 여부|
|regtime|등록 시간|

In [9]:
from sqlalchemy import create_engine, text, bindparam
import cx_Oracle

# Oracle 접속 정보 설정
DATABASE_URL = "oracle+cx_oracle://rcmd:rcmd_multi@oracle-db:1521/?service_name=XEPDB1"
engine = create_engine(DATABASE_URL)

# Oracle에 qry 수행 결과를 가져옵니다,
def get_rows(sql, params = {}):
    with engine.connect() as conn:
        bind_params = list()
        for k, v in params.items():
            if type(v) == list:
                bind_params.append(bindparam(k, expanding=True))
        t = text(sql)
        if len(bind_params) > 0:
            t = t.bindparams(*bind_params)
        result = conn.execute(t, params)
        
        df = pd.DataFrame(result.fetchall(), columns = result.keys())
        if len(df) == 1:
            return df.T.rename(columns = {0: 'value'})
        else:
            return df

In [10]:
# 테이블 내용 확인과 DB 테스트를 위해, DB에서 데이터를 하나 가져옵니다.
# movie 테이블에서 movie_id가 1인 인스턴스를 가져옵니다.
s = get_rows("SELECT * FROM movie WHERE movie_id = :movie_id", {'movie_id': 1}) # movie_id 1 Toy Story
s

Unnamed: 0,value
movie_id,1
movie_title,토이 스토리
original_language,en
original_title,Toy Story
poster_path,/5ELwzkC7QY9vug20AvRFOXBzLbG.jpg
overview,카우보이 인형 우디는 꼬마 주인인 앤디의 가장 사랑받는 장난감이다. 그러나 어느날 ...
series_id,1
release_date,1995-10-30 00:00:00
runtime,81
tagline,장난감과 좋은 친구가 되자


In [11]:
def get_movies(movie_ids):
    """
    movie_ids에 해당하는 영화를 DB에서 가져옵니다.
    """
    return get_rows("SELECT * FROM movie WHERE movie_id in :movie_ids", {'movie_ids': movie_ids})
get_movies([1, 2, 3])

Unnamed: 0,movie_id,movie_title,original_language,original_title,poster_path,overview,series_id,release_date,runtime,tagline,imdb_id,adult,useyn,regtime
0,1,토이 스토리,en,Toy Story,/5ELwzkC7QY9vug20AvRFOXBzLbG.jpg,카우보이 인형 우디는 꼬마 주인인 앤디의 가장 사랑받는 장난감이다. 그러나 어느날 ...,1,1995-10-30,81,장난감과 좋은 친구가 되자,tt0114709,N,Y,
1,2,쥬만지,en,Jumanji,/jjJohGbwz9kRaf490dZ158vbHho.jpg,1969년 공장을 운영하는 아버지 밑에서 유복하지만 엄격하게 자라는 열두 살짜리 소...,2,1995-12-15,104,,tt0113497,N,Y,
2,3,그럼피어 올드 맨,en,Grumpier Old Men,/1FSXpj5e8l4KH6nVFO5SPUeraOt.jpg,"미네소타의 와바샤에도 여름이 찾아왔다. 얼음은 녹아내리고, 더 이상은 얼음낚시도 할...",3,1995-12-22,101,,tt0113228,N,Y,


## Task 1

### 콘텐츠의 소속 그룹에서의 추천

영화에는 영화가 속한 시리즈 정보가 있습니다. 

**series_id**: Star Wars, Avengers와 같은 영화가 속한 series의 ID입니다. 아무 series에도 속하지 않은 영화는 0 입니다.

In [12]:
s = get_rows("SELECT * FROM movie WHERE movie_id = :movie_id", {'movie_id': 1}) # movie_id 1 Toy Story
s

Unnamed: 0,value
movie_id,1
movie_title,토이 스토리
original_language,en
original_title,Toy Story
poster_path,/5ELwzkC7QY9vug20AvRFOXBzLbG.jpg
overview,카우보이 인형 우디는 꼬마 주인인 앤디의 가장 사랑받는 장난감이다. 그러나 어느날 ...
series_id,1
release_date,1995-10-30 00:00:00
runtime,81
tagline,장난감과 좋은 친구가 되자


- movieId 1번 토이 스토리는 series_id가 1번 입니다.

- series_id 1 번의 정보를 series 테이블에서 가져옵니다. 

In [13]:
s = get_rows("SELECT * FROM series WHERE series_id = 1")
s

Unnamed: 0,value
series_id,1
series_title,토이 스토리 시리즈
useyn,Y
regtime,2025-12-08 23:32:31


**가정** 사용자는 series 중에서 하나를 평가 했다면 동일 series의 다른 영화도 볼 가능성이 높다.

이를 이용하여 이전 시청한 영화가 series에 속한다면, 다음에 평가한 영화도 동일 series에 해당할 가능성이 높다

In [14]:
# movie_id 1이 토이 스토리가 속한 series인 1번 series의 다른 영화들을 가져옵니다.
s = get_rows(
    "SELECT * FROM movie WHERE series_id = :series_id AND movie_id <> :movie_id ORDER BY release_date DESC",
    {'series_id': 1, 'movie_id': 1}
)
s

Unnamed: 0,movie_id,movie_title,original_language,original_title,poster_path,overview,series_id,release_date,runtime,tagline,imdb_id,adult,useyn,regtime
0,201588,토이 스토리 4,en,Toy Story 4,/9P8IX4UyH3QFLL4MV6GZyuOB7Ue.jpg,앤디와 작별한 우디는 새로운 주인 보니와의 생활에 적응 중이다. 보니는 처음 간 유...,1,2019-06-19,100,우리의 여행은 아직 끝나지 않았다,tt1979376,N,Y,
1,78499,토이 스토리 3,en,Toy Story 3,/hbUWahBLUon8RaIb9Tq7aWCBCtS.jpg,모든 장난감들이 겪는 가장 슬픈 일은 바로 주인이 성장해 더이상 자신들과 놀아주지 ...,1,2010-06-16,102,전세계가 감동한 가장 위대한 탈출,tt0435761,N,Y,
2,3114,토이 스토리 2,en,Toy Story 2,/gXUNsdIIn6NiEBvh8Mq6gjgVPm0.jpg,앤디가 카우보이 캠프에 간 동안 앤디의 어머니는 벼룩 시장을 열고 앤디의 장난감 중...,1,1999-10-30,94,무한한 도전과 꿈의 세계로,tt0120363,N,Y,


In [15]:
def series_rcmd(movieId):
    """
    movieId에 대한 동일 시리즈 영화를 10개 추천합니다. 
    10개 미만일 경우 임의의 영화를 추천합니다.
    """
    movieId = int(movieId)
    # 현재 영화의 series_id를 가져옵니다.
    s = get_rows("SELECT series_id FROM movie WHERE movie_id = :movie_id", {'movie_id': movieId})    
    if len(s) == 0:
        # DB에 등록되지 않은 movieId는 임의의 영화를 10개 추천합니다.
        return np.random.choice(s_movieId, 10)
    series_id = int(s.loc['series_id'].iloc[0])
    if series_id > 0:
        # 동일 시리즈의 다른 영화들을 가져옵니다.
        series_list = get_rows(
            "SELECT movie_id FROM movie WHERE series_id = :series_id AND movie_id <> :movie_id ORDER BY release_date DESC",
            {'series_id': series_id, 'movie_id': movieId}
        )
        if len(series_list) > 1:
            series_list = series_list['movie_id'].tolist() # 영화가 2개 이상일 때
        elif len(series_list) == 1:
            series_list = [series_list.loc['movie_id'].iloc[0]] # 영화가 1개 일 때
        else:
            series_list = list() # 없을 때
    else:
        series_list = list()
    # 10개가 안 될 경우 임의의 영화를 추천합니다.
    return (series_list + np.random.choice(s_movieId, 10 - len(series_list)).tolist())[:10] if len(series_list) < 10 else series_list[:10]

In [16]:
get_movies(series_rcmd(1))

Unnamed: 0,movie_id,movie_title,original_language,original_title,poster_path,overview,series_id,release_date,runtime,tagline,imdb_id,adult,useyn,regtime
0,3114,토이 스토리 2,en,Toy Story 2,/gXUNsdIIn6NiEBvh8Mq6gjgVPm0.jpg,앤디가 카우보이 캠프에 간 동안 앤디의 어머니는 벼룩 시장을 열고 앤디의 장난감 중...,1,1999-10-30,94,무한한 도전과 꿈의 세계로,tt0120363,N,Y,
1,25770,박수갈채,en,Applause,/dhcVy77WKN0Mr9kCzRgwbbtkEd3.jpg,,0,1929-10-07,80,,tt0019644,N,Y,
2,32166,Strangers When We Meet,en,Strangers When We Meet,/3fGmqmBjkvnwCE188L8IdYztKnK.jpg,,0,1960-06-29,117,,tt0054345,N,Y,
3,78499,토이 스토리 3,en,Toy Story 3,/hbUWahBLUon8RaIb9Tq7aWCBCtS.jpg,모든 장난감들이 겪는 가장 슬픈 일은 바로 주인이 성장해 더이상 자신들과 놀아주지 ...,1,2010-06-16,102,전세계가 감동한 가장 위대한 탈출,tt0435761,N,Y,
4,164165,Three Days,en,Three Days,/gAxVMBz3mueFJqbxISwJ7ejN5u6.jpg,,0,2001-12-09,91,,tt0301935,N,Y,
5,171543,ССД: Смерть Советским Детям,ru,ССД: Смерть Советским Детям,/7EqQUQPSoFnv9qD6oEOPjjzxhAf.jpg,,0,2008-09-04,110,,tt1329231,N,Y,
6,178909,A Carne é Fraca,pt,A Carne é Fraca,/1mjRiEhq6WTS9J8Rq2ad3KzhPnN.jpg,,0,2004-01-01,54,,tt2388080,N,Y,
7,198621,Like.Share.Follow.,en,Like.Share.Follow.,/frh6P7hqfIqXhzRcKb5UjYRFfPZ.jpg,,0,2017-10-31,97,,tt7441032,N,Y,
8,201588,토이 스토리 4,en,Toy Story 4,/9P8IX4UyH3QFLL4MV6GZyuOB7Ue.jpg,앤디와 작별한 우디는 새로운 주인 보니와의 생활에 적응 중이다. 보니는 처음 간 유...,1,2019-06-19,100,우리의 여행은 아직 끝나지 않았다,tt1979376,N,Y,


In [17]:
evaluate(df_ratings_3000, series_rcmd)

100%|██████████| 3000/3000 [00:15<00:00, 193.92it/s]


np.float64(0.060333333333333336)

### Vector DB

Vector DB를 활용한 컨텐츠 기반의 추천에 대해 알아봅니다.


**벡터 기반의 질의**: 주어진 벡터와 유사도 기반의 인스턴스들을 탐색

- 벡터 DB의 기본 요소

|요소|설명|
|----|----|
|id|Vector의 인스턴스들을 식별하기 위한 요소|
|vector의 차원|인스턴스의 내용을 나타내는 벡터|
|Metric|벡터 기반의 질의에서 유사도를 나타내는 척도|

**Metric**

| 항목 | Cosine Similarity / Distance | Euclidean Distance | Dot Product |
|------|------------------------------|--------------------|-------------|
| **수식** | **유사도**:  $\displaystyle \cos(\theta) = \frac{\mathbf{x}\cdot\mathbf{y}}{\|\mathbf{x}\|\;\|\mathbf{y}\|}$  <br> **거리**:  $\displaystyle d(\mathbf{x},\mathbf{y}) = 1 - \cos(\theta)$ | $\displaystyle d(\mathbf{x},\mathbf{y}) = \sqrt{\sum_{i=1}^{n}(x_i - y_i)^2}$ | $\displaystyle s(\mathbf{x},\mathbf{y}) = \mathbf{x}\cdot\mathbf{y} = \sum_{i=1}^{n}x_i y_i$ <br> (단, $\|\mathbf{x}\|=\|\mathbf{y}\|=1$ 이면 $s = \cos(\theta)$) |
| **무엇을 측정?** | 두 벡터의 **방향(각도) 차이** 기반 유사도/거리 | 두 점 사이의 **직선 거리(절대 위치 차이)** | 크기와 방향이 모두 반영된 **내적 값** |
| **벡터 크기에 대한 민감도** | 크기에는 둔감, **방향에만 민감** | 크기와 거리 모두에 매우 민감 | 크기와 방향 모두에 민감 |
| **정규화 필요 여부** | 내재적으로 정규화 효과 존재. 보통 **추가 정규화 없이 사용** | 스케일 차이가 크면 **정규화 권장** | 정규화하면 **Cosine과 동일한 척도**가 됨 |
| **값의 범위** | 유사도: $[-1,1]$, 거리: $[0,2]$ (실무에선 거의 $[0,1]$) | $[0, \infty)$ | $(-\infty, \infty)$ |
| **고차원 임베딩** | 문장/문서 임베딩에 **가장 많이 사용** | 차원 증가 시 거리 해석이 애매해질 수 있음 | 정규화 후 사용 시 고차원에서도 많이 사용 |
| **주요 용도** | 텍스트 임베딩 검색, 추천 시스템, 클러스터링 | 좌표/공간 데이터, KNN, 물리적 거리 기반 문제 | 벡터 DB, ANN 검색, 정규화된 임베딩의 빠른 유사도 계산 |
| **가까움의 의미** | 각도가 작을수록(방향이 비슷할수록) 가까움 | 두 점의 위치가 가까울수록 가까움 | 내적 값이 클수록(방향이 비슷하고 크기도 클수록) 가까움 |
| **0 벡터 허용 여부** | $\|\mathbf{x}\|=0$ 이면 정의 불가 | 이론적으로는 의미가 애매, 실무에서는 보통 제외 | 0 벡터와의 내적은 항상 0 (유사도 판단에는 부적절) |
| **연산 비용** | 내적 + 정규화. 중간 정도 | 제곱, 합, 루트 계산으로 상대적으로 무거움 | 단순 내적이라 **가장 가벼움** |


#### 컨텐츠 기반 추천 시스템의 아키텍쳐

```mermaid

flowchart LR

  %% 1. 오프라인 파이프라인
  subgraph OFFLINE ["오프라인 파이프라인"]
    direction TB
    
    SRC["원천 컨텐츠 저장소"]
    VECEX["컨텐츠 벡터 추출"]
    VECSTORE["벡터 저장"]
  end

  %% 2. 컨텐츠 임베딩 서비스
  subgraph EMBED ["컨텐츠 임베딩 서비스"]
    EMB["임베딩 API"]
  end

  %% 3. 벡터 DB
  subgraph VDB ["벡터 DB"]
    VECDB["벡터 인덱스<br/>(아이템 ID ↔ 내용 벡터)"]
  end

  %% 4. 컨텐츠 기반 추천
  subgraph RECO ["컨텐츠 기반 추천"]
    RECSVC["아이템 서비스 백엔드"]
  end

  %% 오프라인: 컨텐츠 → 임베딩 → 벡터 DB 저장
  SRC --> VECEX
  VECEX --> |"아이템 컨텐츠<br/>(제목, 설명, 태그 등)"| EMB
  EMB --> |"내용 벡터"| VECSTORE
  VECSTORE -->|"아이템 ID + 내용 벡터"| VECDB

  %% 온라인: 아이템 ID → 벡터 DB → 유사 아이템 ID
  RECSVC --> |기준 아이템 ID| VECDB
  VECDB --> |"유사 아이템 ID 리스트<br/>(추천 후보)"| RECSVC

```

#### MovieLen 32m 기반 컨텐츠 기반 추천 시스템의 아키텍쳐

```mermaid

flowchart LR

  %% 1. 오프라인 파이프라인
  subgraph OFFLINE ["오프라인 파이프라인"]
    SRC["원천 컨텐츠 저장소: tmdb_movie_info_kr.pkl"]
    VECEX["컨텐츠 벡터 추출"]
    VECSTORE["벡터 저장<br/>movie_emb_kr"]
  end

  %% 2. 컨텐츠 임베딩 서비스
  subgraph EMBED ["컨텐츠 임베딩 서비스"]
    EMB["임베딩 API<br/>OpenAI Embedding"]
  end

  %% 3. 벡터 DB
  subgraph VDB ["Qdrant 벡터 DB"]
    VECDB["movie_emb_kr 컬렉션<br/>(MOVIE ID ↔ 내용 벡터)"]
  end

  %% 4. 컨텐츠 기반 추천
  subgraph RECO ["영화 정보 서비스"]
    RECSVC["MOVIE 서비스 백엔드"]
  end

  %% 오프라인: 컨텐츠 → 임베딩 → 벡터 DB 저장
  SRC --> VECEX
  VECEX --> |"아이템 컨텐츠<br/>(제목, 줄거리)"| EMB
  EMB --> |"내용 벡터"| VECSTORE
  VECSTORE -->|"MOVIE ID + 내용 벡터"| VECDB

  %% 온라인: MOVIE ID → 벡터 DB → 유사 MOVIE ID 리스트
  RECSVC --> |기준 MOVIE ID| VECDB
  VECDB --> |"유사 MOVIE ID 리스트<br/>(추천 후보)"| RECSVC

```

#### [참고] 영화 정보 획득 및 OpenAI의 Embedding 서비스를 이용한 임베딩 추출 코드


```python
from openai import OpenAI
import requests
import pickle
import os
from tqdm import tqdm
client = OpenAI(
    api_key = '**OPEN AI API-Key**'
)

tmdb_api_key = '**TMDB API-Key**'
def get_movie_info_from_tmdb(tmdbId, api_key, lang='en-US'):
    """
    TMDB - movie 정보 서비스에서 영화 정보를 가져옵니다.
    Parameters:
        tmdbId: str
            TMDB 영화 ID
        api_key: str
            TMDB 영화 api key
        lang: str
            언어 코드
    Returns:
        dict - 영화정보
    """
    # API 호출합니다.
    response = requests.get(
        'https://api.themoviedb.org/3/movie/{}?language={}&api_key={}'.format(tmdbId, lang, api_key),
        headers={'accept': 'application/json'}
    )
    # Response를 받아 오는데 문제가 생기면 오류를 반환합니다.
    response.raise_for_status()
    return response.json()

def get_embedding(text, model="text-embedding-ada-002"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model).data[0].embedding

if os.path.isfile('dataset/tmdb_movie_info_kr.pkl'):
    with open('dataset/tmdb_movie_info_kr.pkl', 'rb') as f:
        dic_movie_info_kr = pickle.load(f)
else:
    dic_movie_info_kr = {} # 받아온 영화 정보를 저장합니다.
failed = set() # 정보를 불러오는데 실패한 tmdbId를 저장합니다.
for k,v in tqdm(df_movie.loc[df_movie['tmdbId'].notna(), 'tmdbId'].items()):
    if k in dic_movie_info_kr or k in failed:
        continue
    try:
        dic_movie_info_kr[k] = get_movie_info_from_tmdb(v, tmdb_api_key, 'ko-kr')
    except Exception as e:
        #print(e, k)
        failed.add(k)
with open('dataset/tmdb_movie_info_kr.pkl', 'wb') as f:
    pickle.dump(dic_movie_info_kr, f)
```

#### [참고] movie_emb_kr Qdrant VectorDB 저장 루틴

```python
with open(os.path.join('dataset', 'tmdb_movie_emb.pkl'), 'rb') as f:
    movie_info_emb = pkl.load(f)
movie_info_emb[1]
client = QdrantClient(host="localhost", port=6333)
# 2. 컬렉션 이름 및 파라미터 정의
collection_name = "movie_emb_kr"
vector_dim = movie_info_emb[1].shape[0]  # 벡터 차원
distance_metric = Distance.COSINE  # 또는 Distance.EUCLIDEAN, Distance.DOT

# 3. 컬렉션이 없으면 생성 (벡터 인덱스 구성 포함)
if not client.collection_exists(collection_name):
    client.create_collection(
        collection_name=collection_name,
        vectors_config=VectorParams(size=vector_dim, distance=distance_metric)
    )
    print(f"✅ Collection '{collection_name}' created.")
else:
    print(f"ℹ️ Collection '{collection_name}' already exists.")
points = list()
for k, v in movie_info_emb.items():
    if k in all_ids: continue
    points.append(PointStruct(id=k, vector=v))
    if len(points) == 100:
        client.upsert(collection_name=collection_name, points=points)
        points = list()
if len(points) > 0:
    client.upsert(collection_name=collection_name, points=points)
    points = list()
```

#### movie_emb_kr 컬렉션

- MovieLens 32m 영화에 표함된 영화들의 한국어 줄거리(Overview)를 OpenAPI의 Text 임베딩 서비스를 이용하여 벡터로 추출한 내용을 담은 Vector DB 컬렉션 

|요소|설명|
|----|----|
|id|movie_id|
|vector의 차원|1536<br/> text-embedding-ada-002 모델의 출력 벡터의 수|
|Metric|코사인 유사도|

In [18]:
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct

# Qdrant Vector DB에 접근하기 위한 Client 입니다.
client = QdrantClient(host="qdrant", port=6333, check_compatibility=False)

- Id를 통한 벡터 조회

In [19]:
# movie_id: movieid가 1(토이 스토리)의 벡터를 가져 옵니다.
response = client.retrieve(
    collection_name="movie_emb_kr",
    with_vectors = True,
    ids=[1]   # 리스트 형태로 ID 전달
)
len(response[0].vector), response[0].vector

(1536,
 [-0.013183296,
  -0.041713532,
  -0.013787556,
  -0.032279257,
  -0.012585531,
  -0.012273654,
  0.010948177,
  -0.002309838,
  -0.014528264,
  -0.021467526,
  0.01223467,
  -0.0064259632,
  0.020259002,
  0.004278561,
  0.003930948,
  0.007933368,
  0.014853136,
  -0.01175386,
  0.018283783,
  -0.014216388,
  -0.028302826,
  0.009837116,
  -0.034644324,
  -0.022572089,
  0.03183743,
  -0.019063475,
  0.027549123,
  -0.02489817,
  0.026080703,
  -0.006770327,
  0.007368091,
  -0.0054968297,
  -0.006565658,
  -0.015022069,
  -0.015074049,
  -0.031733472,
  0.011545942,
  -0.018816572,
  0.01606166,
  -0.00028629322,
  0.014086439,
  0.021792397,
  -0.021688437,
  -0.01846571,
  -0.009128896,
  0.0020077075,
  0.020129053,
  -0.013904511,
  0.01046087,
  0.0018647638,
  0.0030895304,
  0.025547914,
  -0.028276836,
  -0.01296888,
  0.01633455,
  -0.010278942,
  -0.015100039,
  0.024937155,
  0.008875496,
  -0.017802972,
  -0.0013668978,
  0.008050322,
  -0.011942285,
  -0.00107288

- 벡터를 통한 유사 movie_id 조회

In [20]:
# 가져온 임베딩 벡터와 거리가 가까운 (유사도이 높은) 벡터의 movie Id 6개를 가져옵니다.
results = client.query_points(
    collection_name="movie_emb_kr",
    query=response[0].vector, # 위에서구한 토이 스토리의 줄거리 벡터를 입력합니다.
    limit=6
)
results

QueryResponse(points=[ScoredPoint(id=1, version=0, score=1.0, payload={}, vector=None, shard_key=None, order_value=None), ScoredPoint(id=78499, version=147, score=0.9565859, payload={}, vector=None, shard_key=None, order_value=None), ScoredPoint(id=201588, version=589, score=0.9490068, payload={}, vector=None, shard_key=None, order_value=None), ScoredPoint(id=3114, version=30, score=0.9398309, payload={}, vector=None, shard_key=None, order_value=None), ScoredPoint(id=274197, version=806, score=0.90922785, payload={}, vector=None, shard_key=None, order_value=None), ScoredPoint(id=106022, version=203, score=0.9070248, payload={}, vector=None, shard_key=None, order_value=None)])

In [21]:
# 데이터 포인트를 가져옵니다.
# id: movie_id, score = 유사도 점수
results.points

[ScoredPoint(id=1, version=0, score=1.0, payload={}, vector=None, shard_key=None, order_value=None),
 ScoredPoint(id=78499, version=147, score=0.9565859, payload={}, vector=None, shard_key=None, order_value=None),
 ScoredPoint(id=201588, version=589, score=0.9490068, payload={}, vector=None, shard_key=None, order_value=None),
 ScoredPoint(id=3114, version=30, score=0.9398309, payload={}, vector=None, shard_key=None, order_value=None),
 ScoredPoint(id=274197, version=806, score=0.90922785, payload={}, vector=None, shard_key=None, order_value=None),
 ScoredPoint(id=106022, version=203, score=0.9070248, payload={}, vector=None, shard_key=None, order_value=None)]

In [22]:
[i.id for i in results.points[1:]]

[78499, 201588, 3114, 274197, 106022]

In [23]:
# 영화 DB에서 유사도 점수가 높다고 뽑힌 영화의 내용을 가져옵니다.
get_movies([i.id for i in results.points[1:]])

Unnamed: 0,movie_id,movie_title,original_language,original_title,poster_path,overview,series_id,release_date,runtime,tagline,imdb_id,adult,useyn,regtime
0,3114,토이 스토리 2,en,Toy Story 2,/gXUNsdIIn6NiEBvh8Mq6gjgVPm0.jpg,앤디가 카우보이 캠프에 간 동안 앤디의 어머니는 벼룩 시장을 열고 앤디의 장난감 중...,1,1999-10-30,94,무한한 도전과 꿈의 세계로,tt0120363,N,Y,
1,78499,토이 스토리 3,en,Toy Story 3,/hbUWahBLUon8RaIb9Tq7aWCBCtS.jpg,모든 장난감들이 겪는 가장 슬픈 일은 바로 주인이 성장해 더이상 자신들과 놀아주지 ...,1,2010-06-16,102,전세계가 감동한 가장 위대한 탈출,tt0435761,N,Y,
2,106022,토이 스토리: 공포의 대탈출,en,Toy Story of Terror!,/oPBEnNP4Fg4gv9c0KBhchmtoG4H.jpg,보니와 보니 엄마는 할머니 집에 가기 위해 트렁크 안에 보니의 장난감과 짐을 싣고 ...,0,2013-10-16,22,,tt2446040,N,Y,
3,201588,토이 스토리 4,en,Toy Story 4,/9P8IX4UyH3QFLL4MV6GZyuOB7Ue.jpg,앤디와 작별한 우디는 새로운 주인 보니와의 생활에 적응 중이다. 보니는 처음 간 유...,1,2019-06-19,100,우리의 여행은 아직 끝나지 않았다,tt1979376,N,Y,
4,274197,버즈 라이트이어,en,Lightyear,/KJjJSbdThql8dMtwswseCvPF4h.jpg,"나, 버즈 라이트이어. 인류 구원에 필요한 자원을 감지하고 현재 수많은 과학자들과 ...",0,2022-06-15,105,"우주 저 너머 운명을 건 미션, 무한한 모험이 시작된다",tt10298810,N,Y,


## Task 2

VectorDB에 movie_emb_kr에 있는 줄거리 임베딩 벡터를 이용하여, 

주어진 영화 벡터와 근거리 영화를 뽑아 추천합니다.

### Content의 메타 데이터를 기반 추천


In [24]:
def vector_rcmd(movieId, num = 10):
    movieId = int(movieId)
    # movieId의 영화 줄거리 벡터를 가져옵니다.
    response = client.retrieve(
        collection_name="movie_emb_kr",
        with_vectors = True,
        ids=[movieId]   # 리스트 형태로 ID 전달
    )
    # 조회가 되지 않은 영화는 임의의 영화정보로 반환합니다.
    if len(response) == 0:
        return np.random.choice(s_movieId, 10)
    results = client.query_points(
        collection_name="movie_emb_kr",
        query=response[0].vector, # 위에서구한 토이 스토리의 줄거리 벡터를 입력합니다.
        limit=11
    )
    # 가장 근거리에 있는 영화는 질의한 벡터와 동일한 내용이며, 이를 제외하기 위 해
    # 두 번째 부터 movieId를 반환합니다.
    return [i.id for i in results.points[1:]]

In [25]:
get_movies(vector_rcmd(1))

Unnamed: 0,movie_id,movie_title,original_language,original_title,poster_path,overview,series_id,release_date,runtime,tagline,imdb_id,adult,useyn,regtime
0,3114,토이 스토리 2,en,Toy Story 2,/gXUNsdIIn6NiEBvh8Mq6gjgVPm0.jpg,앤디가 카우보이 캠프에 간 동안 앤디의 어머니는 벼룩 시장을 열고 앤디의 장난감 중...,1,1999-10-30,94,무한한 도전과 꿈의 세계로,tt0120363,N,Y,
1,78499,토이 스토리 3,en,Toy Story 3,/hbUWahBLUon8RaIb9Tq7aWCBCtS.jpg,모든 장난감들이 겪는 가장 슬픈 일은 바로 주인이 성장해 더이상 자신들과 놀아주지 ...,1,2010-06-16,102,전세계가 감동한 가장 위대한 탈출,tt0435761,N,Y,
2,106022,토이 스토리: 공포의 대탈출,en,Toy Story of Terror!,/oPBEnNP4Fg4gv9c0KBhchmtoG4H.jpg,보니와 보니 엄마는 할머니 집에 가기 위해 트렁크 안에 보니의 장난감과 짐을 싣고 ...,0,2013-10-16,22,,tt2446040,N,Y,
3,108932,레고 무비,en,The Lego Movie,/6jpIioQUPX0laOuaPP8uIl16lyi.jpg,"배트맨, 슈퍼맨, 원더우먼, 인어공주, 초록닌자, 1980몇년 우주인, 미켈란젤로,...",1436,2014-02-06,100,세상의 모든 영웅들이 '레고'로 조립된다!,tt1490017,N,Y,
4,120474,토이 스토리: 공룡 전사들의 도시,en,Toy Story That Time Forgot,/q1ZCmu1H2BNCtSrM7jeS2O4ycXz.jpg,크리스마스에 보니를 따라 메이슨의 집으로 가게 된 우디와 버즈 그리고 토이 친구들....,0,2014-12-02,22,상상력은 아이들이 가진 최고의 장난감!!,tt3473654,N,Y,
5,124927,다락방의 토이 스토리,cs,Na půdě aneb Kdo má dneska narozeniny?,/hcNrx01ito7GQkNc2UeMrSxfwHq.jpg,어느 집 다락방에서 행복하게 살아가는 장난감들이 있다. 스페인 꼭두각시 인형 ‘핸...,0,2009-03-05,78,버려진 장난감과 장식품으로 가득 찬 오래된 다락방에서의 환상적이고 비밀스런 세계.,tt1342403,N,Y,
6,191401,우주 전사 버즈,en,Buzz Lightyear of Star Command: The Adventure ...,/3IXeVITL3FJ9CKpBK7lzULuw8Ts.jpg,전투에서 파트너 워프를 잃은 버즈는 다시는 동료를 위험에 빠뜨리지 않겠다고 결심한다...,0,2000-08-08,70,,tt0181196,N,Y,
7,201588,토이 스토리 4,en,Toy Story 4,/9P8IX4UyH3QFLL4MV6GZyuOB7Ue.jpg,앤디와 작별한 우디는 새로운 주인 보니와의 생활에 적응 중이다. 보니는 처음 간 유...,1,2019-06-19,100,우리의 여행은 아직 끝나지 않았다,tt1979376,N,Y,
8,262009,Toys,en,Toys,,,0,1966-01-01,8,,tt0206357,N,Y,
9,274197,버즈 라이트이어,en,Lightyear,/KJjJSbdThql8dMtwswseCvPF4h.jpg,"나, 버즈 라이트이어. 인류 구원에 필요한 자원을 감지하고 현재 수많은 과학자들과 ...",0,2022-06-15,105,"우주 저 너머 운명을 건 미션, 무한한 모험이 시작된다",tt10298810,N,Y,


In [26]:
evaluate(df_ratings_3000, vector_rcmd)

100%|██████████| 3000/3000 [00:27<00:00, 107.47it/s]


np.float64(0.06833333333333333)

## Task 3

Series와 Vector를 합친 로직을 만들어 봅니다.

Series의 수가 10개가 안되는 만큼은 영화 벡터를 이용하여 추천합니다.

In [27]:
def series_vector_rcmd(movieId):
    movieId = int(movieId)
    s = get_rows("SELECT series_id FROM movie WHERE movie_id = :movie_id", {'movie_id': movieId})
    if len(s) == 0:
        return np.random.choice(s_movieId, 10)
    series_id = int(s.loc['series_id'].iloc[0])
    if series_id > 0:
        series_list = get_rows(
            "SELECT movie_id FROM movie WHERE series_id = :series_id AND movie_id <> :movie_id ORDER BY release_date DESC",
            {'series_id': series_id, 'movie_id': movieId}
        )
        if len(series_list) > 1:
            series_list = series_list['movie_id'].tolist()
        elif len(series_list) == 1:
            series_list = [series_list.loc['movie_id'].iloc[0]]
        else:
            series_list = list()
    else:
        series_list = list()
    # 10개 미만일 경우 줄거리 벡터를 이용한 추천을 수행합니다.
    return (series_list + vector_rcmd(movieId, 10 - len(series_list)))[:10] if len(series_list) < 10 else series_list[:10]

In [28]:
get_movies(series_vector_rcmd(1))

Unnamed: 0,movie_id,movie_title,original_language,original_title,poster_path,overview,series_id,release_date,runtime,tagline,imdb_id,adult,useyn,regtime
0,3114,토이 스토리 2,en,Toy Story 2,/gXUNsdIIn6NiEBvh8Mq6gjgVPm0.jpg,앤디가 카우보이 캠프에 간 동안 앤디의 어머니는 벼룩 시장을 열고 앤디의 장난감 중...,1,1999-10-30,94,무한한 도전과 꿈의 세계로,tt0120363,N,Y,
1,78499,토이 스토리 3,en,Toy Story 3,/hbUWahBLUon8RaIb9Tq7aWCBCtS.jpg,모든 장난감들이 겪는 가장 슬픈 일은 바로 주인이 성장해 더이상 자신들과 놀아주지 ...,1,2010-06-16,102,전세계가 감동한 가장 위대한 탈출,tt0435761,N,Y,
2,106022,토이 스토리: 공포의 대탈출,en,Toy Story of Terror!,/oPBEnNP4Fg4gv9c0KBhchmtoG4H.jpg,보니와 보니 엄마는 할머니 집에 가기 위해 트렁크 안에 보니의 장난감과 짐을 싣고 ...,0,2013-10-16,22,,tt2446040,N,Y,
3,120474,토이 스토리: 공룡 전사들의 도시,en,Toy Story That Time Forgot,/q1ZCmu1H2BNCtSrM7jeS2O4ycXz.jpg,크리스마스에 보니를 따라 메이슨의 집으로 가게 된 우디와 버즈 그리고 토이 친구들....,0,2014-12-02,22,상상력은 아이들이 가진 최고의 장난감!!,tt3473654,N,Y,
4,191401,우주 전사 버즈,en,Buzz Lightyear of Star Command: The Adventure ...,/3IXeVITL3FJ9CKpBK7lzULuw8Ts.jpg,전투에서 파트너 워프를 잃은 버즈는 다시는 동료를 위험에 빠뜨리지 않겠다고 결심한다...,0,2000-08-08,70,,tt0181196,N,Y,
5,201588,토이 스토리 4,en,Toy Story 4,/9P8IX4UyH3QFLL4MV6GZyuOB7Ue.jpg,앤디와 작별한 우디는 새로운 주인 보니와의 생활에 적응 중이다. 보니는 처음 간 유...,1,2019-06-19,100,우리의 여행은 아직 끝나지 않았다,tt1979376,N,Y,
6,274197,버즈 라이트이어,en,Lightyear,/KJjJSbdThql8dMtwswseCvPF4h.jpg,"나, 버즈 라이트이어. 인류 구원에 필요한 자원을 감지하고 현재 수많은 과학자들과 ...",0,2022-06-15,105,"우주 저 너머 운명을 건 미션, 무한한 모험이 시작된다",tt10298810,N,Y,


In [29]:
evaluate(df_ratings_3000, series_vector_rcmd) # 순수 vector_db 기반: 0.06833333333333333 / 순수 series_id 기반: 0.060333333333333336

100%|██████████| 3000/3000 [00:44<00:00, 67.26it/s]


np.float64(0.06533333333333333)

# 콘텐츠 기반 (Content Based Recommendation) 정리

- DB에 담겨 있는 메타 데이터를 기반으로 동일 그룹에 있는 아이템 위주로 추천합니다.

- 아이템의 내용을 나타내는 임베딩 벡터를 만들고, 이를 이용하여 근거리에 있는 아이템들을 골라 추천합니다.

```mermaid

flowchart LR

  %% 1. 오프라인 파이프라인
  subgraph OFFLINE ["오프라인 파이프라인"]
    SRC["원천 컨텐츠 저장소"]
    VECEX["컨텐츠 벡터 추출"]
    VECSTORE["벡터 저장"]
  end

  %% 2. 컨텐츠 임베딩 서비스
  subgraph EMBED ["컨텐츠 임베딩 서비스"]
    EMB["임베딩 API"]
  end

  %% 3. 벡터 DB
  subgraph VDB ["벡터 DB"]
    VECDB["벡터 인덱스<br/>(아이템 ID ↔ 내용 벡터)"]
  end

  %% 4. 컨텐츠 기반 추천
  subgraph RECO ["컨텐츠 기반 추천"]
    RECSVC["아이템 서비스 백엔드"]
  end

  %% 5. RDBMS (아이템 그룹 정보)
  subgraph RDB ["RDBMS"]
    RDBMS["상품/그룹 테이블<br/>(아이템 ID ↔ 그룹 ID)"]
  end

  %% 오프라인: 컨텐츠 → 임베딩 → 벡터 DB 저장
  SRC --> VECEX
  VECEX --> |"아이템 컨텐츠<br/>(제목, 설명, 태그 등)"| EMB
  EMB --> |"내용 벡터"| VECSTORE
  VECSTORE --> |"아이템 ID + 내용 벡터"| VECDB

  %% 온라인: 아이템 ID → RDBMS → 동일 그룹 아이템 ID 리스트
  RECSVC --> |기준 아이템 ID| RDBMS
  RDBMS --> |동일 그룹 아이템 ID 리스트| RECSVC

  %% 온라인: 아이템 ID → 벡터 DB → 유사 아이템 ID
  RECSVC --> |기준 아이템 ID| VECDB
  VECDB --> |"유사 아이템 ID 리스트<br/>(추천 후보)"| RECSVC

```