# 임베딩을 활용한 영화 추천 시스템

OpenAI 임베딩 기능을 사용하여 영화 추천 시스템을 설계하고 구축하는 과정의 세 번째 프로젝트에 오신 것을 환영합니다. 이 모듈에서는 OpenAI 기계 학습 모델의 고급 자연어 이해 기능을 활용하여 영화 제목과 설명을 분석하고 일치시켜 사용자에게 맞춤형 추천을 제공합니다.

## 무엇을 배울 것인가

- **임베딩 이해**: 임베딩의 개념을 이해하고 의미론적 의미를 포착하는 방식으로 텍스트 데이터를 표현하는 방법을 이해합니다.
- **OpenAI의 임베딩 API**: 임베딩 생성을 위한 OpenAI의 API에 대해 알아보고 이를 활용하여 영화 메타데이터를 추천 알고리즘에 적합한 형식으로 변환하는 방법을 알아보세요.
- **추천 로직**: 코사인 유사성을 사용하여 사용자 선호도에 따라 가장 관련성이 높은 영화 추천을 찾는 추천 시스템용 로직을 구현합니다.
- **Pinecone**: Pinecone 벡터 데이터베이스 작업

## 프로젝트 목적

이 프로젝트는 다음과 같은 추천 시스템을 구축하도록 안내합니다.

1. **영화 데이터 처리**: 영화 제목과 설명을 콘텐츠의 본질을 포착하는 임베딩으로 변환합니다.
2. **유사성 계산**: 임베딩을 사용하여 사용자 쿼리 또는 과거 사용자 상호 작용을 기반으로 영화 간의 유사성을 찾습니다.
3. **추천 생성**: 사용자의 취향과 시청 기록에 맞는 추천 영화 목록을 제공합니다.



In [1]:
!pip install -q openai
!pip install -q python-dotenv

### Setting up API Key

In [2]:
import os
import openai
import sys
sys.path.append('./')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

openai.api_key  = os.environ['OPENAI_API_KEY']

# OpenAI API에 첫 번째 요청 보내기




In [3]:
from openai import OpenAI

client = OpenAI()

### Vector 와 유사도

### 임베딩:

임베딩은 단어, 문장 또는 영화와 같은 것들을 과일에 대해 만든 목록과 마찬가지로 다양한 기능을 나타내는 숫자 목록(이 목록을 "벡터"라고 함)으로 바꾸는 방법입니다. 예를 들어, 영화의 경우 임베딩은 얼마나 액션이 가득한지, 로맨틱한지, 재미있는지 등을 나타낼 수 있습니다. 비슷한 영화가 비슷한 특징을 갖도록 계산됩니다.

![](https://cdn.sanity.io/images/vr8gru94/production/e016bbd4d7d57ff27e261adf1e254d2d3c609aac-2447x849.png)
Source: https://www.pinecone.io/learn/vector-embeddings/


### 벡터 유사도:

이제 두 개의 서로 다른 영화에 대한 두 개의 숫자 목록이 있다고 가정해 보겠습니다. 영화가 비슷한지 어떻게 알 수 있나요? 여기서 벡터 유사도가 측정됩니다.

요약하면,

- **임베딩**은 컴퓨터가 이해할 수 있는 특수 숫자 코드로 영화 등의 자세한 설명을 작성하는 것과 같습니다.
- **벡터 유사도**는 두 영화와 같이 두 숫자 집합이 나타내는 항목이 서로 얼마나 유사한지 알 수 있습니다.


![](https://cdn.sanity.io/images/vr8gru94/production/5a5ba7e0971f7b6dc4697732fa8adc59a46b6d8d-338x357.png)

Source: https://www.pinecone.io/learn/vector-similarity/

In [5]:
experiment_sentence = "터미네이터는 AI가 인간을 추적하는 영화다."

In [8]:
# OpenAI 클라이언트로부터 임베딩 생성 요청
response = client.embeddings.create(
    model="text-embedding-ada-002",  # 사용할 모델 지정
    input=experiment_sentence         # 임베딩을 생성할 문장
)

# 생성된 임베딩 결과 출력
print(response.data[0].embedding)

[-0.016972200945019722, -0.058160677552223206, -0.0015313997864723206, -0.03826223686337471, 0.010579989291727543, 0.015008368529379368, -0.029912691563367844, 0.00523472111672163, -0.005247726570814848, 0.007218062877655029, -0.006385709624737501, 0.01894904114305973, -0.0025328246410936117, -0.022356485947966576, -0.002667756984010339, -0.013278634287416935, 0.017505427822470665, -0.0036610534880310297, 0.014345087110996246, -0.023552993312478065, -0.0050298841670155525, 0.0033911890350282192, -0.00624264869838953, -0.025139667093753815, 0.0008278825553134084, 0.007035985589027405, 0.014176014810800552, -0.0499672032892704, 0.00117862515617162, -0.0027100248262286186, 0.04013502970337868, -0.003898404072970152, 0.0006730355671606958, -0.020808828994631767, -0.008492603898048401, 0.02209637500345707, 0.01764848828315735, 0.001076206681318581, 0.005806963890790939, -0.0012964876368641853, 0.009780149906873703, -0.006102839484810829, -0.006466994062066078, -0.007048991043120623, -0.0043

## Similarity (유사도)

In [9]:
toy_dataset = [
    "명량은 이순신 장군에 관한 영화다.",
    "해리포터는 마법사와 마법에 관한 영화 입니다",
    "영화 매트릭스에서 AI는 이미 가장 강력한 존재가 되어 있습니다.'"
]

In [10]:
# 임베딩을 저장할 빈 리스트 생성
toy_vectors = []

# 여러 문장에 대한 임베딩 생성 요청
embeddings = client.embeddings.create(
    model="text-embedding-ada-002",  # 사용할 모델 지정
    input=toy_dataset        # 임베딩을 생성할 문장들의 리스트
)

# 생성된 임베딩을 toy_vectors 리스트에 추가
for data in embeddings.data:
    toy_vectors.append(data.embedding)

In [11]:
user_request = input('어떤 영화를 원하시나요?')

user_embedding = client.embeddings.create(
    model='text-embedding-ada-002',
    input=user_request
)

user_vector = user_embedding.data[0].embedding

어떤 영화를 원하시나요?임진왜란에 관한 영화


In [13]:
import numpy as np

np.array(user_vector).shape

(1536,)

In [14]:
np.array(toy_vectors).shape

(3, 1536)

내적 연산이 가능하도록 user_vector의 shape을 2차원 matrix 형태로 바꾸어 줍니다.

In [16]:
user_vector = np.array(user_vector).reshape(1, -1)
user_vector.shape

(1, 1536)

cosine 유사도 계산

In [17]:
similarities = np.dot(user_vector, np.array(toy_vectors).T)
similarities

array([[0.86258015, 0.84274929, 0.79887357]])

## 가장 유사한 벡터 추천

np.argsort()는 배열 내의 원소들을 오름차순으로 정렬했을 때의 인덱스를 반환

In [18]:
# 유사도가 높은 순서대로 원소의 인덱스를 반환
np.argsort(-similarities)

array([[0, 1, 2]])

In [20]:
# 유사도가 높은 순서대로 영화의 제목 출력
[toy_dataset[id] for id in np.argsort(-similarities)[0]]

['명량은 이순신 장군에 관한 영화다.',
 '해리포터는 마법사와 마법에 관한 영화 입니다',
 "영화 매트릭스에서 AI는 이미 가장 강력한 존재가 되어 있습니다.'"]

# 대규모 데이터 세트로 확장

In [33]:
import pandas as pd

df = pd.read_excel("movies_5000_korean.xlsx", header=None)

df.columns = ['title', 'overview', 'kor_overview']

print(df.shape)
df.head()

(4998, 3)


Unnamed: 0,title,overview,kor_overview
0,Toy Story,"Led by Woody, Andy's toys live happily in his ...",Woody가 이끄는 Andy의 장난감은 Andy의 생일이 Buzz Lightyear...
1,Jumanji,When siblings Judy and Peter discover an encha...,형제 인 Judy와 Peter가 마법의 세계의 문을 열어주는 마법의 보드 게임을 발...
2,Grumpier Old Men,A family wedding reignites the ancient feud be...,가족 결혼식은 옆집 이웃과 낚시 친구 인 John과 Max 사이의 고대 불화를 통치...
3,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...","속임수를 쓰고 학대를 당하고 발을 딛고, 여자들은 숨을들이 쉬고, 애매한 ""좋은 사..."
4,Father of the Bride Part II,Just when George Banks has recovered from his ...,"조지 뱅크스가 딸의 결혼식에서 회복되었을 때, 그는 그녀가 임신했다는 소식을 받았습..."


In [34]:
df.tail()

Unnamed: 0,title,overview,kor_overview
4993,The Deadly Mantis,The calving of an Arctic iceberg releases a gi...,북극 빙산의 분만은 선사 시대부터 정지 된 애니메이션에 갇힌 거대한기도 만티를 풀어...
4994,Dragonfly,A grieving doctor is being contacted by his la...,슬픔에 빠진 의사는 사망 경험 근처의 환자를 통해 늦은 아내와 연락을 취하고 있습니다.
4995,Queen of the Damned,Lestat de Lioncourt is awakened from his slumb...,Lestat de Lioncourt는 그의 잠에서 깨어났습니다. 그의 존재에 지루해...
4996,Big Bad Love,Vietnam veteran Leon Barlow is struggling as a...,베트남 베테랑 레온 바로우 (Leon Barlow)는 작가로서 어려움을 겪고 있으며...
4997,Green Dragon,A tale about Vietnamese refugees sent to an or...,베트남 난민에 대한 이야기는 캘리포니아의 캠프 펜들턴 해양 기지의 오리엔테이션 캠프...


In [35]:
df.isnull().sum()

title            0
overview        23
kor_overview    23
dtype: int64

In [36]:
# Drop missing values
df.dropna(inplace=True)
df.shape

(4975, 3)

In [37]:
# API 비용 절감을 위해 추천 시스템에 50편의 영화만 사용
df = df[:50]
df.shape

(50, 3)

In [63]:
df['kor_overview'].iloc[-1]

'레니와 그의 아내 아만다가 아기를 입양했을 때 레니는 그의 아들이 천재라는 것을 깨닫고 그녀도 화려하기를 희망하면서 소년의 생물학적 어머니를 찾는 데 집착하게됩니다. 그러나 맥스의 어머니가 친절한 매춘부이자 포르노 스타 인 린다 애쉬 (Linda Ash)라는 것을 알게되면 레니는 부도덕 한 생활 방식을 개혁하기로 결심했다. 이 기발한 코미디에서 그리스의 합창단이 그리스 신화와 관련이 있습니다.'

In [68]:
# 임베딩을 저장할 빈 리스트 생성
toy_vectors = []

# DataFrame에서 한글 개요 열의 값을 리스트로 변환하여 임베딩 생성 요청
embeddings = client.embeddings.create(
    model="text-embedding-ada-002",  # 사용할 모델 지정
    input=df['kor_overview'].values.tolist()  # 임베딩을 생성할 한글 텍스트 리스트
)

# 생성된 임베딩을 toy_vectors 리스트에 추가
for data in embeddings.data:
    toy_vectors.append(data.embedding)

In [50]:
print(toy_vectors[0])

[-0.026263246312737465, -0.04251895099878311, 0.006696800235658884, -0.024573490023612976, -0.015509068965911865, 0.010734528303146362, -0.014002698473632336, 0.004381573759019375, -0.007747984956949949, 0.015391179360449314, 0.0008735312731005251, 0.010217122733592987, -0.010989956557750702, 0.01105545088648796, 0.0008346440154127777, 0.006582185160368681, 0.019255347549915314, 0.013858610764145851, 0.002893214114010334, -0.01642598956823349, 0.00451256288215518, -0.010708331130445004, -0.016832055523991585, -0.012404635548591614, 0.02203230932354927, 0.001699579181149602, 0.011258483864367008, -0.012529074214398861, 0.026695508509874344, -0.011232285760343075, 0.042387962341308594, -0.005753681063652039, -0.0008027154835872352, -0.007577699609100819, -0.015417376533150673, -0.010249869897961617, 0.013013732619583607, -0.022582462057471275, 0.01634739711880684, -0.011081648990511894, 0.0011101297568529844, 0.0011183165479451418, -0.019504226744174957, -0.009477037005126476, -0.0175786

In [64]:
user_request = input('어떤 영화를 원하시나요?  ')
user_embedding = client.embeddings.create(
    model='text-embedding-ada-002',
    input=user_request
)

user_vector = user_embedding.data[0].embedding
user_vector = np.array(user_vector).reshape(1, -1)
user_vector.shape

어떤 영화를 원하시나요?  아기의 친모를 찾는 과정의 코메디 영화


(1, 1536)

벡터를 정규화(normalize)하면 벡터 간 비교를 보다 공정하고 효과적으로 수행할 수 있습니다.  정규화는 벡터의 길이(크기)를 1로 만듭니다. 이렇게 하면 모든 벡터가 동일한 스케일을 가지게 되어, 벡터 간 비교 시 크기의 영향을 받지 않습니다.

In [65]:
# user_vector 정규화
user_vector_norm = user_vector / np.linalg.norm(user_vector)

# toy_vectors 정규화
toy_vectors_norm = np.array(toy_vectors) / np.linalg.norm(toy_vectors, axis=1, keepdims=True)

# 정규화된 벡터들 간의 코사인 유사도 계산
similarities = np.dot(user_vector_norm, toy_vectors_norm.T)
similarities

array([[0.78969851, 0.80927787, 0.81333252, 0.81175487, 0.80458007,
        0.79392181, 0.81091371, 0.76140241, 0.78556351, 0.78273647,
        0.77791495, 0.77588418, 0.78147508, 0.7807835 , 0.79720938,
        0.77680482, 0.7882413 , 0.74783965, 0.79119819, 0.7891437 ,
        0.80719878, 0.79748234, 0.75616047, 0.79254272, 0.79080953,
        0.84558662, 0.8220222 , 0.7844343 , 0.80419841, 0.78578757,
        0.78126328, 0.81117035, 0.76099248, 0.8044206 , 0.78597447,
        0.81025086, 0.78177258, 0.80856542, 0.78145603, 0.77110704,
        0.78179446, 0.79610869, 0.81890229, 0.81644534, 0.80566463,
        0.79511007, 0.80171173, 0.79378308, 0.77964288, 0.82315507]])

In [69]:
# 유사도 점수에 따라 정렬된 인덱스를 얻기 위해 np.argsort 사용
# -similarities를 사용하여 유사도가 높은 순서대로 정렬
sorted_indices = np.argsort(-similarities)[0]

# 정렬된 인덱스에 따라 상위 5개 행을 추출
top_5_rows = [df.iloc[id] for id in sorted_indices][:5]
top_5_rows

[title                                                     Othello
 overview        The evil Iago pretends to be friend of Othello...
 kor_overview    사악한 이아고는이 셰익스피어 클래식의 영화 버전에서 자신의 끝을 제공하기 위해 그를...
 Name: 25, dtype: object,
 title                                            Mighty Aphrodite
 overview        When Lenny and his wife, Amanda, adopt a baby,...
 kor_overview    레니와 그의 아내 아만다가 아기를 입양했을 때 레니는 그의 아들이 천재라는 것을 깨...
 Name: 50, dtype: object,
 title                                                Now and Then
 overview        Waxing nostalgic about the bittersweet passage...
 kor_overview    어린 시절부터 사춘기까지의 쓴맛에 대한 향수는이 부드러운 시대의 이야기, 4 명의 ...
 Name: 26, dtype: object,
 title                                                  To Die For
 overview        Susan wants to work in television and will the...
 kor_overview    수잔은 텔레비전에서 일하기를 원하므로 남편을 죽이는 것을 의미하더라도 필요한 모든 ...
 Name: 43, dtype: object,
 title                               How To Make An American Quilt
 overview        Soon-to-

### Pinecone으로 영화 추천 프로그램 구축

매번 embedding을 계산하지 않고 미리 계산한 embedding 값을 저장


Pinecone website: https://www.pinecone.io/ 에서 index 생성

In [67]:
!pip install -q pinecone-client

In [74]:
import pinecone

pinecone.init(
    api_key = os.environ['PINECONE_API_KEY'],
    environment="gcp-starter"
)

index = pinecone.Index('movies')   # Index : 대문자로 시작 (주의)

In [75]:
# df의 각 행에 대해 반복
for i in range(len(df)):
    # 인덱스에 벡터와 관련 데이터 삽입
    upsert_response = index.upsert(
        vectors=[
            (
                str(i),                # 각 행의 고유 식별자
                toy_vectors[i],        # 해당 행에 대응하는 임베딩 벡터
                {"title": df.iloc[i]['title']}  # 추가적으로 저장할 데이터 (여기서는 제목)
            )
        ]
    )

## Searching the most similar movie

In [76]:
user_request = input("어떤 영화를 원하시나요? ")

user_vector = client.embeddings.create(
    model="text-embedding-ada-002",
    input=user_request)

user_vector = user_vector.data[0].embedding

# 인덱스에서 유사한 항목을 조회
matches = index.query(
    user_vector,            # 조회할 벡터
    top_k=10,               # 상위 k개의 가장 유사한 항목을 반환
    include_metadata=True)  # 각 항목의 메타데이터도 포함하여 반환

matches

어떤 영화를 원하시나요? 아기의 친모를 찾는 과정의 코미디 영화


{'matches': [{'id': '25',
              'metadata': {'title': 'Othello'},
              'score': 0.845816,
              'values': []},
             {'id': '49',
              'metadata': {'title': 'Mighty Aphrodite'},
              'score': 0.824589372,
              'values': []},
             {'id': '26',
              'metadata': {'title': 'Now and Then'},
              'score': 0.822360754,
              'values': []},
             {'id': '42',
              'metadata': {'title': 'To Die For'},
              'score': 0.820863843,
              'values': []},
             {'id': '43',
              'metadata': {'title': 'How To Make An American Quilt'},
              'score': 0.815792,
              'values': []},
             {'id': '6',
              'metadata': {'title': 'Sabrina'},
              'score': 0.814573348,
              'values': []},
             {'id': '35',
              'metadata': {'title': 'It Takes Two'},
              'score': 0.811990857,
              'valu