# 임베딩을 활용한 영화 추천 시스템

OpenAI 임베딩 기능을 사용하여 영화 추천 시스템을 설계하고 구축하는 과정의 세 번째 프로젝트에 오신 것을 환영합니다. 이 모듈에서는 OpenAI 기계 학습 모델의 고급 자연어 이해 기능을 활용하여 영화 제목과 설명을 분석하고 일치시켜 사용자에게 맞춤형 추천을 제공합니다.

## 무엇을 배울 것인가

- **임베딩 이해**: 임베딩의 개념을 이해하고 의미론적 의미를 포착하는 방식으로 텍스트 데이터를 표현하는 방법을 이해합니다.
- **OpenAI의 임베딩 API**: 임베딩 생성을 위한 OpenAI의 API에 대해 알아보고 이를 활용하여 영화 메타데이터를 추천 알고리즘에 적합한 형식으로 변환하는 방법을 알아보세요.
- **추천 로직**: 코사인 유사성을 사용하여 사용자 선호도에 따라 가장 관련성이 높은 영화 추천을 찾는 추천 시스템용 로직을 구현합니다.
- **Pinecone**: Pinecone 벡터 데이터베이스 작업

## 프로젝트 목적

이 프로젝트는 다음과 같은 추천 시스템을 구축하도록 안내합니다.

1. **영화 데이터 처리**: 영화 제목과 설명을 콘텐츠의 본질을 포착하는 임베딩으로 변환합니다.
2. **유사성 계산**: 임베딩을 사용하여 사용자 쿼리 또는 과거 사용자 상호 작용을 기반으로 영화 간의 유사성을 찾습니다.
3. **추천 생성**: 사용자의 취향과 시청 기록에 맞는 추천 영화 목록을 제공합니다.



### Setting up API Key

# OpenAI API에 첫 번째 요청 보내기




### Vector 와 유사도

### 임베딩:

임베딩은 단어, 문장 또는 영화와 같은 것들을 과일에 대해 만든 목록과 마찬가지로 다양한 기능을 나타내는 숫자 목록(이 목록을 "벡터"라고 함)으로 바꾸는 방법입니다. 예를 들어, 영화의 경우 임베딩은 얼마나 액션이 가득한지, 로맨틱한지, 재미있는지 등을 나타낼 수 있습니다. 비슷한 영화가 비슷한 특징을 갖도록 계산됩니다.

![](https://cdn.sanity.io/images/vr8gru94/production/e016bbd4d7d57ff27e261adf1e254d2d3c609aac-2447x849.png)
Source: https://www.pinecone.io/learn/vector-embeddings/


### 벡터 유사도:

이제 두 개의 서로 다른 영화에 대한 두 개의 숫자 목록이 있다고 가정해 보겠습니다. 영화가 비슷한지 어떻게 알 수 있나요? 여기서 벡터 유사도가 측정됩니다.

요약하면,

- **임베딩**은 컴퓨터가 이해할 수 있는 특수 숫자 코드로 영화 등의 자세한 설명을 작성하는 것과 같습니다.
- **벡터 유사도**는 두 영화와 같이 두 숫자 집합이 나타내는 항목이 서로 얼마나 유사한지 알 수 있습니다.


![](https://cdn.sanity.io/images/vr8gru94/production/5a5ba7e0971f7b6dc4697732fa8adc59a46b6d8d-338x357.png)

Source: https://www.pinecone.io/learn/vector-similarity/

## Similarity (유사도)

내적 연산이 가능하도록 user_vector의 shape을 2차원 matrix 형태로 바꾸어 줍니다.

cosine 유사도 계산

## 가장 유사한 벡터 추천

np.argsort()는 배열 내의 원소들을 오름차순으로 정렬했을 때의 인덱스를 반환

# 대규모 데이터 세트로 확장

벡터를 정규화(normalize)하면 벡터 간 비교를 보다 공정하고 효과적으로 수행할 수 있습니다.  정규화는 벡터의 길이(크기)를 1로 만듭니다. 이렇게 하면 모든 벡터가 동일한 스케일을 가지게 되어, 벡터 간 비교 시 크기의 영향을 받지 않습니다.

### Pinecone으로 영화 추천 프로그램 구축

매번 embedding을 계산하지 않고 미리 계산한 embedding 값을 저장


Pinecone website: https://www.pinecone.io/ 에서 index 생성

## Searching the most similar movie