## 기본적인 RAG 방법론 소개
- Embeddings에 대한 설명
- OpenAI Embeddings API

### 단어 기반 Retrieval 방법론의 한계
- 단어 기반 방법론은 단어의 의미나 문맥을 고려하지 않음
  - 따라서 동의어나 다의어를 구분 할 수 없음
- 단어를 의미를 가진 숫자로 표현하는 방법론 = 임베딩
  - 아래는 예시 숫자들이며 절대적인 숫자들을 매번 바뀔 수 있으나 비슷할 수록 비슷한 값들을 가지게 됨
    - "사과" = [0.2, -0.5, 0.7]
    - "배" = [0.18, -0.48, 0.65]
    - "컴퓨터" = [-0.6, 0.3, -0.2]
  - 위 숫자들은 일련의 딥러닝 모델의 학습 과정을 통해 거의 랜덤한 숫자들에서 시작해서 비슷한 단어들끼리 비슷한 값들을 가지게 됨
- 현재는 Transformer 구조 기반으로 학습된 딥러닝 모델 기반 임베딩의 성능이 가장 높은 편
  - 최근에는 아예 LLM 구조를 그대로 활용해서 임베딩을 생성
  - 성능은 가장 높을 수 있으나 비용이나 속도 면에서 비효율적일 수 있음

### Embeddings을 사용할 떄 알아야 할 점들
- (1) 차원 수가 높을 수록 (보통은) 더 성능이 높음
  - "사과"를 [0.2, -0.5, 0.7]로 표현
    - 3개의 숫자로 표현
    - 3차원 임베딩
  - 128 차원인 경우 128개의 숫자로 표현
  - 보통 256 ~ 4096 사이의 차원을 사용하고 384 ~ 1024 사이가 가장 흔히 사용되는 편
- (2) 차원 수가 높을 수록 연산 시간이 더 오래 걸리고 API 비용도 더 높음

### RAG의 가장 흔히 사용되는 Embeddings
- OpenAI나 Google은 ChatGPT이 Cutoff 이후의 데이터는 모른다는 점을 보완하기 위해 Embeddings API를 별도로 지원
  - Anthropic은 별도의 Embeddings API는 없어 타사 API 추천 (ex. Voyager)

### OpenAI Embeddings API
- 메인으로 2개의 임베딩 모델 제공 text-embedding-3-small, text-embedding-3-large
  - 임베딩 모델에 한해서는 GPT-4 만큼 압도적으로 좋진 않으나 범용적으로는 사용 가능한 수준
- text-embedding-3-small은 1536 차원, text-embedding-3-large는 3072 차원

In [1]:
# https://platform.openai.com/docs/models/embeddings
import os
from pathlib import Path
from dotenv import load_dotenv

# 1) 커널 확인용
import sys; print("PY:", sys.executable)

# 2) 현재 노트북 폴더의 .env를 명시적으로 로드
env_path = (Path(__file__).parent if "__file__" in globals() else Path.cwd()) / ".env"
print("ENV:", env_path)
load_dotenv(env_path, override=True)

# 3) 키 확인
key = os.getenv("OPENAI_API_KEY")
assert key, "OPENAI_API_KEY가 비어있습니다 (.env 또는 환경변수 설정 필요)"
print("KEY PREFIX:", key)

# 4) 클라이언트 테스트[]
from openai import OpenAI
client = OpenAI(api_key=key)
emb = client.embeddings.create(input="테스트", model="text-embedding-3-small")
len(emb.data[0].embedding)

OPENAI_API_KEY = key
client = OpenAI(api_key=OPENAI_API_KEY)

embedding = client.embeddings.create(
    input='내일 날씨는 어때?',
    model='text-embedding-3-small'
)

embedding

PY: d:\FAST_CAMF\Nine_Project\retrieval-augmented-generation\.venv-rag\Scripts\python.exe
ENV: d:\FAST_CAMF\Nine_Project\retrieval-augmented-generation\.env
KEY PREFIX: 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


CreateEmbeddingResponse(data=[Embedding(embedding=[-0.020322812721133232, 0.005296805407851934, -0.010005077347159386, -0.0017069783061742783, 0.036433931440114975, -0.005954308435320854, 0.037647780030965805, 0.01441908162087202, -0.033767133951187134, 0.00030892284121364355, -0.012110925279557705, 0.03902715817093849, -0.06455481797456741, -0.04550103098154068, -0.0006793428910896182, -0.014547823928296566, -0.0653640478849411, 0.030070407316088676, 0.01598237454891205, 0.01460299827158451, -0.014998420141637325, -0.03095320798456669, -0.01601915806531906, 0.03021753951907158, -0.0298497062176466, 0.01305809710174799, -0.03858575597405434, 0.022824082523584366, 0.0028507113456726074, -0.01663528010249138, -0.012156904675066471, -0.031063556671142578, 0.017720390111207962, -0.021426314488053322, 0.031817615032196045, 0.01155917439609766, 0.02832319587469101, 0.029555439949035645, -0.04071919247508049, -0.014667369425296783, -0.01850203610956669, -0.008129125460982323, -0.0116143496707

In [2]:
embedding.data[0].embedding

[-0.020322812721133232,
 0.005296805407851934,
 -0.010005077347159386,
 -0.0017069783061742783,
 0.036433931440114975,
 -0.005954308435320854,
 0.037647780030965805,
 0.01441908162087202,
 -0.033767133951187134,
 0.00030892284121364355,
 -0.012110925279557705,
 0.03902715817093849,
 -0.06455481797456741,
 -0.04550103098154068,
 -0.0006793428910896182,
 -0.014547823928296566,
 -0.0653640478849411,
 0.030070407316088676,
 0.01598237454891205,
 0.01460299827158451,
 -0.014998420141637325,
 -0.03095320798456669,
 -0.01601915806531906,
 0.03021753951907158,
 -0.0298497062176466,
 0.01305809710174799,
 -0.03858575597405434,
 0.022824082523584366,
 0.0028507113456726074,
 -0.01663528010249138,
 -0.012156904675066471,
 -0.031063556671142578,
 0.017720390111207962,
 -0.021426314488053322,
 0.031817615032196045,
 0.01155917439609766,
 0.02832319587469101,
 0.029555439949035645,
 -0.04071919247508049,
 -0.014667369425296783,
 -0.01850203610956669,
 -0.008129125460982323,
 -0.01161434967070818,
 -

In [3]:
len(embedding.data[0].embedding)

1536

In [4]:
embedding.usage

Usage(prompt_tokens=13, total_tokens=13)

### Embeddings API를 활용해서 텍스트 간의 유사도 구하기
- 두 텍스트 간의 얼마나 "비슷"한 지는 Cosine Similarity 또는 코사인 유사도 사용
- Cosine Similarity는 -1 ~ 1 사이로 표현되며 1은 완전히 같고, 0은 관련 없으며, -1은 정반대를 가리킴
  - Cosine Simialrity 계산을 위해서는 numpy라는 연산을 아주 빠르게 해주는 라이브러리 사용

In [5]:
import numpy as np


def get_embedding(text, model='text-embedding-3-small'):
    client = OpenAI(api_key=OPENAI_API_KEY)
    response = client.embeddings.create(
        input=text,
        model=model
    )
    return response.data[0].embedding


def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))


text1 = "오늘은 날씨가 좋아서 공원에 산책을 갔습니다."
text2 = "날씨가 맑아서 야외 활동하기 좋은 날이었습니다."

embedding1 = get_embedding(text1)
embedding2 = get_embedding(text2)

similarity = cosine_similarity(embedding1, embedding2)

print(f"두 텍스트의 유사도: {similarity}")

두 텍스트의 유사도: 0.4159765531425354


In [6]:
embedding1 = get_embedding(text1, model='text-embedding-3-large')
embedding2 = get_embedding(text2, model='text-embedding-3-large')

similarity = cosine_similarity(embedding1, embedding2)

print(f"두 텍스트의 유사도: {similarity}")

두 텍스트의 유사도: 0.6626894164947986


### OpenAI Embeddings API를 활용해서 관련 있는 텍스트를 Retrieve하는 예시

In [7]:
text1 = """(종합) 오늘 낮까지 비 곳, 오늘 강풍과 풍랑 유의, 내일 늦은 오후~저녁 경기동부 소나기, 모레 낮부터 비
○ (오늘, 30일) 대체로 흐림, 서울.경기도(경기남서부 제외) 중심 낮(12~15시)까지 비 곳
○ (내일, 7월 1일) 구름많음, 대기불안정으로 늦은 오후(15~18시)부터 저녁(18~21시) 사이 경기동부 소나기 곳, 서해5도 대체로 맑다가 저녁부터 구름많아짐
○ (모레, 7월 2일) 대체로 흐림, 서울.인천.경기도 낮(12~15시)부터 비, 서해5도(연평도 부근) 늦은 밤(21~24시) 가끔 비 곳
* 예상 강수량(30일 낮까지)
- 서울.경기도(경기남서부 제외): 5mm 미만
* 소나기에 의한 예상 강수량(7월 1일 늦은 오후~저녁)
- 경기동부: 5~20mm
* 예상 강수량(7월 2일 낮~)
- 서울.인천.경기도: 10~50mm
- 서해5도(7월 2일 밤): 5~20mm"""

text2 = """서울의 주요 관광지 안내:
서울은 한국의 수도로서 다양한 문화와 역사를 자랑하는 도시입니다. 다음은 서울에서 꼭 가봐야 할 주요 관광지입니다.

경복궁: 조선 시대의 대표적인 궁궐로, 한국 전통 건축의 아름다움을 느낄 수 있습니다.
남산타워: 서울의 전경을 한눈에 볼 수 있는 전망대입니다. 케이블카를 타고 올라가면 더욱 즐거운 경험이 됩니다.
인사동: 전통 공예품과 예술 작품을 구경할 수 있는 거리로, 다양한 전통 음식점과 카페도 즐길 수 있습니다.
홍대: 젊음의 거리로, 다양한 카페, 레스토랑, 그리고 스트리트 공연을 즐길 수 있습니다.
강남: 현대적이고 세련된 분위기의 지역으로, 쇼핑과 미식 탐험에 최적의 장소입니다.
서울을 여행하기 좋은 시기는 봄과 가을입니다. 날씨가 쾌적하고, 다양한 축제와 이벤트가 열리기 때문입니다. 여행을 계획할 때는 서울의 대중교통 시스템을 잘 활용하면 편리하게 이동할 수 있습니다.
"""

question = '내일 날씨는 어때?'

In [8]:
embedding_question = get_embedding(question)
embedding_text1 = get_embedding(text1)
embedding_text2 = get_embedding(text2)

similarity1 = cosine_similarity(embedding_question, embedding_text1)
similarity2 = cosine_similarity(embedding_question, embedding_text2)

similarity1, similarity2

(0.35876081469945786, 0.1861478178948842)

- 첫 번째 텍스트가 질문과 가장 유사함을 알 수 있음
  - 절대적인 숫자보다는 주어진 텍스트 중에서 가장 높은 지가 중요함

In [9]:
embedding_question = get_embedding(question, model='text-embedding-3-large')
embedding_text1 = get_embedding(text1, model='text-embedding-3-large')
embedding_text2 = get_embedding(text2, model='text-embedding-3-large')

similarity1 = cosine_similarity(embedding_question, embedding_text1)
similarity2 = cosine_similarity(embedding_question, embedding_text2)

similarity1, similarity2

(0.368090433203833, 0.23126885738292308)