# 3-2 OpenAI 임베딩 모델을 활용한 벡터의 유사도 측정

In [2]:
# numpy 라이브러리를 np라는 별칭으로 임포트
# np로 임포트하는 것이 필수는 아니지만, 개발자들 사이의 관습이다.
import numpy as np

def cosine_similarity(vec1, vec2):
    """
   두 벡터 간의 코사인 유사도를 계산합니다.

   매개변수:
   vec1 (numpy array): 첫 번째 벡터
   vec2 (numpy array): 두 번째 벡터

   반환값:
   float: vec1과 vec2 사이의 코사인 유사도
    """    
    dot_product = np.dot(vec1, vec2)
    norm_vec1 = np.linalg.norm(vec1)
    norm_vec2 = np.linalg.norm(vec2)
    
    if norm_vec1 == 0 or norm_vec2 == 0:
        return 0.0
    
    return dot_product / (norm_vec1 * norm_vec2)

openai_king_similarity = cosine_similarity(king_vector, korean_king_vector)
openai_king_similarity


0.5483164525441385

In [1]:
# 필요한 라이브러리 임포트
import os
import numpy as np
from dotenv import load_dotenv
from openai import OpenAI

# .env 파일에서 환경변수 로드
load_dotenv()
# OpenAI 클라이언트 인스턴스 생성
openai_client = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY")
)

# 영어 단어 "king"의 임베딩 벡터 생성
king_embedding_response = openai_client.embeddings.create(
    input="king",
    model="text-embedding-3-large"
)
# 응답에서 임베딩 벡터 추출하여 numpy 배열로 변환
king_vector = np.array(king_embedding_response.data[0].embedding)
# array([ 0.00871815,  0.02397883, -0.00098901, ...,  0.00805294, 0.00887467, -0.0021991 ])

# 한글 단어 "왕"의 임베딩 벡터 생성
korean_king_embedding_response = openai_client.embeddings.create(
    input="왕",
    model="text-embedding-3-large"
)

# 응답에서 임베딩 벡터 추출하여 numpy 배열로 변환
korean_king_vector = np.array(korean_king_embedding_response.data[0].embedding)
