In [None]:
#OpenAIEmbeddings

In [None]:
# 루트경로에 .env 파일을 만들고, OPENAI_API_KEY='{API_KEY}' 식으로 입력한다.
# API 키를 환경변수로 관리하기 위한 .env설정 파일 로딩
import os
from dotenv import load_dotenv

load_dotenv() # API 키 정보 로드
print(f"[API KEY]\n{os.environ['OPENAI_API_KEY']}")

In [2]:
from langchain_openai import OpenAIEmbeddings

# OpenAI의 "text-embedding-3-large" 모델을 사용하여 임베딩을 생성합니다.
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

text = ("임베딩 테스트를 하기 위한 샘플 문장입니다.")  # 테스트용 문서 텍스트를 정의합니다.

# 임베딩
query_result = embeddings.embed_query(text)

print(f'*벡터길이:{len(query_result)}')
print(query_result[:5])

*벡터길이:3072
[-0.0029831711300205687, -0.008144287037685861, -0.012891286422468696, 0.030138463331549372, 0.01702478081324163]


In [5]:
# 도큐먼트 임베딩

# embeddings.embed_documents() 함수를 사용하여 텍스트 문서를 임베딩합니다.
# text를 리스트 형태로 만들고, 임베딩 함수에 전달합니다.
# 함수 호출 결과로 반환된 임베딩 벡터를 doc_result 변수에 할당합니다.

text = ["안녕하세요", "날씨가 좋네요", "화창한 날씨 입니다.", "운동장에서 축구하고 있어요.", "반갑습니다."]
doc_result = embeddings.embed_documents(text)

print(f'*doc 벡터 수:{len(doc_result)}')

print(f'*1번째 doc 벡터: {doc_result[0][:10]}')
print(f'*3번째 doc 벡터: {doc_result[2][:10]}')


*doc 벡터 수:5
*1번째 doc 벡터: [-0.03816284589388166, -0.026379329928663993, -0.010243785507366298, 0.02217494683343758, 0.0025504003128992646, -0.0021514058917956073, 0.0016161908766246223, 0.018800193333382474, 0.01566448425979391, -0.00607455751081853]
*3번째 doc 벡터: [-0.019650334975989246, -0.04274467111535306, -0.003007392938696787, 0.008182550981876334, 0.018722165836765926, -0.012469231457955761, -0.0354170137420483, 0.01618191080881683, -0.0002950145644571675, -0.02911522683638425]


In [7]:
# 차원 지정
# dimensions=1024를 전달함으로써 임베딩의 크기를 1024로 줄일 수 있습니다.
# 원래 text-embedding-3-large 모델이 차원은 3072 임.
text = "안녕하세요"

embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-large", dimensions=1024)

# 주어진 텍스트를 임베딩하고 첫 번째 임베딩 벡터의 길이를 반환합니다.
# => text가 리스트가 아니므로 [] 붙여서 리스트 형태로 입력한다.
len(embeddings_1024.embed_documents([text])[0])

1024

In [8]:
# 유사도 계산
# => 여기서는 cosine_similarity 로 유사도 계산 함.

sentence1 = "안녕하세요? 반갑습니다."
sentence2 = "안녕하세요? 반갑습니다!"
sentence3 = "안녕하세요? 만나서 반가워요."
sentence4 = "Hi, nice to meet you."
sentence5 = "I like to eat apples."

from sklearn.metrics.pairwise import cosine_similarity

sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]
embedded_sentences = embeddings_1024.embed_documents(sentences)

def similarity(a, b):
    return cosine_similarity([a], [b])[0][0]

for i, sentence in enumerate(embedded_sentences):
    for j, other_sentence in enumerate(embedded_sentences):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.9652] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.8575] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.5451] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1725] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat apples.
[유사도 0.8402] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.5340] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1857] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat apples.
[유사도 0.5856] 안녕하세요? 만나서 반가워요. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1576] 안녕하세요? 만나서 반가워요. 	 <=====> 	 I like to eat apples.
[유사도 0.2474] Hi, nice to meet you. 	 <=====> 	 I like to eat apples.
