In [1]:
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

# OpenAIEmbeddings

In [13]:
from langchain_openai import OpenAIEmbeddings

# OpenAI의 "text-embedding-3-small" 모델을 사용하여 임베딩을 생성합니다.
embeddings = OpenAIEmbeddings(model='text-embedding-3-small')

In [3]:
text = "임베딩 테스트를 하기 위한 샘플 문장입니다."

# 쿼리 임베딩

In [5]:
# 텍스트를 임베딩하여 쿼리 결과를 생성
query_result = embeddings.embed_query(text)

In [6]:
# 쿼리 결과의 처음 5개 항목을 선택
print(len(query_result))
query_result[:5]

3072


[-0.0032189274206757545,
 -0.007909913547337055,
 -0.012806527316570282,
 0.03005613572895527,
 0.016404038295149803]

# Document 임베딩

In [14]:
doc_result = embeddings.embed_documents([text])

In [15]:
# 문서 결과의 첫 번째 요소에서 처음 5개 항목을 선택
doc_result[0][:5]

[-0.007747666910290718,
 0.03676600381731987,
 0.019548965618014336,
 -0.0197015218436718,
 0.017206139862537384]

# 차원 지정

In [16]:
#  문서 결과의 첫 번쨰 요소의 길이를 반환
len(doc_result[0])

1536

In [17]:
# OpenAI의 "text-embedding-3-small"모델을 사용하여 1024 차원의 임베딩을 생성하는 객체를 초기화
embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-small", dimensions=1024)

In [18]:
# 주어진 텍스트를 임베딩하고 첫 번째 임베딩 벡터의 길이를 반환
len(embeddings_1024.embed_documents([text])[0])

1024

# 유사도 계산

In [19]:
sentence1 = "안녕하세요? 반갑습니다."
sentence2 = "안녕하세요? 반갑습니다!"
sentence3 = "안녕하세요? 만나서 반가워요."
sentence4 = "Hi, nice to meet you."
sentence5 = "I like to eat apples."

In [20]:
from sklearn.metrics.pairwise import cosine_similarity

sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]
embedded_sentences = embeddings_1024.embed_documents(sentences)

In [26]:
def similarity(a, b):
    return cosine_similarity([a], [b])[0][0]

In [27]:
for i, sentence in enumerate(embedded_sentences):
    for j, other_sentence in enumerate(embedded_sentences):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.9648] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.8410] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.5055] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1379] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat apples.
[유사도 0.8183] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.4796] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1335] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat apples.
[유사도 0.5126] 안녕하세요? 만나서 반가워요. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1424] 안녕하세요? 만나서 반가워요. 	 <=====> 	 I like to eat apples.
[유사도 0.2250] Hi, nice to meet you. 	 <=====> 	 I like to eat apples.
