In [1]:
from dotenv import load_dotenv
import os

load_dotenv(verbose=True)
key = os.getenv('OPENAI_API_KEY')

In [2]:
from langchain_openai import OpenAIEmbeddings

In [3]:
# OpenAI의 "text-embedding-3-small" 모델을 사용하여 임베딩을 생성합니다.
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

In [4]:
text = "임베딩 테스트를 하기 위한 샘플 문장"

In [11]:
# embeddings.embed_query(text)는 주어진 텍스트를 임베딩 벡터로 변환하는 함수.
# 이 함수는 텍스트를 벡터 공간에 매핑하여 의미적으로 유사한 텍스트를 찾거나 
# 텍스트 간의 유사도를 계산하는 데 사용될 수 있습니다.

In [7]:
# 텍스트를 임베딩하여 쿼리 결과를 생성합니다.
query_result = embeddings.embed_query(text)

In [10]:
# 쿼리 결과의 처음 5개 항목을 선택합니다.
print(query_result[:5])

[-0.003126329742372036, 0.03761707991361618, 0.029819512739777565, -0.020774785429239273, 0.014392915181815624]


In [13]:
# embeddings.embed_documents() 함수를 사용하여 텍스트 문서를 임베딩합니다.
# . [text]를 인자로 전달하여 단일 문서를 리스트 형태로 임베딩 함수에 전달합니다.
# . 함수 호출 결과로 반환된 임베딩 벡터를 doc_result 변수에 할당합니다.

In [15]:
# 텍스트를 임베딩하여 문서 벡터를 생성합니다.
doc_result = embeddings.embed_documents([text, text, text, text])

In [18]:
print(doc_result[0][:5])

[-0.003126329742372036, 0.03761707991361618, 0.029819512739777565, -0.020774785429239273, 0.014392915181815624]


In [23]:
from sklearn.metrics.pairwise import cosine_similarity

In [20]:
sentence1 = "안녕하세요? 반갑습니다."
sentence2 = "안녕하세요? 반갑습니다!"
sentence3 = "안녕하세요? 만나서 반가워요."
sentence4 = "Hi, nice to meet you."
sentence5 = "I like to eat apples."

In [25]:
# OpenAI의 "text-embedding-3-small" 모델을 사용하여 임베딩을 생성합니다.
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

In [26]:
sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]
embedded_sentences = embeddings.embed_documents(sentences)

In [27]:
def similarity(a, b):
    return cosine_similarity([a], [b])[0][0]

In [29]:
# sentence1 = "안녕하세요? 반갑습니다."
# sentence2 = "안녕하세요? 만나서 반가워요."
# sentence3 = "Hi, nice to meet you."
# sentence4 = "I like to eat apples."

for i, sentence in enumerate(embedded_sentences):
    for j, other_sentence in enumerate(embedded_sentences):
        if i < j:
            print(f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}")

[유사도 0.9623] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.8308] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.4916] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1446] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat apples.
[유사도 0.8118] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.4683] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1432] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat apples.
[유사도 0.4906] 안녕하세요? 만나서 반가워요. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1480] 안녕하세요? 만나서 반가워요. 	 <=====> 	 I like to eat apples.
[유사도 0.2341] Hi, nice to meet you. 	 <=====> 	 I like to eat apples.
