In [1]:
from dotenv import load_dotenv

In [2]:
load_dotenv()

True

In [3]:
from langchain_openai import OpenAIEmbeddings

In [4]:
embeddings = OpenAIEmbeddings(model='text-embedding-3-small')

In [5]:
text = "임베딩 텍스트를 하기 위한 샘플 문장입니다."

#### quary embedding
`embeddings.embed_query`를 통해 주어진 텍스트를 임베딩으로 반환하는 함수.


In [8]:
query_result = embeddings.embed_query(text)
query_result[:5]

[-0.004174860659986734,
 0.03822271525859833,
 0.016065804287791252,
 0.004478904884308577,
 0.017179781571030617]

In [10]:
# 차원
len(query_result)

1536

#### docucment ebedding
`embeddings.embed_documents()`
- [text]를 인자로 받아 달일문서를 리스트 형태로 전달.

In [13]:
doc_result = embeddings.embed_documents([text, text, text, text])

In [14]:
len(doc_result)

4

In [15]:
len(doc_result[0])

1536

### 차원지정

`dimension` 을 전달함으로써 임베딩의 크기를 줄일 수 있다.

In [20]:
embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-small", dimensions=1024)

In [21]:
len(embeddings_1024.embed_documents([text])[0])

1024

In [22]:
#### 유사도계산

In [24]:
sentence1 = "사랑해 듄방"
sentence2 = "사랑해 뎨방"
sentence3 = "사랑해줘서 고마워"
sentence4 = "I love you DyunBang"
sentence5 = "I love you DyeBang"
sentence6 = "I like to eat meat"

In [50]:
from sklearn.metrics.pairwise import cosine_similarity

sentences = [sentence1, sentence2, sentence3 ,sentence4, sentence5, sentence6]
embed_sentences = embeddings_1024.embed_documents(sentences)

In [51]:
def similarity(a, b):
    return cosine_similarity([a], [b])[0][0]

In [52]:
for i, sentence in enumerate(embed_sentences):
    for j, other_sentence in enumerate(embed_sentences):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.7208] 사랑해 듄방 	 <=====> 	 사랑해 뎨방
[유사도 0.6454] 사랑해 듄방 	 <=====> 	 사랑해줘서 고마워
[유사도 0.3805] 사랑해 듄방 	 <=====> 	 I love you DyunBang
[유사도 0.3732] 사랑해 듄방 	 <=====> 	 I love you DyeBang
[유사도 0.1238] 사랑해 듄방 	 <=====> 	 I like to eat meat
[유사도 0.6626] 사랑해 뎨방 	 <=====> 	 사랑해줘서 고마워
[유사도 0.3544] 사랑해 뎨방 	 <=====> 	 I love you DyunBang
[유사도 0.3316] 사랑해 뎨방 	 <=====> 	 I love you DyeBang
[유사도 0.0930] 사랑해 뎨방 	 <=====> 	 I like to eat meat
[유사도 0.3254] 사랑해줘서 고마워 	 <=====> 	 I love you DyunBang
[유사도 0.3025] 사랑해줘서 고마워 	 <=====> 	 I love you DyeBang
[유사도 0.1431] 사랑해줘서 고마워 	 <=====> 	 I like to eat meat
[유사도 0.8236] I love you DyunBang 	 <=====> 	 I love you DyeBang
[유사도 0.1827] I love you DyunBang 	 <=====> 	 I like to eat meat
[유사도 0.2018] I love you DyeBang 	 <=====> 	 I like to eat meat
