### OpenAIEmbeddings**

OpenAI 임베딩 모델 

다국어 지원 모델로 무난하게 사용 가능함

| MODEL                  | PAGES PER DOLLAR | PERFORMANCE ON MTEB EVAL | MAX INPUT |
|------------------------|------------------|---------------------------|-----------|
| text-embedding-3-small | 62,500           | 62.3%                     | 8191      |
| text-embedding-3-large | 9,615            | 64.6%                     | 8191      |
| text-embedding-ada-002 | 12,500           | 61.0%                     | 8191      |


[더 알아보기](https://platform.openai.com/docs/guides/embeddings/embedding-models)

In [1]:
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

text = "임베딩 테스트를 하기 위한 샘플 문장입니다."

### **쿼리 임베딩**


`embeddings.embed_query(text)`는 주어진 텍스트를 임베딩 벡터로 변환

질문에 대해서 임베딩

이 함수는 텍스트를 벡터 공간에 매핑하여 의미적으로 유사한 텍스트를 찾거나 텍스트 간의 유사도를 계산하는 데 사용

In [14]:
# 텍스트를 임베딩하여 쿼리 결과를 생성
query_result = embeddings.embed_query(text)

# 쿼리 결과의 처음 5개 항목을 선택합니다.
query_result[:5]

[-0.007747666910290718,
 0.03676600381731987,
 0.019548965618014336,
 -0.0197015218436718,
 0.017206139862537384]

### **Document 임베딩**

`embeddings.embed_documents()` 함수를 사용하여 텍스트 문서를 임베딩


In [None]:
doc_result = embeddings.embed_documents(
    [
        '안녕하세요!',
        '어! 오랜만이에요',
        '이름이 어떻게 되세요?',
        '날씨가 추워요',
        'Hello LLM!'
    ]
)  

# 문서 길이
len(doc_result)  

doc_result[0][:5]

### **차원 지정**

`text-embedding-3` 모델 클래스를 사용하면 반환되는 임베딩의 크기를 지정

 `text-embedding-3-small`는 1536 차원의 임베딩을 가짐


In [None]:
# 임베딩 차원 확인
len(doc_result[0])

1536

In [9]:
### 차원(dimensions) 조정

# 임베딩 크기 조정
embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-small", dimensions=1024)

len(embeddings_1024.embed_documents([text])[0])

1024

### **유사도 계산**


In [11]:
sentence1 = "안녕하세요? 반갑습니다."
sentence2 = "안녕하세요? 반갑습니다!"
sentence3 = "안녕하세요? 만나서 반가워요."
sentence4 = "Hi, nice to meet you."
sentence5 = "I like to eat apples."

In [12]:
# 코사인 유사도를 활용하여 임베딩 문장 간 유사도 계산
from sklearn.metrics.pairwise import cosine_similarity

sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]
embedded_sentences = embeddings_1024.embed_documents(sentences)

In [15]:
# 코사인 유사도 함수
def similarity(a, b):
    return cosine_similarity([a], [b])[0][0]

In [16]:
# sentence1 = "안녕하세요? 반갑습니다."
# sentence2 = "안녕하세요? 만나서 반가워요."
# sentence3 = "Hi, nice to meet you."
# sentence4 = "I like to eat apples."

for i, sentence in enumerate(embedded_sentences):
    for j, other_sentence in enumerate(embedded_sentences):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.9648] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.8410] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.5055] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1379] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat apples.
[유사도 0.8183] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.4796] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1335] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat apples.
[유사도 0.5126] 안녕하세요? 만나서 반가워요. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1424] 안녕하세요? 만나서 반가워요. 	 <=====> 	 I like to eat apples.
[유사도 0.2250] Hi, nice to meet you. 	 <=====> 	 I like to eat apples.
