### OpenAIEmbeddings
- 문서의 내용을 수치적인 백터로 변환하는 과정
- 문서의 의미를 수치화 , 모델들이 문맥적 정보를 이해 할 수 있게 한다.
- 백터화된 문서들은 문서 분류, 감정 분석 , 문서간 유사도 계산에 사용 될 수 있다. 

지원되는 모델 목록

| MODEL                  | PAGES PER DOLLAR | PERFORMANCE ON MTEB EVAL | MAX INPUT |
|------------------------|------------------|---------------------------|-----------|
| text-embedding-3-small | 62,500           | 62.3%                     | 8191      |
| text-embedding-3-large | 9,615            | 64.6%                     | 8191      |
| text-embedding-ada-002 | 12,500           | 61.0%                     | 8191      |

In [19]:
from dotenv import load_dotenv

load_dotenv()

True

In [20]:
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

In [21]:
text = "임베딩 테스트 샘플 문장"

### 쿼리 임베딩
embeddings.embed_query(text) 

- 주어진 텍스트를 임베딩 벡터로 변환하는 함수
- 텍스트를 벡터공간에 매핑해, 의미적으로 유사한 텍스트를 찾거나, 유사도를 계산할때 사용


In [22]:
query_reulst = embeddings.embed_query(text)

**Document 임베딩**

embeddings.embed_documents()
- 함수를 사용하여 텍스트 문서를 임베딩
- [text] 를 인자로 전달해 단일 문서를 리스트 형태로 임베딩 함수에 전달

In [23]:
doc_result = embeddings.embed_documents(
    [text,text,text,text]
)

In [24]:
len(doc_result)

4

In [25]:
doc_result[0][:5]

[-0.01682295836508274,
 0.034483473747968674,
 0.038168732076883316,
 -0.03393307700753212,
 0.006544920150190592]

### 차원지정
- text-embeddings-3-small 모델같은 경우 1536 차원의 임베딩을 반환

In [26]:
len(doc_result[0])

1536

In [40]:
# 차원이 1024인 text-embedding-3-small 모델 생성
embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-small", dimensions = 1024)

In [38]:
pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.5.2-cp311-cp311-win_amd64.whl.metadata (13 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.14.1-cp311-cp311-win_amd64.whl.metadata (60 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.5.2-cp311-cp311-win_amd64.whl (11.0 MB)
   ---------------------------------------- 0.0/11.0 MB ? eta -:--:--
   ----------------------------- ---------- 8.1/11.0 MB 41.8 MB/s eta 0:00:01
   ---------------------------------------- 11.0/11.0 MB 27.5 MB/s eta 0:00:00
Downloading scipy-1.14.1-cp311-cp311-win_amd64.whl (44.8 MB)
   ---------------------------------------- 0.0/44.8 MB ? eta -:--:--
   ----- ---------------------------------- 6.3/44.8 MB 64.1 MB/s eta 0:00:01
   ------------- -------------------------- 14.9/44.8 MB 36.1 MB/s eta 0:00:01
   ----------------------- ---------------- 26.2/44.8 MB 42.5 MB/s eta 0:00:01
   --

In [41]:
doc_result_1024 = embeddings_1024.embed_documents([text, text,text,text])
len(doc_result_1024[0])

1024

In [42]:
sentence1= '안녕 반가워'
sentence2= '안녕 반가워!'
sentence3= '안녕 반가워 지... 않아!!!!!!!!!!!'
sentence4= 'Hi nice to meet you'
sentence5= 'I like to eat pizza'

코사인 유사도
-1 ~1  사이의 값을 반환

**의미**
- 1에 가까울 수록 더 유사
- 0 은 관계없음
- -1 반대됨

In [43]:
from sklearn.metrics.pairwise import cosine_similarity

sentences = [sentence1,sentence2,sentence3,sentence4,sentence5]
embedd_sentnence = embeddings_1024.embed_documents(sentences)

In [44]:
def similarity(a,b):
    return cosine_similarity([a],[b])[0][0]

In [46]:
for i, sentence in enumerate(embedd_sentnence):
    for j, other_sentence in enumerate(embedd_sentnence):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.9234] 안녕 반가워 	 <=====> 	 안녕 반가워!
[유사도 0.7668] 안녕 반가워 	 <=====> 	 안녕 반가워 지... 않아!!!!!!!!!!!
[유사도 0.3546] 안녕 반가워 	 <=====> 	 Hi nice to meet you
[유사도 0.0719] 안녕 반가워 	 <=====> 	 I like to eat pizza
[유사도 0.7494] 안녕 반가워! 	 <=====> 	 안녕 반가워 지... 않아!!!!!!!!!!!
[유사도 0.3537] 안녕 반가워! 	 <=====> 	 Hi nice to meet you
[유사도 0.0668] 안녕 반가워! 	 <=====> 	 I like to eat pizza
[유사도 0.2632] 안녕 반가워 지... 않아!!!!!!!!!!! 	 <=====> 	 Hi nice to meet you
[유사도 0.0411] 안녕 반가워 지... 않아!!!!!!!!!!! 	 <=====> 	 I like to eat pizza
[유사도 0.2273] Hi nice to meet you 	 <=====> 	 I like to eat pizza
