In [37]:
!pip install -qU langchain_openai

In [38]:
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model = 'text-embedding-3-small')

In [39]:
text = '임베팅 테스트를 위한 샘플 문장입니다.'

## 1. Quary Embedding

In [40]:
quary_result = embeddings.embed_query(text)

len(quary_result)

1536

## 2. Document Embedding

In [41]:
text_2 = "임베딩이란 임베딩은 데이터를 고정된 크기의 벡터로 변환하는 과정입니다. 보통 언어나 이미지와 같은 복잡한 데이터를 수학적으로 다루기 쉽게 표현하기 위해 사용됩니다."

# 차원을 임베딩하여 문서 벡터 생성
doc_result = embeddings.embed_documents(
    [text_2, text_2, text_2, text_2]
)

In [42]:
doc_result[0][:5]

[0.011202448979020119,
 0.013468556106090546,
 0.01064084842801094,
 -0.003973076120018959,
 0.0204737801104784]

In [43]:
len(doc_result[0])

1536

## 3. 차원을 강제 배정

In [46]:
scaled_embeddings = OpenAIEmbeddings(model = 'text-embedding-3-small', dimensions = 1024)

In [47]:
len(scaled_embeddings.embed_documents([text])[0])

1024

## 4. Similarity Calc

In [48]:
sentence1 = "안녕하세요? 반갑습니다."
sentence2 = "안녕하세요? 반갑습니다!"
sentence3 = "안녕하세요? 만나서 반가워요."
sentence4 = "Hi, nice to meet you."
sentence5 = "I like to eat apples."

In [50]:
from sklearn.metrics.pairwise import cosine_similarity

sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]
embedded_sentences=scaled_embeddings.embed_documents(sentences)

In [51]:
def similarity(a, b):
  return cosine_similarity([a], [b])[0][0]

In [52]:
for i , sentence in enumerate(embedded_sentences):
  for j, other_sentence in enumerate(embedded_sentences):
    if i <j:
      print(
          f"[유사도 {similarity(sentence, other_sentence):4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
          )

[유사도 0.964410] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.837563] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.504189] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.136176] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat apples.
[유사도 0.814209] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.479023] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you.
[유사도 0.131796] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat apples.
[유사도 0.512781] 안녕하세요? 만나서 반가워요. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.140877] 안녕하세요? 만나서 반가워요. 	 <=====> 	 I like to eat apples.
[유사도 0.224936] Hi, nice to meet you. 	 <=====> 	 I like to eat apples.


In [60]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# 다국어 지원 모델 불러오기
model = SentenceTransformer('distiluse-base-multilingual-cased')

# 문장 임베딩
sentences = [
    "안녕하세요? 반갑습니다.",
    "안녕하세요? 반갑습니다!",
    "안녕하세요? 만나서 반가워요.",
    "Hi, nice to meet you.",
    "I like to eat apples."
]
embedded_sentences = model.encode(sentences)

# 유사도 계산 함수
def similarity(a, b):
    return cosine_similarity([a], [b])[0][0]

# 유사도 출력
for i, sentence in enumerate(embedded_sentences):
    for j, other_sentence in enumerate(embedded_sentences):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.9952] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.9879] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.7848] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1997] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat apples.
[유사도 0.9794] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 만나서 반가워요.
[유사도 0.7696] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you.
[유사도 0.1915] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat apples.
[유사도 0.8436] 안녕하세요? 만나서 반가워요. 	 <=====> 	 Hi, nice to meet you.
[유사도 0.2137] 안녕하세요? 만나서 반가워요. 	 <=====> 	 I like to eat apples.
[유사도 0.1882] Hi, nice to meet you. 	 <=====> 	 I like to eat apples.
