# 임베딩 비교

In [None]:
import numpy as np
from langchain_community.utils.math import cosine_similarity

def find_most_similar_index(query_vector, document_vectors):
    """ (코사인 유사도 기준) 가장 유사한 문서 인덱스 반환 함수 """
    similarities = cosine_similarity([query_vector], document_vectors)[0]
    return np.argmax(similarities)

## OpenAI

In [None]:
!uv pip install langchain_openai

In [None]:
from dotenv import load_dotenv
load_dotenv()

In [None]:
from langchain_openai import OpenAIEmbeddings

# 임베딩 모델 생성
embeddings_openai = OpenAIEmbeddings(
    model="text-embedding-3-large", # 사용할 모델 이름
    dimensions=None,                # 임베딩 차원 수
)

# 문서 임베딩
documents = [
    "LangChain은 LLM 기반 애플리케이션 개발을 위한 프레임워크입니다.",
    "임베딩은 텍스트를 벡터 형태로 변환하는 작업입니다."
]
document_vectors = embeddings_openai.embed_documents(documents)

# 질의 임베딩
query_vector = embeddings_openai.embed_query("LangChain이란 무엇인가요?")

# 가장 유사한 문서 출력
documents[find_most_similar_index(query_vector, document_vectors)]

## HuggingFace

In [None]:
!uv pip install langchain-huggingface

In [None]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings  

# 임베딩 모델 생성
embeddings_bgem3 = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",          # 사용할 모델 이름
    # model_kwargs={'device': 'cuda'}  # GPU 사용시
    # model_kwargs={'device': 'mps'}   # Mac Silicon 사용시
)

# 문서 임베딩
documents = [
    "LangChain은 LLM 기반 애플리케이션 개발을 위한 프레임워크입니다.",
    "임베딩은 텍스트를 벡터 형태로 변환하는 작업입니다."
]
document_vectors = embeddings_bgem3.embed_documents(documents)

# 질의 임베딩
query_vector = embeddings_bgem3.embed_query("LangChain이란 무엇인가요?")

# 가장 유사한 문서 출력
documents[find_most_similar_index(query_vector, document_vectors)]

## Ollama

In [None]:
!uv pip install langchain-ollama

In [None]:
from langchain_ollama import OllamaEmbeddings 

# 임베딩 모델 생성
embeddings_ollama = OllamaEmbeddings(model="bge-m3")

# 문서 임베딩
documents = [
    "LangChain은 LLM 기반 애플리케이션 개발을 위한 프레임워크입니다.",
    "임베딩은 텍스트를 벡터 형태로 변환하는 작업입니다."
]
document_vectors = embeddings_ollama.embed_documents(documents)

# 질의 임베딩
query_vector = embeddings_ollama.embed_query("LangChain이란 무엇인가요?")

# 가장 유사한 문서 출력
documents[find_most_similar_index(query_vector, document_vectors)]