# 문서 임베딩(Document Embedding)

- 개념: 
    - 텍스트를 벡터(숫자 배열)로 변환하는 과정
    - 문서의 의미적 특성을 수치화하여 컴퓨터가 이해하고 처리할 수 있는 형태로 변환 

- 목적:
    - 텍스트 간 유사도 계산 가능
    - 벡터 데이터베이스 저장 및 검색
    - 의미 기반 문서 검색 구현

- LangChain의 임베딩 모델 종류:
    - OpenAI 임베딩
    - HuggingFace 임베딩 

### 1. **OpenAI**

- LangChain에서 가장 널리 사용되는 임베딩 모델 중 하나

- 주요 특징:
    1. 고품질의 임베딩 생성
    2. 다양한 언어 지원 (다국어 지원)
    3. 일관된 성능
    4. 손쉬운 통합

- 사용시 주의사항:
    1. API 키 설정이 필요 (환경 변수 OPENAI_API_KEY)
    2. API 사용량에 따른 비용 발생
    3. 긴 텍스트는 자동으로 분할되지 않으므로 필요시 TextSplitter를 사용



In [35]:
from langchain_openai import OpenAIEmbeddings

# OpenAIEmbeddings 모델 생성
embeddings_model = OpenAIEmbeddings(
    model="text-embedding-3-small",  # 사용할 모델 이름
    dimensions=None, # 원하는 임베딩 차원 수를 지정 가능 (기본값: None)
    )

# 임베딩 객체 출력
embeddings_model

OpenAIEmbeddings(client=<openai.resources.embeddings.Embeddings object at 0x000002CFC2370B90>, async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x000002CFC2370E10>, model='text-embedding-3-small', dimensions=None, deployment='text-embedding-ada-002', openai_api_version=None, openai_api_base=None, openai_api_type=None, openai_proxy=None, embedding_ctx_length=8191, openai_api_key=SecretStr('**********'), openai_organization=None, allowed_special=None, disallowed_special=None, chunk_size=1000, max_retries=2, request_timeout=None, headers=None, tiktoken_enabled=True, tiktoken_model_name=None, show_progress_bar=False, model_kwargs={}, skip_empty=False, default_headers=None, default_query=None, retry_min_seconds=4, retry_max_seconds=20, http_client=None, http_async_client=None, check_embedding_ctx_length=True)

In [36]:
# 임베딩 모델의 컨텍스트 길이 확인
embeddings_model.embedding_ctx_length

8191

In [34]:
from langchain_openai import OpenAIEmbeddings

# OpenAIEmbeddings 모델 생성할 때 임베딩 차원을 지정하는 예시
embeddings_openai = OpenAIEmbeddings(
    model="text-embedding-3-small",  # 사용할 모델 이름
    dimensions=1024, # 원하는 임베딩 차원 수를 지정 가능 (기본값: None)
    )

# 임베딩 모델의 임베딩 차원 확인 
embeddings_openai.dimensions

1024

In [53]:
# 문서 컬렉션
documents = [
    "비씨카드는 대한민국의 카드 회사입니다.",
    "비씨카드는 대한민국의 대표적인 신용카드 회사입니다.",
    "비씨카드는 다양한 카드 상품과 서비스를 제공합니다.",
    "비씨카드는 1982년에 설립되었습니다.",
    "비씨카드는 국내외 가맹점에서 사용이 가능합니다.",
    "비씨카드는 고객을 위한 포인트 적립 서비스를 운영합니다.",
    "비씨카드는 모바일 앱을 통해 카드 이용 내역을 확인할 수 있습니다.",
    "비씨카드는 플래티늄, 골드 등 다양한 등급의 카드를 발급합니다.",
    "비씨카드는 연회비가 카드 종류에 따라 다릅니다.",
    "비씨카드는 여행자 보험 등 부가 혜택을 제공합니다.",
    "비씨카드는 24시간 고객센터를 운영하고 있습니다.",
    "비씨카드는 을지로4가에 위치해 있습니다."
]

# 문서 임베딩
document_embeddings_openai = embeddings_openai.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings_openai)}")
print(f"임베딩 벡터의 차원: {len(document_embeddings_openai[0])}")
print(document_embeddings_openai[0])

임베딩 벡터의 개수: 12
임베딩 벡터의 차원: 1024
[-0.045776065438985825, -0.021966367959976196, -0.007032501976937056, -0.017070017755031586, 0.04009246081113815, -0.002517779590561986, -0.03947801515460014, 0.04942432790994644, 0.007498134858906269, -0.029090074822306633, 0.031279031187295914, 0.00890943594276905, -0.03642499819397926, -0.006989298854023218, 0.0370202399790287, 0.006451660301536322, -0.07292680442333221, 0.042473431676626205, 0.050768423825502396, -0.05821855366230011, 0.013364153914153576, -0.001306893303990364, 0.029109276831150055, 0.00362185831181705, 0.041590169072151184, 0.02198556810617447, -0.04224301502108574, -0.062020424753427505, 0.01767486147582531, -0.06543827056884766, 0.07496214658021927, -0.030050143599510193, 0.013364153914153576, -0.014938665553927422, -0.03847954422235489, 0.06217403709888458, 0.011856845580041409, 0.001603314420208335, 0.016868403181433678, -0.009725494310259819, -0.031547851860523224, -0.03849874809384346, -0.0036818627268075943, -0.0041402955539

In [54]:
embedded_query_openai = embeddings_openai.embed_query("비씨카드는 대한민국의 카드 회사입니다.")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query_openai)}")
print(embedded_query_openai)

쿼리 임베딩 벡터의 차원: 1024
[-0.04577624797821045, -0.021812843158841133, -0.007118936162441969, -0.017031682655215263, 0.04009262099862099, -0.002560992958024144, -0.03947817534208298, 0.04934771731495857, 0.007565369829535484, -0.02903258614242077, 0.031240753829479218, 0.008842266164720058, -0.0364251434803009, -0.006989326328039169, 0.037058793008327484, 0.006432484369724989, -0.0728502869606018, 0.04231998696923256, 0.05076862499117851, -0.05825718864798546, 0.013316202908754349, -0.001315299072302878, 0.02912859432399273, 0.003600271185860038, 0.04155192896723747, 0.0220432598143816, -0.04216637462377548, -0.062020670622587204, 0.017646128311753273, -0.06532332301139832, 0.07496244460344315, -0.03010786697268486, 0.01332580391317606, -0.014948326162993908, -0.03851810097694397, 0.062289491295814514, 0.011789687909185886, 0.0015553171979263425, 0.01677246391773224, -0.009715931490063667, -0.031643982976675034, -0.038575705140829086, -0.00359787093475461, -0.004181114956736565, -0.02718924

## 유사도 기반 검색

In [55]:
from langchain_community.utils.math import cosine_similarity
import numpy as np

# 쿼리와 가장 유사한 문서 찾기 함수
def find_most_similar(
        query: str, 
        doc_embeddings: np.ndarray,
        embeddings_model=OpenAIEmbeddings(model="text-embedding-3-small")
        ) -> tuple[str, float]:
    
    # 쿼리 임베딩: OpenAI 임베딩 사용 
    query_embedding = embeddings_model.embed_query(query)

    # 코사인 유사도 계산
    similarities = cosine_similarity([query_embedding], doc_embeddings)[0]

    # 가장 유사한 문서 인덱스 찾기
    most_similar_idx = np.argmax(similarities)

    # 가장 유사한 문서와 유사도 반환: 문서, 유사도
    return documents[most_similar_idx], similarities[most_similar_idx]

# 예제 쿼리
queries = [
    "비씨카드는 무슨 회사인가요?",
    "비씨카드는 어디에 있나요?",
    "비씨카드는 어떤 서비스를 제공하나요?"
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(
        query, 
        document_embeddings_openai,  
        embeddings_model=embeddings_openai
        )
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

쿼리: 비씨카드는 무슨 회사인가요?
가장 유사한 문서: 비씨카드는 대한민국의 카드 회사입니다.
유사도: 0.8047

쿼리: 비씨카드는 어디에 있나요?
가장 유사한 문서: 비씨카드는 을지로4가에 위치해 있습니다.
유사도: 0.7103

쿼리: 비씨카드는 어떤 서비스를 제공하나요?
가장 유사한 문서: 비씨카드는 다양한 카드 상품과 서비스를 제공합니다.
유사도: 0.8399



### 2. **Huggingface**

- LangChain에서 오픈소스 기반의 대표적인 임베딩 모델

- 주요 특징:
    1. 로컬 환경에서 실행 가능
    2. 다양한 사전학습 모델 지원
    3. 커스텀 모델 학습 및 적용 가능
    4. 무료 사용 가능 (API 비용 없음)

- 사용시 주의사항:
    1. 로컬 컴퓨팅 자원 필요 (CPU/GPU)
    2. 초기 모델 다운로드 시간 소요
    3. 메모리 사용량 고려 필요
    4. transformers 라이브러리 설치 필요

- 임베딩 벡터 특성:
    1. 모델별로 다양한 차원 제공 (128 ~ 1024)
    2. sentence-transformers 기반 구현
    3. BERT 계열 모델 구조 사용
    4. 코사인 유사도 기반 검색 최적화
    

In [49]:
from langchain_huggingface import HuggingFaceEmbeddings  

# Hugging Face의 임베딩 모델 생성
embeddings_bgem3 = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",          # 사용할 모델 이름 - BAAI BGE-m3 모델 (한국어 성능 우수)
    # model_kwargs={'device': 'cuda'}  # GPU 사용시
)

# 임베딩 객체 출력
embeddings_bgem3

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


HuggingFaceEmbeddings(model_name='BAAI/bge-m3', cache_folder=None, model_kwargs={}, encode_kwargs={}, query_encode_kwargs={}, multi_process=False, show_progress=False)

In [58]:
# 문서 임베딩
document_embeddings_bgem3 = embeddings_bgem3.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings_bgem3)}")
print(f"임베딩 벡터의 차원: {len(document_embeddings_bgem3[0])}")
print(document_embeddings_bgem3[0])

임베딩 벡터의 개수: 12
임베딩 벡터의 차원: 1024
[-0.07009272277355194, 0.00392479682341218, -0.057713624089956284, -0.022771961987018585, 0.019736284390091896, -0.038348451256752014, 0.029039572924375534, 0.01556734461337328, 0.03508009389042854, 0.021855540573596954, 0.010580862872302532, -0.00385659234598279, 0.055924978107213974, -0.011928308755159378, 0.020584605634212494, 0.013144491240382195, 0.029891276732087135, -0.032783228904008865, -0.005211268085986376, -0.01878165453672409, -0.006355759687721729, -0.005237333010882139, -0.03041297197341919, -0.012059148401021957, 0.0042849634774029255, -0.00484415702521801, 0.04621370881795883, 0.028947459533810616, 0.024365032091736794, 0.033970437943935394, 0.019917776808142662, -0.055325355380773544, -0.00878109224140644, 0.0032844801899045706, -0.010835855267941952, -0.034850724041461945, -0.015149620361626148, -0.03460505232214928, -0.042750872671604156, 0.020084992051124573, 0.038779374212026596, 0.03482868894934654, 0.04952514171600342, -0.00958638

In [59]:
embedded_query = embeddings_bgem3.embed_query("비씨카드는 무슨 회사인가요?")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query)}")
print(embedded_query)

쿼리 임베딩 벡터의 차원: 1024
[-0.10803040117025375, -0.014109528623521328, -0.04573613405227661, -0.014069447293877602, 0.010207826271653175, -0.023807957768440247, 0.01065624039620161, 0.034786157310009, 0.0438503697514534, 0.024456152692437172, 0.01726551353931427, 0.020693423226475716, 0.03959372639656067, -0.018687453120946884, 0.028222069144248962, -0.032854191958904266, 0.012792465277016163, -0.04574494808912277, -0.0133785055950284, -0.034107133746147156, -0.024127772077918053, -0.013771473430097103, -0.046293534338474274, -0.007217582780867815, 0.022848336026072502, 0.02261735312640667, 0.004730646498501301, 0.013127964921295643, 0.003431862685829401, 0.011591059155762196, 0.0028539567720144987, 0.006588953547179699, -0.01744307391345501, 0.005570349283516407, 0.0008546357857994735, -0.02427137829363346, 0.017230473458766937, -0.03347565978765488, -0.058664675801992416, -0.00416258629411459, 0.011495307087898254, 0.04645269736647606, 0.046686187386512756, -0.02662842720746994, -0.033609

In [60]:
# 예제 쿼리
queries = [
    "비씨카드는 무슨 회사인가요?",
    "비씨카드는 어디에 있나요?",
    "비씨카드는 어떤 서비스를 제공하나요?"
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(query, document_embeddings_bgem3, embeddings_model=embeddings_bgem3) 
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

쿼리: 비씨카드는 무슨 회사인가요?
가장 유사한 문서: 비씨카드는 대한민국의 카드 회사입니다.
유사도: 0.7824

쿼리: 비씨카드는 어디에 있나요?
가장 유사한 문서: 비씨카드는 을지로4가에 위치해 있습니다.
유사도: 0.7577

쿼리: 비씨카드는 어떤 서비스를 제공하나요?
가장 유사한 문서: 비씨카드는 다양한 카드 상품과 서비스를 제공합니다.
유사도: 0.7677

