# 텍스트 임베딩 테스트

이 노트북은 다양한 임베딩 모델을 테스트하고 비교하는 예제를 제공합니다. 임베딩(Embedding)은 텍스트를 고차원 벡터 공간에 매핑하는 과정으로, RAG(Retrieval-Augmented Generation) 시스템의 핵심 요소입니다.

## 임베딩이란?

임베딩은 텍스트, 이미지 등의 데이터를 수치 벡터로 변환하는 과정입니다. 이러한 벡터는 원본 데이터의 의미적 특성을 포착하며, 유사한 의미를 가진 데이터는 벡터 공간에서 서로 가깝게 위치하게 됩니다.

## RAG 시스템에서의 역할

임베딩은 RAG 시스템에서 다음과 같은 역할을 합니다:
1. 문서를 벡터로 변환하여 벡터 데이터베이스에 저장
2. 사용자 쿼리를 벡터로 변환하여 유사한 문서 검색
3. 의미적 유사성을 기반으로 관련 정보 검색

In [3]:
import os
from dotenv import load_dotenv

load_dotenv()

True

In [4]:
from langchain_core.documents import Document

texts = [
    "안녕, 만나서 반가워.",
    "LangChain simplifies the process of building applications with large language models",
    "랭체인 한국어 튜토리얼은 LangChain의 공식 문서, cookbook 및 다양한 실용 예제를 바탕으로 하여 사용자가 LangChain을 더 쉽고 효과적으로 활용할 수 있도록 구성되어 있습니다. ",
    "LangChain은 초거대 언어모델로 애플리케이션을 구축하는 과정을 단순화합니다.",
    "Retrieval-Augmented Generation (RAG) is an effective technique for improving AI responses.",
]

## 테스트 데이터

아래는 임베딩을 테스트하기 위한 다양한 텍스트 샘플입니다. 한국어와 영어 텍스트를 모두 포함하여 다국어 처리 능력을 테스트합니다.

### 구글

## 임베딩 모델 테스트

다음 섹션에서는 서로 다른 임베딩 모델을 테스트하고 결과를 비교합니다. 임베딩 모델은 텍스트를 벡터로 변환하는 방식에 차이가 있으며, 사용 사례에 따라 적합한 모델이 달라질 수 있습니다.

In [5]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings

google_embeddings = GoogleGenerativeAIEmbeddings(model="models/gemini-embedding-exp-03-07")

In [8]:
embedded_documents = google_embeddings.embed_documents(texts)
embedded_documents

[[-0.02867422252893448,
  0.012470046058297157,
  -0.0018582296324893832,
  -0.0896618440747261,
  -0.007612487766891718,
  -0.00011338542390149087,
  -0.009838642552495003,
  -0.018059002235531807,
  0.001211587805300951,
  0.007167136762291193,
  -0.0008226422942243516,
  -0.01603224314749241,
  -0.0016729526687413454,
  0.006944333203136921,
  0.16366255283355713,
  -0.020049894228577614,
  0.016397571191191673,
  -0.0010212707566097379,
  -0.0012129347305744886,
  -0.03213430196046829,
  -0.0036619629245251417,
  0.007234617602080107,
  0.002082657301798463,
  0.004666237160563469,
  -0.024821359664201736,
  0.011383009143173695,
  0.007977013476192951,
  -0.0022123067174106836,
  0.01029234379529953,
  0.0011341830249875784,
  0.011574743315577507,
  0.01505206897854805,
  0.0074724662117660046,
  0.015942512080073357,
  0.00463251955807209,
  0.004384673200547695,
  0.021426690742373466,
  0.0010252807987853885,
  -0.02618018165230751,
  -0.0024632613640278578,
  0.00599870039150

In [18]:
import numpy as np
print(f"도큐먼트 임베딩 벡터 shape: {np.shape(embedded_documents)}")
print(f"도큐먼트 임베딩 벡터 0번째 shape: {np.shape(embedded_documents[0])}")
print(f"도큐먼트 type: {type(embedded_documents)}")
print(f"도큐먼트 임베딩 0번째 벡터 0~5: {embedded_documents[0][0:5]}")

도큐먼트 임베딩 벡터 shape: (5, 3072)
도큐먼트 임베딩 벡터 0번째 shape: (3072,)
도큐먼트 type: <class 'list'>
도큐먼트 임베딩 0번째 벡터 0~5: [-0.02867422252893448, 0.012470046058297157, -0.0018582296324893832, -0.0896618440747261, -0.007612487766891718]


In [19]:
embedded_query = google_embeddings.embed_query("LangChain 에 대해서 알려주세요.")
embedded_query

[-0.0011560064740478992,
 0.022311516106128693,
 0.009621117264032364,
 -0.06916116923093796,
 -0.016029614955186844,
 0.004935774952173233,
 -0.032809410244226456,
 0.015570609830319881,
 0.021486764773726463,
 0.013425801880657673,
 0.0015375696821138263,
 -0.0036662237253040075,
 -0.0011784823145717382,
 -0.002828348893672228,
 0.1255490779876709,
 -0.011279075406491756,
 -0.011773999780416489,
 0.02071063406765461,
 3.411339275771752e-05,
 -0.02459765039384365,
 -0.009381567128002644,
 0.038432564586400986,
 0.034160688519477844,
 0.01859704777598381,
 -0.005757599603384733,
 0.00521231209859252,
 0.020620256662368774,
 0.0030835631769150496,
 0.033829186111688614,
 0.01525699719786644,
 -0.00014112493954598904,
 -0.017100412398576736,
 0.01123608648777008,
 0.010925855487585068,
 -0.006204388104379177,
 0.02448974922299385,
 0.009940671734511852,
 -0.03094364143908024,
 -0.007012936752289534,
 0.019583685323596,
 -0.0013311763759702444,
 -0.0015820586122572422,
 -0.029322944581508

In [23]:
import numpy as np
print(f"도큐먼트 임베딩 벡터 shape: {np.shape(embedded_query)}")
print(f"도큐먼트 임베딩 벡터 0번째 shape: {np.shape(embedded_query[0])}")
print(f"도큐먼트 type: {type(embedded_query)}")
print(f"도큐먼트 임베딩 0번째 벡터 0~5: {embedded_query[0:5]}")

도큐먼트 임베딩 벡터 shape: (3072,)
도큐먼트 임베딩 벡터 0번째 shape: ()
도큐먼트 type: <class 'list'>
도큐먼트 임베딩 0번째 벡터 0~5: [-0.0011560064740478992, 0.022311516106128693, 0.009621117264032364, -0.06916116923093796, -0.016029614955186844]


In [None]:
!pip install langchain-huggingface

In [24]:
from langchain_huggingface.embeddings import HuggingFaceEndpointEmbeddings

model_name = "intfloat/multilingual-e5-large-instruct"

hf_embeddings = HuggingFaceEndpointEmbeddings(
    model=model_name,
    task="feature-extraction",
    huggingfacehub_api_token=os.environ["HUGGINGFACEHUB_API_TOKEN"],
)

# 문서 임베딩 - 여러 텍스트를 한 번에 벡터로 변환
embedded_documents = hf_embeddings.embed_documents(texts)
# 결과 확인 (각 텍스트는 수백~수천 차원의 벡터로 변환됨)
embedded_documents

[[0.0511920228600502,
  0.011308946646749973,
  0.012826327234506607,
  -0.03129677101969719,
  0.024386851117014885,
  -0.031839631497859955,
  -0.0413723848760128,
  0.007222234271466732,
  0.0444776751101017,
  -0.023085832595825195,
  0.028797687962651253,
  0.010783929377794266,
  -0.013323882594704628,
  -0.028462374582886696,
  -0.04694923013448715,
  -0.021683266386389732,
  -0.025736218318343163,
  0.001958938781172037,
  0.0007779121515341103,
  -0.011368482373654842,
  0.026559341698884964,
  0.002380043501034379,
  -0.006590391043573618,
  -0.050234053283929825,
  -0.030206533148884773,
  -0.0036191269755363464,
  -0.0500679649412632,
  -0.015691475942730904,
  -0.0187184177339077,
  -0.02677012048661709,
  0.027322877198457718,
  0.007506826426833868,
  -0.03852768614888191,
  -0.040268901735544205,
  -0.012338859960436821,
  0.023780303075909615,
  0.023508718237280846,
  0.029794201254844666,
  -0.01239995751529932,
  0.06362667679786682,
  -0.015463155694305897,
  0.035

In [25]:
import numpy as np
print("허깅페이스 임베딩 결과")
print(f"도큐먼트 임베딩 벡터 shape: {np.shape(embedded_documents)}")
print(f"도큐먼트 임베딩 벡터 0번째 shape: {np.shape(embedded_documents[0])}")
print(f"도큐먼트 type: {type(embedded_documents)}")
print(f"도큐먼트 임베딩 0번째 벡터 0~5: {embedded_documents[0][0:5]}")

허깅페이스 임베딩 결과
도큐먼트 임베딩 벡터 shape: (5, 1024)
도큐먼트 임베딩 벡터 0번째 shape: (1024,)
도큐먼트 type: <class 'list'>
도큐먼트 임베딩 0번째 벡터 0~5: [0.0511920228600502, 0.011308946646749973, 0.012826327234506607, -0.03129677101969719, 0.024386851117014885]


In [26]:
# HuggingFace 모델로 쿼리 임베딩 생성
embedded_query_hf = hf_embeddings.embed_query("LangChain 에 대해서 알려주세요.")
# 결과 확인
embedded_query_hf

[0.009226561523973942,
 0.016397986561059952,
 0.0035652564838528633,
 -0.02523571252822876,
 0.026135366410017014,
 -0.017153726890683174,
 -0.02475282922387123,
 0.029846088960766792,
 0.031389471143484116,
 -0.03261662647128105,
 0.020634926855564117,
 0.013859666883945465,
 -0.025687536224722862,
 0.004425437189638615,
 -0.018330685794353485,
 -0.022040488198399544,
 -0.06823816895484924,
 0.006597355008125305,
 -0.025917304679751396,
 -0.00924348458647728,
 0.057264138013124466,
 0.011886583641171455,
 -0.01587359420955181,
 -0.020473089069128036,
 -0.014880298636853695,
 -0.008259045891463757,
 -0.026876118034124374,
 -0.04637105017900467,
 0.0009884575847536325,
 -0.03643624112010002,
 0.00563181983307004,
 0.00913385208696127,
 -0.019216468557715416,
 -0.04842522740364075,
 -0.01693975180387497,
 0.0295243002474308,
 0.05246292054653168,
 0.044495273381471634,
 -0.027148138731718063,
 0.06087995693087578,
 -0.023127445951104164,
 0.05907386541366577,
 0.02450815588235855,
 0.00

In [27]:
import numpy as np
print(f"도큐먼트 임베딩 벡터 shape: {np.shape(embedded_query_hf)}")
print(f"도큐먼트 임베딩 벡터 0번째 shape: {np.shape(embedded_query_hf[0])}")
print(f"도큐먼트 type: {type(embedded_query_hf)}")
print(f"도큐먼트 임베딩 0번째 벡터 0~5: {embedded_query_hf[0:5]}")

도큐먼트 임베딩 벡터 shape: (1024,)
도큐먼트 임베딩 벡터 0번째 shape: ()
도큐먼트 type: <class 'list'>
도큐먼트 임베딩 0번째 벡터 0~5: [0.009226561523973942, 0.016397986561059952, 0.0035652564838528633, -0.02523571252822876, 0.026135366410017014]


## 모델 비교 및 결론

두 임베딩 모델(Google Gemini와 HuggingFace E5)은 모두 다국어(한국어, 영어 등)를 지원합니다. 각 모델은 서로 다른 차원 수와 특성을 가진 벡터를 생성합니다.

### 선택 가이드:

1. **Google Gemini**: 최신 모델로 한국어 지원이 우수하며, Google API를 사용하므로 설정이 간편합니다.

2. **HuggingFace E5**: 오픈소스 모델로 자체 서버에 배포 가능하며, 다양한 언어에 대한 지원이 좋습니다.

실제 프로젝트에서는 두 모델의 성능을 비교하여 특정 사용 사례에 더 적합한 모델을 선택하는 것이 좋습니다. 성능 비교는 검색 정확도, 처리 속도, 비용 등을 고려해야 합니다.

- 구글임베딩모델은 3072차원
- 허깅페이스는 1024차원