# 허깅페이스 임베딩 (HuggingFace Embeddings)

https://github.com/teddylee777/Kor-IR?tab=readme-ov-file 한국어모델 밴치마크

In [2]:
from dotenv import load_dotenv
load_dotenv()

True

In [3]:
import os
import warnings

# 경고 무시
warnings.filterwarnings('ignore')

# 허깅페이스를 ./cache/ 경로에 다운로드 받고록 설정. 디폴트값을 주면 어디에 다운받는지 모르는 상황이 나타난다.
os.environ["HF_HOME"] = "./cache/"

In [4]:
# 샘플데이터
texts = [
    "안녕, 만나서 반가워.",
    "LangChain simplifies the process of building applications with large language models",
    "랭체인 한국어 튜토리얼은 LangChain의 공식 문서, cookbook 및 다양한 실용 예제를 바탕으로 하여 사용자가 LangChain을 더 쉽고 효과적으로 활용할 수 있도록 구성되어 있습니다. ",
    "LangChain은 초거대 언어모델로 애플리케이션을 구축하는 과정을 단순화합니다.",
    "Retrieval-Augmented Generation (RAG) is an effective technique for improving AI responses.",
]

### HuggingFace Endpoint Embedding
`HuggingFaceEndpointEmbeddings` 를 통해 API로 모델을 가져올 수 있다.

In [6]:
from langchain_huggingface.embeddings import HuggingFaceEndpointEmbeddings

model_name = "intfloat/multilingual-e5-large-instruct"

hf_embeddings = HuggingFaceEndpointEmbeddings(
    model=model_name,
    task="feature-extraction",
    huggingfacehub_api_token=os.environ["HUGGINGFACEHUB_API_TOKEN"]
)

In [7]:
%%time
embedded_documents = hf_embeddings.embed_documents(texts)

CPU times: total: 62.5 ms
Wall time: 1.61 s


In [8]:
print("[HuggingFace Endpoint Embedding]")
print(f"Model: \t\t{model_name}")
print(f"Dimension: \t{len(embedded_documents[0])}")

[HuggingFace Endpoint Embedding]
Model: 		intfloat/multilingual-e5-large-instruct
Dimension: 	1024


In [9]:
# Document Embedding 수행
embedded_query = hf_embeddings.embed_query("LangChain 에 대해서 알려주세요.")

In [10]:
len(embedded_query)

1024

##### 유사도 계산

- 공식 : query와 documents의 transpose의 내적

### HuggingFcaeEmbedding

In [13]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

model_name = "intfloat/multilingual-e5-large-instruct"

hf_embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs={"device":"cuda"},
    encode_kwargs={"normalize_embeddings":True}
)

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/128 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/140k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Error while downloading from https://cdn-lfs-us-1.huggingface.co/repos/13/22/13229d889872a27728134105f8349a8b23c84708fe519f55c2b08e858f21322a/dd6b6e4f52db0a7aff83a13d10e6c5342ef9f6ab799bad3221f4b35ef390fa85?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model.safetensors%3B+filename%3D%22model.safetensors%22%3B&Expires=1723827003&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcyMzgyNzAwM319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmh1Z2dpbmdmYWNlLmNvL3JlcG9zLzEzLzIyLzEzMjI5ZDg4OTg3MmEyNzcyODEzNDEwNWY4MzQ5YThiMjNjODQ3MDhmZTUxOWY1NWMyYjA4ZTg1OGYyMTMyMmEvZGQ2YjZlNGY1MmRiMGE3YWZmODNhMTNkMTBlNmM1MzQyZWY5ZjZhYjc5OWJhZDMyMjFmNGIzNWVmMzkwZmE4NT9yZXNwb25zZS1jb250ZW50LWRpc3Bvc2l0aW9uPSoifV19&Signature=DTlj%7E-1AQV59kug2hJwns5GhZ5mOxeRzsSW4mbr1ucjTMie141d%7Eeqq6cbc8wKvimxzN%7E-G8GCSbKv540aP4krykBnpE7YByS-mRy7wQ3ExofPDy856Vdwla%7ES7LJEU5h-cJV4Vb4qBpcVyOh0y8rvaQnUF4816M3AkR0fBT4bFcgvOD46XsuJnkcA1eg5URcMA7ZaWZdFYhTdmw64l8WJU-S8woN3mxuVpmSF6

model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Error while downloading from https://cdn-lfs-us-1.huggingface.co/repos/13/22/13229d889872a27728134105f8349a8b23c84708fe519f55c2b08e858f21322a/dd6b6e4f52db0a7aff83a13d10e6c5342ef9f6ab799bad3221f4b35ef390fa85?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model.safetensors%3B+filename%3D%22model.safetensors%22%3B&Expires=1723827003&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcyMzgyNzAwM319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmh1Z2dpbmdmYWNlLmNvL3JlcG9zLzEzLzIyLzEzMjI5ZDg4OTg3MmEyNzcyODEzNDEwNWY4MzQ5YThiMjNjODQ3MDhmZTUxOWY1NWMyYjA4ZTg1OGYyMTMyMmEvZGQ2YjZlNGY1MmRiMGE3YWZmODNhMTNkMTBlNmM1MzQyZWY5ZjZhYjc5OWJhZDMyMjFmNGIzNWVmMzkwZmE4NT9yZXNwb25zZS1jb250ZW50LWRpc3Bvc2l0aW9uPSoifV19&Signature=DTlj%7E-1AQV59kug2hJwns5GhZ5mOxeRzsSW4mbr1ucjTMie141d%7Eeqq6cbc8wKvimxzN%7E-G8GCSbKv540aP4krykBnpE7YByS-mRy7wQ3ExofPDy856Vdwla%7ES7LJEU5h-cJV4Vb4qBpcVyOh0y8rvaQnUF4816M3AkR0fBT4bFcgvOD46XsuJnkcA1eg5URcMA7ZaWZdFYhTdmw64l8WJU-S8woN3mxuVpmSF6

model.safetensors:  17%|#6        | 189M/1.12G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/271 [00:00<?, ?B/s]

In [14]:
%%time
embedded_documents = hf_embeddings.embed_documents(texts)

CPU times: total: 2.27 s
Wall time: 3.75 s


### BGE-M3임베딩

In [15]:
from langchain_huggingface import HuggingFaceEndpointEmbeddings

model_name = "BAAI/bge-m3"

hf_embeddings = HuggingFaceEndpointEmbeddings(
    model = model_name,
    task = "feature-extraction",
    huggingfacehub_api_token=os.environ["HUGGINGFACEHUB_API_TOKEN"]

)

In [16]:
%%time
embedded_documents = hf_embeddings.embed_documents(texts)

CPU times: total: 0 ns
Wall time: 1.55 s


In [23]:
print(hf_embeddings)
print(len(embedded_documents[0]))

client=<InferenceClient(model='BAAI/bge-m3', timeout=None)> async_client=<InferenceClient(model='BAAI/bge-m3', timeout=None)> model='BAAI/bge-m3' repo_id='BAAI/bge-m3' task='feature-extraction' model_kwargs=None huggingfacehub_api_token='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'
1024


### FlagEmbedding

https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3#usage

`FlagEmbedding` 에서 제공하는 세 가지 접근법을 조합하면, 더욱 강력한 검색 시스템을 구축할 수 있습니다.

- Dense Vector: BGE-M3의 다국어, 다중 작업 능력을 기반으로 함
- Lexical weight를 활용한 sparse embedding으로 정확한 단어 매칭을 수행 : Dense vector, Sparse vector
- ColBERT의 multi-vector 접근법으로 문맥을 고려한 세밀한 매칭 수행



##### Dense vector - 의미검색. 의미적으로 얼마나 일치하는지 확인.
##### Sparse vector - 단어의 매칭을 확인. 예를들면 키워드 검색.

In [25]:
# FlagEmbedding 설치
# !pip install -qU FlagEmbedding
# !pip install peft

In [28]:
from FlagEmbedding import BGEM3FlagModel

model_name = "BAAI/bge-m3"
bge_embeddings = BGEM3FlagModel(
    model_name, use_fp16=True
)  # use_fp16을 True로 설정하면 약간의 성능 저하와 함께 계산 속도가 빨라집니다.

bge_embedded = bge_embeddings.encode(
    texts,
    batch_size=12,
    max_length=8192,  # 이렇게 긴 길이가 필요하지 않은 경우 더 작은 값을 설정하여 인코딩 프로세스의 속도를 높일 수 있습니다.
)["dense_vecs"]

Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

.gitattributes:   0%|          | 0.00/1.63k [00:00<?, ?B/s]

README.md:   0%|          | 0.00/15.8k [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

imgs/.DS_Store:   0%|          | 0.00/6.15k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/687 [00:00<?, ?B/s]

imgs/bm25.jpg:   0%|          | 0.00/132k [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

colbert_linear.pt:   0%|          | 0.00/2.10M [00:00<?, ?B/s]

imgs/long.jpg:   0%|          | 0.00/485k [00:00<?, ?B/s]

imgs/miracl.jpg:   0%|          | 0.00/576k [00:00<?, ?B/s]

imgs/others.webp:   0%|          | 0.00/21.0k [00:00<?, ?B/s]

long.jpg:   0%|          | 0.00/127k [00:00<?, ?B/s]

imgs/nqa.jpg:   0%|          | 0.00/158k [00:00<?, ?B/s]

imgs/mkqa.jpg:   0%|          | 0.00/608k [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

onnx/Constant_7_attr__value:   0%|          | 0.00/65.6k [00:00<?, ?B/s]

model.onnx:   0%|          | 0.00/725k [00:00<?, ?B/s]

model.onnx_data:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

onnx/special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

onnx/tokenizer_config.json:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

onnx/config.json:   0%|          | 0.00/698 [00:00<?, ?B/s]

sparse_linear.pt:   0%|          | 0.00/3.52k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Error while downloading from https://cdn-lfs-us-1.huggingface.co/repos/23/2c/232ca60237b0bb19bb6c28c5a6c8af79f2e423333a9626aad445543b80fbf31e/1eebfb28493f67bba03ce0ef64bfdc7fc5a3bd9d7493f818bb1d78cd798416b4?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model.onnx_data%3B+filename%3D%22model.onnx_data%22%3B&Expires=1723829006&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcyMzgyOTAwNn19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmh1Z2dpbmdmYWNlLmNvL3JlcG9zLzIzLzJjLzIzMmNhNjAyMzdiMGJiMTliYjZjMjhjNWE2YzhhZjc5ZjJlNDIzMzMzYTk2MjZhYWQ0NDU1NDNiODBmYmYzMWUvMWVlYmZiMjg0OTNmNjdiYmEwM2NlMGVmNjRiZmRjN2ZjNWEzYmQ5ZDc0OTNmODE4YmIxZDc4Y2Q3OTg0MTZiND9yZXNwb25zZS1jb250ZW50LWRpc3Bvc2l0aW9uPSoifV19&Signature=s66GUum8P-hVo4HFswj-seDXaa71qTE-BB7Vt%7EWCMjkyNw2GU3cf48B5rgOGC6pr4%7E3-5kjG0VRNUIYiUDP07mgLGBfG9yU%7E%7EpG1ld3wIKoGoVkXd989Of1ezF22z85RvsNX6bU9FMr6k7XXO6yEt08Sj6GhIuWr0BGt4IsHEAmHIZTCmYQDlrU5cFCph9Qo4FqgOhQq%7EfDCvKQOqZfofu0CqB6VEl1NKc4OvMtQO

pytorch_model.bin:  72%|#######2  | 1.65G/2.27G [00:00<?, ?B/s]

model.onnx_data:  89%|########8 | 2.01G/2.27G [00:00<?, ?B/s]

In [29]:
bge_embedded.shape

(5, 1024)

In [34]:
print(f"Model: \t\t{model_name}")
print(f"Dimension: \t{len(embedded_documents[0])}")

Model: 		BAAI/bge-m3
Dimension: 	1024


In [35]:
from FlagEmbedding import BGEM3FlagModel

bge_flagmodel = BGEM3FlagModel(
    "BAAI/bge-m3", use_fp16=True
)  # use_fp16을 True로 설정하면 약간의 성능 저하와 함께 계산 속도가 빨라집니다.
bge_encoded = bge_flagmodel.encode(texts, return_dense=True)

Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

In [36]:
# 결과 출력(행, 열)
bge_encoded["dense_vecs"].shape

(5, 1024)

##### Sparse Embedding (Lexical Weight)
Sparse embedding은 벡터의 대부분의 값이 0인 고차원 벡터를 사용하는 임베딩 방식입니다. Lexical weight를 활용한 방식은 단어의 중요도를 고려하여 임베딩을 생성합니다.

작동 방식

1. 각 단어에 대해 lexical weight(어휘적 가중치)를 계산합니다. 이는 TF-IDF나 BM25 같은 방법을 사용할 수 있습니다.
2. 문서나 쿼리의 각 단어에 대해, 해당 단어의 lexical weight를 사용하여 sparse vector의 해당 차원에 값을 할당합니다.
3. 결과적으로 문서나 쿼리는 대부분의 값이 0인 고차원 벡터로 표현됩니다.

장점

- 단어의 중요도를 직접적으로 반영할 수 있습니다.
- 특정 단어나 구문을 정확히 매칭할 수 있습니다.
- 계산이 상대적으로 빠릅니다.

In [30]:
bge_flagmodel = BGEM3FlagModel(
    "BAAI/bge-m3", use_fp16=True
)  # use_fp16을 True로 설정하면 약간의 성능 저하와 함께 계산 속도가 빨라집니다.
bge_encoded = bge_flagmodel.encode(texts, return_sparse=True)

Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

In [None]:
bge_flagmodel.

In [31]:
lexical_scores1 = bge_flagmodel.compute_lexical_matching_score(
    bge_encoded["lexical_weights"][0], bge_encoded["lexical_weights"][0]
)
lexical_scores2 = bge_flagmodel.compute_lexical_matching_score(
    bge_encoded["lexical_weights"][0], bge_encoded["lexical_weights"][1]
)
# 0 <-> 0
print(lexical_scores1)
# 0 <-> 1
print(lexical_scores2)

0.30133819580078125
0


##### Multi-Vector (ColBERT)
ColBERT(Contextualized Late Interaction over BERT)는 문서 검색을 위한 효율적인 방법입니다. 이 방식은 문서와 쿼리를 여러 개의 벡터로 표현하는 multi-vector 접근법을 사용합니다.

작동 방식

1. 문서의 각 토큰에 대해 별도의 벡터를 생성합니다. 즉, 하나의 문서는 여러 개의 벡터로 표현됩니다.
2. 쿼리도 마찬가지로 각 토큰에 대해 별도의 벡터를 생성합니다.
3. 검색 시, 쿼리의 각 토큰 벡터와 문서의 모든 토큰 벡터 사이의 유사도를 계산합니다.
4. 이 유사도들을 종합하여 최종 검색 점수를 계산합니다.


장점

- 토큰 수준의 세밀한 매칭이 가능합니다.
- 문맥을 고려한 임베딩을 생성할 수 있습니다.
- 긴 문서에 대해서도 효과적으로 작동합니다.

In [32]:
bge_flagmodel = BGEM3FlagModel(
    "BAAI/bge-m3", use_fp16=True
)  # use_fp16을 True로 설정하면 약간의 성능 저하와 함께 계산 속도가 빨라집니다.
bge_encoded = bge_flagmodel.encode(texts, return_colbert_vecs=True)

Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

In [33]:
colbert_scores1 = bge_flagmodel.colbert_score(
    bge_encoded["colbert_vecs"][0], bge_encoded["colbert_vecs"][0]
)
colbert_scores2 = bge_flagmodel.colbert_score(
    bge_encoded["colbert_vecs"][0], bge_encoded["colbert_vecs"][1]
)
# 0 <-> 0
print(colbert_scores1)
# 0 <-> 1
print(colbert_scores2)

tensor(1.)
tensor(0.3747)


In [None]:
%%time
embedded_documents = hf_embeddings.embed_documents(texts)

CPU times: total: 62.5 ms
Wall time: 1.61 s
