# Hugging Face

Hugging Face Embedding 클래스를 로드해 보겠습니다.


In [None]:
%pip install --upgrade --quiet  langchain sentence_transformers

- `HuggingFaceEmbeddings` 클래스를 `langchain_community.embeddings` 모듈에서 임포트합니다.


In [1]:
from dotenv import load_dotenv

load_dotenv()

True

In [2]:
import os

# 사용자로부터 HuggingFace Inference API 키를 입력받습니다.
inference_api_key = os.environ.get("HUGGINGFACEHUB_API_TOKEN")

In [3]:
# 허깅페이스 모델/토크나이저를 다운로드 받을 경로
# (예시)

import os

# ./cache/ 경로에 다운로드 받도록 설정
os.environ["HF_HOME"] = "./cache/"

In [4]:
from langchain_community.embeddings import (
    HuggingFaceEmbeddings,
    HuggingFaceBgeEmbeddings,
)

`HuggingFaceEmbeddings` 클래스를 사용하여 임베딩 객체를 생성합니다.

- 이 클래스는 Hugging Face의 Transformers 라이브러리에서 제공하는 사전 훈련된 언어 모델을 활용하여 텍스트 임베딩을 생성합니다.
- 생성된 `embeddings` 객체는 텍스트를 벡터 표현으로 변환하는 데 사용될 수 있습니다.


In [5]:
embeddings = HuggingFaceEmbeddings()  # HuggingFace 임베딩을 생성합니다.
embeddings = HuggingFaceBgeEmbeddings()

  return self.fget.__get__(instance, owner)()


- `text` 변수에 "임베딩 테스트를 하기 위한 샘플 문장입니다." 라는 문자열을 할당합니다.


In [24]:
text = (
    "임베딩 테스트를 하기 위한 샘플 문장입니다."  # 테스트용 문서 텍스트를 정의합니다.
)

`embeddings.embed_query(text)`는 주어진 텍스트를 임베딩 벡터로 변환하는 함수입니다.

- `text` 매개변수로 전달된 텍스트를 임베딩 모델에 입력하여 벡터 표현을 생성합니다.
- 생성된 임베딩 벡터는 `query_result` 변수에 저장됩니다.

이 함수는 텍스트를 벡터 공간에 매핑하여 의미적 유사성을 계산하거나 검색에 활용할 수 있는 벡터 표현을 얻는 데 사용됩니다.


In [25]:
# 텍스트를 임베딩하여 쿼리 결과를 생성합니다.
query_result = embeddings.embed_query(text)

`query_result[:3]`은 `query_result` 리스트의 처음 3개 요소를 슬라이싱(slicing)하여 선택합니다.

- 리스트 슬라이싱 문법인 `[start:end]`를 사용하여 `query_result` 리스트의 일부분을 추출합니다.
- `start` 인덱스는 포함되고 `end` 인덱스는 제외됩니다. 따라서 `[:3]`은 인덱스 0부터 2까지의 요소를 선택합니다.
- 결과적으로 `query_result` 리스트의 첫 번째, 두 번째, 세 번째 요소가 선택됩니다.


In [26]:
# 쿼리 결과의 처음 3개 항목을 선택합니다.
query_result[:3]

[0.032299287617206573, -0.10691168159246445, -0.02121555432677269]

`embeddings.embed_documents()` 함수를 사용하여 텍스트 문서를 임베딩합니다.

- `[text]`를 인자로 전달하여 단일 문서를 리스트 형태로 임베딩 함수에 전달합니다.
- 함수 호출 결과로 반환된 임베딩 벡터를 `doc_result` 변수에 할당합니다.


In [9]:
doc_result = embeddings.embed_documents(
    [text]
)  # 텍스트를 임베딩하여 문서 벡터를 생성합니다.

## Hugging Face Inference API

Hugging Face Inference API를 통해 임베딩 모델에 접근할 수도 있습니다.

이 방법은 sentence_transformers를 설치하거나 모델을 로컬에 다운로드할 필요가 없다는 장점이 있습니다.


HuggingFaceInferenceAPIEmbeddings를 사용하여 텍스트를 임베딩하는 과정을 보여줍니다.

- `HuggingFaceInferenceAPIEmbeddings` 클래스를 초기화할 때 `api_key`와 `model_name`을 전달합니다.
  - `api_key`는 Hugging Face Inference API의 인증 키입니다.
  - `model_name`은 사용할 임베딩 모델의 이름입니다. 여기서는 "sentence-transformers/all-MiniLM-l6-v2" 모델을 사용합니다.
- `embed_query` 메서드를 호출하여 주어진 `text`를 임베딩합니다.
- 임베딩 결과인 `query_result`의 첫 3개 요소를 출력합니다.


In [10]:
from langchain_community.embeddings import HuggingFaceInferenceAPIEmbeddings

embeddings = HuggingFaceInferenceAPIEmbeddings(
    # Hugging Face Inference API 키를 설정합니다.
    api_key=inference_api_key,
    # 사용할 임베딩 모델의 이름을 지정합니다.
    model_name="sentence-transformers/all-MiniLM-l6-v2",
)

# 주어진 텍스트에 대한 쿼리 임베딩을 생성합니다.
query_result = embeddings.embed_query(text)
# 쿼리 임베딩 결과의 첫 3개 요소를 가져옵니다.
query_result[:3]

[-0.02381495200097561, 0.08707402646541595, 0.07979416847229004]

## Hugging Face Hub

Hugging Face Hub 패키지를 통해 로컬에서 임베딩을 생성할 수도 있습니다.

이를 위해서는 `huggingface_hub` 패키지를 설치해야 합니다.


huggingface_hub 라이브러리를 설치합니다.

- !pip install 명령어를 사용하여 huggingface_hub 라이브러리를 설치합니다.
- huggingface_hub는 Hugging Face에서 제공하는 모델, 데이터셋 등을 쉽게 액세스하고 사용할 수 있도록 도와주는 라이브러리입니다.


In [21]:
# !pip install huggingface_hub

- `HuggingFaceHubEmbeddings` 클래스를 `langchain_community.embeddings` 모듈에서 임포트합니다.
- 이 클래스는 Hugging Face Hub에 호스팅된 임베딩 모델을 사용하여 텍스트를 벡터로 변환하는 기능을 제공합니다.
- `HuggingFaceHubEmbeddings`는 LangChain 프레임워크에서 임베딩 기능을 확장하기 위해 커뮤니티에서 개발된 모듈입니다.


In [11]:
from langchain_community.embeddings import HuggingFaceHubEmbeddings

HuggingFaceHubEmbeddings 클래스를 사용하여 임베딩 객체를 생성합니다.

- `HuggingFaceHubEmbeddings` 클래스는 Hugging Face Hub에 호스팅된 사전 훈련된 임베딩 모델을 사용하여 텍스트를 벡터로 변환합니다.
- `embeddings` 변수에 `HuggingFaceHubEmbeddings` 클래스의 인스턴스를 할당합니다.
- 이렇게 생성된 `embeddings` 객체는 텍스트 데이터를 벡터로 변환하는 데 사용될 수 있습니다.


In [12]:
# HuggingFaceHub에서 제공하는 임베딩 모델을 사용하여 임베딩 객체를 생성합니다.
embeddings = HuggingFaceHubEmbeddings()

- `text` 변수에 "임베딩 테스트를 하기 위한 샘플 문장입니다." 라는 문자열을 할당합니다.


In [20]:
text = (
    "임베딩 테스트를 하기 위한 샘플 문장입니다."  # 테스트용 문서 텍스트를 정의합니다.
)

`embeddings.embed_query(text)`는 주어진 텍스트를 임베딩 벡터로 변환하는 함수입니다.

- `text` 매개변수로 전달된 텍스트를 임베딩 모델에 입력하여 벡터 표현을 생성합니다.
- 생성된 임베딩 벡터는 `query_result` 변수에 저장됩니다.

이 함수는 텍스트를 벡터 공간에 매핑하여 의미적 유사성을 계산하거나 검색에 활용할 수 있는 벡터 표현을 얻는 데 사용됩니다.


In [21]:
# 텍스트를 임베딩하여 쿼리 결과를 생성합니다.
query_result = embeddings.embed_query(text)

임베딩된 차원을 수를 확인합니다.


In [22]:
# 차원을 확인합니다.
len(query_result)

768

In [23]:
# 쿼리 결과의 처음 3개 항목을 선택합니다.
query_result[:3]

[0.032299287617206573, -0.10691168159246445, -0.02121555432677269]