# HuggingFace 데이터셋

Hugging Face Hub는 NLP, 컴퓨터 비전, 오디오 분야에서 다양한 작업에 사용될 수 있는 100개 이상의 언어로 된 5,000개 이상의 데이터셋을 제공합니다.

이러한 데이터셋은 번역, 자동 음성 인식, 이미지 분류와 같은 다양한 작업에 활용됩니다.

이 노트북에서는 `Hugging Face Hub` 데이터셋을 LangChain에 로드하는 방법을 보여줍니다.


- `HuggingFaceDatasetLoader`를 사용하여 Hugging Face 데이터셋을 로드합니다.
- 로드된 데이터셋은 LangChain에서 사용할 수 있는 문서 형식으로 변환됩니다.
- 이를 통해 Hugging Face 데이터셋을 LangChain의 다양한 기능과 함께 활용할 수 있습니다.


In [1]:
from langchain_community.document_loaders import HuggingFaceDatasetLoader

- `HuggingFaceDatasetLoader`를 사용하여 "imdb" 데이터셋을 로드합니다.
- `page_content_column` 매개변수를 "text"로 설정하여 데이터셋의 텍스트 열을 지정합니다.
- 로드된 데이터셋은 `loader` 변수에 저장됩니다.


In [2]:
dataset_name = "imdb"  # 데이터셋 이름을 "imdb"로 설정합니다.
page_content_column = "text"  # 페이지 내용이 포함된 열의 이름을 "text"로 설정합니다.

# HuggingFaceDatasetLoader를 사용하여 데이터셋을 로드합니다.
# 데이터셋 이름과 페이지 내용 열 이름을 전달합니다.
loader = HuggingFaceDatasetLoader(dataset_name, page_content_column)

`loader.load()` 메서드를 호출하여 데이터를 로드합니다.

- `loader` 객체는 데이터 로딩을 담당하는 객체입니다.
- `load()` 메서드는 데이터 소스(예: 파일, 데이터베이스 등)에서 데이터를 읽어와 메모리에 로드합니다.
- 로드된 데이터는 `data` 변수에 할당됩니다.


In [3]:
data = loader.load()  # 로더를 사용하여 데이터를 불러옵니다.



In [7]:
# 데이터의 처음 3개 요소를 선택합니다.
data[:3]

[Document(page_content='"I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered \\"controversial\\" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes

### Example

이 예제에서는 데이터셋의 데이터를 사용하여 질문에 답변합니다.


HuggingFaceDatasetLoader를 사용하여 Hugging Face 데이터셋을 로드하고, VectorstoreIndexCreator를 통해 벡터 저장소 기반의 인덱스를 생성하는 코드입니다.

- `HuggingFaceDatasetLoader`를 사용하여 Hugging Face 데이터셋을 로드합니다.
- 로드된 데이터셋을 `VectorstoreIndexCreator`에 전달하여 벡터 저장소 기반의 인덱스를 생성합니다.
- 생성된 인덱스를 활용하여 데이터셋에 대한 검색 및 질의 응답을 수행할 수 있습니다.


In [10]:
from langchain.indexes import VectorstoreIndexCreator
from langchain_community.document_loaders.hugging_face_dataset import (
    HuggingFaceDatasetLoader,
)

- `HuggingFaceDatasetLoader`를 사용하여 Hugging Face의 "tweet_eval" 데이터셋에서 "stance_climate" subset의 데이터를 로드합니다.
- 데이터셋의 텍스트 컬럼은 `page_content_column` 매개변수로 지정된 "text"입니다.
- 로드된 데이터는 `loader` 변수에 저장됩니다.


In [11]:
dataset_name = "tweet_eval"  # 데이터셋 이름을 "tweet_eval"로 설정합니다.
page_content_column = "text"  # 페이지 내용이 포함된 열의 이름을 "text"로 설정합니다.
name = "stance_climate"  # 데이터셋의 특정 부분을 식별하는 이름을 "stance_climate"로 설정합니다.

# HuggingFaceDatasetLoader를 사용하여 데이터셋을 로드합니다.
loader = HuggingFaceDatasetLoader(dataset_name, page_content_column, name)

`VectorstoreIndexCreator` 클래스를 사용하여 로더(loader)에서 벡터 저장소 인덱스를 생성합니다.

- `VectorstoreIndexCreator` 클래스의 인스턴스를 생성합니다.
- `from_loaders` 메서드를 호출하여 로더 리스트를 전달합니다.
- 로더에서 추출된 데이터를 기반으로 벡터 저장소 인덱스가 생성됩니다.
- 생성된 인덱스는 `index` 변수에 할당됩니다.


In [12]:
# 로더에서 벡터 저장소 인덱스를 생성합니다.
index = VectorstoreIndexCreator().from_loaders([loader])

  warn_deprecated(


`index.query()`를 사용하여 "What are the most used hashtag?"라는 질문에 대한 답변을 생성합니다.

- `query` 변수에 질문 문자열을 할당합니다.
- `index.query()` 메서드를 호출하여 질문에 대한 답변을 생성합니다.
- 생성된 답변은 `result` 변수에 저장됩니다.


In [8]:
query = "What are the most used hashtag?"  # 가장 많이 사용되는 해시태그는 무엇인가요?
result = index.query(query)  # 질의를 수행하여 결과를 얻습니다.

In [9]:
result

' The most used hashtags in this context are #TakeDownTheFlag, #LoveWins, #SemST, #ThanksObama, and #green.'