# Hugging Face Dataset 사용해보기 ② Loading a Dataset
Natuaral Language Processing with Transformers 관련 원서 및 Github 및 Hugging Face Dataset 등 참조함

https://huggingface.co/docs/datasets/v2.14.4/loading

https://huggingface.co/docs/datasets/v1.8.0/loading_datasets.html

**[참고]** Hugging Face 자료를 바탕으로 번역, 정리, 추가 등을 통하여 작성된 것으로 해당 자료나 관련 data 등은 이후 수정되어 다른 결과 등이 나타날 수 있습니다.

# **Dataset Load**

데이터는 로컬 컴퓨터의 디스크, Github 리포지토리, Python 사전이나 Pandas 데이터프레임과 같은 인메모리 데이터 구조 등 다양한 곳에 저장할 수 있음.

**데이터셋이 어디에 저장되어 있든, 🤗 데이터셋은 데이터셋을 로드하는 데 도움을 줄 수 있음.**

이 가이드에서는 **데이터셋을 로드하는 방법**을 보여줌:

* The Hub without a dataset loading script
* Local loading script
* Local files
* In-memory data
* Offline
* A specific slice of a split


[참고] 별도 자료로 검토 예정:
다른 데이터 세트 양식 로딩과 관련된 자세한 내용은 오디오 데이터 세트 로드 가이드(https://huggingface.co/docs/datasets/v2.14.4/audio_load), 이미지 데이터 세트 로드 가이드(https://huggingface.co/docs/datasets/v2.14.4/image_load) 또는 텍스트 데이터 세트 로드 가이드(https://huggingface.co/docs/datasets/v2.14.4/nlp_load)를 참조

## Hugging Face Hub

데이터셋은 데이터셋을 다운로드하고 생성하는 **데이터셋 로딩 스크립트에서 로드됨.**

하지만 로딩 스크립트 없이도 허브의 모든 데이터 세트 리포지토리에서 데이터 세트를 로드할 수 있음

- **먼저 데이터 세트 리포지토리를 생성하고 데이터 파일을 업로드함. 이제 load_dataset() 함수를 사용하여 데이터셋을 로드할 수 있음**

예를 들어, 리포지토리 네임스페이스와 데이터 세트 이름을 제공하여 이 데모 리포지토리에서 파일을 로드해 봄. 이 데이터 세트 리포지토리에는 CSV 파일이 포함되어 있으며, 아래 코드는 CSV 파일에서 데이터 세트를 로드함:

[추가] 로딩 스크립트 사용하는 경우와 없는 경우

1. 데이터셋 로딩 스크립트가 있는 경우:

데이터셋 로딩 스크립트는 Hugging Face의 datasets 라이브러리에서 데이터셋을 다운로드하고 처리하기 위한 스크립트입니다. 이 스크립트는 데이터셋의 메타데이터, 다운로드 URL, 데이터 처리 방법 등에 대한 정보를 포함하고 있습니다. 로딩 스크립트를 사용하면 사용자는 데이터셋의 원본 위치에서 직접 데이터를 다운로드하고, 전처리하고, 표준화된 형식으로 변환하는 복잡한 과정 없이 쉽게 데이터셋을 로드할 수 있습니다.
(예)데이터셋 로딩 스크립트를 사용하여 데이터셋을 로드할 때는 데이터셋의 이름만 지정하면 됩니다. 로딩 스크립트는 데이터셋의 다운로드, 전처리, 로드 등의 과정을 자동으로 처리합니다.

```
from datasets import load_dataset

# 데이터셋 로딩 스크립트가 있는 경우
# 예: SQuAD 데이터셋을 로드하는 경우
dataset = load_dataset("squad")
```

2. 로딩 스크립트가 없는 경우:

Hugging Face의 datasets 라이브러리는 로딩 스크립트 없이도 데이터셋을 로드할 수 있는 기능을 제공합니다. 이 경우, 사용자는 먼저 Hugging Face의 데이터셋 허브에 데이터 세트 리포지토리를 생성하고 원하는 데이터 파일(예: CSV, JSON 등)을 업로드해야 합니다. 데이터 파일이 업로드되면, load_dataset() 함수를 사용하여 해당 리포지토리에서 데이터셋을 직접 로드할 수 있습니다. 이 방법은 사용자가 자신의 데이터셋을 Hugging Face의 허브에 공유하고 싶을 때 유용하며, 별도의 로딩 스크립트 작성 없이도 데이터셋을 쉽게 사용할 수 있습니다.

예를 들어, 사용자가 CSV 파일을 포함하는 데이터 세트 리포지토리를 Hugging Face의 허브에 업로드했다면, 해당 리포지토리의 네임스페이스와 데이터 세트 이름을 지정하여 load_dataset() 함수를 사용해 데이터셋을 로드할 수 있습니다. 이렇게 하면 CSV 파일의 데이터가 자동으로 로드되고, 사용자는 이를 분석 및 모델링에 사용할 수 있습니다.

```
from datasets import load_dataset

# 로딩 스크립트가 없는 경우
# 예: 사용자가 Hugging Face의 허브에 업로드한 데이터셋을 로드하는 경우
namespace = "your_namespace"  # 사용자의 네임스페이스
dataset_name = "your_dataset_name"  # 데이터셋 이름
data_files = {"train": "path_to_train.csv", "test": "path_to_test.csv"}  # 사용할 데이터 파일의 경로

dataset = load_dataset(f"{namespace}/{dataset_name}", data_files=data_files)
```

In [None]:
pip install datasets

Collecting datasets
  Downloading datasets-2.14.5-py3-none-any.whl (519 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m519.6/519.6 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.8,>=0.3.0 (from datasets)
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.15-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m13.2 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0.0,>=0.14.0 (from datasets)
  Downloading huggingface_hub-0.16.4-py3-none-a

In [None]:
from datasets import load_dataset

# `load_dataset` 함수를 사용하여 "lhoestq/demo1" 데이터셋을 로드합니다.
# "lhoestq/demo1"은 특정 사용자가 제공하는 데이터셋의 예시 이름이며, 실제로는 해당 사용자와 데이터셋 이름에 따라 다를 수 있습니다.
# 로드된 데이터셋은 `dataset` 변수에 저장됩니다.
dataset10 = load_dataset("lhoestq/demo1")

Downloading readme:   0%|          | 0.00/2.67k [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/1.45k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/894 [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

In [None]:
dataset10

DatasetDict({
    train: Dataset({
        features: ['id', 'package_name', 'review', 'date', 'star', 'version_id'],
        num_rows: 5
    })
    test: Dataset({
        features: ['id', 'package_name', 'review', 'date', 'star', 'version_id'],
        num_rows: 5
    })
})

**[추가 설명] 데이터세트 lhoestq/demo1**
https://huggingface.co/datasets/lhoestq/demo1

Dataset Summary
This is a demo dataset. It consists in two files data/train.csv and data/test.csv


일부 데이터 집합에는 Git 태그, 브랜치 또는 커밋에 따라 둘 이상의 버전이 있을 수 있음.

revision 매개변수를 사용하여 로드하려는 데이터 집합 버전을 지정함:

In [None]:
dataset11 = load_dataset(
  "lhoestq/custom_squad",
  revision="main"  # tag name, or branch name, or commit hash
)

# `revision` 매개변수는 데이터셋의 특정 버전을 지정하는 데 사용됩니다.
# "main"은 데이터셋의 주요 브랜치를 나타냅니다.
# 사용자는 태그 이름, 브랜치 이름 또는 커밋 해시 중 하나를 지정하여 원하는 버전의 데이터셋을 로드할 수 있습니다.

Downloading builder script:   0%|          | 0.00/4.99k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/5.10k [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/30.3M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/4.85M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating validation split: 0 examples [00:00, ? examples/s]

In [None]:
dataset11

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 87599
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 10570
    })
})

In [None]:
print(dataset11["train"].features)

{'id': Value(dtype='string', id=None), 'title': Value(dtype='string', id=None), 'context': Value(dtype='string', id=None), 'question': Value(dtype='string', id=None), 'answers': Sequence(feature={'text': Value(dtype='string', id=None), 'answer_start': Value(dtype='int32', id=None)}, length=-1, id=None)}


In [None]:
train_ds11 = dataset11["train"]

In [None]:
len(train_ds11)

87599

In [None]:
validation_ds11 = dataset11["validation"]

In [None]:
len(validation_ds11)

10570

In [None]:
print(dataset11.keys())


dict_keys(['train', 'validation'])


허브에서 데이터 집합 리포지토리를 만드는 방법과 데이터 파일을 업로드하는 방법에 대한 자세한 내용은 허브에 데이터 집합 업로드 튜토리얼을 참조

https://huggingface.co/docs/datasets/v2.14.4/upload_dataset


로드 스크립트가 없는 데이터 세트는 기본적으로 모든 데이터를 train split에 로드함. 데이터 파일을 훈련, 유효성 검사 및 테스트와 같은 분할에 매핑하려면 data_files 매개변수를 사용함:

In [None]:
# `data_files` 딕셔너리를 정의하여 훈련 및 테스트 데이터 파일의 경로를 지정합니다.
# "train" 키는 "train.csv" 파일을, "test" 키는 "test.csv" 파일을 가리킵니다.
data_files = {"train": "train.csv", "test": "test.csv"}

In [None]:
data_files

{'train': 'train.csv', 'test': 'test.csv'}

`load_dataset` 함수를 사용하여 사용자 정의 데이터셋을 로드합니다.
이 함수는 Hugging Face의 `datasets` 라이브러리에서 제공됩니다.

"namespace/your_dataset_name"은 로드할 데이터셋의 이름을 나타냅니다.
여기서 "namespace"는 데이터셋의 네임스페이스(예: 사용자 이름 또는 조직 이름)이며,
"your_dataset_name"은 해당 네임스페이스 내의 데이터셋 이름입니다.

`data_files` 매개변수를 사용하여 위에서 정의한 데이터 파일 경로를 전달합니다.
이를 통해 `load_dataset` 함수는 지정된 파일 경로에서 데이터를 로드합니다.

```
dataset = load_dataset("namespace/your_dataset_name", data_files=data_files)
```

사용할 데이터 파일을 지정하지 않으면 load_dataset()이 모든 데이터 파일을 반환함.
C4와 같이 약 13TB에 달하는 대용량 데이터 집합을 로드하는 경우 시간이 오래 걸릴 수 있음.

**data_files 또는 data_dir 매개변수를 사용하여 파일의 특정 하위 집합을 로드할 수도 있음.**

이러한 매개변수에는 데이터 집합이 로드되는 위치에 해당하는 기본 경로로 확인되는 상대 경로를 사용할 수 있음

In [None]:
# `datasets` 라이브러리에서 `load_dataset` 함수를 임포트합니다.
from datasets import load_dataset

# `load_dataset` 함수를 사용하여 "allenai/c4" 데이터셋의 특정 부분집합을 로드합니다.
# `data_files` 매개변수를 사용하여 특정 파일 패턴에 일치하는 파일만 로드합니다.
# 여기서 "en/c4-train.0000*-of-01024.json.gz"는
# "c4-train.0000x-of-01024.json.gz" 형식의 파일을 의미하며, x는 0부터 9까지의 숫자입니다.
c4_subset = load_dataset("allenai/c4", data_files="en/c4-train.0000*-of-01024.json.gz")

Downloading readme:   0%|          | 0.00/2.38k [00:00<?, ?B/s]

Repo card metadata block was not found. Setting CardData to empty.


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/319M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/318M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/320M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/319M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/319M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/318M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/318M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/318M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/318M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/318M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

**`load_dataset` 함수를 사용하여 "allenai/c4" 데이터셋의 "en" 디렉토리에 있는 모든 파일을 로드합니다.**

`data_dir` 매개변수를 사용하여 로드할 데이터의 디렉토리를 지정합니다.
```
c4_subset = load_dataset("allenai/c4", data_dir="en")
```


In [None]:
#### 시간상 일부만 로드
# `datasets` 라이브러리에서 `load_dataset` 함수를 임포트합니다.
from datasets import load_dataset

# `load_dataset` 함수를 사용하여 "allenai/c4" 데이터셋의 특정 부분집합을 로드합니다.
# `data_files` 매개변수를 사용하여 특정 파일 패턴에 일치하는 파일만 로드합니다.

# 일부만 load
# "c4-train.00001-of-01024.json.gz"
c4_subset_1 = load_dataset("allenai/c4", data_files="en/c4-train.00001-of-01024.json.gz")

Downloading readme:   0%|          | 0.00/2.38k [00:00<?, ?B/s]

Repo card metadata block was not found. Setting CardData to empty.


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/318M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

In [None]:
c4_subset_1

DatasetDict({
    train: Dataset({
        features: ['text', 'timestamp', 'url'],
        num_rows: 356318
    })
})

In [None]:
#### 추가 Tip: 이쁘게 출력하는 법

# 구글 코랩에서 긴 출력을 보기 쉽게 여러 줄로 나타내려면 pprint (Pretty Print) 모듈을 사용할 수 있습니다.
# pprint는 데이터 구조를 보기 좋게 출력해줍니다.

from pprint import pprint

pprint(c4_subset_1['train'][:5])


{'text': ['At Seven Avenue Design we design projects in wide range of scales '
          'from one space to whole neighborhoods.\n'
          'At Seven Avenue Design we transform the interior of your space to '
          'make it functional, personal, according to your space and budget.\n'
          'Our architectural services include your conceptual and schematic '
          'design listening to your objectives, space requirements and even '
          'what you are planning ahead.\n'
          'We accompany you to make your design a palpable building.',
          'There are certain tools in the VoIP industry that help VoIP '
          'providers manage and secure their networks using a variety of '
          'available softwares and hardwares. These tools help ensure the '
          'smooth running of your operations and cutting of costs.\n'
          'With the rise of VoIP businesses, software that ties in all things '
          'VoIP for the customer has become critical for VoIP pro

split 매개변수는 데이터 파일을 특정 분할에 매핑할 수도 있습니다:

In [None]:
# `data_files` 딕셔너리를 정의하여 검증 데이터 파일의 경로를 지정합니다.
# "validation" 키는 "en/c4-validation.*.json.gz" 패턴의 파일을 가리킵니다.
# 여기서 *는 와일드카드로, 여러 파일을 일치시키는 데 사용됩니다.
# 예를 들어, "en/c4-validation.00001.json.gz", "en/c4-validation.00002.json.gz" 등의 파일을 모두 포함합니다.
data_files = {"validation": "en/c4-validation.*.json.gz"}

# `load_dataset` 함수를 사용하여 "allenai/c4" 데이터셋의 검증 부분집합을 로드합니다.
# `data_files` 매개변수를 사용하여 위에서 정의한 검증 데이터 파일 경로를 전달합니다.
# `split` 매개변수를 "validation"으로 설정하여 검증 데이터만 로드하도록 지정합니다.
c4_validation = load_dataset("allenai/c4", data_files=data_files, split="validation")


Repo card metadata block was not found. Setting CardData to empty.


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/40.5M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/40.7M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/41.2M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/40.7M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/40.9M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/40.9M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/40.5M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/40.4M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating validation split: 0 examples [00:00, ? examples/s]

## **Local loading script**

컴퓨터에 로컬로 🤗 데이터 세트 로드 스크립트가 있을 수 있음.

이 경우 load_dataset()에 다음 경로 중 하나를 전달하여 데이터셋을 로드함

* 로딩 스크립트 파일의 로컬 경로.
* 로딩 스크립트 파일이 포함된 디렉터리의 로컬 경로(스크립트 파일의 이름이 디렉터리와 같은 경우에만 해당).

**`load_dataset` 함수를 사용하여 로컬 로딩 스크립트를 통해 데이터셋을 로드합니다.**

"path/to/local/loading_script/loading_script.py"는 로딩 스크립트의 전체 경로입니다.

`split` 매개변수를 "train"으로 설정하여 훈련 데이터만 로드하도록 지정합니다.

```
dataset = load_dataset("path/to/local/loading_script/loading_script.py", split="train")
```

위의 코드와 동일한 작업을 수행하지만, 로딩 스크립트의 경로를 디렉토리 이름만으로 지정합니다.

이는 로딩 스크립트 파일의 이름이 디렉토리 이름과 동일하기 때문에 가능합니다.

즉, "loading_script" 디렉토리 내에 "loading_script.py" 파일이 있을 경우,

디렉토리 이름만으로 로딩 스크립트를 참조할 수 있습니다.
```
dataset = load_dataset("path/to/local/loading_script", split="train")  # equivalent because the file has the same name as the directory
```


### **Edit loading script**

**허브에서 로딩 스크립트를 편집하여 직접 수정 사항을 추가할 수도 있음.**

로딩 스크립트에서 상대 경로로 참조되는 모든 데이터 파일을 로드할 수 있도록 데이터 세트 리포지토리를 로컬로 다운로드

In [None]:
# `git clone` 명령을 사용하여 Hugging Face의 "eli5" 데이터셋 리포지토리를 현재 작업 디렉토리에 클론함.

!git clone https://huggingface.co/datasets/eli5

Cloning into 'eli5'...
remote: Enumerating objects: 53, done.[K
remote: Total 53 (delta 0), reused 0 (delta 0), pack-reused 53[K
Unpacking objects: 100% (53/53), 17.77 KiB | 791.00 KiB/s, done.


로드 스크립트를 편집한 다음 로컬 경로를 load_dataset()에 전달하여 로드함:

In [None]:
# `datasets` 라이브러리를 사용하여 데이터셋을 로드하는 데 필요한 함수를 가져옵니다.
from datasets import load_dataset

# `load_dataset` 함수를 사용하여 로컬 경로에서 "eli5" 데이터셋을 로드합니다.
# "path/to/local/eli5"는 로컬에 클론된 "eli5" 데이터셋의 경로를 나타냅니다.
# 이 경로는 실제로 `git clone` 명령을 사용하여 데이터셋을 클론한 위치에 따라 변경될 수 있습니다.
# eli5 = load_dataset("path/to/local/eli5") #구글 코랩에서는 아래와 같이 수정

eli5 = load_dataset("/content/eli5")


Downloading:   0%|          | 0.00/3.50k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/576M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/21.1M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/286M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/9.65M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/17.7M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/330M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/18.7M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/36.2M [00:00<?, ?B/s]

In [None]:
eli5

DatasetDict({
    train_eli5: Dataset({
        features: ['q_id', 'title', 'selftext', 'document', 'subreddit', 'answers', 'title_urls', 'selftext_urls', 'answers_urls'],
        num_rows: 272634
    })
    validation_eli5: Dataset({
        features: ['q_id', 'title', 'selftext', 'document', 'subreddit', 'answers', 'title_urls', 'selftext_urls', 'answers_urls'],
        num_rows: 9812
    })
    test_eli5: Dataset({
        features: ['q_id', 'title', 'selftext', 'document', 'subreddit', 'answers', 'title_urls', 'selftext_urls', 'answers_urls'],
        num_rows: 24512
    })
    train_asks: Dataset({
        features: ['q_id', 'title', 'selftext', 'document', 'subreddit', 'answers', 'title_urls', 'selftext_urls', 'answers_urls'],
        num_rows: 131778
    })
    validation_asks: Dataset({
        features: ['q_id', 'title', 'selftext', 'document', 'subreddit', 'answers', 'title_urls', 'selftext_urls', 'answers_urls'],
        num_rows: 2281
    })
    test_asks: Dataset({
       

## **Local and remote files**

데이터 세트는 **컴퓨터에 저장된 로컬 파일과 원격 파일에서 로드**할 수 있음.

데이터 세트는 대부분 **csv, json, txt 또는 파켓(parquet) 파일**로 저장됨.

**load_dataset() 함수는 이러한 각 파일 유형을 로드할 수 있음.**

[참고]
* CSV (Comma-Separated Values): 각 레코드를 쉼표로 구분된 값의 형태로 나타내는 텍스트 파일 형식입니다.
* JSON (JavaScript Object Notation): 키-값 쌍의 구조를 가진 텍스트 파일 형식으로, 웹 API 응답 및 데이터 저장에 널리 사용됩니다.
* TXT: 일반 텍스트 파일로, 구조화되지 않은 데이터를 저장하는 데 사용됩니다.
* Parquet: 열 기반의 바이너리 파일 형식으로, 빅 데이터 처리 도구와 호환됩니다.


### **CSV (Comma-Separated Values):**

데이터 세트는 하나 또는 여러 개의 CSV 파일로 구성된 데이터 세트를 읽을 수 있음 (이 경우 CSV 파일을 목록으로 전달):.

In [None]:
from google.colab import files
uploaded = files.upload()


In [None]:
from datasets import load_dataset
# dataset = load_dataset("csv", data_files="my_file.csv")
dataset1 = load_dataset("csv", data_files="실습용data1.csv")

In [None]:
dataset1

DatasetDict({
    train: Dataset({
        features: ['Name', 'Age', 'Gender', 'Email'],
        num_rows: 10
    })
})

자세한 내용은 CSV 파일에서 표 형식 데이터 세트를 로드하는 방법 가이드를 참조.

https://huggingface.co/docs/datasets/v2.14.4/tabular_load#csv-files

### **JSON**

JSON 파일은 아래와 같이 load_dataset()을 사용하여 직접 로드함:

In [None]:
from google.colab import files
uploaded = files.upload()

Saving my_file1.json to my_file1.json


In [None]:
from datasets import load_dataset
dataset_jason1 = load_dataset("json", data_files="my_file1.json")

Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

In [None]:
dataset_jason1

DatasetDict({
    train: Dataset({
        features: ['age', 'phone', 'name'],
        num_rows: 10
    })
})

JSON 파일에는 다양한 형식이 있지만, 가장 효율적인 형식은 각 줄이 개별 데이터 행을 나타내는 여러 개의 JSON 객체가 있는 것임. 예를 들어
```
{"a": 1, "b": 2.0, "c": "foo", "d": false}
{"a": 4, "b": -5.5, "c": null, "d": true}
```

중첩된 필드가 발생할 수 있는 또 다른 JSON 형식은 다음과 같이 필드 인수를 지정해야 하는 경우임:

```

from datasets import load_dataset
dataset = load_dataset("json", data_files="my_file.json", field="data")
```



HTTP를 통해 원격 JSON 파일을 로드하려면 대신 URL을 전달:

```
base_url = "https://rajpurkar.github.io/SQuAD-explorer/dataset/"
dataset = load_dataset("json", data_files={"train": base_url + "train-v1.1.json", "validation": base_url + "dev-v1.1.json"}, field="data")
```


In [None]:
# 기본 URL을 설정합니다. 이 URL은 SQuAD 데이터셋의 위치를 나타냅니다.
base_url = "https://rajpurkar.github.io/SQuAD-explorer/dataset/"

# 'load_dataset' 함수를 사용하여 JSON 형식의 데이터셋을 로드합니다.
# - 'train'과 'validation' 두 개의 데이터셋을 로드합니다.
# - 각 데이터셋의 URL은 기본 URL에 해당 데이터셋의 파일 이름을 추가하여 생성됩니다.
# - 'field' 매개변수를 사용하여 'data' 필드만 로드합니다.
dataset3 = load_dataset("json", data_files={"train": base_url + "train-v1.1.json", "validation": base_url + "dev-v1.1.json"}, field="data")


이러한 형식이 가장 일반적인 JSON 형식이지만, 다른 형식의 데이터 세트가 표시될 수 있음.

데이터셋은 이러한 다른 형식을 인식하고 그에 따라 Python JSON 로딩 메서드에 따라 대체방안으로 처리함.

In [None]:
dataset3

DatasetDict({
    train: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 442
    })
    validation: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 48
    })
})

In [None]:
#### 추가 Tip: 이쁘게 출력하는 법

# 구글 코랩에서 긴 출력을 보기 쉽게 여러 줄로 나타내려면 pprint (Pretty Print) 모듈을 사용할 수 있습니다.
# pprint는 데이터 구조를 보기 좋게 출력해줍니다.

from pprint import pprint

pprint(dataset3['train'][:1])


{'paragraphs': [[{'context': 'Architecturally, the school has a Catholic '
                             "character. Atop the Main Building's gold dome is "
                             'a golden statue of the Virgin Mary. Immediately '
                             'in front of the Main Building and facing it, is '
                             'a copper statue of Christ with arms upraised '
                             'with the legend "Venite Ad Me Omnes". Next to '
                             'the Main Building is the Basilica of the Sacred '
                             'Heart. Immediately behind the basilica is the '
                             'Grotto, a Marian place of prayer and reflection. '
                             'It is a replica of the grotto at Lourdes, France '
                             'where the Virgin Mary reputedly appeared to '
                             'Saint Bernadette Soubirous in 1858. At the end '
                             'of the main drive (and i

### **Parquet**

Parquet 파일은 CSV와 같은 행 기반 파일과 달리 열 형식으로 저장됨.

**쿼리를 반환하는 데 더 효율적이고 빠르기** 때문에 대규모 데이터 세트는 Parquet 파일에 저장할 수 있음.

Parquet 파일을 로드하려면 다음과 같이 함:

In [None]:
# 'datasets' 라이브러리에서 'load_dataset' 함수를 가져옵니다.
from datasets import load_dataset

# 'load_dataset' 함수를 사용하여 Parquet 형식의 데이터셋을 로드합니다.
# - 'train'과 'test' 두 개의 데이터셋을 로드합니다.
# - 각 데이터셋의 파일 이름은 'train.parquet'와 'test.parquet'입니다.
# - 로드된 데이터셋은 'dataset' 변수에 저장됩니다.
dataset = load_dataset("parquet", data_files={'train': 'train.parquet', 'test': 'test.parquet'})


In [None]:
from datasets import Features, Value
features = Features({
    'name': Value('string'),
    'age': Value('int32')
})
dataset = load_dataset("parquet", data_files={'train': 'train.parquet', 'test': 'test.parquet'}, features=features)


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

In [None]:
dataset

DatasetDict({
    train: Dataset({
        features: ['name', 'age'],
        num_rows: 0
    })
    test: Dataset({
        features: ['name', 'age'],
        num_rows: 0
    })
})

**[보충 실습]**

20개의 샘플 데이터를 생성하고 Parquet 파일로 저장:



In [None]:
import pandas as pd

# 20개의 샘플 데이터 생성
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hannah', 'Isaac', 'Jack', 'Katie', 'Leo', 'Mia', 'Nathan', 'Olivia', 'Paul', 'Quinn', 'Rita', 'Steve', 'Tina'],
    'age': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120]
}

df = pd.DataFrame(data)

# 데이터를 Parquet 파일로 저장
df.to_parquet('sample_data.parquet')


저장된 Parquet 파일을 datasets 라이브러리를 사용하여 로드:

In [None]:
from datasets import load_dataset, Features, Value

# 데이터셋의 구조를 정의합니다.
features = Features({
    'name': Value('string'),
    'age': Value('int32')
})

# features 인자를 제공하여 데이터셋을 로드합니다.
dataset = load_dataset("parquet", data_files={'train': 'sample_data.parquet'}, features=features)


In [None]:
dataset

DatasetDict({
    train: Dataset({
        features: ['name', 'age'],
        num_rows: 20
    })
})

In [None]:
from pprint import pprint

# 'train' 스플릿을 선택하고 처음 5개의 데이터를 출력합니다.
pprint(dataset['train'][:5])


{'age': [25, 30, 35, 40, 45],
 'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve']}


HTTP를 통해 원격 Parquet 파일을 로드하려면 대신 URL을 전달함:

In [None]:
base_url = "https://storage.googleapis.com/huggingface-nlp/cache/datasets/wikipedia/20200501.en/1.0.0/"
data_files = {"train": base_url + "wikipedia-train.parquet"}
wiki = load_dataset("parquet", data_files=data_files, split="train")

Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/18.3G [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

### **Arrow**

Arrow 파일은 CSV와 같은 행 기반 형식이나 Parquet와 같은 압축되지 않은 형식과 달리 메모리 내 열 형식으로 저장됨.

Arrow 파일을 로드하려면 다음과 같이 함:

```
from datasets import load_dataset
dataset = load_dataset("arrow", data_files={'train': 'train.arrow', 'test': 'test.arrow'})
```

**[추가 실습]**

Arrow 파일 형식은 Apache Arrow 프로젝트의 일부로, 대용량 데이터를 효율적으로 저장하고 처리하기 위한 컬럼 기반의 메모리 저장 형식임.

먼저, pandas와 pyarrow 라이브러리를 사용하여 20개의 샘플 데이터를 생성하고 Arrow 파일로 저장하겠음. 그 후, 해당 Arrow 파일을 datasets 라이브러리를 사용하여 로드하는 코드를 작성함.

* 20개의 샘플 데이터를 생성하고 Arrow 파일로 저장:

In [None]:
import pandas as pd
import pyarrow as pa

# 20개의 샘플 데이터 생성
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hannah', 'Isaac', 'Jack', 'Katie', 'Leo', 'Mia', 'Nathan', 'Olivia', 'Paul', 'Quinn', 'Rita', 'Steve', 'Tina'],
    'age': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120]
}

df = pd.DataFrame(data)

# 데이터를 Arrow 테이블로 변환
table = pa.Table.from_pandas(df)

# Arrow 테이블을 Arrow 파일로 저장
with pa.OSFile('sample_data.arrow', 'wb') as sink:
    with pa.RecordBatchFileWriter(sink, table.schema) as writer:
        writer.write_table(table)


저장된 Arrow 파일을 datasets 라이브러리를 사용하여 로드:

In [None]:
import pyarrow as pa

# Arrow 파일을 엽니다.
with pa.ipc.open_file('sample_data.arrow') as file:
    table = file.read_all()

print(table)


pyarrow.Table
name: string
age: int64
----
name: [["Alice","Bob","Charlie","David","Eve",...,"Paul","Quinn","Rita","Steve","Tina"]]
age: [[25,30,35,40,45,...,100,105,110,115,120]]


In [None]:
import pyarrow as pa
from datasets import Dataset

# Arrow 파일을 pyarrow를 사용하여 로드합니다.
with pa.ipc.open_file('sample_data.arrow') as file:
    table = file.read_all()

# Arrow 테이블을 datasets의 Dataset 객체로 변환합니다.
dataset_3arrow = Dataset.from_pandas(table.to_pandas())


In [None]:
dataset_3arrow

Dataset({
    features: ['name', 'age'],
    num_rows: 20
})

In [None]:
from pprint import pprint

# 'train' 스플릿을 선택하고 처음 5개의 데이터를 출력합니다.
pprint(dataset_3arrow[:10])


{'age': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],
 'name': ['Alice',
          'Bob',
          'Charlie',
          'David',
          'Eve',
          'Frank',
          'Grace',
          'Hannah',
          'Isaac',
          'Jack']}


HTTP를 통해 원격 Arrow 파일을 로드하려면 대신 URL을 전달함:

In [None]:
base_url = "https://storage.googleapis.com/huggingface-nlp/cache/datasets/wikipedia/20200501.en/1.0.0/"
data_files = {"train": base_url + "wikipedia-train.arrow"}
wiki = load_dataset("arrow", data_files=data_files, split="train")

Arrow는 🤗 데이터세트에서 내부적으로 사용하는 파일 형식이므로 Dataset.from_file()을 사용하여 로컬 Arrow 파일을 직접 로드할 수 있음:

In [None]:
import pyarrow as pa
from datasets import Dataset

# Arrow 파일을 pyarrow를 사용하여 로드합니다.
with pa.ipc.open_file('sample_data.arrow') as file:
    table = file.read_all()

# Arrow 테이블을 datasets의 Dataset 객체로 변환합니다.
dataset5 = Dataset.from_pandas(table.to_pandas())


In [None]:
dataset5

Dataset({
    features: ['name', 'age'],
    num_rows: 20
})

**load_dataset()과 달리 Dataset.from_file()은 캐시에서 데이터 세트를 준비하지 않고 Arrow 파일을 메모리 매핑하므로 디스크 공간을 절약할 수 있음**.

이 경우 중간 처리 결과를 저장하는 캐시 디렉터리는 Arrow 파일 디렉터리가 됨.

현재로서는 Arrow 스트리밍 형식만 지원됨. Arrow IPC 파일 형식(Feather V2라고도 함)은 지원되지 않습니다.

### **SQL**

데이터베이스에 연결할 URI를 지정하여 from_sql()로 데이터베이스 콘텐츠를 읽음. 테이블 이름과 쿼리를 모두 읽을 수 있음:

이 코드는 datasets 라이브러리를 사용하여 *SQLite 데이터베이스에서 데이터를 로드하는 방법*을 보여줌.

```
from datasets import Dataset

# SQLite 데이터베이스에서 'data_table_name' 테이블의 전체 데이터를 로드합니다.
# 'con' 인자는 SQLite 데이터베이스 파일의 경로를 나타냅니다.

dataset = Dataset.from_sql("data_table_name", con="sqlite:///sqlite_file.db")

# SQLite 데이터베이스에서 특정 조건을 만족하는 데이터를 로드합니다.
# - 'SELECT text FROM table'는 'table' 테이블에서 'text' 열의 데이터를 선택합니다.
# - 'WHERE length(text) > 100'는 'text'의 길이가 100자 이상인 데이터만 선택합니다.
# - 'LIMIT 10'은 결과 데이터의 수를 10개로 제한합니다.
# 'con' 인자는 SQLite 데이터베이스 파일의 경로를 나타냅니다.

dataset = Dataset.from_sql("SELECT text FROM table WHERE length(text) > 100 LIMIT 10", con="sqlite:///sqlite_file.db")
```


자세한 내용은 SQL 데이터베이스에서 표 형식 데이터세트를 로드하는 방법 가이드를 참조함.

https://huggingface.co/docs/datasets/v2.14.4/tabular_load#databases

## **Multiprocessing**

**데이터 세트가 여러 파일('샤드'라고 함)로 구성되어 있는 경우, 데이터 세트 다운로드 및 준비 단계의 속도를 크게 높일 수 있음**.

num_proc을 사용하여 데이터셋을 병렬로 준비하는 데 사용할 프로세스 수를 선택할 수 있음. 이 경우, 각 프로세스에는 준비할 샤드의 하위 집합이 주어짐:

In [None]:
from google.colab import files
uploaded = files.upload()

Saving OSCAR-2201.py to OSCAR-2201.py


In [None]:
from datasets import load_dataset

# Hugging Face Hub의 데이터셋 경로를 제공합니다.
# oscar_afrikaans = load_dataset("oscar-corpus/OSCAR-2201", "af", num_proc=8)

# 로컬에 저장된 데이터셋 스크립트의 경로를 제공합니다.
oscar_afrikaans = load_dataset("./OSCAR-2201.py", "af", num_proc=8)



# from datasets import load_dataset
# dataset_jason1 = load_dataset("json", data_files="my_file1.json")

imagenet = load_dataset("imagenet-1k", num_proc=8)
ml_librispeech_spanish = load_dataset("facebook/multilingual_librispeech", "spanish", num_proc=8)


In [None]:
from datasets import load_dataset


YOUR_TOKEN = "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"  # 복사한 토큰 값으로 대체하세요.

dataset = load_dataset("oscar-corpus/OSCAR-2201",
                       token=YOUR_TOKEN,  # 토큰 값을 직접 제공
                       language="ar",
                       streaming=True, # optional
                       split="train") # optional, but the dataset only has a train split

for d in dataset:
    print(d) # prints documents


Output hidden; open in https://colab.research.google.com to view.

In [None]:
# `datasets` 라이브러리에서 `load_dataset` 함수를 가져옵니다.
from datasets import load_dataset

# Hugging Face 웹사이트에서 생성된 개인 API 토큰 값을 변수에 저장합니다.
# 중요: 이 토큰은 개인 정보로 간주되므로 공개적으로 공유하거나 저장하지 않도록 주의해야 합니다.
YOUR_TOKEN = "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"

# OSCAR 데이터셋을 로드합니다.
# - "oscar-corpus/OSCAR-2201": 사용할 데이터셋의 식별자입니다.
# - token: Hugging Face 웹사이트에서 생성된 개인 API 토큰 값을 사용하여 인증합니다.
# - language: 사용할 데이터셋의 언어를 지정합니다.
# - streaming: 데이터셋을 스트리밍 형식으로 로드할지 여부를 지정합니다.
#              스트리밍을 사용하면 데이터셋 전체를 메모리에 로드하지 않고 필요할 때마다 조금씩 로드합니다.
# - split: 사용할 데이터셋의 분할을 지정합니다. 이 데이터셋은 train 분할만 있습니다.
dataset = load_dataset("oscar-corpus/OSCAR-2201",
                       token=YOUR_TOKEN,
                       language="ar",
                       streaming=True,
                       split="train")

# 데이터셋의 각 항목을 순회하며 출력합니다. 여기서는 처음 10개의 항목만 출력합니다.
for idx, d in enumerate(dataset):
    if idx >= 10:
        break
    print(d)  # 각 문서의 내용을 출력합니다.
    # 주석: 위의 두 줄은 데이터셋의 모든 항목을 출력합니다.
    # for d in dataset:
    #     print(d)


{'id': 0, 'text': 'بدأ التسجيل في دورة تصميم الرمزيات الإحترافية مع المبدعة الأستاذة أنوثه ديزاين إدآره منتديآت غلآ روحي\nبدأ التسجيل في دورة تصميم الستايلات الفلاشية مع المبدعة الأستاذة أنوثه ديزاين إدآره منتديآت غلآ روحي\n« آخـــر الــمــواضــيــع »\n:: ايام. التشريق في الحج ( الكاتب : RAZ ) :: قصيدة: النفس توله ( الكاتب : RAZ ) :: رحبوا معنا بـ روما الجمل ( الكاتب : RAZ ) :: فحص mri ( الكاتب : RAZ ) :: برج ايفل مشيا على الاقدام ( الكاتب : puval ) :: مسلسل على الحدود الحلقة 6 ( الكاتب : puval ) :: الحلقة الثانية من مسلسل حب انقى اتى ليبقى ( الكاتب : puval ) :: شرح وضع فيديوهات من اليوتوب الى المنتدى ( الكاتب : وردة بيضاء ) :: نبذة تعريفيه عن آلقآئمه آلجآنبيه ( الكاتب : RAZ ) :: آلقآئمه آلجآنبيه آلمتجدده بشكل يومي ( الكاتب : RAZ ) :: ممجموعة تأثيرات فلاشية متحركة - بملفات مفتوحة للفوتوشوب ة متحركة بملفات مفتوحة للفوتوشوب ( الكاتب : وردة بيضاء ) :: المعلم امام التلميذ الذي يكون وراءه ابوه عقيد في الجيش ( الكاتب : puval ) :: معانات كهل يبيت في العراء ويقتات على بيع الفحم ( الكاتب : puva

## **In-memory data(인메모리 데이터)**

데이터세트를 사용하면 **파이썬 dictionary나 판다스 데이터프레임과 같은 인메모리 데이터 구조에서 직접 데이터세트를 생성**할 수도 있음



### **Python dictionary**
Load Python dictionaries with from_dict():

In [None]:
from datasets import Dataset
my_dict = {"a": [1, 2, 3]}
dataset6 = Dataset.from_dict(my_dict)

In [None]:
dataset6

Dataset({
    features: ['a'],
    num_rows: 3
})

### **Python list of dictionaries**
Load a list of Python dictionaries with from_list():

In [None]:
from datasets import Dataset
my_list = [{"a": 1}, {"a": 2}, {"a": 3}]
dataset7 = Dataset.from_list(my_list)

In [None]:
dataset7

Dataset({
    features: ['a'],
    num_rows: 3
})

### **Python generator**
Create a dataset from a Python generator with from_generator():

In [None]:
from datasets import Dataset
def my_gen():
    for i in range(1, 4):
        yield {"a": i}
dataset8 = Dataset.from_generator(my_gen)

In [None]:
# datasets 라이브러리에서 Dataset 클래스를 임포트합니다.
from datasets import Dataset

# 사용자 정의 제너레이터 함수를 정의합니다.
# 이 함수는 1부터 3까지의 숫자를 반환하는 딕셔너리를 생성합니다.
def my_gen():
    for i in range(1, 4):
        yield {"a": i}

# 제너레이터 함수를 사용하여 Dataset 객체를 생성합니다.
# 이렇게 하면 'dataset8'는 {"a": 1}, {"a": 2}, {"a": 3} 세 개의 엔트리를 포함하게 됩니다.
dataset8 = Dataset.from_generator(my_gen)


Generating train split: 0 examples [00:00, ? examples/s]

In [None]:
# datasets 라이브러리의 Dataset 객체는 데이터를 쉽게 보고 탐색할 수 있는 여러 메서드를 제공함.

# (1) 처음 2개의 항목 출력:
print(dataset8[:2])

{'a': [1, 2]}


In [None]:
# (2) 전체 데이터셋 출력:
print(dataset8)

Dataset({
    features: ['a'],
    num_rows: 3
})


In [None]:
dataset8

Dataset({
    features: ['a'],
    num_rows: 3
})

In [None]:
# (3) 데이터셋의 구조 및 정보 출력:
print(dataset8.info)

DatasetInfo(description='', citation='', homepage='', license='', features={'a': Value(dtype='int64', id=None)}, post_processed=None, supervised_keys=None, task_templates=None, builder_name='generator', dataset_name='generator', config_name='default', version=0.0.0, splits={'train': SplitInfo(name='train', num_bytes=24, num_examples=3, shard_lengths=None, dataset_name='generator')}, download_checksums={}, download_size=0, post_processing_size=None, dataset_size=24, size_in_bytes=24)


In [None]:
# pprint는 데이터 구조를 보기 좋게 출력해줍니다.
from pprint import pprint

pprint(dataset8.info)

DatasetInfo(description='',
            citation='',
            homepage='',
            license='',
            features={'a': Value(dtype='int64', id=None)},
            post_processed=None,
            supervised_keys=None,
            task_templates=None,
            builder_name='generator',
            dataset_name='generator',
            config_name='default',
            version=0.0.0,
            splits={'train': SplitInfo(name='train',
                                       num_bytes=24,
                                       num_examples=3,
                                       shard_lengths=None,
                                       dataset_name='generator')},
            download_checksums={},
            download_size=0,
            post_processing_size=None,
            dataset_size=24,
            size_in_bytes=24)


주어진 출력물은 `datasets` 라이브러리에서 `Dataset` 객체의 정보를 나타내는 `DatasetInfo` 객체입니다. 각 항목의 의미를 설명하겠습니다:

- **description**: 데이터셋에 대한 간단한 설명입니다. 여기서는 비어 있습니다.
- **citation**: 데이터셋을 사용할 때 인용해야 하는 정보입니다. 여기서는 제공되지 않았습니다.
- **homepage**: 데이터셋의 원본 웹페이지 또는 출처입니다. 여기서는 제공되지 않았습니다.
- **license**: 데이터셋의 라이센스 정보입니다. 여기서는 제공되지 않았습니다.
- **features**: 데이터셋의 특징(열)과 해당 데이터 유형에 대한 정보입니다. 여기서는 'a'라는 이름의 열이 있고, 이는 `int64` 유형입니다.
- **post_processed**: 데이터셋이 후처리된 경우 해당 정보입니다. 여기서는 사용되지 않았습니다.
- **supervised_keys**: 지도 학습을 위한 입력 및 출력 키입니다. 여기서는 제공되지 않았습니다.
- **task_templates**: 데이터셋이 사용될 수 있는 작업 템플릿입니다. 여기서는 제공되지 않았습니다.
- **builder_name**: 데이터셋을 구축하는 데 사용된 빌더의 이름입니다. 여기서는 'generator'로 지정되었습니다.
- **dataset_name**: 데이터셋의 이름입니다. 여기서는 'generator'로 지정되었습니다.
- **config_name**: 데이터셋의 구성 이름입니다. 'default'로 설정되어 있습니다.
- **version**: 데이터셋의 버전입니다. 0.0.0으로 설정되어 있습니다.
- **splits**: 데이터셋의 분할 정보입니다. 여기서는 'train' 분할만 있고, 이 분할에는 3개의 예제가 포함되어 있습니다.
- **download_checksums**: 다운로드된 파일의 체크섬 정보입니다. 여기서는 제공되지 않았습니다.
- **download_size**: 다운로드된 데이터의 크기입니다. 0으로 지정되어 있습니다.
- **post_processing_size**: 후처리된 데이터의 크기입니다. 여기서는 제공되지 않았습니다.
- **dataset_size**: 전체 데이터셋의 크기입니다. 24 바이트로 지정되어 있습니다.
- **size_in_bytes**: 데이터셋의 전체 크기를 바이트 단위로 표시합니다. 24 바이트로 지정되어 있습니다.

이 정보는 주어진 `Dataset` 객체의 구조, 특징, 크기 등에 대한 전반적인 개요를 제공합니다.

In [None]:
# (4) 특정 인덱스의 데이터 출력:
print(dataset8[1])  # 1번 인덱스의 데이터 출력

{'a': 2}


이 접근 방식은 사용 가능한 메모리보다 큰 데이터를 로드하는 것을 지원함.

목록을 gen_kwargs에 전달하여 샤딩된 데이터세트를 정의할 수도 있음:

In [None]:
from torch.utils.data import IterableDataset


In [None]:
# 추가

from torch.utils.data import IterableDataset

class MyIterableDataset(IterableDataset):
    def __init__(self, generator_func, **generator_kwargs):
        self.generator_func = generator_func
        self.generator_kwargs = generator_kwargs

    def __iter__(self):
        return self.generator_func(**self.generator_kwargs)

# 사용 예시:
def gen(shards):
    for shard in shards:
        with open(shard, 'r') as f:
            for line in f:
                yield {"line": line}

shards = [f"data{i}.txt" for i in range(32)]
ds = MyIterableDataset(gen, shards=shards)


In [None]:
import random
from torch.utils.data import IterableDataset, DataLoader

# 새로운 IterableDataset을 상속받아 사용자 정의 클래스를 만듭니다.
class MyIterableDataset(IterableDataset):
    def __init__(self, generator_func, **generator_kwargs):
        # 초기화 함수에서 생성자 함수와 그 인자들을 저장합니다.
        self.generator_func = generator_func
        self.generator_kwargs = generator_kwargs

    def __iter__(self):
        # __iter__ 함수를 호출할 때 저장된 생성자 함수를 사용하여 iterator를 반환합니다.
        return self.generator_func(**self.generator_kwargs)

# 데이터를 생성할 함수입니다. 각 shard에서 데이터를 읽어와 반환합니다.
def gen(shards):
    for shard in shards:
        with open(shard, 'r') as f:
            for line in f:
                yield {"line": line}

# 32개의 shard 파일명을 생성합니다.
shards = [f"data{i}.txt" for i in range(32)]
random.seed(42)  # 랜덤 시드 설정
random.shuffle(shards)  # shards 리스트 섞기

# 사용자 정의한 MyIterableDataset을 사용하여 데이터셋 객체를 생성합니다.
ds = MyIterableDataset(gen, shards=shards)

# DataLoader를 사용하여 데이터를 배치로 나누고 멀티 프로세싱을 사용하여 데이터를 로

from torch.utils.data import DataLoader
dataloader = DataLoader(ds, num_workers=4)
# give each worker a subset of 32/4=8 shards




[상기 코드 설명]

이 코드는 PyTorch의 `IterableDataset`을 활용하여 여러 개의 텍스트 파일 (shards)에서 데이터를 읽어오는 데이터셋 및 데이터 로더를 정의합니다. 자세한 설명은 다음과 같습니다:

1. **필요한 라이브러리 및 모듈 임포트**:
   - `random` 모듈은 데이터셋의 순서를 무작위로 섞는 데 사용됩니다.
   - `IterableDataset`과 `DataLoader`는 PyTorch에서 제공하는 데이터 처리 클래스입니다.

2. **`MyIterableDataset` 클래스 정의**:
   - 이 클래스는 `IterableDataset`을 상속받아 사용자 정의 데이터셋을 만듭니다.
   - 초기화 메서드에서는 제너레이터 함수와 그 인자들을 저장합니다.
   - `__iter__` 메서드에서는 저장된 제너레이터 함수를 호출하여 iterator를 반환합니다.

3. **데이터 생성 함수 `gen` 정의**:
   - 이 함수는 각 shard (텍스트 파일)에서 데이터를 읽어와 반환합니다.
   - 각 줄을 딕셔너리 형태 `{"line": line}`으로 반환합니다.

4. **shards 리스트 생성**:
   - 32개의 shard 파일명을 생성합니다. (예: "data0.txt", "data1.txt", ... "data31.txt")
   - 생성된 리스트를 무작위로 섞습니다.

5. **사용자 정의 `MyIterableDataset`로 데이터셋 객체 생성**:
   - `gen` 함수와 shards 리스트를 사용하여 `MyIterableDataset` 인스턴스를 생성합니다.

6. **`DataLoader` 정의**:
   - `DataLoader`는 데이터를 배치로 나누고 멀티 프로세싱을 사용하여 데이터를 로드하는 역할을 합니다.
   - `num_workers=4`로 설정하면 데이터 로딩을 위해 4개의 병렬 워커를 사용합니다. 따라서 각 워커는 32/4=8개의 shard를 처리하게 됩니다.

이 코드를 통해 32개의 텍스트 파일에서 데이터를 병렬로 읽어와 배치 처리할 수 있는 PyTorch 데이터 로더가 생성됩니다.

[shards 설명]

"shard"는 큰 데이터셋이나 데이터베이스를 여러 개의 작은 조각으로 나누는 것을 의미합니다. 이렇게 나누는 이유는 데이터 관리, 처리, 저장을 더 효율적으로 하기 위함입니다.

간단한 예로 설명하겠습니다:

**예시**:
당신이 큰 도서관을 운영하고 있다고 가정해봅시다. 이 도서관에는 수백만 권의 책이 있습니다. 모든 책을 한 군데에 모아두면 찾기도 힘들고 관리도 어려울 것입니다.

이 문제를 해결하기 위해 도서관을 여러 개의 작은 방 (section)으로 나눕니다. 각 방은 특정 주제나 알파벳 순서에 따라 책을 보관합니다. 예를 들어, A로 시작하는 제목의 책은 A 섹션에, 과학 관련 책은 과학 섹션에 보관하는 식입니다.

이렇게 도서관을 여러 개의 섹션으로 나누는 것은 데이터의 "sharding"과 유사합니다. 각 섹션은 "shard"와 같으며, 각각의 shard는 데이터의 일부분을 관리합니다.

**코드 관점**:
코드에서 `shards`는 여러 개의 텍스트 파일명을 포함하는 리스트입니다. 각 파일은 데이터셋의 일부를 포함하며, 이러한 파일들을 합치면 전체 데이터셋이 됩니다. 이런 방식으로 데이터를 여러 파일에 분산시키는 것은 큰 데이터셋을 효율적으로 처리하기 위한 방법 중 하나입니다.

In [None]:
ds

<__main__.MyIterableDataset object at 0x7e0ed515f910>

In [None]:
import os
print(os.listdir('.'))


['.config', 'sample_data']


In [None]:
shards = [f"datasets/data{i}.txt" for i in range(32)]


In [None]:
shards

['datasets/data0.txt', 'datasets/data1.txt', 'datasets/data2.txt', 'datasets/data3.txt', 'datasets/data4.txt', 'datasets/data5.txt', 'datasets/data6.txt', 'datasets/data7.txt', 'datasets/data8.txt', 'datasets/data9.txt', 'datasets/data10.txt', 'datasets/data11.txt', 'datasets/data12.txt', 'datasets/data13.txt', 'datasets/data14.txt', 'datasets/data15.txt', 'datasets/data16.txt', 'datasets/data17.txt', 'datasets/data18.txt', 'datasets/data19.txt', 'datasets/data20.txt', 'datasets/data21.txt', 'datasets/data22.txt', 'datasets/data23.txt', 'datasets/data24.txt', 'datasets/data25.txt', 'datasets/data26.txt', 'datasets/data27.txt', 'datasets/data28.txt', 'datasets/data29.txt', 'datasets/data30.txt', 'datasets/data31.txt']

### **Pandas DataFrame**

Load Pandas DataFrames with from_pandas():

이 코드는 **pandas의 DataFrame을 생성하고, 이를 Hugging Face의 datasets 라이브러리의 Dataset 객체로 변환**하는 과정을 보여줌.

In [None]:
# 필요한 라이브러리와 모듈을 임포트합니다.
from datasets import Dataset  # Hugging Face의 datasets 라이브러리에서 Dataset 클래스를 임포트합니다.
import pandas as pd  # 데이터 처리 라이브러리인 pandas를 임포트합니다.

# pandas DataFrame 객체를 생성합니다. 이 DataFrame은 'a'라는 열을 가지며, 그 안에 1, 2, 3, 7, 8의 값을 포함합니다.
df = pd.DataFrame({"a": [1, 2, 3, 7, 8]})

# pandas DataFrame을 Hugging Face의 Dataset으로 변환합니다.
# 이렇게 하면 DataFrame의 데이터를 Dataset 객체로 쉽게 변환하여 다양한 데이터 처리 및 변환 작업을 수행할 수 있습니다.
dataset7 = Dataset.from_pandas(df)


In [None]:
dataset7

Dataset({
    features: ['a'],
    num_rows: 5
})

## **Offline**

인터넷에 연결되어 있지 않아도 데이터 세트를 로드할 수 있음. 이전에 Hub 리포지토리에서 데이터 세트를 다운로드한 적이 있다면 캐시되어 있어야 함. 즉, 캐시에서 데이터 세트를 다시 로드하여 오프라인에서 사용할 수 있음.

**인터넷에 액세스할 수 없는 경우 🤗 데이터세트를 전체 오프라인 모드로 실행할 수 있음. 이렇게 하면 데이터 세트 빌더 다운로드가 시간 초과될 때까지 기다리는 대신 🤗 데이터 세트가 캐시에서 직접 검색되므로 시간을 절약할 수 있음.**

전체 오프라인 모드를 사용하려면 환경 변수 HF_DATASETS_OFFLINE을 1로 설정함

## **Slice splits (슬라이스 분할)**

**분할의 특정 조각만 로드하도록 선택할 수도 있음**.

분할을 분할하는 데는 문자열 또는 ReadInstruction API를 사용하는 두 가지 옵션이 있음.

문자열은 간단한 경우에 더 간결하고 읽기 쉬운 반면, ReadInstruction은 가변 슬라이싱 매개변수와 함께 사용하기 쉬움.

학습과 테스트 분할을 다음과 같이 연결함:

In [None]:
# Hugging Face의 datasets 라이브러리를 임포트합니다.
# 이 라이브러리는 다양한 데이터셋을 손쉽게 로드하고 처리하는 데 사용됩니다.
import datasets

# ReadInstruction 객체를 사용하여 "train"과 "test" 분할을 지정합니다.
# 이 두 분할을 결합하여 하나의 데이터셋으로 만듭니다.
ri = datasets.ReadInstruction("train") + datasets.ReadInstruction("test")

# "bookcorpus" 데이터셋을 로드합니다.
# split 매개변수를 사용하여 앞서 결합한 train 및 test 분할을 지정합니다.
# 이렇게 하면 train과 test 분할이 합쳐진 하나의 데이터셋 객체가 반환됩니다.
train_test_ds = datasets.load_dataset("bookcorpus", split=ri)


Downloading builder script:   0%|          | 0.00/3.25k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/1.67k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/6.48k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/1.18G [00:00<?, ?B/s]

Generating train split:   0%|          | 0/74004228 [00:00<?, ? examples/s]

ValueError: ignored

학습 분할의 특정 행을 선택함:

In [None]:
train_10_20_ds = datasets.load_dataset("bookcorpus", split=datasets.ReadInstruction("train", from_=10, to=20, unit="abs"))

또는 분할 비율을 선택함:

In [None]:
train_10_20_ds = datasets.load_dataset("bookcorpus", split=datasets.ReadInstruction("train", to=10, unit="%"))

In [None]:
train_10_20_ds

Dataset({
    features: ['text'],
    num_rows: 7400423
})

In [None]:
train_10_20_ds.info

DatasetInfo(description='Books are a rich source of both fine-grained information, how a character, an object or a scene looks like, as well as high-level semantics, what someone is thinking, feeling and how these states evolve through a story.This work aims to align books to their movie releases in order to providerich descriptive explanations for visual content that go semantically farbeyond the captions available in current datasets. ', citation='@InProceedings{Zhu_2015_ICCV,\n    title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},\n    author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},\n    booktitle = {The IEEE International Conference on Computer Vision (ICCV)},\n    month = {December},\n    year = {2015}\n}\n', homepage='https://yknzhu.wixsite.com/mbweb', license='', features={'text': Value(dtype='string', id=None)}, post_process

각 분할에서 백분율 조합을 선택합니다:

In [None]:
ri = (datasets.ReadInstruction("train", to=10, unit="%") + datasets.ReadInstruction("train", from_=-80, unit="%"))
train_10_80pct_ds = datasets.load_dataset("bookcorpus", split=ri)

마지막으로 교차 검증 분할을 만들 수도 있습니다. 아래 예는 10배 교차 검증 분할을 생성합니다. 각 유효성 검사 데이터 세트는 10% 청크이며, 학습 데이터 세트는 나머지 90%의 보완적인 청크를 구성합니다:

In [None]:
# 이 코드는 10% 단위로 데이터를 분할하여 여러 val_ds와 train_ds 데이터셋 리스트를 생성합니다.

val_ds_list = []
train_ds_list = []

for k in range(0, 100, 10):
    # Validation Dataset
    ri_val = datasets.ReadInstruction("train", from_=k, to=k+10, unit="%")
    val_ds = datasets.load_dataset("bookcorpus", split=ri_val)
    val_ds_list.append(val_ds)

    # Train Dataset
    ri_train_1 = datasets.ReadInstruction("train", to=k, unit="%")
    ri_train_2 = datasets.ReadInstruction("train", from_=k+10, unit="%")
    ri_train_combined = ri_train_1 + ri_train_2
    train_ds = datasets.load_dataset("bookcorpus", split=ri_train_combined)
    train_ds_list.append(train_ds)


In [None]:
val_ds_list

[Dataset({
    features: ['text'],
    num_rows: 7400423
}), Dataset({
    features: ['text'],
    num_rows: 7400423
}), Dataset({
    features: ['text'],
    num_rows: 7400422
}), Dataset({
    features: ['text'],
    num_rows: 7400423
}), Dataset({
    features: ['text'],
    num_rows: 7400423
}), Dataset({
    features: ['text'],
    num_rows: 7400423
}), Dataset({
    features: ['text'],
    num_rows: 7400423
}), Dataset({
    features: ['text'],
    num_rows: 7400422
}), Dataset({
    features: ['text'],
    num_rows: 7400423
}), Dataset({
    features: ['text'],
    num_rows: 7400423
})]

In [None]:
train_ds_list

[Dataset({
    features: ['text'],
    num_rows: 66603805
}), Dataset({
    features: ['text'],
    num_rows: 66603805
}), Dataset({
    features: ['text'],
    num_rows: 66603806
}), Dataset({
    features: ['text'],
    num_rows: 66603805
}), Dataset({
    features: ['text'],
    num_rows: 66603805
}), Dataset({
    features: ['text'],
    num_rows: 66603805
}), Dataset({
    features: ['text'],
    num_rows: 66603805
}), Dataset({
    features: ['text'],
    num_rows: 66603806
}), Dataset({
    features: ['text'],
    num_rows: 66603805
}), Dataset({
    features: ['text'],
    num_rows: 66603805
})]

### **Percent slicing and rounding(백분율 슬라이싱 및 반올림)**

기본 동작은 요청된 슬라이스 경계가 100으로 균등하게 나뉘지 않는 데이터 집합의 경우 경계를 가장 가까운 정수로 반올림하는 것임. 아래 그림과 같이 일부 슬라이스는 다른 슬라이스보다 더 많은 예제를 포함할 수 있음. 예를 들어, 다음 열 분할에 999개의 레코드가 포함된 경우임:

이 코드는 "bookcorpus" 데이터셋의 "train" 분할에서 특정 비율의 데이터 부분만을 선택하여 로드하는 방법을 보여줍니다.

In [None]:
# Hugging Face의 datasets 라이브러리를 사용하여 "bookcorpus" 데이터셋을 로드합니다.

# "train" 분할의 50%에서 52%까지의 데이터를 로드합니다.
# 즉, 전체 "train" 분할 데이터의 중간 2% 부분만을 선택하여 로드합니다.
train_50_52_ds = datasets.load_dataset("bookcorpus", split="train[50%:52%]")

# "train" 분할의 52%에서 54%까지의 데이터를 로드합니다.
# 즉, 전체 "train" 분할 데이터의 바로 다음 2% 부분을 선택하여 로드합니다.
train_52_54_ds = datasets.load_dataset("bookcorpus", split="train[52%:54%]")


In [None]:
train_50_52_ds

Dataset({
    features: ['text'],
    num_rows: 1480085
})

In [None]:
train_50_52_ds[0:2]

{'text': ['coalridge showed the smiths to a wagon , larger than the rest , crammed to the brim with gear .', 'katin couldnt make out most of it .']}

동일한 크기의 분할을 원하는 경우 대신 pct1_dropremainder 반올림을 사용함. 이렇게 하면 지정된 백분율 경계가 1%의 배수로 처리됨.

이 코드는 "bookcorpus" 데이터셋의 "train" 분할에서 특정 비율의 데이터 부분만을 선택하여 로드하는 두 가지 방법을 보여줍니다: ReadInstruction을 사용하는 방법과 짧은 문자열 표기법을 사용하는 방법입니다.

In [None]:
# Hugging Face의 datasets 라이브러리를 사용하여 "bookcorpus" 데이터셋을 로드합니다.

# ReadInstruction을 사용하여 "train" 분할의 50%에서 52%까지의 데이터를 로드합니다.
# unit="%": 비율을 퍼센트로 지정합니다.
# rounding="pct1_dropremainder": 데이터를 1% 단위로 나누고, 나머지는 버립니다.
train_50_52pct1_ds = datasets.load_dataset("bookcorpus", split=datasets.ReadInstruction("train", from_=50, to=52, unit="%", rounding="pct1_dropremainder"))

# ReadInstruction을 사용하여 "train" 분할의 52%에서 54%까지의 데이터를 로드합니다.
train_52_54pct1_ds = datasets.load_dataset("bookcorpus", split=datasets.ReadInstruction("train",from_=52, to=54, unit="%", rounding="pct1_dropremainder"))

# 짧은 문자열 표기법을 사용하여 "train" 분할의 50%에서 52%까지의 데이터를 로드합니다. (1% 단위로 나눈 후 나머지는 버림)
train_50_52pct1_ds = datasets.load_dataset("bookcorpus", split="train[50%:52%](pct1_dropremainder)")

# 짧은 문자열 표기법을 사용하여 "train" 분할의 52%에서 54%까지의 데이터를 로드합니다. (1% 단위로 나눈 후 나머지는 버림)
train_52_54pct1_ds = datasets.load_dataset("bookcorpus", split="train[52%:54%](pct1_dropremainder)")


In [None]:
train_50_52pct1_ds

Dataset({
    features: ['text'],
    num_rows: 1480084
})

데이터 집합의 예제 수가 100으로 균등하게 나뉘지 않는 경우 pct1_dropremainder 반올림으로 인해 데이터 집합의 마지막 예제가 잘릴 수 있음.

## **문제 해결**

때때로 데이터 세트를 로드할 때 예기치 않은 결과가 나타날 수 있음.

가장 일반적인 두 가지 문제는 데이터 세트을 수동으로 다운로드하는 경우와 데이터 세트의 기능을 지정하는 경우임.

### **수동 다운로드**

**특정 데이터 세트는 라이선스 비호환성 또는 파일이 로그인 페이지 뒤에 숨겨져 있는 경우 데이터 세트 파일을 수동으로 다운로드해야 함.**

이 경우 load_dataset()에서 AssertionError가 발생함. 하지만 🤗 데이터셋은 누락된 파일을 다운로드하는 방법에 대한 자세한 지침을 제공함.

파일을 다운로드한 후 data_dir 인수를 사용하여 다운로드한 파일의 경로를 지정함.

예를 들어 MATINF 데이터셋에서 구성을 다운로드하려고 하는 경우:

```
dataset = load_dataset("matinf", "summarization")
```

Downloading and preparing dataset matinf/summarization (download: Unknown size, generated: 246.89 MiB, post-processed: Unknown size, total: 246.89 MiB) to /root/.cache/huggingface/datasets/matinf/summarization/1.0.0/82eee5e71c3ceaf20d909bca36ff237452b4e4ab195d3be7ee1c78b53e6f540e...
AssertionError: The dataset matinf with config summarization requires manual data.
Please follow the manual download instructions: To use MATINF you have to download it manually. Please fill this google form (https://forms.gle/nkH4LVE4iNQeDzsc9). You will receive a download link and a password once you complete the form. Please extract all files in one folder and load the dataset with: *datasets.load_dataset('matinf', data_dir='path/to/folder/folder_name')*.
Manual data can be loaded with `datasets.load_dataset(matinf, data_dir='<path/to/manual/data>')

로딩 스크립트를 사용하여 허브에서 컴퓨터에 데이터 세트를 이미 다운로드한 경우, 해당 데이터 세트를 로드하려면 data_dir 또는 data_files 매개변수에 절대 경로를 전달해야 함. 그렇지 않고 상대 경로를 전달하면 load_dataset()은 로컬 디렉터리 대신 허브의 리포지토리에 있는 디렉터리를 로드함.

### **Specify features(특성 지정)**

로컬 파일에서 데이터 세트를 만들면 Apache Arrow가 자동으로 특성을 추론함. 그러나 데이터 세트의 특성이 항상 사용자의 기대와 일치하지 않을 수도 있고, **사용자가 직접 특성을 정의하고 싶을 수도 있음**.

다음 예는 ClassLabel 기능으로 사용자 정의 레이블을 추가하는 방법을 보여줌.

먼저, Features 클래스로 자신만의 레이블을 정의함:

In [None]:
# datasets 라이브러리에서 필요한 클래스들을 임포트합니다.
from datasets import Features, Value, ClassLabel

# 감정 분류를 위한 클래스 이름들을 정의합니다.
class_names = ["sadness", "joy", "love", "anger", "fear", "surprise"]

# emotion_features를 정의합니다.
# 'text'는 문자열 형식의 데이터를 나타내고,
# 'label'은 주어진 class_names를 기반으로 하는 분류 레이블을 나타냅니다.
emotion_features = Features({'text': Value('string'), 'label': ClassLabel(names=class_names)})


이 코드는 감정 분류 작업을 위한 피쳐 구조를 정의함. text는 감정을 나타내는 문장이며, label은 해당 문장의 감정을 나타내는 분류 레이블임.

그런 다음 load_dataset()에 방금 만든 특성으로 features 매개 변수를 지정함:

이 코드는 CSV 파일을 load_dataset 함수를 사용하여 로드하며, 해당 파일의 구조와 데이터 유형을 정의하는 데 필요한 정보를 제공합니다.

In [None]:
# Hugging Face의 datasets 라이브러리의 `load_dataset` 함수를 사용하여 CSV 파일을 로드합니다.

# 'csv': 데이터셋 형식을 CSV로 지정합니다.
# data_files=file_dict: file_dict 변수에 지정된 경로의 파일(들)을 데이터로 사용합니다.
# delimiter=';': CSV 파일 내에서 데이터 필드를 구분하는 구분자로 세미콜론(;)을 사용한다는 것을 지정합니다.
# column_names=['text', 'label']: CSV 파일의 열 이름을 'text'와 'label'로 지정합니다.
# features=emotion_features: 데이터셋의 특성을 emotion_features로 지정합니다. 이 변수는 데이터의 구조와 유형을 정의합니다.

dataset = load_dataset('csv', data_files=file_dict, delimiter=';', column_names=['text', 'label'], features=emotion_features)


이제 데이터 세트 기능을 보면 정의한 사용자 지정 레이블을 사용하는 것을 볼 수 있음:

In [None]:
dataset['train'].features

## **Metrics(메트릭)**

**메트릭은 🤗 데이터 세트에서 더 이상 사용되지 않음**. 메트릭을 사용하는 방법에 대해 자세히 알아보려면 🤗 평가 라이브러리를 살펴보면 됨. 메트릭 외에도 모델 및 데이터 세트를 평가하기 위한 더 많은 도구를 찾을 수 있음.

https://huggingface.co/docs/evaluate/index


**사용하려는 지표가 🤗 데이터세트에서 지원되지 않는 경우, 직접 지표 스크립트를 작성하여 사용**할 수 있음. 로컬 메트릭 로딩 스크립트의 경로를 제공하여 메트릭을 로드함:

In [None]:
# Hugging Face의 datasets 라이브러리에서 load_metric 함수를 임포트합니다.
# 이 함수는 사용자 지정 메트릭 스크립트를 로드하는 데 사용됩니다.
from datasets import load_metric

# 사용자 지정 메트릭 스크립트를 로드합니다.
# 'PATH/TO/MY/METRIC/SCRIPT'는 실제 메트릭 스크립트의 경로로 교체되어야 합니다.
metric = load_metric('PATH/TO/MY/METRIC/SCRIPT')

# 모델의 예측 성능을 평가하는 일반적인 방법의 예시입니다.

# dataset의 각 배치에 대해 반복합니다.
for batch in dataset:
    # 각 배치에서 입력과 참조(정답)을 가져옵니다.
    inputs, references = batch

    # 모델을 사용하여 입력에 대한 예측값을 생성합니다.
    predictions = model(inputs)

    # 예측값과 참조를 사용하여 메트릭을 업데이트합니다.
    metric.add_batch(predictions=predictions, references=references)

# 최종 평가 점수를 계산합니다.
score = metric.compute()


자체 메트릭 로딩 스크립트를 작성하는 방법에 대한 자세한 내용은 메트릭 가이드를 참조.

https://huggingface.co/docs/datasets/v2.14.4/how_to_metrics#custom-metric-loading-script

# **DREAM FACTORY**
#############################################################################
#############################################################################
#############################################################################
