# Hubからのデータセットの読み込み（Load a dataset from the Hub）

再現可能（reproductable）でアクセスしやすい（accessible）高品質なデータセットを見つけるのは難しいです．
Hugging Face Datastesの一つの主要な目標は，任意のフォーマットまたはタイプのデータセットに簡単にアクセスする方法を提供することです．
事のはじめとして最も簡単な方法は，Hugging Face Hubにある既存のデータセットを見つけて，Hugging Face Datasetsを使いダウンロードや生成をしてみることです．
Hugging Face Hubは，コミュニティベースのNLP，画像処理，音声処理などのタスクのためのデータセットのコレクションです．

このチュートリアルでは，rotten tomatoes と MinDS-14 データセットを使いますが，あなたの興味あるデータセットを一緒に読み込んでみるのもいいと思います．
今すぐHubにアクセスして，あなたのタスクにあったデータセットを探してみましょう！

## データセットの読み込み（Load a dataset）

データセットをダウンロードする前に，データセットに関する一般的な情報を素早く得ることが助けになることがおおいです．
データセットの情報は DatasetInfo に格納されていて，データセットの詳細や特性（features），データセットのサイズなどの情報を含めることができます．

`load_dataset_builder()` を使って，データセットビルダ（dataset builder）を読み込み，ダウンロードせずにそのデータセットの属性を見ることができます:

In [None]:
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("rotten_tomatoes")

# inspect dataset description
ds_builder.info.description

In [None]:
# inspect dataset features
ds_builder.info.features

このデータセットでよければ，`load_dataset()` を使ってデータセットを読み込むことができます．

In [None]:
from datasets import load_dataset
dataset = load_dataset("rotten_tomatoes", split="train")

## Splits

スプリット（Split）は，`train`や`test`のようなデータセットのサブセット（部分集合）です．
データセットのスプリット名は`get_dataset_split_names()`関数で取得できます:

In [None]:
from datasets import get_dataset_split_names

get_dataset_split_names("rotten_tomatoes")

`split`パラメータによって特定のスプリットを指定してデータセットを読み込むことができます．
データセットスプリットを読み込むことで，`Dataset`オブジェクトが取得できます:

In [None]:
from datasets import load_dataset

dataset = load_dataset("rotten_tomatoes", split="train")
dataset

`split`を指定しなかった場合，Hugging Face Datasets は代わりに`DatasetDict`オブジェクトを返します:

In [None]:
from datasets import load_dataset

dataset = load_dataset("rotten_tomatoes")
dataset

## コンフィギュレーション（Configurations）

データセットの中にはいくつかのサブデータセットを含むものがあります．
例えば，`MinDS-14`データセットはいくつかのサブデータセットがあり，それぞれは異なる言語のオーディオデータを含んでいます．
これらのサブデータセットは`configurations`として知られいて，データセットを読み込むときに明確に一つ指定する必要があります．
コンフィギュレーション名（configuration name）を指定しない場合，Hugging Face Datasets は`ValueError`を発生し，コンフィギュレーションを選択することを指示します．


`get_dataset_config_names()`関数を使って，データセットで提供されている全ての可能なコンフィギュレーション名のリストを取得できます:


In [None]:
from datasets import get_dataset_config_names

configs = get_dataset_config_names("PolyAI/minds14")
print(configs)

好きなコンフィギュレーションを読み込むことができます:

In [None]:
from datasets import load_dataset
mindsFR = load_dataset("PolyAI/minds14", "fr-FR", split="train")

## リモートコード

特定のデータセットのリポジトリは，データセットを生成するためのPythonコードである読み込み用のスクリプトを含みます．
それらのデータセットは全般的に Parquet by Hugging Face にエクスポートされ，Hugging Face Datasets では読み込み用スクリプトを実行することなくデータセットを高速に読み込むことができます．

もし Parguet によるエクスポートが不可能でも，`load_dataset`によってPythonコードを持つリポジトリのデータセットを利用することは可能です．
Hubにアップロードされたファイルやコードは全てマルウェアのスキャンが行われますが，データセット読み込み用のスクリプトやそのプログラマを確認し，あなたの計算機上で悪意あるコードを実行しないようにするべきです．
`trust_remote_code=True`を有効にして読み込み用スクリプトを持つデータセットを利用するべきです．そうしないと，警告を受けることになるでしょう:

In [1]:
# 注: C4コーパスは非常に大きいため、データセットのダウンロードには時間がかかる場合があります.
# この例では、データセットのダウンロードをスキップしています.

from datasets import get_dataset_config_names, get_dataset_split_names, load_dataset

# c4 = load_dataset("c4", "en", trust_remote_code=True)
# print(get_dataset_config_names("c4"))
# print(get_dataset_split_names("c4"))

> 次期メジャーリリースでは，`trust_remote_code`はデフォルトで`False`になります．