# Hubにデータセットを共有する（Share a dateset to the Hub）

Hubは，コミュニティが厳選し，有名な研究データセットの豊富なコレクションです．
機械学習コミュニティ（ML community）の発展を助け，全ての人の進捗を加速するために，データセットの共有をしましょう．
全ての貢献が歓迎されます．データセットの追加はドラッグ＆ドロップで簡単に行えます！

## Hub UIを使ったアップロード（Upload with the Hub UI）

Hubのウェブベースのインターフェースはデータセットのアップロードの経験がなくても簡単に行えます．

### リポジトリの作成

リポジトリは全てのデータセットファイルをホストします．
リビジョン履歴を含み，複数のデータセットのバージョンの保存を可能にします．

1. プロファイルをクリックし，**New Dataset*を選択して新しいデータセットリポジトリを作成します．
2. 名前を決めて，パブリックかプライベートかを選択します．パブリックなデータセットは全ての人に見えます．プライベートなデータセットはあなたや，あなたの組織のメンバーのみに見えます．

### データセットのアップロード

1. リポジトリが作成されたら，**Files and versions**タブに移動してファイルを追加します．
**Add file**を選択してデータセットのアップロードを行います．
様々なテキスト，オーディオ，画像データの拡張子（`.csv`，`.json`，`.txt`など）をサポートしています．
テキストファイル（`.txt`，`.csv`や`.json`など）の場合はアップロードする前に`.zip`や`.gz`などで圧縮をすることをお勧めします．
<br><br>
テキストファイルは，デフォルトではGit LFSに追跡されません．
また，10MBを超えるものの場合，コミットやアップロードもされません．
リポジトリにある`.gitattributes`ファイルの中身を見て，追跡されるファイル拡張子の完全なリストを確認してください．
このチュートリアルでは，次に示す`.csv`ファイルをサンプルとして利用できます: [train.csv](https://huggingface.co/datasets/stevhliu/demo/raw/main/train.csv), [test.csv](https://huggingface.co/datasets/stevhliu/demo/raw/main/test.csv)

2. データセットファイルをドラッグ＆ドロップし，簡潔な説明のコミットメッセージを追加します．

3. アップロードが完了したら，データセットリポジトリに保存されます．

### データセットカードの作成

データセットカードを追加することは，あなたのデータセットを見つけ，使い方を理解するのを助けるために，非常に有用です．

1. **Create Dataset Card**をクリックし，データセットカードを作成します．
このボタンは`README.md`ファイルをリポジトリに作成します．

2. 前面に，ライセンス，言語，タスクカテゴリなどを選択するいくつかのフィールドを持った**Metadata UI**が現れます．
これらはHub上であなたのデータセットを見つけるのを助けるために最も重要なタグです．
各フィールドの選択をすると，自動的にデータセットカードのトップに追加されます．
<br><br>
[Dataset Card specifications](https://github.com/huggingface/hub-docs/blob/main/datasetcard.md?plain=1)を見ると，タグの選択肢の完全な（任意の）リスト（`annotation_creators`など）を得ることができます．

3. エディタのトップにある**Import dataset card template**をクリックして，データセットカードのテンプレートを自動的に生成します．
テンプレートを埋めることで，あなたのデータセットをコミュニティに紹介し，ユーザたちに使い方を説明することができます．
データセットカードの良い例は，[CNN DailyMail Dataset card](https://huggingface.co/datasets/cnn_dailymail)を見てみるとよいでしょう．

### データセットのロード

データセットがHubに保存されたら，`load_dataset()`をつかって誰でも簡単にロードすることができます．

```python
from datasets import load_dataset
dataset = load_dataset("stevhliu/demo")

## Pythonでのアップロード（Upload with Python）

データセットをプログラムでアップロードしたい場合は，huggingface_hubライブラリを使うことができます．
このライブラリを使うことでPythonからHubとやり取りをすることができます．

1. ライブラリをインストールします:
```bash
pip install huggingface_hub
```

2. `push_to_hub()`関数を使うことで，リポジトリにファイルを追加，コミット，プッシュすることができます．
```python
from datasets import load_dataset

dataset = load_dataset("stevhliu/demo")
# dataset = dataset.map(...) # 処理内容をここに記入します
dataset.push_to_hub("stevhliu/processed_demo")
```

データセットをプライベートに設定するためには，`private`パラメタを`True`にします．
このパラメタはリポジトリを最初に作成するときののみ有効です．
```python
dataset.push_to_hub("stevhliu/processed_demo", private=True)
```

データセットに新しいコンフィギュレーション（またはサブセット）を追加したり，新しいスプリット（train/validation/test）を追加するには，`Dataset.push_to_hub()`を参照してください．

### プライバシー（Privacy）

プライベートなデータセットは，あなたのみがアクセスできます．
同様に，あなたの組織にのみ共有した場合は，組織のメンバーのみがアクセスすることができます．

プライベートなデータセットを読み込むには，`token`パラメタにアクセストークンを渡します:
```python
from datasets import load_dataset

# プライベートな個別のデータセットを読み込む
dataset = load_dataset("stevhliu/demo", token=True)

# プライベートな組織のデータセットを読み込む
dataset = load_dataset("organization/dataset_name", token=True)

## 次のステップ

おめでとう，チュートリアルを完了しました🥳