## Загрузка датасета на HuggingFace

Этот ноутбук дает пример того, как залить локальный датасет на ХФ. Адаптируйте его под свой датасет. Затем, выложите в гитхаб получившийся ноутбук (приложите к своему датасету), чтобы всегда был доступен код для заливки вашего датасета на ХФ. Убедитесь, что ячейки последовательно запускаются.

In [42]:
from PIL import Image
import json
import datasets
from tqdm import tqdm
import pandas as pd
from datasets import Dataset, Features, Value

import os

### Подготовка данных

#### WARNING! 

Если ваш датасет является __ПРИВАТНЫМ__, то оставьте `MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS` равным `True`. Иначе, поставьте `False`. Этот флаг дальше используется, чтобы стереть ответы перед загрузкой на ХФ датасета. На ХФ даже приватно не должно лежать датасетов с ответами!

In [2]:
MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS = True

In [129]:
task_name = "aqua_bench"

In [130]:
path_to_train = f"./../industrial_tasks/{task_name}/data/train.jsonl"
path_to_data = f"./../industrial_tasks/{task_name}/data/test.jsonl"

#### Подгрузка данных

Считайте сплиты и мету датасета (домена датасета). Это просто JSON файлики либо внутри прямо папки датасета, либо внутри папки по названию домена, который вы будете загружать.

In [131]:
test = pd.read_json(path_to_data, lines=True)
train = pd.read_json(path_to_train, lines=True)

#### Убираем ответы для приватных задач

Надеемся, вы поставили в начале ноутбука корректное значение `MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS`.

Если там стоит `True`, то в `test` сплите ответы на все задания стираются. Вместо них остается пустая строка, чтобы вы случайно не пушнули на ХФ датасет с заполненными ответами, и они не утекли.

In [100]:
def hide_answers(dataset):
    for ind, row in tqdm(dataset.iterrows(), total=dataset.shape[0]):
        dataset.at[ind, "outputs"] = ""

In [132]:
if MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS:
    hide_answers(test)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:00<00:00, 10795.76it/s]


### Создаем датасет для загрузки на ХФ

#### Аннотация полей датасета

В `features` повторяется структура КАЖДОГО сэмпла вашего датасета с описанием формата данных в каждом поле. 
- `instruction` всегда строка
- `meta` - id всегда целое число

Далее смотрите по тому, какие поля у вашего датасета.

`features` нужен для того, чтобы ХФ сам автоматически создал техническую часть README.md датасета, заполнив ее информацией, которая используется при загрузке датасета. Отсутствие `features` может и обычно приводит к невозможности использовать датасет. Ровно такие же последствия будут от ошибок в заполнении (например, неправильно указан тип данных).

__Внимание!__ Если у вас в датасете в разных вопросах разное количество ответов, то поля в `features` нужно заполнить для сэмпла с НАИБОЛЬШИМ количеством ответов. Иначе говоря, представьте, что у вас у всех вопросов в датасете максимальное количество вариантов ответа, просто некоторые пустые. Вот из такого соображения и заполняйте `features`. Он один на весь датасет и должен охватывать все поля, которые в нем встречаются!

In [None]:
features = Features(
    {
        "instruction": Value("string"),
        "inputs": {
            "question": Value("string"),
            "option_a": Value("string"),
            "option_b": Value("string"),
            "option_c": Value("string"),
            "option_d": Value("string"),
            "option_e": Value("string"),
            "option_f": Value("string"),
            "option_g": Value("string"),
            "option_h": Value("string"),
        },
        "outputs": Value("string"),
        "meta": {
            "id": Value("int32"),
            "domain": Value("string"),
        },
    }
)

#### Создание датасетов для каждого сплита

Теперь создаем сплиты датасета. Можно это сделать либо в одну строку:

In [136]:
ds_test = Dataset.from_pandas(
    test,
    preserve_index=False,  # don’t add the pandas index as a column :contentReference[oaicite:1]{index=1}
    features=features,
)

ds_train = Dataset.from_pandas(train, preserve_index=False, features=features)

### Загрузка датасета на ХФ

Для загрузки на ХФ вам понадобятся:
- Токен. Это строка, содержащая ключик, который позволит вам записывать в репозиторий. 
- Путь для записи. Это тоже строка, которая содержит путь, по которому вы выложите свой датасет. Этот путь содержит название аккаунта (MERA-evaluation) и название вашего датасета. Название датасета пишите ровно так, как оно заявлено в мете! Регистр тоже имеет значение!

Советуем опубликовывать сперва всё приватно, и выслать на почту mera@a-ai.ru токен и путь для верификации. 
Если ваш сет публичный и вы хотите отправить всё публично, то в Merge request просто пришлите путь к сету.

In [111]:
### TOKEN
token = ""
###

### UPLOAD PATH
dataset_path_hub = "MERA-evaluation/ruTXTAgroBench"
dataset_path_hub = "MERA-evaluation/ruTXTAquaBench"
dataset_path_hub = "MERA-evaluation/ruTXTMedQFundamental"
###

In [138]:
dataset_path_hub = "MERA-evaluation/ruTXTAquaBench"
ds_test.push_to_hub(
    dataset_path_hub, split="test", private=True, token=token
)  # опубликовать приватно
ds_train.push_to_hub(
    dataset_path_hub, split="train", private=True, token=token
)  # опубликовать приватно

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/807 [00:00<?, ?B/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/905 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/datasets/MERA-evaluation/ruTXTAquaBench/commit/48d68ac46129cbbea32acc6a440a88d1ef583b22', commit_message='Upload dataset', commit_description='', oid='48d68ac46129cbbea32acc6a440a88d1ef583b22', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/MERA-evaluation/ruTXTAquaBench', endpoint='https://huggingface.co', repo_type='dataset', repo_id='MERA-evaluation/ruTXTAquaBench'), pr_revision=None, pr_num=None)

In [126]:
dataset_path_hub = "MERA-evaluation/ruTXTAgroBench"

ds_test.push_to_hub(
    dataset_path_hub, split="test", private=True, token=token
)  # опубликовать приватно
ds_train.push_to_hub(
    dataset_path_hub, split="train", private=True, token=token
)  # опубликовать приватно

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/3 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/810 [00:00<?, ?B/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/910 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/datasets/MERA-evaluation/ruTXTAgroBench/commit/fa86f44730d0cd4b930ca220ae0a823d51904b6b', commit_message='Upload dataset', commit_description='', oid='fa86f44730d0cd4b930ca220ae0a823d51904b6b', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/MERA-evaluation/ruTXTAgroBench', endpoint='https://huggingface.co', repo_type='dataset', repo_id='MERA-evaluation/ruTXTAgroBench'), pr_revision=None, pr_num=None)

In [None]:
dataset_path_hub = "MERA-evaluation/ruTXTMedQFundamental"

ds_test.push_to_hub(
    dataset_path_hub, split="test", private=True, token=token
)  # опубликовать приватно
ds_train.push_to_hub(
    dataset_path_hub, split="train", private=True, token=token
)  # опубликовать приватно

### Проверка того, как датасет загрузился на ХФ

После загрузки датасета будет полезно посмотреть, как его будет видеть любой человек, который после вашей загрузки его скачает. 

Загрузите датасет целиком, используя `datasets.load_dataset(dataset_path_hub)`, а затем проверьте, что:
- все поля на месте. Если у вас в датасете у разных вопросов было разное количество вариантов ответа, то теперь их везде станет одинаковое количество. Недостающие варианты ответа у каждого вопроса теперь будут прописаны, но будут иметь значение `None`. Это нормально.
- ваша модальность корректно обработалась. Если у вас в датасете были картинки, то все они должны превратиться в байткод. Не должно остаться ни одной картинки, которая не конвертирована в байты. Если у картинки есть и байты, и путь прописан (а не `None`), то это окей. `bytes` точно должны быть заполнены, `path` может быть None.
- датасет идентичен по содержанию исходному. То есть, в исходном JSON и загруженном датасете вопрос с одинаковым `id` имеет одинаково заполненные поля (кроме тех, что заполняются `None`, как описано выше).

In [None]:
ds = datasets.load_dataset(dataset_path_hub)
ds

DatasetDict({
    train: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 293
    })
    test: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 2642
    })
})