## Загрузка датасета на HuggingFace

Этот ноутбук дает пример того, как залить локальный датасет на ХФ. Адаптируйте его под свой датасет. Затем, выложите в гитлабе получившийся ноутбук (приложите к своему датасету), чтобы всегда был доступен код для заливки вашего датасета на ХФ. Убедитесь, что ячейки последовательно запускаются.

In [1]:
from PIL import Image
import json
import datasets
from tqdm import tqdm
import os

  from .autonotebook import tqdm as notebook_tqdm


### Подготовка данных

#### WARNING! 

Если ваш датасет является __ПРИВАТНЫМ__ (вы его загружали на OBS в папку private, у него закрытый тест, то есть ответы на тестовую часть мы не показываем никому), то оставьте `MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS` равным `True`. Иначе, поставьте `False`. Этот флаг дальше используется, чтобы стереть ответы перед загрузкой на ХФ датасета. На ХФ даже приватно не должно лежать датасетов с ответами!

In [27]:
MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS = True
WITH_WATERMARK = True

Возьмите датасет с OBS. Данный пример рассчитан на загрузку на ХФ локального датасета, а не напрямую из OBS.

Параметр `path_to_data` - это путь ДО файлов `shots.json` и `test.json`, которые вы будете дальше загружать на ХФ в виде датасета или домена датасета. 

Параметр `path_to_meta` - это путь ДО меты датасета.

Итоговые пути будут собираться из `path_to_data` / `path_to_meta` + `file_name.json`!

In [28]:
path_to_data = "./"
path_to_meta = "./"

Сплиты и мета лежат в формате JSON.

In [29]:
def load_json(path):
    with open(path) as f:
        data = json.load(f)
    return data

#### Подгрузка данных

Считайте сплиты и мету датасета (домена датасета). Это просто JSON файлики либо внутри прямо папки датасета, либо внутри папки по названию домена, который вы загружать будете.

In [30]:
meta = load_json(os.path.join(path_to_meta, "raw_dataset_meta.json"))

domains = ["Applied_Sciences", "Business", "Cultural_Studies", "Fundamental_Sciences", "Health_and_Medicine", "Social_Sciences"]

shots, test = {}, {}

for key in domains:
    path_to_json = os.path.join(path_to_data, key, "shots.json")
    shots_data = load_json(path_to_json)["data"]
    shots[key] = shots_data

for key in domains:
    path_to_json = os.path.join(path_to_data, key, "test.json")
    test_data = load_json(path_to_json)["data"]
    test[key] = test_data

Грузим генератор промптов, как библиотеку.

На данный момент доступен в соответствующем [MR](https://gitlab.com/alenush93/mera_multi_external/-/tree/all_datasets_merged/prompt_generator): mera_multi_external/prompt_generator. Внутри папки сделать:

```bash
pip install -e .
```

In [31]:
# импорт либ
from prompt_generator import PromptGenerator
import yaml

# путь до конфига с промптами
path_to_config = "prompts_config.yaml"
# путь до описания блоков промптов внутри генератора промптов
path_to_blocks = "/home/jovyan/artem/mera_multi_external/prompt_generator/configs/prompt_blocks/templates.json"

# читаем файлы
with open(path_to_config) as f:
    prompt_configs = yaml.safe_load(f)

prompt_blocks = load_json(path_to_blocks) 

# инит генератора с переданными файлами
generator = PromptGenerator(prompt_blocks, prompt_configs, meta)

#### Обработка полей датасета

На ХФ вы загружаете датасет, где у КАЖДОГО сэмпла вместо числа в поле instruction стоит промпт. Число указывает, какой по индексу взять промпт из секции с промптами в мете датасета.

In [32]:
for key in tqdm(domains):
    for idx, card in enumerate(shots[key]):
        shots[key][idx]["instruction"] = generator.generate_prompt(card)
    
    for idx, card in enumerate(test[key]):
        test[key][idx]["instruction"] = generator.generate_prompt(card)

100%|██████████| 6/6 [00:54<00:00,  9.01s/it]


Проверим полученные промпты.

In [33]:
set([elem["instruction"] for elem in test["Applied_Sciences"]])

{'В датасете к задаче идёт такой промпт:\n\nИзображение содержит визуальную информацию, без которой невозможно правильно ответить на вопрос по теме "Информатика и программирование".\n\nИзображение: <image>\nВопрос:\n{question}\n\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nE. {option_e}\nF. {option_f}\nG. {option_g}\nH. {option_h}\n\nПрошу решить задачу на основе вышеизложенного и кратко сформулировать ответ.\n\nПрошу вас подумать над решением и подробно описать ход мыслей.\n\nРассуждение напишите после слова РАССУЖДЕНИЕ, в нём кратко объясните, как вы пришли к итоговому ответу.\n\n{annotation}',
 'В датасете к задаче идёт такой промпт:\n\nИзображение содержит визуальную информацию, без которой невозможно правильно ответить на вопрос по теме "Информатика и программирование".\n\nИзображение: <image>\nВопрос:\n{question}\n\nПрошу решить задачу на основе вышеизложенного и кратко сформулировать ответ.\n\nПрошу вас подумать над решением и подробно описать ход мыслей.\n\nРасс

Теперь вам нужно "обработать" вашу модальность(-и). Если у вас в датасете картинки, то для каждой вы вместо пути к картинке подгружаете саму картинку и убираете у нее `filename`.

Зачем убирать `filename`? Если этого не сделать, то потом при конвертации в байты модуль datasets увидит, что картинка взята по какому-то пути и не будет ее конвертировать в байты. А нам нужно превратить PIL.Image в байткод и загрузить на ХФ именно его.

Для картинок вы можете воспользоваться функцией `convert_images`. Она принимает на вход: 
- dataset_split: список словарей, это список сэмплов сплита (json файлик, который вы загрузили ранее)
- feature_name: строка, название поля, которое преобразуется (например, "image", "image_1")
- path_to_samples: строка. Если ваши коллеги для картинок указывали не полный путь до них, а только название файлика, то, чтобы открыть файлик, вам придется указать, как попасть в папку samples, где и находятся картинки. Тогда, укажите в path_to_samples путь от папки, где у вас этот ноутбук до папки samples (включая ее в путь)

В дополнение к подгрузке картинок нужно также наложить на них вотермарки. Делается это отдельным скриптом `watermark_simple.py`. На картинку накладывается другая картинка (лого МЕРЫ) с определенной степенью прозрачности. Скрипт допускает, как inplace замену (подгружаем картинку, накладываем вотермарку, сохраняем в датасете), так и предварительную обработку (сначала накладываем вотермарки на все картинки, сохраняем их в отдельной папке, затем просто грузим уже готовые картинки вместо изначальных).

Как запустить накладывание вотермарок для папки?
```bash
python watermark_simple.py path/to/samples/ path/to/save/samples_with_watermarks/ --watermark_path path/to/logo/mera-logo-v2.png
```

In [34]:
def convert_images(
    dataset_split: list[dict], 
    feature_name: str, 
    path_to_samples: str = None, 
    watermarked_path: str = None
):
    for card in tqdm(dataset_split):
        if path_to_samples is None:
            path_to_image = card["inputs"][feature_name]
        else:
            path_to_image = os.path.join(path_to_samples, card["inputs"][feature_name])
        
        # если заранее наложили вотермарки и сохранили картинки в другой папке
        if watermarked_path is not None:
            base, image = os.path.split(path_to_image)
            path_to_image = os.path.join(watermarked_path, image)
        
        # накладываем вотермарку прямо на ходу
        # card["inputs"][feature_name] = add_watermark_to_image(
        #     image_path=path_to_image, 
        #     watermark_processor=watermark_processor
        # )
        card["inputs"][feature_name] = Image.open(path_to_image)
        card["inputs"][feature_name].filename = ""

In [35]:
if WITH_WATERMARK:
    for key in domains:
        convert_images(shots[key], "image", watermarked_path="/home/jovyan/artem/mera_bucket/private/UniScienceVQA/sample_watermark")
        convert_images(test[key], "image", watermarked_path="/home/jovyan/artem/mera_bucket/private/UniScienceVQA/sample_watermark")
else:
    for key in domains:
        convert_images(shots[key], "image")
        convert_images(test[key], "image")

100%|██████████| 80/80 [00:00<00:00, 513.51it/s]
100%|██████████| 605/605 [00:01<00:00, 516.68it/s]
100%|██████████| 139/139 [00:00<00:00, 555.50it/s]
100%|██████████| 1031/1031 [00:01<00:00, 574.11it/s]
100%|██████████| 191/191 [00:00<00:00, 453.01it/s]
100%|██████████| 1436/1436 [00:03<00:00, 460.10it/s]
100%|██████████| 247/247 [00:00<00:00, 465.31it/s]
100%|██████████| 1866/1866 [00:04<00:00, 464.39it/s]
100%|██████████| 252/252 [00:00<00:00, 503.90it/s]
100%|██████████| 1904/1904 [00:03<00:00, 494.73it/s]
100%|██████████| 78/78 [00:00<00:00, 540.43it/s]
100%|██████████| 590/590 [00:01<00:00, 583.75it/s]


Если `exclude_fields` не пустой, то нужно удалить поля, которые там указаны.

In [36]:
meta["exclude_fields"]

{}

In [37]:
def remove_fields(dct, fields):
    res = {}
    for key in dct:
        if key in fields:
            if isinstance(fields[key], list):
                for sub_key in dct[key]:
                    if sub_key not in fields[key]:
                        res.setdefault(key, {})[sub_key] = dct[key][sub_key]
            else:
                res[key] = remove_fields(dct[key], fields[key])
        else:
            res[key] = dct[key]
    return res

In [38]:
if meta["exclude_fields"]:
    for domain in domains:
        for idx, sample in enumerate(shots[domain]):
            shots[idx] = remove_fields(sample, meta["exclude_fields"])
        
        for idx, sample in enumerate(test[domain]):
            test[idx] = remove_fields(sample, meta["exclude_fields"])

#### Убираем ответы для приватных задач

Надеемся, вы поставили в начале ноутбука корректное значение `MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS`.

Если там стоит `True`, то в `test` сплите ответы на все задания стираются. Вместо них остается пустая строка, чтобы вы случайно не пушнули на ХФ датасет с заполненными ответами, и они не утекли.

In [39]:
def hide_answers(dataset_split: list[dict]):
    for card in tqdm(dataset_split):
        card["outputs"] = ""

In [40]:
if MY_DATASET_IS_PRIVATE_LETS_HIDE_ANSWERS:
    for key in domains:
        hide_answers(test[key])

100%|██████████| 605/605 [00:00<00:00, 1720375.54it/s]
100%|██████████| 1031/1031 [00:00<00:00, 1868767.25it/s]
100%|██████████| 1436/1436 [00:00<00:00, 1902406.99it/s]
100%|██████████| 1866/1866 [00:00<00:00, 1936790.71it/s]
100%|██████████| 1904/1904 [00:00<00:00, 2248931.24it/s]
100%|██████████| 590/590 [00:00<00:00, 2046848.11it/s]


### Создаем датасет для загрузки на ХФ

#### Аннотация полей датасета

В `features` повторяется структура КАЖДОГО сэмпла вашего датасета с описанием формата данных в каждом поле. 
- instruction всегда строка
- meta - id всегда целое число

Дальше смотрите по тому, какие поля у вашего датасета.

`features` нужен для того, чтобы ХФ сам автоматически создал техническую часть README.md датасета, заполнив ее информацией, которая используется при загрузке датасета. Отсутствие `features` может и обычно приводит к невозможности использовать датасет. Ровно такие же последствия будут от ошибок в заполнении (например, неправильно указан тип данных).

__Внимание!__ Если у вас в датасете в разных вопросах разное количество ответов, то поля в `features` нужно заполнить для сэмпла с НАИБОЛЬШИМ количеством ответов. Иначе говоря, представьте, что у вас у всех вопросов в датасете максимальное количество вариантов ответа, просто некоторые пустые. Вот из такого соображения и заполняйте `features`. Он один на весь датасет и должен охватывать все поля, которые в нем встречаются!

In [41]:
test["Applied_Sciences"][0]

{'instruction': 'Сформулирована задача.\n\nВ задаче требуется следующее. Задача проверяет знания в сфере фундаментальных, социальных и прикладных наук, культуроведения, бизнеса, здоровья и медицины.\n\nИмеется 1 изображение\n\nИзображение: <image>\nВопрос:\n{question}\n\n{annotation}',
 'inputs': {'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=279x257>,
  'question': 'Каков порядок группы симметрий изображенной на картинке фигуры?',
  'annotation': 'В ответе напишите только число.'},
 'outputs': '',
 'meta': {'id': 1591,
  'categories': {'subdomain': 'Computer science and Programming',
   'type_answer': 'short_answer'},
  'image': {'source': 'photo', 'type': 'visual', 'content': 'riddle'}}}

In [42]:
features = datasets.Features({
    "instruction": datasets.Value("string"),
    "inputs": {
        "image": datasets.Image(decode=False),
        "question": datasets.Value("string"),
        "annotation": datasets.Value("string"),
        "option_a": datasets.Value("string"),
        "option_b": datasets.Value("string"),
        "option_c": datasets.Value("string"),
        "option_d": datasets.Value("string"),
        "option_e": datasets.Value("string"),
        "option_f": datasets.Value("string"),
        "option_g": datasets.Value("string"),
        "option_h": datasets.Value("string"),
        "option_i": datasets.Value("string"),
        "option_j": datasets.Value("string"),
    },
    "outputs": datasets.Value("string"),
    "meta": {
        "id": datasets.Value("int32"),
        'categories': {
            'type_answer': datasets.Value("string"),
            "subdomain": datasets.Value("string"),
        },
        'image': {
            'source': datasets.Value("string"),
            'type': datasets.Value("string"),
            'content': datasets.Value("string")
        }
    },
})

#### Создание датасетов для каждого сплита

Теперь создаем сплиты датасета. Можно это сделать либо в одну строку:

In [43]:
shots_ds = {}
for key in tqdm(domains):
    shots_ds[key] = datasets.Dataset.from_list(shots[key], features=features)

100%|██████████| 6/6 [00:19<00:00,  3.26s/it]


In [44]:
test_ds = {}
for key in tqdm(domains):
    test_ds[key] = datasets.Dataset.from_list(test[key], features=features)

100%|██████████| 6/6 [02:22<00:00, 23.75s/it]


##### Проверка

Если вы собирали датасет по кускам, то разумно будет проверить, что сборка прошла успешно - ничего не потеряно, не продублировано и так далее.

Но вы можете проверить целостность датасета даже, если и не по кусочкам собирали его. Так вы можете отловить ошибки до того, как их найдут на ревью :)

In [45]:
# проверка, что id вопросов сходятся

# bools = []
# for i in range(len(test)):
#     bools.extend([test[i]["meta"]["id"] == test_ds[i]["meta"]["id"]])
# all(bools)

In [46]:
# проверка, что количество вопросов до конвертации и после осталось одинаковым

# len(test) == len(test_ds)

#### Собираем сплиты в один датасет

In [47]:
dataset = {}
for key in domains:
    dataset[key] = datasets.DatasetDict({"shots": shots_ds[key], "test": test_ds[key]})

### Загрузка датасета на ХФ

Для загрузки на ХФ вам понадобятся:
- токен. Это строка, содержащая ключик, который позволит вам записывать в репозиторий. Для получения токена на запись в репозиторий [MERA](https://huggingface.co/MERA-evaluation) напишите Алене или Артему
- путь для записи. Это тоже строка, которая содержит путь, по которому вы выложите свой датасет. Этот путь содержит название аккаунта (MERA-evaluation) и название вашего датасета. Название датасета пишите ровно так, как оно заявлено в мете! Регистр тоже имеет значение!

In [48]:
### TOKEN
token = ""
###

# читаю токен из файла
with open("/home/jovyan/artem/mera_obs/token.txt") as f:
    token = f.read()

### UPLOAD PATH
if WITH_WATERMARK:
    dataset_path_hub = "MERA-evaluation/ruMuTau"
else:
    dataset_path_hub = "MERA-evaluation/ruMuTau_clear"
###

In [49]:
dataset_path_hub

'MERA-evaluation/ruMuTau'

#### WARNING! 

Не забудьте флаг _private_. Он отвечает за то, что по пути _dataset_path_hub_ будет создан **приватный** репозиторий с датасетом. То есть датасет будет виден только тем, кто может зайти в аккаунт __MERA-evaluation__, а также тем, у кого есть токен на чтение/запись в этом репо.

In [50]:
for key in domains:
    dataset[key].push_to_hub(dataset_path_hub, config_name=key, private=True, token=token)

Creating parquet from Arrow format: 100%|██████████| 1/1 [00:00<00:00, 22.64ba/s]
Processing Files (0 / 0)                : |          |  0.00B /  0.00B            
[A
Processing Files (0 / 1)                : 100%|█████████▉| 12.1MB / 12.1MB, 20.2MB/s  
[A
[A
Processing Files (1 / 1)                : 100%|██████████| 12.1MB / 12.1MB, 10.1MB/s  
[A
[A
[A
[A
Processing Files (1 / 1)                : 100%|██████████| 12.1MB / 12.1MB, 6.07MB/s  
New Data Upload                         : 100%|██████████| 51.2kB / 51.2kB, 25.6kB/s  
                                        : 100%|██████████| 12.1MB / 12.1MB            
Uploading the dataset shards: 100%|██████████| 1/1 [00:03<00:00,  3.14s/it]
Creating parquet from Arrow format: 100%|██████████| 7/7 [00:00<00:00, 29.45ba/s]
Processing Files (0 / 0)                : |          |  0.00B /  0.00B            
[A
Processing Files (0 / 1)                :  99%|█████████▉| 82.9MB / 83.8MB,  104MB/s  
[A
[A
Processing Files (0 / 1)        

### Проверка того, как датасет загрузился на ХФ

После загрузки датасета будет полезно посмотреть, как его будет видеть любой человек, который после вашей загрузки его скачает. 

Загрузите датасет целиком, используя `datasets.load_dataset(dataset_path_hub)`, а затем проверьте, что:
- все поля на месте. Если у вас в датасете у разных вопросов было разное количество вариантов ответа, то теперь их везде станет одинаковое количество. Недостающие варианты ответа у каждого вопроса теперь будут прописаны, но будут иметь значение `None`. Это нормально.
- ваша модальность корректно обработалась. Если у вас в датасете были картинки, то все они должны превратиться в байткод. Не должно остаться ни одной картинки, которая не конвертирована в байты. Если у картинки есть и байты, и путь прописан (а не `None`), то это окей. `bytes` точно должны быть заполнены, `path` может быть None.
- датасет идентичен по содержанию исходному. То есть, в исходном JSON и загруженном датасете вопрос с одинаковым `id` имеет одинаково заполненные поля (кроме тех, что заполняются `None`, как описано выше).

In [None]:
ds = datasets.load_dataset(dataset_path_hub, token=token)

In [30]:
ds

DatasetDict({
    shots: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 10
    })
    test: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 832
    })
})

Пример проверки двух сплитов, что в них везде картинки конвертированы в байты

In [33]:
check = []
for card in ds["shots"]:
    image_converted_to_bytes = isinstance(card["inputs"]["image"]["bytes"], bytes)
    check.extend([image_converted_to_bytes])

all(check)

True

In [34]:
check = []
for card in ds["test"]:
    image_converted_to_bytes = isinstance(card["inputs"]["image"]["bytes"], bytes)
    check.extend([image_converted_to_bytes])

all(check)

True

Пример проверки двух сплитов, что в них тексты вопросов совпадают с оригинальными

In [35]:
check = []
for idx, card in enumerate(ds["shots"]):
    same_question = shots[idx]["inputs"]["question"] == card["inputs"]["question"]
    check.extend([same_question])

all(check)

True

In [36]:
check = []
for idx, card in enumerate(ds["test"]):
    same_question = test[idx]["inputs"]["question"] == card["inputs"]["question"]
    check.extend([same_question])

all(check)

True