# MERA
MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.

The MERA benchmark includes 21 text tasks (17 base tasks + 4 diagnostic tasks). See the [task-table](https://mera.a-ai.ru/tasks) for a complete list.

## Install

In [None]:
!pip install datasets

In [5]:
!git clone https://github.com/ai-forever/MERA
%cd MERA

### DATASETS

In [5]:
from datasets import load_dataset 
# dataset names in low-case
task_name = ["simplear", 
             "rwsd", 
             "rumultiar", 
             "rumodar", 
             "rutie", 
             "rummlu", 
             "ruhumaneval", 
             "ruhatespeech", 
             "rcb", 
             "lcs", 
             "bps", 
             "rudetox", 
             "ruethics", 
             "ruhhh", 
             "use", 
             "parus", 
             "mathlogicqa", 
             "ruopenbookqa", 
             "ruworldtree", 
             "multiq", 
             "chegeka"]

### The general structure of set

More detailed description can be found in the dataset card [ai-forever/MERA](https://huggingface.co/datasets/ai-forever/MERA).

`instruction` — an instructional prompt specified for the current example;

`inputs` — input data for one example: must be inserted into the prompt (query);

`outputs` — target value, containing the answer;

`meta` — additional information field:

* `id` — an ordered number of the example from the dataset;
*    ...

## LOAD DATASET from [huggingface](https://huggingface.co/datasets/ai-forever/MERA)

In [None]:
### in case of errors run command and restart kernel
# !rm -r ~/.cache/ 

In [28]:
i = 5
DATASET_PATH = "ai-forever/MERA"
DATASET_NAME = f"{task_name[i]}"
df = load_dataset(DATASET_PATH, 
                  DATASET_NAME, download_mode="force_redownload")

In [7]:
df

DatasetDict({
    train: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 10033
    })
    test: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 961
    })
})

### TRAIN set with answers for n-shot 

In [6]:
df['train'].to_pandas().head(4)

Unnamed: 0,instruction,inputs,outputs,meta
0,Задание содержит вопрос по теме {subject} и 4 ...,{'text': 'В какой из этих двух ситуаций действ...,B,"{'domain': 'moral_scenarios', 'id': 0}"
1,Задание содержит вопрос по теме {subject} и 4 ...,{'text': 'В какой из этих двух ситуаций действ...,C,"{'domain': 'moral_scenarios', 'id': 1}"
2,Ниже приведен вопрос на определенную профессио...,{'text': 'В какой из этих двух ситуаций действ...,C,"{'domain': 'moral_scenarios', 'id': 2}"
3,Найдите правильный ответ на вопрос по теме {su...,{'text': 'В какой из этих двух ситуаций действ...,A,"{'domain': 'moral_scenarios', 'id': 3}"


### TEST set for evaluation (with LM-Harness code) 

There are no answers except ethics diagnostic sets: ruDetox, ruEthics, ruHHH, ruHateSpeech.

In [7]:
df['test'].to_pandas().head(4)

Unnamed: 0,instruction,inputs,outputs,meta
0,Задание содержит вопрос по теме {subject} и 4 ...,{'text': 'Цифровой записью числа восемь миллио...,,"{'domain': 'elementary_mathematics', 'id': 0}"
1,Задание содержит вопрос по теме {subject} и 4 ...,"{'text': 'Найди скорость машины, которая проех...",,"{'domain': 'elementary_mathematics', 'id': 1}"
2,Ниже приведен вопрос на определенную профессио...,"{'text': 'Саше дали 5 яблок, потом он забрал е...",,"{'domain': 'elementary_mathematics', 'id': 2}"
3,Найдите правильный ответ на вопрос по теме {su...,"{'text': 'В фирме работает 1500 человек, из ни...",,"{'domain': 'elementary_mathematics', 'id': 3}"


### obtaining query for few-shot evaluation

In [31]:
doc = df['train'].to_pandas().loc[300]
prompt = doc["instruction"].format(**doc["inputs"])

In [24]:
# rummlu evaluation by domain:
domain = doc["meta"]["domain"]
domain

'professional_medicine'

In [32]:
# model query 
print(prompt)

Задание содержит вопрос по теме Медицина и 4 варианта ответа A, B, C, D, из которых только один правильный.
4-летнего мальчика доставили к врачу из-за температуры до 39,4°C (102,9°F) в течение 8 дней. Обследование показывает переднюю шейную лимфаденопатию, двусторонний неэкссудативный конъюнктивит, земляничный язык, эритематозную сыпь на туловище и отек кистей и стоп. Какая из перечисленных ниже фармакотерапий является наиболее подходящей для предотвращения осложнений этого заболевания?
A Внутривенное введение иммуноглобулина
B Пенициллин для внутривенного введения
C Внутривенное введение преднизолона
D Пероральный изониазид
Запишите букву правильного ответа
Ответ:


## LOAD DATASET from datasets local folder
You can load data zip with all dataset files (task.json files) from [MERA](https://mera.a-ai.ru/tasks). Press "Скачать все задачи".

In [29]:
path_to_datasets = "MERA_datasets/"
import os 
task_name = os.listdir(path_to_datasets)
i = 5
DATASET_PATH = f"{path_to_datasets}{task_name[i]}"
DATASET_NAME = f"{task_name[i]}"
df = load_dataset(
    path=DATASET_PATH,
    name=DATASET_NAME, download_mode="force_redownload"
)

In [16]:
df

DatasetDict({
    train: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 10033
    })
    test: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 961
    })
})