## Eval details 📑
### Eval name


### Eval description

This eval a mixed-set selection of 9470 test questions from [External
(2006-2022) a government-mandated test that has been held annually in
Ukraine since 2006 for the primary purpose of evaluating university
candidates but also teachers and candidates to MS programs. This dataset
was carefully mined from Public Domain test result sheets published by
the government, and was filtered to account for questions containing
images, tables, or mathematical formulas in MathJax.

Here is the breakdown of various subjects and their representation in
the data:

- Ukrainian language and literature (28.8%)
- History of Ukraine (21.8%)
- Biology (13.1%)
- Geography (12.5%)
- Law (11.1%)
- Chemistry (4.4%)
- Learning competence (3.6%)
- Pedagogic competence (3.6%)
- Physics (0.9%)

In the subjects such as Chemistry, Physics and Geography, the majority
of tests are image-based and have been omitted from the dataset. We
still have the remaining questions and would gladly add them later when
GPT-4 image capability is explored further.

Various types of questions including single and multiple-answer multiple
choice, sequence and set-selection questions have been prompted
separately to yield a predictable result in a particular format.

### What makes this a useful eval?

This dataset allows for measuring of GPT-4 performance on various
learning tasks in Ukrainian.

OCR has **not** been used in the process of mining of this dataset; all
questions and answers in this dataset are high-quality human-curated
plaintext data that were used by the authorities to evaluate the actual
test results at the time; the texts are presented verbatim, and were in
some cases corrected for human errors made at the time of publishing.

Not only does it test for general reading and writing comprehension but
also a variety of specific topics and facts that are simultaneously not
widely known but also expected from all university candidates to master,
and demonstrate successfully in supervised environment. This is also a
kind of eval in which GPT-4 shows lacklustre performance, perhaps
indicating how more content in Ukrainian is needed for future training.
We expect this dataset to be a benchmark at how well GPT-4 is able to
grasp Ukrainian language, culture, legal and academic environments.

### Eval JSON data 

Since we are using Git LFS, we are asking eval submitters to add in as
many Eval Samples (at least 5) from their contribution here:

  <summary>View evals in JSON</summary>

  ### Eval
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з української мови та літератури. Вкажіть літеру відповіді та
текст відповіді дослівно, наприклад: Б. варіант відповіді"}, {"role":
"user", "content": "Позначте словосполучення, у якому порушено
граматичну норму на позначення часу:\nА. рівно о першій;\nБ. десять
хвилин по шостій;\nВ. пів на десяту;\nГ. сім годин двадцять хвилин;\nД.
за двадцять п’ята."}], "ideal": "Г. сім годин двадцять хвилин;"}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з історії України. Поставте у відповідність кожному варіанту із
цифрою один із варіантів із літерою. Наприклад: 1-А, 2-Б, 3-В, 4-Д.
Відповіді не можуть повторюватися."}, {"role": "user", "content":
"Установіть відповідність між прізвищами діячів і фактами їхньої
біографії.\n1. В. Симоненко\n2. М. Руденко\n3. В. Стус\n4. В.
Чорновіл\nА. автор «самвидавських» праць «Репортаж із заповідника імені
Берії», «Серед снігів», «Хроніка опору»\nБ. автор «самвидавської» збірки
«Лихо з розуму», журналу «Український вісник», член Української
Гельсінської групи\nВ. автор збірок «Круговерть», «Зимові дерева»,
«Веселий цвинтар», член Української Гельсінської групи\nГ. автор поезій
«Всесвіт у тобі», «Оновлення», один із засновників і керівник
Української Гельсінської групи\nД. автор збірок «Лебеді материнства»,
«Земне тяжіння», «самвидавської» сатири «Некролог кукурудзяному
качанові», «Злодій», «Суд»"}], "ideal": "1-Д, 2-Г, 3-В, 4-Б"}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з біології. Поставте у відповідність кожному варіанту із цифрою
один із варіантів із літерою. Наприклад: 1-А, 2-Б, 3-В, 4-Д. Відповіді
не можуть повторюватися."}, {"role": "user", "content": "Увідповідніть
відділ рослин (1-4) з видом (А - Д), який до нього належить.\n1.
Мохоподібні\n2. Папоротеподібні\n3. Голонасінні\n4. Покритонасінні\nА.
Очерет південний\nБ. Ялина колюча\nВ. Страусове перо звичайне\nГ.
Політрих волосоносний\nД. Баранець звичайний"}], "ideal": "1-Г, 2-В,
3-Б, 4-А"}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з права. Вкажіть літеру відповіді та текст відповіді дослівно,
наприклад: Б. варіант відповіді"}, {"role": "user", "content": "Прокурор
у результаті судового розгляду дійшов переконання, що необхідно
відмовитися від підтримання державного обвинувачення. Якими мають бути
дії прокурора?\nА. Продовжити участь у справі, а в судових дебатах
просити суд ухвалити виправдувальний вирок.\nБ. Подати клопотання до
суду про відкладення судового засідання для складання відповідних
процесуальних документів та погодження їх з прокурором вищого рівня.\nВ.
Заявити суду клопотання про оголошення перерви в судовому засіданні для
складання відповідних процесуальних документів та їх погодження з
потерпілим та цивільним позивачем.\nГ. У судових дебатах заявити про
відмову від підтримання державного обвинувачення й подати до суду
клопотання про закриття кримінального провадження."}], "ideal": "Б.
Подати клопотання до суду про відкладення судового засідання для
складання відповідних процесуальних документів та погодження їх з
прокурором вищого рівня."}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з географії. Вкажіть літеру відповіді та текст відповіді
дослівно, наприклад: Б. варіант відповіді"}, {"role": "user", "content":
"Чому на зволоження Південної Америки Атлантичний океан впливає більше,
ніж Тихий?\nА. на заході материка простягаються високі гори, а на сході
- рівнини\nБ. західна частина материка отримує більше сонячного тепла,
ніж східна\nВ. біля західного узбережжя проходить тепла течія, а біля
східного - холодна\nГ. із заходу на материк приходять циклони, а зі
сходу - антициклони"}], "ideal": "А. на заході материка простягаються
високі гори, а на сході - рівнини"}
