Skip to content

Commit

Permalink
[evals] Ukrainian external independent evaluation university entry te…
Browse files Browse the repository at this point in the history
…sts (openai#329)

Foreword: I have the GPT-4 API access already, and would like to request
32K context and/or image capability.

## Eval details 📑
### Eval name

ukraine-eit.val.v0

### Eval description

This eval a mixed-set selection of 9470 test questions from [External
independent
evaluation](https://en.wikipedia.org/wiki/External_independent_evaluation)
(2006-2022) a government-mandated test that has been held annually in
Ukraine since 2006 for the primary purpose of evaluating university
candidates but also teachers and candidates to MS programs. This dataset
was carefully mined from Public Domain test result sheets published by
the government, and was filtered to account for questions containing
images, tables, or mathematical formulas in MathJax.

Here is the breakdown of various subjects and their representation in
the data:

- Ukrainian language and literature (28.8%)
- History of Ukraine (21.8%)
- Biology (13.1%)
- Geography (12.5%)
- Law (11.1%)
- Chemistry (4.4%)
- Learning competence (3.6%)
- Pedagogic competence (3.6%)
- Physics (0.9%)

In the subjects such as Chemistry, Physics and Geography, the majority
of tests are image-based and have been omitted from the dataset. We
still have the remaining questions and would gladly add them later when
GPT-4 image capability is explored further.

Various types of questions including single and multiple-answer multiple
choice, sequence and set-selection questions have been prompted
separately to yield a predictable result in a particular format.

### What makes this a useful eval?

This dataset allows for measuring of GPT-4 performance on various
learning tasks in Ukrainian.

OCR has **not** been used in the process of mining of this dataset; all
questions and answers in this dataset are high-quality human-curated
plaintext data that were used by the authorities to evaluate the actual
test results at the time; the texts are presented verbatim, and were in
some cases corrected for human errors made at the time of publishing.

Not only does it test for general reading and writing comprehension but
also a variety of specific topics and facts that are simultaneously not
widely known but also expected from all university candidates to master,
and demonstrate successfully in supervised environment. This is also a
kind of eval in which GPT-4 shows lacklustre performance, perhaps
indicating how more content in Ukrainian is needed for future training.
We expect this dataset to be a benchmark at how well GPT-4 is able to
grasp Ukrainian language, culture, legal and academic environments.

## Criteria for a good eval ✅

Below are some of the criteria we look for in a good eval. In general,
we are seeking cases where the model does not do a good job despite
being capable of generating a good response (note that there are some
things large language models cannot do, so those would not make good
evals).

Your eval should be:

- [x] Thematically consistent: The eval should be thematically
consistent. We'd like to see a number of prompts all demonstrating some
particular failure mode. For example, we can create an eval on cases
where the model fails to reason about the physical world.
- [x] Contains failures where a human can do the task, but either GPT-4
or GPT-3.5-Turbo could not.
- [x] Includes good signal around what is the right behavior. This means
either a correct answer for `Basic` evals or the `Fact` Model-graded
eval, or an exhaustive rubric for evaluating answers for the `Criteria`
Model-graded eval.
- [x] Include at least 100 high quality examples (it is okay to only
contribute 5-10 meaningful examples and have us test them with GPT-4
before adding all 100)

If there is anything else that makes your eval worth including, please
document it below.

## Eval structure 🏗️

Your eval should
- [x] Check that your data is in `evals/registry/data/{name}`
- [x] Check that your yaml is registered at
`evals/registry/evals/{name}.yaml`
- [x] Ensure you have the right to use the data you submit via this eval

(For now, we will only be approving evals that use one of the existing
eval classes. You may still write custom eval classes for your own
cases, and we may consider merging them in the future.)

## Final checklist 👀

### Submission agreement

By contributing to Evals, you are agreeing to make your evaluation logic
and data under the same MIT license as this repository. You must have
adequate rights to upload any data used in an Eval. OpenAI reserves the
right to use this data in future service improvements to our product.
Contributions to OpenAI Evals will be subject to our usual Usage
Policies (https://platform.openai.com/docs/usage-policies).

- [x] I agree that my submission will be made available under an MIT
license and complies with OpenAI's usage policies.

### Email address validation

If your submission is accepted, we will be granting GPT-4 access to a
limited number of contributors. Access will be given to the email
address associated with the merged pull request.

- [x] I acknowledge that GPT-4 access will only be granted, if
applicable, to the email address used for my merged pull request.

### Limited availability acknowledgement

We know that you might be excited to contribute to OpenAI's mission,
help improve our models, and gain access to GPT-4. However, due to the
requirements mentioned above and high volume of submissions, we will not
be able to accept all submissions and thus not grant everyone who opens
a PR GPT-4 access. We know this is disappointing, but we hope to set the
right expectation before you open this PR.

- [x] I understand that opening a PR, even if it meets the requirements
above, does not guarantee the PR will be merged nor GPT-4 access
granted.

### Submit eval

- [x] I have filled out all required fields in the evals PR form
- [x] (Ignore if not submitting code) I have run `pip install
pre-commit; pre-commit install` and have verified that `black`, `isort`,
and `autoflake` are running when I commit and push

Failure to fill out all required fields will result in the PR being
closed.

### Eval JSON data 

Since we are using Git LFS, we are asking eval submitters to add in as
many Eval Samples (at least 5) from their contribution here:

<details>
  <summary>View evals in JSON</summary>

  ### Eval
  ```jsonl
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з української мови та літератури. Вкажіть літеру відповіді та
текст відповіді дослівно, наприклад: Б. варіант відповіді"}, {"role":
"user", "content": "Позначте словосполучення, у якому порушено
граматичну норму на позначення часу:\nА. рівно о першій;\nБ. десять
хвилин по шостій;\nВ. пів на десяту;\nГ. сім годин двадцять хвилин;\nД.
за двадцять п’ята."}], "ideal": "Г. сім годин двадцять хвилин;"}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з історії України. Поставте у відповідність кожному варіанту із
цифрою один із варіантів із літерою. Наприклад: 1-А, 2-Б, 3-В, 4-Д.
Відповіді не можуть повторюватися."}, {"role": "user", "content":
"Установіть відповідність між прізвищами діячів і фактами їхньої
біографії.\n1. В. Симоненко\n2. М. Руденко\n3. В. Стус\n4. В.
Чорновіл\nА. автор «самвидавських» праць «Репортаж із заповідника імені
Берії», «Серед снігів», «Хроніка опору»\nБ. автор «самвидавської» збірки
«Лихо з розуму», журналу «Український вісник», член Української
Гельсінської групи\nВ. автор збірок «Круговерть», «Зимові дерева»,
«Веселий цвинтар», член Української Гельсінської групи\nГ. автор поезій
«Всесвіт у тобі», «Оновлення», один із засновників і керівник
Української Гельсінської групи\nД. автор збірок «Лебеді материнства»,
«Земне тяжіння», «самвидавської» сатири «Некролог кукурудзяному
качанові», «Злодій», «Суд»"}], "ideal": "1-Д, 2-Г, 3-В, 4-Б"}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з біології. Поставте у відповідність кожному варіанту із цифрою
один із варіантів із літерою. Наприклад: 1-А, 2-Б, 3-В, 4-Д. Відповіді
не можуть повторюватися."}, {"role": "user", "content": "Увідповідніть
відділ рослин (1-4) з видом (А - Д), який до нього належить.\n1.
Мохоподібні\n2. Папоротеподібні\n3. Голонасінні\n4. Покритонасінні\nА.
Очерет південний\nБ. Ялина колюча\nВ. Страусове перо звичайне\nГ.
Політрих волосоносний\nД. Баранець звичайний"}], "ideal": "1-Г, 2-В,
3-Б, 4-А"}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з права. Вкажіть літеру відповіді та текст відповіді дослівно,
наприклад: Б. варіант відповіді"}, {"role": "user", "content": "Прокурор
у результаті судового розгляду дійшов переконання, що необхідно
відмовитися від підтримання державного обвинувачення. Якими мають бути
дії прокурора?\nА. Продовжити участь у справі, а в судових дебатах
просити суд ухвалити виправдувальний вирок.\nБ. Подати клопотання до
суду про відкладення судового засідання для складання відповідних
процесуальних документів та погодження їх з прокурором вищого рівня.\nВ.
Заявити суду клопотання про оголошення перерви в судовому засіданні для
складання відповідних процесуальних документів та їх погодження з
потерпілим та цивільним позивачем.\nГ. У судових дебатах заявити про
відмову від підтримання державного обвинувачення й подати до суду
клопотання про закриття кримінального провадження."}], "ideal": "Б.
Подати клопотання до суду про відкладення судового засідання для
складання відповідних процесуальних документів та погодження їх з
прокурором вищого рівня."}
{"input": [{"role": "system", "content": "Ви розв'язуєте державний
екзамен з географії. Вкажіть літеру відповіді та текст відповіді
дослівно, наприклад: Б. варіант відповіді"}, {"role": "user", "content":
"Чому на зволоження Південної Америки Атлантичний океан впливає більше,
ніж Тихий?\nА. на заході материка простягаються високі гори, а на сході
- рівнини\nБ. західна частина материка отримує більше сонячного тепла,
ніж східна\nВ. біля західного узбережжя проходить тепла течія, а біля
східного - холодна\nГ. із заходу на материк приходять циклони, а зі
сходу - антициклони"}], "ideal": "А. на заході материка простягаються
високі гори, а на сході - рівнини"}
  ```
</details>
  • Loading branch information
tucnak committed Mar 28, 2023
1 parent b4967bb commit 9de4062
Show file tree
Hide file tree
Showing 2 changed files with 10 additions and 0 deletions.
3 changes: 3 additions & 0 deletions evals/registry/data/ukraine_eit/samples.jsonl
Git LFS file not shown
7 changes: 7 additions & 0 deletions evals/registry/evals/ukraine-eit.yaml
@@ -0,0 +1,7 @@
ukraine-eit:
id: ukraine-eit.val.v0
metrics: [accuracy]
ukraine-eit.val.v0:
class: evals.elsuite.basic.match:Match
args:
samples_jsonl: ukraine_eit/samples.jsonl

0 comments on commit 9de4062

Please sign in to comment.