Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
[evals] Ukrainian external independent evaluation university entry te…
…sts (openai#329) Foreword: I have the GPT-4 API access already, and would like to request 32K context and/or image capability. ## Eval details 📑 ### Eval name ukraine-eit.val.v0 ### Eval description This eval a mixed-set selection of 9470 test questions from [External independent evaluation](https://en.wikipedia.org/wiki/External_independent_evaluation) (2006-2022) a government-mandated test that has been held annually in Ukraine since 2006 for the primary purpose of evaluating university candidates but also teachers and candidates to MS programs. This dataset was carefully mined from Public Domain test result sheets published by the government, and was filtered to account for questions containing images, tables, or mathematical formulas in MathJax. Here is the breakdown of various subjects and their representation in the data: - Ukrainian language and literature (28.8%) - History of Ukraine (21.8%) - Biology (13.1%) - Geography (12.5%) - Law (11.1%) - Chemistry (4.4%) - Learning competence (3.6%) - Pedagogic competence (3.6%) - Physics (0.9%) In the subjects such as Chemistry, Physics and Geography, the majority of tests are image-based and have been omitted from the dataset. We still have the remaining questions and would gladly add them later when GPT-4 image capability is explored further. Various types of questions including single and multiple-answer multiple choice, sequence and set-selection questions have been prompted separately to yield a predictable result in a particular format. ### What makes this a useful eval? This dataset allows for measuring of GPT-4 performance on various learning tasks in Ukrainian. OCR has **not** been used in the process of mining of this dataset; all questions and answers in this dataset are high-quality human-curated plaintext data that were used by the authorities to evaluate the actual test results at the time; the texts are presented verbatim, and were in some cases corrected for human errors made at the time of publishing. Not only does it test for general reading and writing comprehension but also a variety of specific topics and facts that are simultaneously not widely known but also expected from all university candidates to master, and demonstrate successfully in supervised environment. This is also a kind of eval in which GPT-4 shows lacklustre performance, perhaps indicating how more content in Ukrainian is needed for future training. We expect this dataset to be a benchmark at how well GPT-4 is able to grasp Ukrainian language, culture, legal and academic environments. ## Criteria for a good eval ✅ Below are some of the criteria we look for in a good eval. In general, we are seeking cases where the model does not do a good job despite being capable of generating a good response (note that there are some things large language models cannot do, so those would not make good evals). Your eval should be: - [x] Thematically consistent: The eval should be thematically consistent. We'd like to see a number of prompts all demonstrating some particular failure mode. For example, we can create an eval on cases where the model fails to reason about the physical world. - [x] Contains failures where a human can do the task, but either GPT-4 or GPT-3.5-Turbo could not. - [x] Includes good signal around what is the right behavior. This means either a correct answer for `Basic` evals or the `Fact` Model-graded eval, or an exhaustive rubric for evaluating answers for the `Criteria` Model-graded eval. - [x] Include at least 100 high quality examples (it is okay to only contribute 5-10 meaningful examples and have us test them with GPT-4 before adding all 100) If there is anything else that makes your eval worth including, please document it below. ## Eval structure 🏗️ Your eval should - [x] Check that your data is in `evals/registry/data/{name}` - [x] Check that your yaml is registered at `evals/registry/evals/{name}.yaml` - [x] Ensure you have the right to use the data you submit via this eval (For now, we will only be approving evals that use one of the existing eval classes. You may still write custom eval classes for your own cases, and we may consider merging them in the future.) ## Final checklist 👀 ### Submission agreement By contributing to Evals, you are agreeing to make your evaluation logic and data under the same MIT license as this repository. You must have adequate rights to upload any data used in an Eval. OpenAI reserves the right to use this data in future service improvements to our product. Contributions to OpenAI Evals will be subject to our usual Usage Policies (https://platform.openai.com/docs/usage-policies). - [x] I agree that my submission will be made available under an MIT license and complies with OpenAI's usage policies. ### Email address validation If your submission is accepted, we will be granting GPT-4 access to a limited number of contributors. Access will be given to the email address associated with the merged pull request. - [x] I acknowledge that GPT-4 access will only be granted, if applicable, to the email address used for my merged pull request. ### Limited availability acknowledgement We know that you might be excited to contribute to OpenAI's mission, help improve our models, and gain access to GPT-4. However, due to the requirements mentioned above and high volume of submissions, we will not be able to accept all submissions and thus not grant everyone who opens a PR GPT-4 access. We know this is disappointing, but we hope to set the right expectation before you open this PR. - [x] I understand that opening a PR, even if it meets the requirements above, does not guarantee the PR will be merged nor GPT-4 access granted. ### Submit eval - [x] I have filled out all required fields in the evals PR form - [x] (Ignore if not submitting code) I have run `pip install pre-commit; pre-commit install` and have verified that `black`, `isort`, and `autoflake` are running when I commit and push Failure to fill out all required fields will result in the PR being closed. ### Eval JSON data Since we are using Git LFS, we are asking eval submitters to add in as many Eval Samples (at least 5) from their contribution here: <details> <summary>View evals in JSON</summary> ### Eval ```jsonl {"input": [{"role": "system", "content": "Ви розв'язуєте державний екзамен з української мови та літератури. Вкажіть літеру відповіді та текст відповіді дослівно, наприклад: Б. варіант відповіді"}, {"role": "user", "content": "Позначте словосполучення, у якому порушено граматичну норму на позначення часу:\nА. рівно о першій;\nБ. десять хвилин по шостій;\nВ. пів на десяту;\nГ. сім годин двадцять хвилин;\nД. за двадцять п’ята."}], "ideal": "Г. сім годин двадцять хвилин;"} {"input": [{"role": "system", "content": "Ви розв'язуєте державний екзамен з історії України. Поставте у відповідність кожному варіанту із цифрою один із варіантів із літерою. Наприклад: 1-А, 2-Б, 3-В, 4-Д. Відповіді не можуть повторюватися."}, {"role": "user", "content": "Установіть відповідність між прізвищами діячів і фактами їхньої біографії.\n1. В. Симоненко\n2. М. Руденко\n3. В. Стус\n4. В. Чорновіл\nА. автор «самвидавських» праць «Репортаж із заповідника імені Берії», «Серед снігів», «Хроніка опору»\nБ. автор «самвидавської» збірки «Лихо з розуму», журналу «Український вісник», член Української Гельсінської групи\nВ. автор збірок «Круговерть», «Зимові дерева», «Веселий цвинтар», член Української Гельсінської групи\nГ. автор поезій «Всесвіт у тобі», «Оновлення», один із засновників і керівник Української Гельсінської групи\nД. автор збірок «Лебеді материнства», «Земне тяжіння», «самвидавської» сатири «Некролог кукурудзяному качанові», «Злодій», «Суд»"}], "ideal": "1-Д, 2-Г, 3-В, 4-Б"} {"input": [{"role": "system", "content": "Ви розв'язуєте державний екзамен з біології. Поставте у відповідність кожному варіанту із цифрою один із варіантів із літерою. Наприклад: 1-А, 2-Б, 3-В, 4-Д. Відповіді не можуть повторюватися."}, {"role": "user", "content": "Увідповідніть відділ рослин (1-4) з видом (А - Д), який до нього належить.\n1. Мохоподібні\n2. Папоротеподібні\n3. Голонасінні\n4. Покритонасінні\nА. Очерет південний\nБ. Ялина колюча\nВ. Страусове перо звичайне\nГ. Політрих волосоносний\nД. Баранець звичайний"}], "ideal": "1-Г, 2-В, 3-Б, 4-А"} {"input": [{"role": "system", "content": "Ви розв'язуєте державний екзамен з права. Вкажіть літеру відповіді та текст відповіді дослівно, наприклад: Б. варіант відповіді"}, {"role": "user", "content": "Прокурор у результаті судового розгляду дійшов переконання, що необхідно відмовитися від підтримання державного обвинувачення. Якими мають бути дії прокурора?\nА. Продовжити участь у справі, а в судових дебатах просити суд ухвалити виправдувальний вирок.\nБ. Подати клопотання до суду про відкладення судового засідання для складання відповідних процесуальних документів та погодження їх з прокурором вищого рівня.\nВ. Заявити суду клопотання про оголошення перерви в судовому засіданні для складання відповідних процесуальних документів та їх погодження з потерпілим та цивільним позивачем.\nГ. У судових дебатах заявити про відмову від підтримання державного обвинувачення й подати до суду клопотання про закриття кримінального провадження."}], "ideal": "Б. Подати клопотання до суду про відкладення судового засідання для складання відповідних процесуальних документів та погодження їх з прокурором вищого рівня."} {"input": [{"role": "system", "content": "Ви розв'язуєте державний екзамен з географії. Вкажіть літеру відповіді та текст відповіді дослівно, наприклад: Б. варіант відповіді"}, {"role": "user", "content": "Чому на зволоження Південної Америки Атлантичний океан впливає більше, ніж Тихий?\nА. на заході материка простягаються високі гори, а на сході - рівнини\nБ. західна частина материка отримує більше сонячного тепла, ніж східна\nВ. біля західного узбережжя проходить тепла течія, а біля східного - холодна\nГ. із заходу на материк приходять циклони, а зі сходу - антициклони"}], "ideal": "А. на заході материка простягаються високі гори, а на сході - рівнини"} ``` </details>
- Loading branch information