Проект во многом вдохновленный Saiga.
Мною были собраны все самые качественные датасеты с huggingface.datasets, а также собраны дополнительно с тех сайтов, которые я посчитал весьма полезными для создания аналога ChatGPT. Лицензии у всех датасетов отличаются, какие-то по типу OpenAssistant/oasst1 были созданы специально для обучения подобных моделей, какие-то являются прямой выгрузкой диалогов с ChatGPT (RyokoAI/ShareGPT52K).
Смысл данного репозитория состоит в систематизации и стандартизации уже имеющихся датасетов, добавлении новых. А также тренировке моделей на этих данных.
name | link | description | original_name | original_source | preparation_script | language | amount_examples | mean_llama_tokens | std | min_llama_tokens | 25% | 50% | 75% | max_llama_tokens |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
dim/oasst_en | https://huggingface.co/datasets/dim/oasst_en | OpenAssistant Conversations Dataset на английском языке, который был вручную отфильтрован мной. В исходном датасете около 30% диалогов оказались не корректными. Иногда пользователь, играющий роль ассистента, использовал грубый тон в общении с пользователем, иногда люди просто отвечали "не знаю" на вопросы, и некоторые из вопросов были недостаточно научными или слишком краткими. Вы можете ознакомиться с этой разметкой по следующей ссылке: https://docs.google.com/spreadsheets/d/117t5-Tr-dxdODpyFBkBg5R8GklYBlsvBfeDyjqwz2pA/edit?usp=sharing | 2023-04-12_oasst_ready.messages.jsonl.gz | https://huggingface.co/datasets/OpenAssistant/oasst1/blob/main/2023-04-12_oasst_ready.messages.jsonl.gz | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oasst | en | 2289 | 468.6788991 | 295.0864391 | 17 | 264 | 410 | 618 | 2332 |
dim/oasst_ru | https://huggingface.co/datasets/dim/oasst_ru | OpenAssistant Conversations Dataset на русском языке, который был вручную отфильтрован мной. В исходном датасете около 30% диалогов оказались не корректными. Иногда пользователь, играющий роль ассистента, использовал грубый тон в общении с пользователем, иногда люди просто отвечали "не знаю" на вопросы, и некоторые из вопросов были недостаточно научными или слишком краткими. Вы можете ознакомиться с этой разметкой по следующей ссылке: https://docs.google.com/spreadsheets/d/1uiOnqxiytuxrB6u6q2pMSdnMfqjT3arfg8DlT-OWlb0/edit?usp=sharing | 2023-04-12_oasst_ready.messages.jsonl.gz | https://huggingface.co/datasets/OpenAssistant/oasst1/blob/main/2023-04-12_oasst_ready.messages.jsonl.gz | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oasst | ru | 2220 | 589.6112613 | 479.835392 | 7 | 278 | 465 | 763.5 | 5028 |
dim/lima | https://huggingface.co/datasets/dim/lima | Данный датасет включает в себя 1000 высококачественных обучающих примеров на английском языке. Он собран из различных источников, включая Stack Exchange (STEM), Stack Exchange (Other), wikiHow, Pushshift r/WritingPrompts, Natural Instructions, а также уникальные инструкции, созданные авторами статей. Более подробную информацию о датасете можно найти в [соответствующей статье](https://arxiv.org/pdf/2305.11206.pdf). | GAIR/lima | https://huggingface.co/datasets/GAIR/lima | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/lima | en | 1030 | 712.9456311 | 671.179319 | 29 | 312.75 | 488.5 | 825 | 3920 |
dim/logic_tasks_ru | https://huggingface.co/datasets/dim/logic_tasks_ru | Данный набор задач по логике для детей взят с веб-сайта https://www.potehechas.ru/zadachi/zadachi.shtml. | Логические задачи - Логика и нестандартное мышление | https://www.potehechas.ru/zadachi/zadachi.shtml | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/logic_tasks_ru | ru | 86 | 193.0697674 | 76.69048422 | 58 | 133.75 | 185 | 243.5 | 432 |
dim/wikihow_en | https://huggingface.co/datasets/dim/wikihow_en | Данный датасет содержит англоязычные статьи, извлеченные с веб-сайта Wikihow. | 0x22almostEvil/multilingual-wikihow-qa-16k | https://huggingface.co/datasets/0x22almostEvil/multilingual-wikihow-qa-16k | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/wiki_how | en | 1995 | 2037.86416 | 870.1910713 | 265 | 1463 | 1913 | 2461.5 | 8988 |
dim/wikihow_ru | https://huggingface.co/datasets/dim/wikihow_ru | Данный датасет включает в себя русскоязычные статьи, полученные с веб-сайта Wikihow. | 0x22almostEvil/multilingual-wikihow-qa-16k | https://huggingface.co/datasets/0x22almostEvil/multilingual-wikihow-qa-16k | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/wiki_how | ru | 2058 | 2498.119534 | 1587.851549 | 139 | 1236.25 | 2264 | 3421.75 | 10217 |
dim/essayforum_writing_prompts_6k | https://huggingface.co/datasets/dim/essayforum_writing_prompts_6k | Данный датасет включает в себя запросы на помощь с написанием небольших эссе, размещенные на данном сайте. Ответы в датасете предоставлены исключительно главным администратором сайта. Его ответы были отобраны, поскольку чаще всего они являются наиболее качественными и вдумчивыми. | EssayForum | https://essayforum.com/writing/ | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/essayforum | en | 6361 | 783.1760729 | 285.4314176 | 258 | 629 | 742 | 879 | 4966 |
dim/sharegpt_short_ru | https://huggingface.co/datasets/dim/sharegpt_short_ru | Очищенная версия русская версия sharegpt. Я попытался вырезать из текста все промпты, где модель извиняется что что-то не может сделать, что она не имеет доступа в интернет. Диалоги, которые противоречат морали модели я просто исключил. Постарался убрать упоминания о том что она модель AI, так как за ролеплейные характеристики отвечают другие датасеты. | RyokoAI/ShareGPT52K | https://huggingface.co/datasets/RyokoAI/ShareGPT52K | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/sharegpt | ru | 253 | 706.6521739 | 494.7437584 | 13 | 310 | 628 | 1078 | 1861 |
dim/openreview_prompts_65 | https://huggingface.co/datasets/dim/openreview_prompts_65 | Датасет рецензий на реальные научные статьи с сайта openreview. Вышло на самом деле не так много, так как многие статьи не выложенны на arxiv или просто не имеют рецензий. Плюс я собрал только малую часть данного сайта, а не все что там было. | https://openreview.net/ | https://openreview.net/ | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/openreview | en | 150 | 13531.51333 | 6966.623686 | 4893 | 8279 | 12648.5 | 15833.5 | 41494 |
dim/roleplay_instruct_v2_final | https://huggingface.co/datasets/dim/roleplay_instruct_v2_final | Датасет ролеплея от GPT-4 на различных персонажей на английском языке. | roleplay-instruct-v2-final | https://github.com/teknium1/GPTeacher | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/gpt_roleplay_realm | en | 7188 | 155.1413467 | 97.71215667 | 14 | 88 | 125 | 192 | 1291 |
dim/kinomania_scripts | https://huggingface.co/datasets/dim/kinomania_scripts | Небольшой датасет, который содержит в себе сценарии фильмов целиком и их краткое содержание | https://www.kinomania.ru/scripts | https://www.kinomania.ru/scripts | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/kinomania_scripts | ru\en | 27 | 2603.407407 | 510.375447 | 1887 | 2175 | 2370 | 3069 | 3616 |
dim/bugurt_thread_prompts | https://huggingface.co/datasets/dim/bugurt_thread_prompts | Небольшой набор размеченных бугуртов вместе с моим другом, для того чтобы модель научилась писать бугурты на конкретную ситуацию. Собраны из телеграм паблика БУГУРТ ТРЕД(https://t.me/bugurtthread) | https://t.me/bugurtthread | https://t.me/bugurtthread | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/bugurt_thread | ru | 223 | 334.4529148 | 271.2557988 | 48 | 148.5 | 254 | 434.5 | 1645 |
dim/russian_lyrics_prompts | https://huggingface.co/datasets/dim/russian_lyrics_prompts | Небольшой датасет промптов собранный мною из различных учебников по стихосложению, чтобы модель научилась писать стихи, используя необходимый литературный прием на конкретную тему. | Учебник стихосложения | https://stihi.ru/uchebnik/ | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/russian_lyrics_prompts | ru | 43 | 106.1395349 | 71.00220701 | 45 | 71 | 83 | 96.5 | 411 |
dim/ru_instruct_gpt4 | https://huggingface.co/datasets/dim/ru_instruct_gpt4 | Датасет каких-то инструкций на русском сгенерированных GPT-4 | lksy/ru_instruct_gpt4 | https://huggingface.co/datasets/lksy/ru_instruct_gpt4 | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_instruct_gpt4 | ru | 14222 | 259.2173393 | 237.9433891 | 16 | 109 | 175 | 271 | 1374 |
dim/gpt_roleplay_realm | https://huggingface.co/datasets/dim/gpt_roleplay_realm | Диалоги выдуманных персонажей при помощи GPT-4, диалоги были сгенерированны при помощи GPT-3.5. Русский и английский. | IlyaGusev/gpt_roleplay_realm | https://huggingface.co/datasets/IlyaGusev/gpt_roleplay_realm | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/gpt_roleplay_realm | ru\en | 8700 | 504.2424138 | 117.6228987 | 180 | 424 | 489 | 569 | 1207 |
dim/ultrachat_ru | https://huggingface.co/datasets/dim/ultrachat_ru | Какой-то рандомный датасет диалогов от chatgpt, который я нашел на huggingface. Из текста диалогов были вырезаны шаблонные фразы по типу: "я не могу выполнить", "как языковая модель" и тд. Потому что обычно после этого следовало вменяемое решение задачи. | kaleinaNyan/UltraChat_ru | https://huggingface.co/datasets/kaleinaNyan/UltraChat_ru | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ultrachat_ru | ru | 500 | 1781.782 | 901.1212735 | 267 | 1113.25 | 1648 | 2250.25 | 7303 |
dim/scitldr | https://huggingface.co/datasets/dim/scitldr | Саммаризация научных статей на английском языке, выполненная экспертами. | allenai/scitldr | https://huggingface.co/datasets/allenai/scitldr | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/scitldr | en | 3229 | 258.748529 | 71.41209752 | 60 | 209 | 252 | 303 | 689 |
dim/linux_man_pages_tldr_summarized | https://huggingface.co/datasets/dim/linux_man_pages_tldr_summarized | Саммаризация мануалов для инструментов линукс в удобный набор команд с их кратким описанием. | tmskss/linux-man-pages-tldr-summarized | https://huggingface.co/datasets/tmskss/linux-man-pages-tldr-summarized | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/linux-man-pages-tldr-summarized | en | 481 | 1567.727651 | 3590.30871 | 96 | 405 | 765 | 1386 | 49888 |
dim/dolphin_ru_3k | https://huggingface.co/datasets/dim/dolphin_ru_3k | Подвыборка размера 3000 переведенных заданий dolphin. Примеры из оригинального датасета это промпты из FLANv2 и решения при помощи GPT-4 или GPT-3.5. | d0rj/dolphin-ru | https://huggingface.co/datasets/d0rj/dolphin-ru | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dolphin_ru | ru | 3000 | 556.1133333 | 650.0962612 | 19 | 207 | 369.5 | 720.25 | 6787 |
dim/runne_prompts | https://huggingface.co/datasets/dim/runne_prompts | Промпты составленные из датасета RuNNE. Лично я при обучении сотавил промпт следующим образом. Сначала идет текст "Найди все именованные сущности в данном тексте:", а затем шел сам текст. В качестве выхода модели нужно сгенерировать JSON где содержатся все найденные именованные сущности. К примеру так [{"name": "PERSON", "ent": "Ким Чен Нама", "pos": "0 12"}, {"name": "ORGANIZATION", "ent": "Полиция Малайзии", "pos": "56 72"}] | iluvvatar/RuNNE | https://huggingface.co/datasets/iluvvatar/RuNNE | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/RuNNE | ru | 537 | 1479.750466 | 230.0259174 | 581 | 1337 | 1480 | 1635 | 1988 |
dim/lurk_prompts | https://huggingface.co/datasets/dim/lurk_prompts | Набор определений различных терминов с сайта lurk. Сами промпты были составлены автоматически следующим образом. напиши определение для (ОПРЕДЕЛЕНИЕ) в стиле lurk | averoo/lurk | https://huggingface.co/datasets/averoo/lurk/viewer/default/train?p=2 | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/lurk | ru | 5671 | 3450.34262 | 4147.897824 | 35 | 710.5 | 2010 | 4593 | 55098 |
dim/panorama_prompts_10k | https://huggingface.co/datasets/dim/panorama_prompts_10k | Набор юмористических заголовков и текстов новостей с сайта панорама. | its5Q/panorama | https://huggingface.co/datasets/its5Q/panorama | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/panorama | ru | 11024 | 516.9588171 | 191.3774023 | 36 | 422 | 498 | 585 | 3496 |
dim/resh_edu_short_prompts | https://huggingface.co/datasets/dim/resh_edu_short_prompts | Набор уроков с сайта resh.edu.ru включающих в себя название урока, тему, класс и текст урока с заданиями. | its5Q/resh-edu | https://huggingface.co/datasets/its5Q/resh-edu | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/resh_edu | ru | 2106 | 1431.510921 | 435.7847102 | 56 | 1175.5 | 1517 | 1777 | 2029 |
dim/databricks_dolly_15k_ru | https://huggingface.co/datasets/dim/databricks_dolly_15k_ru | Переведенный датасет dolly на русский язык. Включает в себя набор инструкций на обширное количество тематик. | dwarf2/databricks-dolly-15k-ru | https://huggingface.co/dwarf2/databricks-dolly-15k-ru | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/databricks_dolly_15k_ru | ru | 14914 | 305.4638595 | 405.874049 | 8 | 87 | 182 | 370 | 9268 |
dim/databricks_dolly_15k_en | https://huggingface.co/datasets/dim/databricks_dolly_15k_en | databricks-dolly-15k — это набор данных с открытым исходным кодом, содержащий записи о выполнении инструкций, созданные тысячами сотрудников Databricks в нескольких поведенческих категориях, изложенных в документе InstructGPT, включая мозговой штурм, классификацию, закрытый контроль качества, генерацию, извлечение информации, открытый контроль качества и обобщение. | databricks/databricks-dolly-15k | https://huggingface.co/datasets/databricks/databricks-dolly-15k | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/databricks_dolly_15k_en | en | 15011 | 204.7264006 | 302.5539423 | 6 | 57 | 119 | 242 | 8883 |
dim/grammarly_coedit | https://huggingface.co/datasets/dim/grammarly_coedit | Набор промптов, которые просят исправить грамматические, стилистические ошибки на английском. | grammarly/coedit | https://huggingface.co/datasets/grammarly/coedit | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grammarly_coedit | en | 82466 | 53.7128271 | 26.73822864 | 10 | 35 | 46 | 64 | 694 |
dim/kinopoisk_prompts | https://huggingface.co/datasets/dim/kinopoisk_prompts | Отзывы с кинопоиска на топ 250 фильмов. В промптах я прошу написать хороший, плохой или нейтральный отзыв на определенный фильм. | blinoff/kinopoisk | https://huggingface.co/datasets/blinoff/kinopoisk | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/kinopoisk | ru | 36591 | 875.0955973 | 565.3212035 | 48 | 484 | 733 | 1117 | 8628 |
dim/medical_qa_ru_prompts | https://huggingface.co/datasets/dim/medical_qa_ru_prompts | Какие-то вопросы и ответы с какого-то медицинского форума. В данной версии датасета только первый ответ из оригинала. | blinoff/medical_qa_ru_data | https://huggingface.co/datasets/blinoff/medical_qa_ru_data | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/medical_qa_ru_data | ru | 80101 | 206.710528 | 175.4343973 | 12 | 106 | 161 | 247 | 5062 |
dim/joke_explaination_prompts | https://huggingface.co/datasets/dim/joke_explaination_prompts | Объяснение шуток на английском. От изначального датасета отличается тем, что я убрал последнее предложение из объяснения, так как оно ссылается на видео на сайте. | theblackcat102/joke_explaination | https://huggingface.co/datasets/theblackcat102/joke_explaination | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/joke_explaination | en | 364 | 143.5741758 | 68.90275411 | 21 | 99 | 137.5 | 189.25 | 334 |
dim/oa_stackexchange_200k | https://huggingface.co/datasets/dim/oa_stackexchange_200k | Вопросы-ответы со stackexchange. Оригинальный датасет был составлен следующим образом: были выбраны только темы с принятым ответом, для которых длина вопроса и ответа составляет менее 1000 символов. Другие ответы, вопросы без принятых ответов или длинные записи были удалены. Так как оригинальный датасет слишком большой, я рандомно выбрал 200k семплов. | donfu/oa-stackexchange | https://huggingface.co/datasets/donfu/oa-stackexchange | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oa_stackexchange | en | 200000 | 276.29862 | 112.5004436 | 22 | 194 | 265 | 345 | 1226 |
dim/scale_helpful_no_math | https://huggingface.co/datasets/dim/scale_helpful_no_math | Какой-то набор диалогов с вопросами-ответами на английском, происхождение неизвестно. | HuggingFaceH4/scale_helpful_no_math | https://huggingface.co/datasets/HuggingFaceH4/scale_helpful_no_math/viewer/default/train_rm | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/scale_helpful_no_math | en | 17095 | 1235.302603 | 838.1097885 | 53 | 663 | 1063 | 1617 | 34480 |
dim/law_stackexchange_prompts | https://huggingface.co/datasets/dim/law_stackexchange_prompts | Вопросы про закон на английском языке со StackExchange. Оригинальный датасет был преобразован в markdown. | ymoslem/Law-StackExchange | https://huggingface.co/datasets/ymoslem/Law-StackExchange | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/law_stackexchange | en | 24343 | 689.1184324 | 565.0316906 | 43 | 354 | 540 | 836 | 8969 |
dim/ficbook_prompts_best_10k | https://huggingface.co/datasets/dim/ficbook_prompts_best_10k | Топ 10k лучших фанфиков с сайта ficbook.net. Все промпты выглядят следующим образом: напиши фанфик с названием {title} и следующим описанием {description}, с тегами {tags}, Где title это оригинальное название, description оригинальное описание, tags это теги данного произведения. | AlexWortega/FicBook | https://huggingface.co/datasets/AlexWortega/FicBook | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ficbook | ru | 10000 | 1737.8214 | 402.0748161 | 166 | 1716 | 1950 | 1950 | 1952 |
dim/azbyka_logic_ru | https://huggingface.co/datasets/dim/azbyka_logic_ru | Небольшой набор детских логических и православных задач, взятых с сайта https://azbyka.ru/deti/logicheskie-i-zanimatelnye-zadachi . Обычно у них почти нет развернутого решения, только ответ. Я пытался расписать решение некоторых задач, но меня хватило только на 35, если кто-то займется подобным буду рад https://docs.google.com/spreadsheets/d/1JRbtppbZCUbV_Eqd0nKbRDQEuPnJIAgJ70cUILEDUI4/edit?usp=sharing . | Логические и занимательные задачи (300 задач) | https://azbyka.ru/deti/logicheskie-i-zanimatelnye-zadachi | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/azbyka_logic_ru | ru | 480 | 77.4375 | 77.56990416 | 14 | 31 | 50 | 91 | 652 |
dim/povarenok | https://huggingface.co/datasets/dim/povarenok | 46k лучших рецептов с сайта povarenok.ru, содержит текст рецепта, список ингридиентов, название блюда | https://www.povarenok.ru/recipes/ | https://www.povarenok.ru/recipes/ | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/povarenok | ru | 46500 | 488.9118495 | 344.8563249 | 31 | 281 | 440 | 632 | 5542 |
dim/AO3_fandom_chatbot_1to1 | https://huggingface.co/datasets/dim/AO3_fandom_chatbot_1to1 | Какой-то набор ролеплейных диалогов с описанием персонажей и их отыгрышем. Происхождение неизвестно. | ebony59/AO3_fandom_chatbot_1to1 | https://huggingface.co/datasets/ebony59/AO3_fandom_chatbot_1to1 | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/AO3_fandom_chatbot_1to1 | en | 614 | 493.7166124 | 226.3885365 | 129 | 328.25 | 432.5 | 611.75 | 1272 |
dim/habr_prompts_5k | https://huggingface.co/datasets/dim/habr_prompts_5k | Статьи с хабра. Датасет был составлен с помощью chatgpt, chatgpt преобразовывал заголовки таким образом чтобы они звучали как вопросы от пользователя, в качестве таргета выступала сама статья. | IlyaGusev/habr | https://huggingface.co/datasets/IlyaGusev/habr | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/habr | ru | 5000 | 1732.892 | 454.8418369 | 19 | 1920.75 | 1950 | 1951 | 1952 |
dim/what_where_when_50k | https://huggingface.co/datasets/dim/what_where_when_50k | 50k вопросов с решениями с сайта что где когда. В качестве промпта выступает вопрос, в качестве ответа конкатенация объяснения и краткого ответа. Все вопросы-ответы вы можете найти по этой ссылке https://huggingface.co/datasets/dim/what_where_when_ru | https://db.chgk.info | https://db.chgk.info | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/what_where_when | ru | 50000 | 169.1862 | 68.91119898 | 18 | 122 | 158 | 202 | 1167 |
dim/competition_math | https://huggingface.co/datasets/dim/competition_math | Датасет олимпиадной математики на английском. The Mathematics Aptitude Test of Heuristics (MATH) dataset. | competition_math | https://huggingface.co/datasets/competition_math | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/competition_math | en | 7500 | 317.5254667 | 267.8583731 | 34 | 147 | 234 | 393 | 3029 |
dim/sharegpt_short_en_30k | https://huggingface.co/datasets/dim/sharegpt_short_en_30k | Короткие диалоги на английском из sharegpt | RyokoAI/ShareGPT52K | https://huggingface.co/datasets/RyokoAI/ShareGPT52K | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/sharegpt | en | 29597 | 749.3149981 | 516.3702473 | 3 | 336 | 630 | 1095 | 2021 |
dim/ru_turbo_alpaca_evol_instruct | https://huggingface.co/datasets/dim/ru_turbo_alpaca_evol_instruct | Набор инструкций различной тематики на русском языке, сгенерированных при помощи chatgpt. | IlyaGusev/ru_turbo_alpaca_evol_instruct | https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca_evol_instruct | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_turbo_alpaca_evol_instruct | ru | 47793 | 453.0887996 | 289.5498356 | 17 | 221 | 430 | 623 | 4647 |
dim/ru_turbo_saiga | https://huggingface.co/datasets/dim/ru_turbo_saiga | Набор инструкций различной тематики на русском языке, сгенерированных при помощи chatgpt. | IlyaGusev/ru_turbo_saiga | https://huggingface.co/datasets/IlyaGusev/ru_turbo_saiga | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_turbo_saiga | ru | 37699 | 412.7508687 | 113.346917 | 87 | 339 | 398 | 466 | 1427 |
dim/bugurt_completion_prompts | https://huggingface.co/datasets/dim/bugurt_completion_prompts | Обрезанные бугурты, где в качестве промпта используется строка вида - продолжи бугурт: первая строчка бугурта | https://t.me/bugurtthread | https://t.me/bugurtthread | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/bugurt_thread | ru | 5000 | 280.2466 | 320.4353681 | 32 | 111 | 178 | 331 | 11333 |
dim/tldr_17_50k | https://huggingface.co/datasets/dim/tldr_17_50k | Очень вольная абстрактная саммаризация постов с реддита в одну строчку | webis/tldr-17 | https://huggingface.co/datasets/webis/tldr-17 | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/tldr_17 | en | 50000 | 421.12752 | 403.346214 | 10 | 177 | 303 | 525 | 9592 |
dim/grade_school_math_instructions | https://huggingface.co/datasets/dim/grade_school_math_instructions | OpenAI's grade-school-math датасет преобразованный в промпты. | qwedsacf/grade-school-math-instructions | https://huggingface.co/datasets/qwedsacf/grade-school-math-instructions | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grade-school-math-instructions | en | 8792 | 171.6310282 | 63.09232668 | 50 | 124 | 161 | 206 | 511 |
dim/tldr_news | https://huggingface.co/datasets/dim/tldr_news | Хедлайны и текст новостей на различную тематику. | JulesBelveze/tldr_news | https://huggingface.co/datasets/JulesBelveze/tldr_news | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/tldr_news | en | 7138 | 133.1004483 | 46.48736493 | 23 | 100 | 133 | 161 | 476 |
dim/grade_school_math_instructions_ru | https://huggingface.co/datasets/dim/grade_school_math_instructions_ru | OpenAI's grade-school-math датасет переведенный на русский. | d0rj/gsm8k-ru | https://huggingface.co/datasets/d0rj/gsm8k-ru | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grade_school_math_instructions_ru | ru | 7473 | 259.8321959 | 100.1229127 | 78 | 185 | 241 | 314 | 838 |
dim/dialogsum | https://huggingface.co/datasets/dim/dialogsum | Саммаризация диалогов на английском языке, разметка выполнялась вручную. | knkarthick/dialogsum | https://huggingface.co/datasets/knkarthick/dialogsum | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dialogsum | en | 12460 | 269.6467095 | 126.285664 | 75 | 191 | 245 | 327 | 1725 |
dim/HC3_ru | https://huggingface.co/datasets/dim/HC3_ru | Вопросы-ответы с реддита, есть ответы сгенерированные chatgpt и реальные ответы пользователей. Я использовал только реальные ответы пользователей. | d0rj/HC3-ru | https://huggingface.co/datasets/d0rj/HC3-ru | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/HC3_ru | ru | 24322 | 360.5608503 | 330.2285903 | 15 | 168 | 267 | 435 | 10025 |
dim/horoscopes_ru_10k | https://huggingface.co/datasets/dim/horoscopes_ru_10k | 10k гороскопов, с промптами где я прошу сгенерировать гороском для определенного знака зодиака | dkagramanyan/horoscopes_ru | https://huggingface.co/datasets/dkagramanyan/horoscopes_ru | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/horoscopes_ru | ru | 10000 | 183.1443 | 31.62023184 | 55 | 159 | 187 | 201 | 464 |
dim/yandex_q_200k | https://huggingface.co/datasets/dim/yandex_q_200k | 200k рандомно выбранных вопросов-ответов с сайта yandex q. | its5Q/yandex-q | https://huggingface.co/datasets/its5Q/yandex-q | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/yandex_q | ru | 200000 | 304.569005 | 340.7808288 | 18 | 127 | 202 | 353 | 19294 |
dim/leetcodesolutions_en_2k | https://huggingface.co/datasets/dim/leetcodesolutions_en_2k | Решения задач с leetcode на разных языках. | TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k | https://huggingface.co/datasets/TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/leetcodesolutions_en_2k | en | 2048 | 740.7441406 | 253.2493282 | 297 | 565 | 685 | 857 | 1960 |
dim/forum_uristov_rf_prompts | https://huggingface.co/datasets/dim/forum_uristov_rf_prompts | Вопросы-ответы с российского юридического форума. | https://xn----dtbrojdkckkfj9k.xn--p1ai/vopros-yuristu?page=560 | https://xn----dtbrojdkckkfj9k.xn--p1ai/vopros-yuristu?page=560 | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/forum_uristov_rf | ru | 1849 | 321.0540833 | 429.58896 | 31 | 134 | 210 | 349 | 6470 |
dim/dialogsum_ru | https://huggingface.co/datasets/dim/dialogsum_ru | Саммаризация диалогов на русском языке, перевод dialogsum. | d0rj/dialogsum-ru | https://huggingface.co/datasets/d0rj/dialogsum-ru | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dialogsum-ru | ru | 12460 | 364.2813804 | 178.7117754 | 98 | 250 | 329 | 446 | 2300 |
dim/huggingartists_prompts | https://huggingface.co/datasets/dim/huggingartists_prompts | Промпты, которые просят продолжить песню в стиле определенного исполнителя. В данном наборе содержатся почти все исполнители, которых вы можете найти в этой организации https://huggingface.co/huggingartists | https://huggingface.co/huggingartists | https://huggingface.co/huggingartists | https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/huggingartists | ru | 64006 | 561.6732025 | 586.18458 | 28 | 297 | 453 | 720 | 32949 |
На данный момент обучаются 3 модели llama2_7b, llama2_13b и llama1_30b.
За графиками их обучения можно следить в прямом эфире https://api.wandb.ai/links/dimweb/7rh0c7iz
Все обучение и инференс производится на видеокарте A100, на других видеокартах была обнаружена существенная деградация качества при инференсе, данный аспект требует дополнительного изучения.
- NVIDIA A100-SXM4-40GB
- NVIDIA-SMI 535.54.03
- Driver Version: 535.54.03
- CUDA Version: 12.2
- torch==2.0.1+cu118
Самое простое, что можно сделать это переводить уже имеющиеся хорошие датасеты с английского на русский при помощи GPT-4.
Более сложное это собирать больше разнообразных данных из различных доменов. Я могу лишь подкинуть идеи для того какие датасеты можно собрать еще.
- решебники по литературе, русскому и другим предметам
- задания со всяких бирж труда
- краткие пересказы произведений, анализ произведений, сочинения по ним
- туториалы с digital ocean (более 7000)
- туториалы с selectel
- больше форумов на различные тематики
- бесплатные эссе с ivypanda essays и дальнейший их перевод на русский
- больше стихов и песен
- олимпиадные русские задачи их очень сложно собирать, так как большинство их них живут только в PDF или docx. Но их довольно много и они довольно отличаются от олимпиадной математики на английском. Но у меня нет времени этим заниматься.
- фанфики на иностранном языке
- исправить текущие автоматические промпты на более разнообразные, при помощи chatgpt