Skip to content

dmitrymailk/verbalist

Repository files navigation

Verbalist (буквоед) - русскоязычный ассистент.

Проект во многом вдохновленный Saiga.

Мною были собраны все самые качественные датасеты с huggingface.datasets, а также собраны дополнительно с тех сайтов, которые я посчитал весьма полезными для создания аналога ChatGPT. Лицензии у всех датасетов отличаются, какие-то по типу OpenAssistant/oasst1 были созданы специально для обучения подобных моделей, какие-то являются прямой выгрузкой диалогов с ChatGPT (RyokoAI/ShareGPT52K).

Смысл данного репозитория состоит в систематизации и стандартизации уже имеющихся датасетов, добавлении новых. А также тренировке моделей на этих данных.

Датасеты

name link description original_name original_source preparation_script language amount_examples mean_llama_tokens std min_llama_tokens 25% 50% 75% max_llama_tokens
dim/oasst_en https://huggingface.co/datasets/dim/oasst_en OpenAssistant Conversations Dataset на английском языке, который был вручную отфильтрован мной. В исходном датасете около 30% диалогов оказались не корректными. Иногда пользователь, играющий роль ассистента, использовал грубый тон в общении с пользователем, иногда люди просто отвечали "не знаю" на вопросы, и некоторые из вопросов были недостаточно научными или слишком краткими. Вы можете ознакомиться с этой разметкой по следующей ссылке: https://docs.google.com/spreadsheets/d/117t5-Tr-dxdODpyFBkBg5R8GklYBlsvBfeDyjqwz2pA/edit?usp=sharing 2023-04-12_oasst_ready.messages.jsonl.gz https://huggingface.co/datasets/OpenAssistant/oasst1/blob/main/2023-04-12_oasst_ready.messages.jsonl.gz https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oasst en 2289 468.6788991 295.0864391 17 264 410 618 2332
dim/oasst_ru https://huggingface.co/datasets/dim/oasst_ru OpenAssistant Conversations Dataset на русском языке, который был вручную отфильтрован мной. В исходном датасете около 30% диалогов оказались не корректными. Иногда пользователь, играющий роль ассистента, использовал грубый тон в общении с пользователем, иногда люди просто отвечали "не знаю" на вопросы, и некоторые из вопросов были недостаточно научными или слишком краткими. Вы можете ознакомиться с этой разметкой по следующей ссылке: https://docs.google.com/spreadsheets/d/1uiOnqxiytuxrB6u6q2pMSdnMfqjT3arfg8DlT-OWlb0/edit?usp=sharing 2023-04-12_oasst_ready.messages.jsonl.gz https://huggingface.co/datasets/OpenAssistant/oasst1/blob/main/2023-04-12_oasst_ready.messages.jsonl.gz https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oasst ru 2220 589.6112613 479.835392 7 278 465 763.5 5028
dim/lima https://huggingface.co/datasets/dim/lima Данный датасет включает в себя 1000 высококачественных обучающих примеров на английском языке. Он собран из различных источников, включая Stack Exchange (STEM), Stack Exchange (Other), wikiHow, Pushshift r/WritingPrompts, Natural Instructions, а также уникальные инструкции, созданные авторами статей. Более подробную информацию о датасете можно найти в [соответствующей статье](https://arxiv.org/pdf/2305.11206.pdf). GAIR/lima https://huggingface.co/datasets/GAIR/lima https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/lima en 1030 712.9456311 671.179319 29 312.75 488.5 825 3920
dim/logic_tasks_ru https://huggingface.co/datasets/dim/logic_tasks_ru Данный набор задач по логике для детей взят с веб-сайта https://www.potehechas.ru/zadachi/zadachi.shtml. Логические задачи - Логика и нестандартное мышление https://www.potehechas.ru/zadachi/zadachi.shtml https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/logic_tasks_ru ru 86 193.0697674 76.69048422 58 133.75 185 243.5 432
dim/wikihow_en https://huggingface.co/datasets/dim/wikihow_en Данный датасет содержит англоязычные статьи, извлеченные с веб-сайта Wikihow. 0x22almostEvil/multilingual-wikihow-qa-16k https://huggingface.co/datasets/0x22almostEvil/multilingual-wikihow-qa-16k https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/wiki_how en 1995 2037.86416 870.1910713 265 1463 1913 2461.5 8988
dim/wikihow_ru https://huggingface.co/datasets/dim/wikihow_ru Данный датасет включает в себя русскоязычные статьи, полученные с веб-сайта Wikihow. 0x22almostEvil/multilingual-wikihow-qa-16k https://huggingface.co/datasets/0x22almostEvil/multilingual-wikihow-qa-16k https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/wiki_how ru 2058 2498.119534 1587.851549 139 1236.25 2264 3421.75 10217
dim/essayforum_writing_prompts_6k https://huggingface.co/datasets/dim/essayforum_writing_prompts_6k Данный датасет включает в себя запросы на помощь с написанием небольших эссе, размещенные на данном сайте. Ответы в датасете предоставлены исключительно главным администратором сайта. Его ответы были отобраны, поскольку чаще всего они являются наиболее качественными и вдумчивыми. EssayForum https://essayforum.com/writing/ https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/essayforum en 6361 783.1760729 285.4314176 258 629 742 879 4966
dim/sharegpt_short_ru https://huggingface.co/datasets/dim/sharegpt_short_ru Очищенная версия русская версия sharegpt. Я попытался вырезать из текста все промпты, где модель извиняется что что-то не может сделать, что она не имеет доступа в интернет. Диалоги, которые противоречат морали модели я просто исключил. Постарался убрать упоминания о том что она модель AI, так как за ролеплейные характеристики отвечают другие датасеты. RyokoAI/ShareGPT52K https://huggingface.co/datasets/RyokoAI/ShareGPT52K https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/sharegpt ru 253 706.6521739 494.7437584 13 310 628 1078 1861
dim/openreview_prompts_65 https://huggingface.co/datasets/dim/openreview_prompts_65 Датасет рецензий на реальные научные статьи с сайта openreview. Вышло на самом деле не так много, так как многие статьи не выложенны на arxiv или просто не имеют рецензий. Плюс я собрал только малую часть данного сайта, а не все что там было. https://openreview.net/ https://openreview.net/ https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/openreview en 150 13531.51333 6966.623686 4893 8279 12648.5 15833.5 41494
dim/roleplay_instruct_v2_final https://huggingface.co/datasets/dim/roleplay_instruct_v2_final Датасет ролеплея от GPT-4 на различных персонажей на английском языке. roleplay-instruct-v2-final https://github.com/teknium1/GPTeacher https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/gpt_roleplay_realm en 7188 155.1413467 97.71215667 14 88 125 192 1291
dim/kinomania_scripts https://huggingface.co/datasets/dim/kinomania_scripts Небольшой датасет, который содержит в себе сценарии фильмов целиком и их краткое содержание https://www.kinomania.ru/scripts https://www.kinomania.ru/scripts https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/kinomania_scripts ru\en 27 2603.407407 510.375447 1887 2175 2370 3069 3616
dim/bugurt_thread_prompts https://huggingface.co/datasets/dim/bugurt_thread_prompts Небольшой набор размеченных бугуртов вместе с моим другом, для того чтобы модель научилась писать бугурты на конкретную ситуацию. Собраны из телеграм паблика БУГУРТ ТРЕД(https://t.me/bugurtthread) https://t.me/bugurtthread https://t.me/bugurtthread https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/bugurt_thread ru 223 334.4529148 271.2557988 48 148.5 254 434.5 1645
dim/russian_lyrics_prompts https://huggingface.co/datasets/dim/russian_lyrics_prompts Небольшой датасет промптов собранный мною из различных учебников по стихосложению, чтобы модель научилась писать стихи, используя необходимый литературный прием на конкретную тему. Учебник стихосложения https://stihi.ru/uchebnik/ https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/russian_lyrics_prompts ru 43 106.1395349 71.00220701 45 71 83 96.5 411
dim/ru_instruct_gpt4 https://huggingface.co/datasets/dim/ru_instruct_gpt4 Датасет каких-то инструкций на русском сгенерированных GPT-4 lksy/ru_instruct_gpt4 https://huggingface.co/datasets/lksy/ru_instruct_gpt4 https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_instruct_gpt4 ru 14222 259.2173393 237.9433891 16 109 175 271 1374
dim/gpt_roleplay_realm https://huggingface.co/datasets/dim/gpt_roleplay_realm Диалоги выдуманных персонажей при помощи GPT-4, диалоги были сгенерированны при помощи GPT-3.5. Русский и английский. IlyaGusev/gpt_roleplay_realm https://huggingface.co/datasets/IlyaGusev/gpt_roleplay_realm https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/gpt_roleplay_realm ru\en 8700 504.2424138 117.6228987 180 424 489 569 1207
dim/ultrachat_ru https://huggingface.co/datasets/dim/ultrachat_ru Какой-то рандомный датасет диалогов от chatgpt, который я нашел на huggingface. Из текста диалогов были вырезаны шаблонные фразы по типу: "я не могу выполнить", "как языковая модель" и тд. Потому что обычно после этого следовало вменяемое решение задачи. kaleinaNyan/UltraChat_ru https://huggingface.co/datasets/kaleinaNyan/UltraChat_ru https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ultrachat_ru ru 500 1781.782 901.1212735 267 1113.25 1648 2250.25 7303
dim/scitldr https://huggingface.co/datasets/dim/scitldr Саммаризация научных статей на английском языке, выполненная экспертами. allenai/scitldr https://huggingface.co/datasets/allenai/scitldr https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/scitldr en 3229 258.748529 71.41209752 60 209 252 303 689
dim/linux_man_pages_tldr_summarized https://huggingface.co/datasets/dim/linux_man_pages_tldr_summarized Саммаризация мануалов для инструментов линукс в удобный набор команд с их кратким описанием. tmskss/linux-man-pages-tldr-summarized https://huggingface.co/datasets/tmskss/linux-man-pages-tldr-summarized https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/linux-man-pages-tldr-summarized en 481 1567.727651 3590.30871 96 405 765 1386 49888
dim/dolphin_ru_3k https://huggingface.co/datasets/dim/dolphin_ru_3k Подвыборка размера 3000 переведенных заданий dolphin. Примеры из оригинального датасета это промпты из FLANv2 и решения при помощи GPT-4 или GPT-3.5. d0rj/dolphin-ru https://huggingface.co/datasets/d0rj/dolphin-ru https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dolphin_ru ru 3000 556.1133333 650.0962612 19 207 369.5 720.25 6787
dim/runne_prompts https://huggingface.co/datasets/dim/runne_prompts Промпты составленные из датасета RuNNE. Лично я при обучении сотавил промпт следующим образом. Сначала идет текст "Найди все именованные сущности в данном тексте:", а затем шел сам текст. В качестве выхода модели нужно сгенерировать JSON где содержатся все найденные именованные сущности. К примеру так [{"name": "PERSON", "ent": "Ким Чен Нама", "pos": "0 12"}, {"name": "ORGANIZATION", "ent": "Полиция Малайзии", "pos": "56 72"}] iluvvatar/RuNNE https://huggingface.co/datasets/iluvvatar/RuNNE https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/RuNNE ru 537 1479.750466 230.0259174 581 1337 1480 1635 1988
dim/lurk_prompts https://huggingface.co/datasets/dim/lurk_prompts Набор определений различных терминов с сайта lurk. Сами промпты были составлены автоматически следующим образом. напиши определение для (ОПРЕДЕЛЕНИЕ) в стиле lurk averoo/lurk https://huggingface.co/datasets/averoo/lurk/viewer/default/train?p=2 https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/lurk ru 5671 3450.34262 4147.897824 35 710.5 2010 4593 55098
dim/panorama_prompts_10k https://huggingface.co/datasets/dim/panorama_prompts_10k Набор юмористических заголовков и текстов новостей с сайта панорама. its5Q/panorama https://huggingface.co/datasets/its5Q/panorama https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/panorama ru 11024 516.9588171 191.3774023 36 422 498 585 3496
dim/resh_edu_short_prompts https://huggingface.co/datasets/dim/resh_edu_short_prompts Набор уроков с сайта resh.edu.ru включающих в себя название урока, тему, класс и текст урока с заданиями. its5Q/resh-edu https://huggingface.co/datasets/its5Q/resh-edu https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/resh_edu ru 2106 1431.510921 435.7847102 56 1175.5 1517 1777 2029
dim/databricks_dolly_15k_ru https://huggingface.co/datasets/dim/databricks_dolly_15k_ru Переведенный датасет dolly на русский язык. Включает в себя набор инструкций на обширное количество тематик. dwarf2/databricks-dolly-15k-ru https://huggingface.co/dwarf2/databricks-dolly-15k-ru https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/databricks_dolly_15k_ru ru 14914 305.4638595 405.874049 8 87 182 370 9268
dim/databricks_dolly_15k_en https://huggingface.co/datasets/dim/databricks_dolly_15k_en databricks-dolly-15k — это набор данных с открытым исходным кодом, содержащий записи о выполнении инструкций, созданные тысячами сотрудников Databricks в нескольких поведенческих категориях, изложенных в документе InstructGPT, включая мозговой штурм, классификацию, закрытый контроль качества, генерацию, извлечение информации, открытый контроль качества и обобщение. databricks/databricks-dolly-15k https://huggingface.co/datasets/databricks/databricks-dolly-15k https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/databricks_dolly_15k_en en 15011 204.7264006 302.5539423 6 57 119 242 8883
dim/grammarly_coedit https://huggingface.co/datasets/dim/grammarly_coedit Набор промптов, которые просят исправить грамматические, стилистические ошибки на английском. grammarly/coedit https://huggingface.co/datasets/grammarly/coedit https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grammarly_coedit en 82466 53.7128271 26.73822864 10 35 46 64 694
dim/kinopoisk_prompts https://huggingface.co/datasets/dim/kinopoisk_prompts Отзывы с кинопоиска на топ 250 фильмов. В промптах я прошу написать хороший, плохой или нейтральный отзыв на определенный фильм. blinoff/kinopoisk https://huggingface.co/datasets/blinoff/kinopoisk https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/kinopoisk ru 36591 875.0955973 565.3212035 48 484 733 1117 8628
dim/medical_qa_ru_prompts https://huggingface.co/datasets/dim/medical_qa_ru_prompts Какие-то вопросы и ответы с какого-то медицинского форума. В данной версии датасета только первый ответ из оригинала. blinoff/medical_qa_ru_data https://huggingface.co/datasets/blinoff/medical_qa_ru_data https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/medical_qa_ru_data ru 80101 206.710528 175.4343973 12 106 161 247 5062
dim/joke_explaination_prompts https://huggingface.co/datasets/dim/joke_explaination_prompts Объяснение шуток на английском. От изначального датасета отличается тем, что я убрал последнее предложение из объяснения, так как оно ссылается на видео на сайте. theblackcat102/joke_explaination https://huggingface.co/datasets/theblackcat102/joke_explaination https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/joke_explaination en 364 143.5741758 68.90275411 21 99 137.5 189.25 334
dim/oa_stackexchange_200k https://huggingface.co/datasets/dim/oa_stackexchange_200k Вопросы-ответы со stackexchange. Оригинальный датасет был составлен следующим образом: были выбраны только темы с принятым ответом, для которых длина вопроса и ответа составляет менее 1000 символов. Другие ответы, вопросы без принятых ответов или длинные записи были удалены. Так как оригинальный датасет слишком большой, я рандомно выбрал 200k семплов. donfu/oa-stackexchange https://huggingface.co/datasets/donfu/oa-stackexchange https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oa_stackexchange en 200000 276.29862 112.5004436 22 194 265 345 1226
dim/scale_helpful_no_math https://huggingface.co/datasets/dim/scale_helpful_no_math Какой-то набор диалогов с вопросами-ответами на английском, происхождение неизвестно. HuggingFaceH4/scale_helpful_no_math https://huggingface.co/datasets/HuggingFaceH4/scale_helpful_no_math/viewer/default/train_rm https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/scale_helpful_no_math en 17095 1235.302603 838.1097885 53 663 1063 1617 34480
dim/law_stackexchange_prompts https://huggingface.co/datasets/dim/law_stackexchange_prompts Вопросы про закон на английском языке со StackExchange. Оригинальный датасет был преобразован в markdown. ymoslem/Law-StackExchange https://huggingface.co/datasets/ymoslem/Law-StackExchange https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/law_stackexchange en 24343 689.1184324 565.0316906 43 354 540 836 8969
dim/ficbook_prompts_best_10k https://huggingface.co/datasets/dim/ficbook_prompts_best_10k Топ 10k лучших фанфиков с сайта ficbook.net. Все промпты выглядят следующим образом: напиши фанфик с названием {title} и следующим описанием {description}, с тегами {tags}, Где title это оригинальное название, description оригинальное описание, tags это теги данного произведения. AlexWortega/FicBook https://huggingface.co/datasets/AlexWortega/FicBook https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ficbook ru 10000 1737.8214 402.0748161 166 1716 1950 1950 1952
dim/azbyka_logic_ru https://huggingface.co/datasets/dim/azbyka_logic_ru Небольшой набор детских логических и православных задач, взятых с сайта https://azbyka.ru/deti/logicheskie-i-zanimatelnye-zadachi . Обычно у них почти нет развернутого решения, только ответ. Я пытался расписать решение некоторых задач, но меня хватило только на 35, если кто-то займется подобным буду рад https://docs.google.com/spreadsheets/d/1JRbtppbZCUbV_Eqd0nKbRDQEuPnJIAgJ70cUILEDUI4/edit?usp=sharing . Логические и занимательные задачи (300 задач) https://azbyka.ru/deti/logicheskie-i-zanimatelnye-zadachi https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/azbyka_logic_ru ru 480 77.4375 77.56990416 14 31 50 91 652
dim/povarenok https://huggingface.co/datasets/dim/povarenok 46k лучших рецептов с сайта povarenok.ru, содержит текст рецепта, список ингридиентов, название блюда https://www.povarenok.ru/recipes/ https://www.povarenok.ru/recipes/ https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/povarenok ru 46500 488.9118495 344.8563249 31 281 440 632 5542
dim/AO3_fandom_chatbot_1to1 https://huggingface.co/datasets/dim/AO3_fandom_chatbot_1to1 Какой-то набор ролеплейных диалогов с описанием персонажей и их отыгрышем. Происхождение неизвестно. ebony59/AO3_fandom_chatbot_1to1 https://huggingface.co/datasets/ebony59/AO3_fandom_chatbot_1to1 https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/AO3_fandom_chatbot_1to1 en 614 493.7166124 226.3885365 129 328.25 432.5 611.75 1272
dim/habr_prompts_5k https://huggingface.co/datasets/dim/habr_prompts_5k Статьи с хабра. Датасет был составлен с помощью chatgpt, chatgpt преобразовывал заголовки таким образом чтобы они звучали как вопросы от пользователя, в качестве таргета выступала сама статья. IlyaGusev/habr https://huggingface.co/datasets/IlyaGusev/habr https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/habr ru 5000 1732.892 454.8418369 19 1920.75 1950 1951 1952
dim/what_where_when_50k https://huggingface.co/datasets/dim/what_where_when_50k 50k вопросов с решениями с сайта что где когда. В качестве промпта выступает вопрос, в качестве ответа конкатенация объяснения и краткого ответа. Все вопросы-ответы вы можете найти по этой ссылке https://huggingface.co/datasets/dim/what_where_when_ru https://db.chgk.info https://db.chgk.info https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/what_where_when ru 50000 169.1862 68.91119898 18 122 158 202 1167
dim/competition_math https://huggingface.co/datasets/dim/competition_math Датасет олимпиадной математики на английском. The Mathematics Aptitude Test of Heuristics (MATH) dataset. competition_math https://huggingface.co/datasets/competition_math https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/competition_math en 7500 317.5254667 267.8583731 34 147 234 393 3029
dim/sharegpt_short_en_30k https://huggingface.co/datasets/dim/sharegpt_short_en_30k Короткие диалоги на английском из sharegpt RyokoAI/ShareGPT52K https://huggingface.co/datasets/RyokoAI/ShareGPT52K https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/sharegpt en 29597 749.3149981 516.3702473 3 336 630 1095 2021
dim/ru_turbo_alpaca_evol_instruct https://huggingface.co/datasets/dim/ru_turbo_alpaca_evol_instruct Набор инструкций различной тематики на русском языке, сгенерированных при помощи chatgpt. IlyaGusev/ru_turbo_alpaca_evol_instruct https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca_evol_instruct https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_turbo_alpaca_evol_instruct ru 47793 453.0887996 289.5498356 17 221 430 623 4647
dim/ru_turbo_saiga https://huggingface.co/datasets/dim/ru_turbo_saiga Набор инструкций различной тематики на русском языке, сгенерированных при помощи chatgpt. IlyaGusev/ru_turbo_saiga https://huggingface.co/datasets/IlyaGusev/ru_turbo_saiga https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_turbo_saiga ru 37699 412.7508687 113.346917 87 339 398 466 1427
dim/bugurt_completion_prompts https://huggingface.co/datasets/dim/bugurt_completion_prompts Обрезанные бугурты, где в качестве промпта используется строка вида - продолжи бугурт: первая строчка бугурта https://t.me/bugurtthread https://t.me/bugurtthread https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/bugurt_thread ru 5000 280.2466 320.4353681 32 111 178 331 11333
dim/tldr_17_50k https://huggingface.co/datasets/dim/tldr_17_50k Очень вольная абстрактная саммаризация постов с реддита в одну строчку webis/tldr-17 https://huggingface.co/datasets/webis/tldr-17 https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/tldr_17 en 50000 421.12752 403.346214 10 177 303 525 9592
dim/grade_school_math_instructions https://huggingface.co/datasets/dim/grade_school_math_instructions OpenAI's grade-school-math датасет преобразованный в промпты. qwedsacf/grade-school-math-instructions https://huggingface.co/datasets/qwedsacf/grade-school-math-instructions https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grade-school-math-instructions en 8792 171.6310282 63.09232668 50 124 161 206 511
dim/tldr_news https://huggingface.co/datasets/dim/tldr_news Хедлайны и текст новостей на различную тематику. JulesBelveze/tldr_news https://huggingface.co/datasets/JulesBelveze/tldr_news https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/tldr_news en 7138 133.1004483 46.48736493 23 100 133 161 476
dim/grade_school_math_instructions_ru https://huggingface.co/datasets/dim/grade_school_math_instructions_ru OpenAI's grade-school-math датасет переведенный на русский. d0rj/gsm8k-ru https://huggingface.co/datasets/d0rj/gsm8k-ru https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grade_school_math_instructions_ru ru 7473 259.8321959 100.1229127 78 185 241 314 838
dim/dialogsum https://huggingface.co/datasets/dim/dialogsum Саммаризация диалогов на английском языке, разметка выполнялась вручную. knkarthick/dialogsum https://huggingface.co/datasets/knkarthick/dialogsum https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dialogsum en 12460 269.6467095 126.285664 75 191 245 327 1725
dim/HC3_ru https://huggingface.co/datasets/dim/HC3_ru Вопросы-ответы с реддита, есть ответы сгенерированные chatgpt и реальные ответы пользователей. Я использовал только реальные ответы пользователей. d0rj/HC3-ru https://huggingface.co/datasets/d0rj/HC3-ru https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/HC3_ru ru 24322 360.5608503 330.2285903 15 168 267 435 10025
dim/horoscopes_ru_10k https://huggingface.co/datasets/dim/horoscopes_ru_10k 10k гороскопов, с промптами где я прошу сгенерировать гороском для определенного знака зодиака dkagramanyan/horoscopes_ru https://huggingface.co/datasets/dkagramanyan/horoscopes_ru https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/horoscopes_ru ru 10000 183.1443 31.62023184 55 159 187 201 464
dim/yandex_q_200k https://huggingface.co/datasets/dim/yandex_q_200k 200k рандомно выбранных вопросов-ответов с сайта yandex q. its5Q/yandex-q https://huggingface.co/datasets/its5Q/yandex-q https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/yandex_q ru 200000 304.569005 340.7808288 18 127 202 353 19294
dim/leetcodesolutions_en_2k https://huggingface.co/datasets/dim/leetcodesolutions_en_2k Решения задач с leetcode на разных языках. TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k https://huggingface.co/datasets/TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/leetcodesolutions_en_2k en 2048 740.7441406 253.2493282 297 565 685 857 1960
dim/forum_uristov_rf_prompts https://huggingface.co/datasets/dim/forum_uristov_rf_prompts Вопросы-ответы с российского юридического форума. https://xn----dtbrojdkckkfj9k.xn--p1ai/vopros-yuristu?page=560 https://xn----dtbrojdkckkfj9k.xn--p1ai/vopros-yuristu?page=560 https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/forum_uristov_rf ru 1849 321.0540833 429.58896 31 134 210 349 6470
dim/dialogsum_ru https://huggingface.co/datasets/dim/dialogsum_ru Саммаризация диалогов на русском языке, перевод dialogsum. d0rj/dialogsum-ru https://huggingface.co/datasets/d0rj/dialogsum-ru https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dialogsum-ru ru 12460 364.2813804 178.7117754 98 250 329 446 2300
dim/huggingartists_prompts https://huggingface.co/datasets/dim/huggingartists_prompts Промпты, которые просят продолжить песню в стиле определенного исполнителя. В данном наборе содержатся почти все исполнители, которых вы можете найти в этой организации https://huggingface.co/huggingartists https://huggingface.co/huggingartists https://huggingface.co/huggingartists https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/huggingartists ru 64006 561.6732025 586.18458 28 297 453 720 32949

Модели

На данный момент обучаются 3 модели llama2_7b, llama2_13b и llama1_30b.

За графиками их обучения можно следить в прямом эфире https://api.wandb.ai/links/dimweb/7rh0c7iz

Код обучения

Оборудование

Все обучение и инференс производится на видеокарте A100, на других видеокартах была обнаружена существенная деградация качества при инференсе, данный аспект требует дополнительного изучения.

  • NVIDIA A100-SXM4-40GB
  • NVIDIA-SMI 535.54.03
  • Driver Version: 535.54.03
  • CUDA Version: 12.2
  • torch==2.0.1+cu118

Дальнейшее развитие

Самое простое, что можно сделать это переводить уже имеющиеся хорошие датасеты с английского на русский при помощи GPT-4.

Более сложное это собирать больше разнообразных данных из различных доменов. Я могу лишь подкинуть идеи для того какие датасеты можно собрать еще.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published