Verbalist (буквоед) - русскоязычный ассистент.

Проект во многом вдохновленный Saiga.

Мною были собраны все самые качественные датасеты с huggingface.datasets, а также собраны дополнительно с тех сайтов, которые я посчитал весьма полезными для создания аналога ChatGPT. Лицензии у всех датасетов отличаются, какие-то по типу OpenAssistant/oasst1 были созданы специально для обучения подобных моделей, какие-то являются прямой выгрузкой диалогов с ChatGPT (RyokoAI/ShareGPT52K).

Смысл данного репозитория состоит в систематизации и стандартизации уже имеющихся датасетов, добавлении новых. А также тренировке моделей на этих данных.

google sheets таблица с датасетами и описанием

Датасеты

Объединенный датасет где все данные уже подготовлены для тренировки диалоговой модели

name	link	description	original_name	original_source	preparation_script	language	amount_examples	mean_llama_tokens	std	min_llama_tokens	25%	50%	75%	max_llama_tokens
dim/oasst_en	https://huggingface.co/datasets/dim/oasst_en	OpenAssistant Conversations Dataset на английском языке, который был вручную отфильтрован мной. В исходном датасете около 30% диалогов оказались не корректными. Иногда пользователь, играющий роль ассистента, использовал грубый тон в общении с пользователем, иногда люди просто отвечали "не знаю" на вопросы, и некоторые из вопросов были недостаточно научными или слишком краткими. Вы можете ознакомиться с этой разметкой по следующей ссылке: https://docs.google.com/spreadsheets/d/117t5-Tr-dxdODpyFBkBg5R8GklYBlsvBfeDyjqwz2pA/edit?usp=sharing	2023-04-12_oasst_ready.messages.jsonl.gz	https://huggingface.co/datasets/OpenAssistant/oasst1/blob/main/2023-04-12_oasst_ready.messages.jsonl.gz	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oasst	en	2289	468.6788991	295.0864391	17	264	410	618	2332
dim/oasst_ru	https://huggingface.co/datasets/dim/oasst_ru	OpenAssistant Conversations Dataset на русском языке, который был вручную отфильтрован мной. В исходном датасете около 30% диалогов оказались не корректными. Иногда пользователь, играющий роль ассистента, использовал грубый тон в общении с пользователем, иногда люди просто отвечали "не знаю" на вопросы, и некоторые из вопросов были недостаточно научными или слишком краткими. Вы можете ознакомиться с этой разметкой по следующей ссылке: https://docs.google.com/spreadsheets/d/1uiOnqxiytuxrB6u6q2pMSdnMfqjT3arfg8DlT-OWlb0/edit?usp=sharing	2023-04-12_oasst_ready.messages.jsonl.gz	https://huggingface.co/datasets/OpenAssistant/oasst1/blob/main/2023-04-12_oasst_ready.messages.jsonl.gz	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oasst	ru	2220	589.6112613	479.835392	7	278	465	763.5	5028
dim/lima	https://huggingface.co/datasets/dim/lima	Данный датасет включает в себя 1000 высококачественных обучающих примеров на английском языке. Он собран из различных источников, включая Stack Exchange (STEM), Stack Exchange (Other), wikiHow, Pushshift r/WritingPrompts, Natural Instructions, а также уникальные инструкции, созданные авторами статей. Более подробную информацию о датасете можно найти в [соответствующей статье](https://arxiv.org/pdf/2305.11206.pdf).	GAIR/lima	https://huggingface.co/datasets/GAIR/lima	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/lima	en	1030	712.9456311	671.179319	29	312.75	488.5	825	3920
dim/logic_tasks_ru	https://huggingface.co/datasets/dim/logic_tasks_ru	Данный набор задач по логике для детей взят с веб-сайта https://www.potehechas.ru/zadachi/zadachi.shtml.	Логические задачи - Логика и нестандартное мышление	https://www.potehechas.ru/zadachi/zadachi.shtml	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/logic_tasks_ru	ru	86	193.0697674	76.69048422	58	133.75	185	243.5	432
dim/wikihow_en	https://huggingface.co/datasets/dim/wikihow_en	Данный датасет содержит англоязычные статьи, извлеченные с веб-сайта Wikihow.	0x22almostEvil/multilingual-wikihow-qa-16k	https://huggingface.co/datasets/0x22almostEvil/multilingual-wikihow-qa-16k	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/wiki_how	en	1995	2037.86416	870.1910713	265	1463	1913	2461.5	8988
dim/wikihow_ru	https://huggingface.co/datasets/dim/wikihow_ru	Данный датасет включает в себя русскоязычные статьи, полученные с веб-сайта Wikihow.	0x22almostEvil/multilingual-wikihow-qa-16k	https://huggingface.co/datasets/0x22almostEvil/multilingual-wikihow-qa-16k	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/wiki_how	ru	2058	2498.119534	1587.851549	139	1236.25	2264	3421.75	10217
dim/essayforum_writing_prompts_6k	https://huggingface.co/datasets/dim/essayforum_writing_prompts_6k	Данный датасет включает в себя запросы на помощь с написанием небольших эссе, размещенные на данном сайте. Ответы в датасете предоставлены исключительно главным администратором сайта. Его ответы были отобраны, поскольку чаще всего они являются наиболее качественными и вдумчивыми.	EssayForum	https://essayforum.com/writing/	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/essayforum	en	6361	783.1760729	285.4314176	258	629	742	879	4966
dim/sharegpt_short_ru	https://huggingface.co/datasets/dim/sharegpt_short_ru	Очищенная версия русская версия sharegpt. Я попытался вырезать из текста все промпты, где модель извиняется что что-то не может сделать, что она не имеет доступа в интернет. Диалоги, которые противоречат морали модели я просто исключил. Постарался убрать упоминания о том что она модель AI, так как за ролеплейные характеристики отвечают другие датасеты.	RyokoAI/ShareGPT52K	https://huggingface.co/datasets/RyokoAI/ShareGPT52K	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/sharegpt	ru	253	706.6521739	494.7437584	13	310	628	1078	1861
dim/openreview_prompts_65	https://huggingface.co/datasets/dim/openreview_prompts_65	Датасет рецензий на реальные научные статьи с сайта openreview. Вышло на самом деле не так много, так как многие статьи не выложенны на arxiv или просто не имеют рецензий. Плюс я собрал только малую часть данного сайта, а не все что там было.	https://openreview.net/	https://openreview.net/	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/openreview	en	150	13531.51333	6966.623686	4893	8279	12648.5	15833.5	41494
dim/roleplay_instruct_v2_final	https://huggingface.co/datasets/dim/roleplay_instruct_v2_final	Датасет ролеплея от GPT-4 на различных персонажей на английском языке.	roleplay-instruct-v2-final	https://github.com/teknium1/GPTeacher	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/gpt_roleplay_realm	en	7188	155.1413467	97.71215667	14	88	125	192	1291
dim/kinomania_scripts	https://huggingface.co/datasets/dim/kinomania_scripts	Небольшой датасет, который содержит в себе сценарии фильмов целиком и их краткое содержание	https://www.kinomania.ru/scripts	https://www.kinomania.ru/scripts	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/kinomania_scripts	ru\en	27	2603.407407	510.375447	1887	2175	2370	3069	3616
dim/bugurt_thread_prompts	https://huggingface.co/datasets/dim/bugurt_thread_prompts	Небольшой набор размеченных бугуртов вместе с моим другом, для того чтобы модель научилась писать бугурты на конкретную ситуацию. Собраны из телеграм паблика БУГУРТ ТРЕД(https://t.me/bugurtthread)	https://t.me/bugurtthread	https://t.me/bugurtthread	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/bugurt_thread	ru	223	334.4529148	271.2557988	48	148.5	254	434.5	1645
dim/russian_lyrics_prompts	https://huggingface.co/datasets/dim/russian_lyrics_prompts	Небольшой датасет промптов собранный мною из различных учебников по стихосложению, чтобы модель научилась писать стихи, используя необходимый литературный прием на конкретную тему.	Учебник стихосложения	https://stihi.ru/uchebnik/	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/russian_lyrics_prompts	ru	43	106.1395349	71.00220701	45	71	83	96.5	411
dim/ru_instruct_gpt4	https://huggingface.co/datasets/dim/ru_instruct_gpt4	Датасет каких-то инструкций на русском сгенерированных GPT-4	lksy/ru_instruct_gpt4	https://huggingface.co/datasets/lksy/ru_instruct_gpt4	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_instruct_gpt4	ru	14222	259.2173393	237.9433891	16	109	175	271	1374
dim/gpt_roleplay_realm	https://huggingface.co/datasets/dim/gpt_roleplay_realm	Диалоги выдуманных персонажей при помощи GPT-4, диалоги были сгенерированны при помощи GPT-3.5. Русский и английский.	IlyaGusev/gpt_roleplay_realm	https://huggingface.co/datasets/IlyaGusev/gpt_roleplay_realm	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/gpt_roleplay_realm	ru\en	8700	504.2424138	117.6228987	180	424	489	569	1207
dim/ultrachat_ru	https://huggingface.co/datasets/dim/ultrachat_ru	Какой-то рандомный датасет диалогов от chatgpt, который я нашел на huggingface. Из текста диалогов были вырезаны шаблонные фразы по типу: "я не могу выполнить", "как языковая модель" и тд. Потому что обычно после этого следовало вменяемое решение задачи.	kaleinaNyan/UltraChat_ru	https://huggingface.co/datasets/kaleinaNyan/UltraChat_ru	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ultrachat_ru	ru	500	1781.782	901.1212735	267	1113.25	1648	2250.25	7303
dim/scitldr	https://huggingface.co/datasets/dim/scitldr	Саммаризация научных статей на английском языке, выполненная экспертами.	allenai/scitldr	https://huggingface.co/datasets/allenai/scitldr	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/scitldr	en	3229	258.748529	71.41209752	60	209	252	303	689
dim/linux_man_pages_tldr_summarized	https://huggingface.co/datasets/dim/linux_man_pages_tldr_summarized	Саммаризация мануалов для инструментов линукс в удобный набор команд с их кратким описанием.	tmskss/linux-man-pages-tldr-summarized	https://huggingface.co/datasets/tmskss/linux-man-pages-tldr-summarized	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/linux-man-pages-tldr-summarized	en	481	1567.727651	3590.30871	96	405	765	1386	49888
dim/dolphin_ru_3k	https://huggingface.co/datasets/dim/dolphin_ru_3k	Подвыборка размера 3000 переведенных заданий dolphin. Примеры из оригинального датасета это промпты из FLANv2 и решения при помощи GPT-4 или GPT-3.5.	d0rj/dolphin-ru	https://huggingface.co/datasets/d0rj/dolphin-ru	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dolphin_ru	ru	3000	556.1133333	650.0962612	19	207	369.5	720.25	6787
dim/runne_prompts	https://huggingface.co/datasets/dim/runne_prompts	Промпты составленные из датасета RuNNE. Лично я при обучении сотавил промпт следующим образом. Сначала идет текст "Найди все именованные сущности в данном тексте:", а затем шел сам текст. В качестве выхода модели нужно сгенерировать JSON где содержатся все найденные именованные сущности. К примеру так [{"name": "PERSON", "ent": "Ким Чен Нама", "pos": "0 12"}, {"name": "ORGANIZATION", "ent": "Полиция Малайзии", "pos": "56 72"}]	iluvvatar/RuNNE	https://huggingface.co/datasets/iluvvatar/RuNNE	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/RuNNE	ru	537	1479.750466	230.0259174	581	1337	1480	1635	1988
dim/lurk_prompts	https://huggingface.co/datasets/dim/lurk_prompts	Набор определений различных терминов с сайта lurk. Сами промпты были составлены автоматически следующим образом. напиши определение для (ОПРЕДЕЛЕНИЕ) в стиле lurk	averoo/lurk	https://huggingface.co/datasets/averoo/lurk/viewer/default/train?p=2	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/lurk	ru	5671	3450.34262	4147.897824	35	710.5	2010	4593	55098
dim/panorama_prompts_10k	https://huggingface.co/datasets/dim/panorama_prompts_10k	Набор юмористических заголовков и текстов новостей с сайта панорама.	its5Q/panorama	https://huggingface.co/datasets/its5Q/panorama	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/panorama	ru	11024	516.9588171	191.3774023	36	422	498	585	3496
dim/resh_edu_short_prompts	https://huggingface.co/datasets/dim/resh_edu_short_prompts	Набор уроков с сайта resh.edu.ru включающих в себя название урока, тему, класс и текст урока с заданиями.	its5Q/resh-edu	https://huggingface.co/datasets/its5Q/resh-edu	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/resh_edu	ru	2106	1431.510921	435.7847102	56	1175.5	1517	1777	2029
dim/databricks_dolly_15k_ru	https://huggingface.co/datasets/dim/databricks_dolly_15k_ru	Переведенный датасет dolly на русский язык. Включает в себя набор инструкций на обширное количество тематик.	dwarf2/databricks-dolly-15k-ru	https://huggingface.co/dwarf2/databricks-dolly-15k-ru	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/databricks_dolly_15k_ru	ru	14914	305.4638595	405.874049	8	87	182	370	9268
dim/databricks_dolly_15k_en	https://huggingface.co/datasets/dim/databricks_dolly_15k_en	databricks-dolly-15k — это набор данных с открытым исходным кодом, содержащий записи о выполнении инструкций, созданные тысячами сотрудников Databricks в нескольких поведенческих категориях, изложенных в документе InstructGPT, включая мозговой штурм, классификацию, закрытый контроль качества, генерацию, извлечение информации, открытый контроль качества и обобщение.	databricks/databricks-dolly-15k	https://huggingface.co/datasets/databricks/databricks-dolly-15k	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/databricks_dolly_15k_en	en	15011	204.7264006	302.5539423	6	57	119	242	8883
dim/grammarly_coedit	https://huggingface.co/datasets/dim/grammarly_coedit	Набор промптов, которые просят исправить грамматические, стилистические ошибки на английском.	grammarly/coedit	https://huggingface.co/datasets/grammarly/coedit	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grammarly_coedit	en	82466	53.7128271	26.73822864	10	35	46	64	694
dim/kinopoisk_prompts	https://huggingface.co/datasets/dim/kinopoisk_prompts	Отзывы с кинопоиска на топ 250 фильмов. В промптах я прошу написать хороший, плохой или нейтральный отзыв на определенный фильм.	blinoff/kinopoisk	https://huggingface.co/datasets/blinoff/kinopoisk	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/kinopoisk	ru	36591	875.0955973	565.3212035	48	484	733	1117	8628
dim/medical_qa_ru_prompts	https://huggingface.co/datasets/dim/medical_qa_ru_prompts	Какие-то вопросы и ответы с какого-то медицинского форума. В данной версии датасета только первый ответ из оригинала.	blinoff/medical_qa_ru_data	https://huggingface.co/datasets/blinoff/medical_qa_ru_data	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/medical_qa_ru_data	ru	80101	206.710528	175.4343973	12	106	161	247	5062
dim/joke_explaination_prompts	https://huggingface.co/datasets/dim/joke_explaination_prompts	Объяснение шуток на английском. От изначального датасета отличается тем, что я убрал последнее предложение из объяснения, так как оно ссылается на видео на сайте.	theblackcat102/joke_explaination	https://huggingface.co/datasets/theblackcat102/joke_explaination	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/joke_explaination	en	364	143.5741758	68.90275411	21	99	137.5	189.25	334
dim/oa_stackexchange_200k	https://huggingface.co/datasets/dim/oa_stackexchange_200k	Вопросы-ответы со stackexchange. Оригинальный датасет был составлен следующим образом: были выбраны только темы с принятым ответом, для которых длина вопроса и ответа составляет менее 1000 символов. Другие ответы, вопросы без принятых ответов или длинные записи были удалены. Так как оригинальный датасет слишком большой, я рандомно выбрал 200k семплов.	donfu/oa-stackexchange	https://huggingface.co/datasets/donfu/oa-stackexchange	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/oa_stackexchange	en	200000	276.29862	112.5004436	22	194	265	345	1226
dim/scale_helpful_no_math	https://huggingface.co/datasets/dim/scale_helpful_no_math	Какой-то набор диалогов с вопросами-ответами на английском, происхождение неизвестно.	HuggingFaceH4/scale_helpful_no_math	https://huggingface.co/datasets/HuggingFaceH4/scale_helpful_no_math/viewer/default/train_rm	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/scale_helpful_no_math	en	17095	1235.302603	838.1097885	53	663	1063	1617	34480
dim/law_stackexchange_prompts	https://huggingface.co/datasets/dim/law_stackexchange_prompts	Вопросы про закон на английском языке со StackExchange. Оригинальный датасет был преобразован в markdown.	ymoslem/Law-StackExchange	https://huggingface.co/datasets/ymoslem/Law-StackExchange	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/law_stackexchange	en	24343	689.1184324	565.0316906	43	354	540	836	8969
dim/ficbook_prompts_best_10k	https://huggingface.co/datasets/dim/ficbook_prompts_best_10k	Топ 10k лучших фанфиков с сайта ficbook.net. Все промпты выглядят следующим образом: напиши фанфик с названием {title} и следующим описанием {description}, с тегами {tags}, Где title это оригинальное название, description оригинальное описание, tags это теги данного произведения.	AlexWortega/FicBook	https://huggingface.co/datasets/AlexWortega/FicBook	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ficbook	ru	10000	1737.8214	402.0748161	166	1716	1950	1950	1952
dim/azbyka_logic_ru	https://huggingface.co/datasets/dim/azbyka_logic_ru	Небольшой набор детских логических и православных задач, взятых с сайта https://azbyka.ru/deti/logicheskie-i-zanimatelnye-zadachi . Обычно у них почти нет развернутого решения, только ответ. Я пытался расписать решение некоторых задач, но меня хватило только на 35, если кто-то займется подобным буду рад https://docs.google.com/spreadsheets/d/1JRbtppbZCUbV_Eqd0nKbRDQEuPnJIAgJ70cUILEDUI4/edit?usp=sharing .	Логические и занимательные задачи (300 задач)	https://azbyka.ru/deti/logicheskie-i-zanimatelnye-zadachi	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/azbyka_logic_ru	ru	480	77.4375	77.56990416	14	31	50	91	652
dim/povarenok	https://huggingface.co/datasets/dim/povarenok	46k лучших рецептов с сайта povarenok.ru, содержит текст рецепта, список ингридиентов, название блюда	https://www.povarenok.ru/recipes/	https://www.povarenok.ru/recipes/	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/povarenok	ru	46500	488.9118495	344.8563249	31	281	440	632	5542
dim/AO3_fandom_chatbot_1to1	https://huggingface.co/datasets/dim/AO3_fandom_chatbot_1to1	Какой-то набор ролеплейных диалогов с описанием персонажей и их отыгрышем. Происхождение неизвестно.	ebony59/AO3_fandom_chatbot_1to1	https://huggingface.co/datasets/ebony59/AO3_fandom_chatbot_1to1	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/AO3_fandom_chatbot_1to1	en	614	493.7166124	226.3885365	129	328.25	432.5	611.75	1272
dim/habr_prompts_5k	https://huggingface.co/datasets/dim/habr_prompts_5k	Статьи с хабра. Датасет был составлен с помощью chatgpt, chatgpt преобразовывал заголовки таким образом чтобы они звучали как вопросы от пользователя, в качестве таргета выступала сама статья.	IlyaGusev/habr	https://huggingface.co/datasets/IlyaGusev/habr	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/habr	ru	5000	1732.892	454.8418369	19	1920.75	1950	1951	1952
dim/what_where_when_50k	https://huggingface.co/datasets/dim/what_where_when_50k	50k вопросов с решениями с сайта что где когда. В качестве промпта выступает вопрос, в качестве ответа конкатенация объяснения и краткого ответа. Все вопросы-ответы вы можете найти по этой ссылке https://huggingface.co/datasets/dim/what_where_when_ru	https://db.chgk.info	https://db.chgk.info	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/what_where_when	ru	50000	169.1862	68.91119898	18	122	158	202	1167
dim/competition_math	https://huggingface.co/datasets/dim/competition_math	Датасет олимпиадной математики на английском. The Mathematics Aptitude Test of Heuristics (MATH) dataset.	competition_math	https://huggingface.co/datasets/competition_math	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/competition_math	en	7500	317.5254667	267.8583731	34	147	234	393	3029
dim/sharegpt_short_en_30k	https://huggingface.co/datasets/dim/sharegpt_short_en_30k	Короткие диалоги на английском из sharegpt	RyokoAI/ShareGPT52K	https://huggingface.co/datasets/RyokoAI/ShareGPT52K	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/sharegpt	en	29597	749.3149981	516.3702473	3	336	630	1095	2021
dim/ru_turbo_alpaca_evol_instruct	https://huggingface.co/datasets/dim/ru_turbo_alpaca_evol_instruct	Набор инструкций различной тематики на русском языке, сгенерированных при помощи chatgpt.	IlyaGusev/ru_turbo_alpaca_evol_instruct	https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca_evol_instruct	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_turbo_alpaca_evol_instruct	ru	47793	453.0887996	289.5498356	17	221	430	623	4647
dim/ru_turbo_saiga	https://huggingface.co/datasets/dim/ru_turbo_saiga	Набор инструкций различной тематики на русском языке, сгенерированных при помощи chatgpt.	IlyaGusev/ru_turbo_saiga	https://huggingface.co/datasets/IlyaGusev/ru_turbo_saiga	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/ru_turbo_saiga	ru	37699	412.7508687	113.346917	87	339	398	466	1427
dim/bugurt_completion_prompts	https://huggingface.co/datasets/dim/bugurt_completion_prompts	Обрезанные бугурты, где в качестве промпта используется строка вида - продолжи бугурт: первая строчка бугурта	https://t.me/bugurtthread	https://t.me/bugurtthread	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/bugurt_thread	ru	5000	280.2466	320.4353681	32	111	178	331	11333
dim/tldr_17_50k	https://huggingface.co/datasets/dim/tldr_17_50k	Очень вольная абстрактная саммаризация постов с реддита в одну строчку	webis/tldr-17	https://huggingface.co/datasets/webis/tldr-17	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/tldr_17	en	50000	421.12752	403.346214	10	177	303	525	9592
dim/grade_school_math_instructions	https://huggingface.co/datasets/dim/grade_school_math_instructions	OpenAI's grade-school-math датасет преобразованный в промпты.	qwedsacf/grade-school-math-instructions	https://huggingface.co/datasets/qwedsacf/grade-school-math-instructions	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grade-school-math-instructions	en	8792	171.6310282	63.09232668	50	124	161	206	511
dim/tldr_news	https://huggingface.co/datasets/dim/tldr_news	Хедлайны и текст новостей на различную тематику.	JulesBelveze/tldr_news	https://huggingface.co/datasets/JulesBelveze/tldr_news	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/tldr_news	en	7138	133.1004483	46.48736493	23	100	133	161	476
dim/grade_school_math_instructions_ru	https://huggingface.co/datasets/dim/grade_school_math_instructions_ru	OpenAI's grade-school-math датасет переведенный на русский.	d0rj/gsm8k-ru	https://huggingface.co/datasets/d0rj/gsm8k-ru	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/grade_school_math_instructions_ru	ru	7473	259.8321959	100.1229127	78	185	241	314	838
dim/dialogsum	https://huggingface.co/datasets/dim/dialogsum	Саммаризация диалогов на английском языке, разметка выполнялась вручную.	knkarthick/dialogsum	https://huggingface.co/datasets/knkarthick/dialogsum	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dialogsum	en	12460	269.6467095	126.285664	75	191	245	327	1725
dim/HC3_ru	https://huggingface.co/datasets/dim/HC3_ru	Вопросы-ответы с реддита, есть ответы сгенерированные chatgpt и реальные ответы пользователей. Я использовал только реальные ответы пользователей.	d0rj/HC3-ru	https://huggingface.co/datasets/d0rj/HC3-ru	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/HC3_ru	ru	24322	360.5608503	330.2285903	15	168	267	435	10025
dim/horoscopes_ru_10k	https://huggingface.co/datasets/dim/horoscopes_ru_10k	10k гороскопов, с промптами где я прошу сгенерировать гороском для определенного знака зодиака	dkagramanyan/horoscopes_ru	https://huggingface.co/datasets/dkagramanyan/horoscopes_ru	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/horoscopes_ru	ru	10000	183.1443	31.62023184	55	159	187	201	464
dim/yandex_q_200k	https://huggingface.co/datasets/dim/yandex_q_200k	200k рандомно выбранных вопросов-ответов с сайта yandex q.	its5Q/yandex-q	https://huggingface.co/datasets/its5Q/yandex-q	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/yandex_q	ru	200000	304.569005	340.7808288	18	127	202	353	19294
dim/leetcodesolutions_en_2k	https://huggingface.co/datasets/dim/leetcodesolutions_en_2k	Решения задач с leetcode на разных языках.	TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k	https://huggingface.co/datasets/TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/leetcodesolutions_en_2k	en	2048	740.7441406	253.2493282	297	565	685	857	1960
dim/forum_uristov_rf_prompts	https://huggingface.co/datasets/dim/forum_uristov_rf_prompts	Вопросы-ответы с российского юридического форума.	https://xn----dtbrojdkckkfj9k.xn--p1ai/vopros-yuristu?page=560	https://xn----dtbrojdkckkfj9k.xn--p1ai/vopros-yuristu?page=560	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/forum_uristov_rf	ru	1849	321.0540833	429.58896	31	134	210	349	6470
dim/dialogsum_ru	https://huggingface.co/datasets/dim/dialogsum_ru	Саммаризация диалогов на русском языке, перевод dialogsum.	d0rj/dialogsum-ru	https://huggingface.co/datasets/d0rj/dialogsum-ru	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/dialogsum-ru	ru	12460	364.2813804	178.7117754	98	250	329	446	2300
dim/huggingartists_prompts	https://huggingface.co/datasets/dim/huggingartists_prompts	Промпты, которые просят продолжить песню в стиле определенного исполнителя. В данном наборе содержатся почти все исполнители, которых вы можете найти в этой организации https://huggingface.co/huggingartists	https://huggingface.co/huggingartists	https://huggingface.co/huggingartists	https://github.com/dmitrymailk/verbalist/tree/master/verbalist/datasets/huggingartists	ru	64006	561.6732025	586.18458	28	297	453	720	32949

Модели

На данный момент обучаются 3 модели llama2_7b, llama2_13b и llama1_30b.

За графиками их обучения можно следить в прямом эфире https://api.wandb.ai/links/dimweb/7rh0c7iz

Код обучения

Оборудование

Все обучение и инференс производится на видеокарте A100, на других видеокартах была обнаружена существенная деградация качества при инференсе, данный аспект требует дополнительного изучения.

NVIDIA A100-SXM4-40GB
NVIDIA-SMI 535.54.03
Driver Version: 535.54.03
CUDA Version: 12.2
torch==2.0.1+cu118

Дальнейшее развитие

Самое простое, что можно сделать это переводить уже имеющиеся хорошие датасеты с английского на русский при помощи GPT-4.

Более сложное это собирать больше разнообразных данных из различных доменов. Я могу лишь подкинуть идеи для того какие датасеты можно собрать еще.

решебники по литературе, русскому и другим предметам
задания со всяких бирж труда
краткие пересказы произведений, анализ произведений, сочинения по ним
туториалы с digital ocean (более 7000)
туториалы с selectel
больше форумов на различные тематики
бесплатные эссе с ivypanda essays и дальнейший их перевод на русский
больше стихов и песен
олимпиадные русские задачи их очень сложно собирать, так как большинство их них живут только в PDF или docx. Но их довольно много и они довольно отличаются от олимпиадной математики на английском. Но у меня нет времени этим заниматься.
фанфики на иностранном языке
исправить текущие автоматические промпты на более разнообразные, при помощи chatgpt

Name		Name	Last commit message	Last commit date
Latest commit History 94 Commits
.vscode		.vscode
verbalist		verbalist
.devcontainer.json		.devcontainer.json
.gitignore		.gitignore
.gitmodules		.gitmodules
Dockerfile		Dockerfile
README.md		README.md
clean.sh		clean.sh
docker-compose.yml		docker-compose.yml
event_log.txt		event_log.txt
mt_bench_eval.sh		mt_bench_eval.sh
output		output
qwe		qwe
requirements.txt		requirements.txt

dmitrymailk/verbalist

Folders and files

Latest commit

History

Repository files navigation

Verbalist (буквоед) - русскоязычный ассистент.

Датасеты

Модели

Код обучения

Оборудование

Дальнейшее развитие

About

Resources

Stars

Watchers

Forks

Languages