Yunji(云笈)

license

task_categories

language

pretty_name

size_categories

configs

apache-2.0

text-generation

zh

Yunji

100K<n<1M

config_name

data_files

alpaca-gpt4-data-zh

split	path
train	dataset-zh/alpaca-gpt4-data-zh.jsonl

config_name

data_files

blossom-chat-v3-zh

split	path
train	dataset-zh/blossom-chat-v3-zh.jsonl

config_name

data_files

blossom-math-v4-zh

split	path
train	dataset-zh/blossom-math-v4-zh.jsonl

config_name

data_files

blossom-orca-v3-zh

split	path
train	dataset-zh/blossom-orca-v3-zh.jsonl

config_name

data_files

blossom-wizard-v3-zh

split	path
train	dataset-zh/blossom-wizard-v3-zh.jsonl

config_name

data_files

glaive-function-calling-v2-zh

split	path
train	dataset-zh/glaive-function-calling-v2-zh.jsonl

config_name

data_files

OpenHermes-2.5-zh

split	path
train	dataset-zh/OpenHermes-2.5-zh.jsonl

config_name

data_files

RefGPT-Fact-v2-zh

split	path
train	dataset-zh/RefGPT-Fact-v2-zh.jsonl

config_name

data_files

RefGPT-Code-cr-zh

split	path
train	dataset-zh/RefGPT-Code-cr-zh.jsonl

config_name

data_files

RefGPT-Code-bg-zh

split	path
train	dataset-zh/RefGPT-Code-bg-zh.jsonl

config_name

data_files

RefGPT-Code-ds-zh

split	path
train	dataset-zh/RefGPT-Code-ds-zh.jsonl

Yunji(云笈)

github Yunji(云笈) 收集、整理、分类gpt4生成的高质量中英文指令精调语料，并提供自己翻译的高质量数据。

可以从 huggingface yaojialzc/Yunji-v1 直接加载

dataset zh

高质量中文gpt4对话数据集：

ID	name	source	count
1	llm-wizard/alpaca-gpt4-data-zh	从Alpaca GPT-4数据中提取	49k
2	Azure99/blossom-chat-v3 (中文部分)	从ShareGPT中提取	3k
3	Azure99/blossom-math-v4 (中文部分)	从GSM8K、Math23K中提取	7k
4	Azure99/blossom-orca-v3 (中文部分)	从OpenOrca中提取	20k
5	Azure99/blossom-wizard-v3 (中文部分)	从WizardLM_evol_instruct_V2提取指令	10k
6	glaive-function-calling-v2-zh	从glaive-function-calling-v2中翻译，来自wenbopan/OpenHermes-2.5-zh	5k
7	OpenHermes-2.5-zh	从OpenHermes-2.5中翻译，来自wenbopan/OpenHermes-2.5-zh	86k
8	Mutonix/RefGPT-Fact-v2	基于事实知识的对话	61k
9	Mutonix/RefGPT-Code-cr	代码生成	15k
10	Mutonix/RefGPT-Code-bg	修复代码bug	10k
11	Mutonix/RefGPT-Code-ds	关于代码的讨论	14k

format

数据集格式处理：

把收集的数据集都转化为sharegpt格式，其中alpaca格式的instruction和input在axolotl中使用\n连接放在user message中，Qwen推荐用:连接，这里为了表示内容的分割我用\n\n连接.strip()的instuction和input作为user message
RefGPT 的相关数据集是根据外部知识指导gpt4生成的高质量数据集，旨在基于外部参考消除模型的幻觉构造更高质量的样本。paper中提及会使用gpt3.5快速筛选小众知识点，所以重点不是外部参考，这里直接去掉外部参考只使用其中的chat数据。

others

在收集数据集中，发现了一些明显不是gpt生成的chat数据，但是同样有帮助：

ID	name	source	count
1	Mutonix/RefGPT-Reason	事实知识、逻辑类选择题	228k
2	m-a-p/COIG-CQIA	基于LIMA，强调输入多样性的高质量中文知识问答	45k

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
dataset-zh		dataset-zh
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dataset-zh

dataset-zh

.gitattributes

.gitattributes

.gitignore

.gitignore

README.md

README.md

Repository files navigation

Yunji(云笈)

dataset zh

format

others

About

Releases

Packages

liuyaojialiuyaojia/Yunji-v1

Folders and files

Latest commit

History

Repository files navigation

Yunji(云笈)

dataset zh

format

others

About

Resources

Stars

Watchers

Forks