Awesome Chinese LLM: A curated list of Chinese Large Language Model

Datasets

BELLE - 10M中文数据集
Chinese book - 中文图书数据集/数据挖掘/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/
Chinese Scientific Literature Dataset - A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集
chinese-poetry - 最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。
CLUECorpus2020 - 通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集 - 对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MOSS - MOSS训练数据
News Commentary v13 - News Commentary v13包括平行语料
NKCorpus - 利用海量网络数据构建大型高质量中文数据集
pretrain_zh - 中文开源预训练集 - 55G，包含中文书籍、中文互联网、中文百科
THUCNews - 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档，划分出 14 个候选分类。
WuDaoCorpora Text文本预训练数据集 - 北京智源人工智能研究院（智源研究院）构建的大规模、高质量数据集
千言 - 百度联合中国计算机学会自然语言处理专委会、中国中文信息学会评测工作委员会共同发起的,由来自国内多家高校和企业的数据资源研发者共同建设的中文开源数据集。
天池 - 天池数据集是阿里集团对外开放的科研数据平台,由阿里巴巴集团业务团队和外部研究机构联合提供,覆盖了电商、娱乐、物流、医疗健康、交通、工业、自然科学、能源等十多个行业。
清华大学NLP实验室开放数据集 - 清华大学自然语言处理与社会人文计算实验室维护的中文自然语言处理共享平台，提供了大量的中文文本数据集，包括新闻、论坛、微博、问答等。
中文医疗问答数据集
[COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集
中文公开聊天语料库
中医药古籍文本
超大规模中文语料集: 超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

Topics

Pre-trained LLM

Model	Author	Repo/Chkpt	Paper
鹏程.盘古α	Huawei	Github	Paper
MOSS	FDU	Github
TigerBot	TigerResearch	Github
Qwen	Alibaba Cloud	Github
Baichuan2	Baichuan Intelligent Technology	Github
ChatGLM3	THUDM	Github

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Awesome Chinese LLM: A curated list of Chinese Large Language Model

Datasets

Pre-trained LLM

About

Contributors 2

zhenlohuang/awesome-chinese-llm

Folders and files

Latest commit

History

Repository files navigation

Awesome Chinese LLM: A curated list of Chinese Large Language Model

Datasets

Pre-trained LLM

About

Topics

Resources

Stars

Watchers

Forks

Contributors 2