-CSFD-

Chinese Science Fiction Dataset.一共有4千多篇科幻小说，资源来源于网络。数据仅供学习和交流使用，严禁用于商业或其他用途！如果侵权，将会在收到讯息的第一时间取消开源。下载方式：链接: https://pan.baidu.com/s/13oWdBpQ6ug4tZaXs72EuWA 提取码: s962

TO DO LIST

基于该数据训练文本生成模型（Language Model）
丰富更多的条件和监督信号，以训练条件语言模型，实现类似于人机协作等智能写作场景。
该方向更多进展，研究请参考deepcamp2020队伍“AI科幻世界”相关报道：
- 创造，在人工智能的挑战下（艺海观澜）
- 11位科幻作家参与，首次AI人机共创写作实验启动
- 腾讯AI Lab 开源的中文预训练文本生成模型
- 我个人的知乎专栏

数据介绍

文件命名

data_版本号_小说序号_量级.json

版本号:第二版
小说序号:序号范围为1~4623
量级：一共有4个量级描述文本长度，分别为小于5千字(5K)、5k到1w(1W)，1w到10w(10W)，10w以上(10W+)。
备注：如果预处理失败，文件格式为data_2_1725_WRONG.json。本次损失了3篇小说语料。

数据格式

第一层

每篇小说被整理为一下形式：
data = {
'novel_per_dict':novel_per_dict,
'novel_loc_dict':novel_loc_dict,
'novel_org_dict':novel_org_dict,
'novel_zhuan_dict':novel_zhuan_dict,
'novel_context':novel_context
}

novel_per_dict : 这篇小说出现过的人名，例如：
{
'张三':'PER1',
'林镇坤':'PER2',
'镇坤':'PER2',
'李四':'PER4'
}
小说当中的人名会被上面的标识符全部代替。序号只能保证1号对1人，不能反映出人名数量等信息。
novel_loc_dict :地名。处理逻辑同上。标识符为'LOC'
novel_org_dict :机构名。标识符为'ORG'
novel_zhuan_dict:专业名词. 标识符为'ZHUAN'
novel_context : 具体的文本内容，介绍如下：

第二层

已经做过脏数据清洗
novel_context （小说）: list 元素为一个文本段落（以换行符分割）
novel_context[0] （段落）: list 元素为一个句子（一个段落可能有多句或一句，对话默认是一个句子）
novel_context[0][0] （句子）: dict 格式如下：
{
'context':句子,
'type':句子类型,// 对话 : 0
// 场景 : 1
// 人物 : 2
'length':长度
}

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Repository files navigation

-CSFD-

TO DO LIST

数据介绍

文件命名

数据格式

第一层

第二层

About

Releases

Packages

linzhk/-Chinese-Science-Fiction-Dataset-

Folders and files

Latest commit

History

README.md

README.md

Repository files navigation

-CSFD-

TO DO LIST

数据介绍

文件命名

数据格式

第一层

第二层

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages