在语音识别领域,中文的开源数据集太少了。虽然WenetSpeech的开源把这一量级推上了万小时级别,但相比英文数据动辄数万小时的开源数据还是有不小的差距,在目前大数据大模型的发展趋势下更显不足。本项目旨在构建一个数万小时以上的用于学术研究的中文开源数据集。
k2 团队前段时间开源了5万小时的英文数据集Libriheavy, 并提供了一个数据集对齐的工具包textsearch, 本项目拟从网络收集诸如有声书、影视剧、视频等音频资源,并找到相应的文本(有声书通过下载电子书,视频通过 OCR 技术),然后使用 textsearch 对齐音频和文本得到最终的数据集。搜集数据是个费时费力的过程,欢迎更多有兴趣有热情的同学一起参与共建。
目前我们已经收集了一些数据,正在进行对齐和整理,具体数据源如下:
本数据集将只授权给学术研究使用,拟采用 CC BY-NC-ND 4.0 授权协议。通过网络爬取的数据多少会涉及到版权等问题,我们将对数据进行必要的切分和打乱,避免再分发大段原始音频。如本数据集侵犯到您的权益,也请告知我们,我们会第一时间删除对应的数据。