Skip to content
master
Switch branches/tags
Code

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
op
Jun 20, 2018
Jul 5, 2016
Jun 21, 2016
Jun 22, 2016
Jun 23, 2016
Jun 21, 2016
Dec 28, 2017
May 27, 2017
========dgk_lost_conv========

chinese conversation corpus

可以用作聊天机器人的训练语料

结果:

dgk_shooter_z.conv 110MB 已分词

dgk_shooter_min.conv 按字分词

lost.conv 1.7MB

fanzxl.conv 2.3MB

fk24.conv 4.5MB

haosys.conv 1.3MB

juemds.conv 793KB

laoyj.conv 1.5MB

prisonb.conv 543KB

内部方法:

asstosrt -s utf-8

ass ----asstosrt---->srt

srt ----cvgen.py---->.conv

特别的shooter73g:

进入shooterwp,

解压缩mirror.x到rawbase下面

执行sel.sh

在跟目录下

fixcodec修正编码

fixtranc繁简处理

genall

.conv 格式:

//M 表示话语,E 表示分割。

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

License:

MIT

About

dgk_lost_conv 中文对白语料 chinese conversation corpus

Resources

Releases

No releases published

Packages

No packages published