dgk_lost_conv 中文对白语料 chinese conversation corpus
Switch branches/tags
Nothing to show
Clone or download
fateleak
fateleak op
Latest commit 63a6434 Jun 20, 2018
Permalink
Failed to load latest commit information.
data op Jun 20, 2018
results add xhj50w Jul 5, 2016
shooterwp shooter-x 190mb Jun 21, 2016
small-size-raw refactor Jun 22, 2016
cvgen.py 按字分词 Jun 23, 2016
dgk_shooter_min.conv.zip 按字分词 Jun 23, 2016
fixcodec.sh shooter-x 190mb Jun 21, 2016
fixtrandc.sh shooter-x 190mb Jun 21, 2016
genall.sh shooter-x 190mb Jun 21, 2016
qun.png add qun pic Dec 28, 2017
readme.md op Jun 20, 2018
toraw.py to raw update May 27, 2017

readme.md

========dgk_lost_conv========

chinese conversation corpus

可以用作聊天机器人的训练语料

结果:

dgk_shooter_z.conv 110MB 已分词

dgk_shooter_min.conv 按字分词

lost.conv 1.7MB

fanzxl.conv 2.3MB

fk24.conv 4.5MB

haosys.conv 1.3MB

juemds.conv 793KB

laoyj.conv 1.5MB

prisonb.conv 543KB

内部方法:

asstosrt -s utf-8

ass ----asstosrt---->srt

srt ----cvgen.py---->.conv

特别的shooter73g:

进入shooterwp,

解压缩mirror.x到rawbase下面

执行sel.sh

在跟目录下

fixcodec修正编码

fixtranc繁简处理

genall

.conv 格式:

//M 表示话语,E 表示分割。

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

License:

MIT

QQ-1

QQ-2

wx: