forked from aceimnorstuvwxz/dgk_lost_conv
-
Notifications
You must be signed in to change notification settings - Fork 1
qhduan/dgk_lost_conv
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
========dgk_lost_conv======== chinese conversation corpus 可以用作聊天机器人的训练语料 结果: dgk_shooter_z.conv 110MB 已分词 dgk_shooter_min.conv 按字分词 lost.conv 1.7MB fanzxl.conv 2.3MB fk24.conv 4.5MB haosys.conv 1.3MB juemds.conv 793KB laoyj.conv 1.5MB prisonb.conv 543KB 内部方法: asstosrt -s utf-8 ass ----asstosrt---->srt srt ----cvgen.py---->.conv 特别的shooter73g: 进入shooterwp, 解压缩mirror.x到rawbase下面 执行sel.sh 在跟目录下 fixcodec修正编码 fixtranc繁简处理 genall .conv 格式: //M 表示话语,E 表示分割。 E M 话语 a M 话语 b M 话语 c M 话语 d E M 话语 a M 话语 b M 话语 c M 话语 d License: MIT
About
dgk_lost_conv 中文对白语料 chinese conversation corpus
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published
Languages
- SRecode Template 99.5%
- Other 0.5%