Barrages generate

弹幕生成模型，主要用到了transformer生成器。

Requirements

弹幕语料。其数据存放在：

barrages_data/train_data_has_neg.txt

通过sentencepiece分词之后，其数据分布为：

mean_len	max_len	min_len
4.537800518219686	30	1

python pretreatment/prepro.py

如果你想调整默认的词典大小(default:32000)，可以进行下面的命令：

python pretreatment/prepro.py --vocab_size 8000

它会创建两个文件 barrages_data/prepro and barrages_data/segmented.

python train.py

参数设置放在 hparams.py ，可以根据里面的参数进行对应设置，比如：

python train.py --logdir myLog --batch_size 256 --dropout_rate 0.5

python barrrages_generate.py

当输入：

老司机

输出句子：

运行代码:

python ichat_robot.py

结果：

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
.idea		.idea
eval		eval
fig		fig
pretreatment		pretreatment
test/1		test/1
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
barrages_generate.py		barrages_generate.py
data_load.py		data_load.py
download.sh		download.sh
hparams.py		hparams.py
ichat_robot.py		ichat_robot.py
model.py		model.py
modules.py		modules.py
multi-bleu.perl		multi-bleu.perl
my_test.py		my_test.py
prepro.py		prepro.py
requirements.txt		requirements.txt
test.py		test.py
train.py		train.py
tuling.py		tuling.py
utils.py		utils.py