这一项目用于对fasttext模型做一些基本的测试实验
这里,我们采用imdb电影评论打分数据作为我们的训练以及测试语料。
我们将已下载好的imdb数据包放于data目录下,使用时请自行解压。
给出数据处理脚本如下:
该文件生成fasttext与tensorflow的训练数据,分别存储与fasttext与tensorflow目录下。
使用fasttext库进行的fasttext分类模型训练的代码为:
实验结果保存于fasttext_exp.log文件下。
使用tensorflow自行写作的fasttext分类模型训练的代码为:
实验结果保存于tensorflow_exp.log文件下。
使用pytorch自行写作的fasttext分类模型训练的代码为:
实验结果保存于pytorch_exp.log文件下。
这里,我们考虑两种“cross entropy”定义下模型的收敛性实验。
其中,两种定义分别如下:
-
真实的cross entropy
$$L = -\sum_{i}p(x_i) \cdot log(q(x_i))$$ -
虚假的cross entropy
$$L = -\sum_{i}(p(x_i) \cdot log(q(x_i)) + (1-p(x_i)) \cdot log(1- q(x_i)))$$
实验代码如下:
实验结果显示在notebook文件模型效果测试.ipynb当中。
更具体的cross entropy分析详见我的相关博客:NLP笔记:浅谈交叉熵(cross entropy)。