1.使用小语料设计的语义学(近义词)实验和统计学(协方差)实验 2.使用大语料设计的维度擦除实验
1.文本预处理(分词,文本索引化) 2.词向量模型获取 3.语义学实验 4.统计学实验 5.构建CNN文本分类神经网络 5.擦除实验
其中,构建CNN文本分类神经网络部分代码使用了@Author : panjq的部分代码,主要用于搭建神经网络和训练CNN文本分类任务。详细内容可见util文件夹内源码部分有详细注释,这里也对其作者表示感谢。
使用小语料部分实验较为简单,故单独成码;使用大语料构建CNN网络部分较为复杂,其中文本预处理为create_word2vec.py,网络训练为train.py,擦除法本体为trainchange.py。具体内容见代码中注释
由于实验数据过大,项目内部不包含具体数据和实验中间模型以及实验结果。
详细内容见代码注释