Emoji_Recomendation

内容介绍

这个项目包含若干种文本分类算法，如NaiveBayes、svm、cnn等，此文档将重点放在cnn的训练上。
cnn任务包含这几个步骤：
- 对训练和测试文本分词
- 对训练和测试文本集训练 词向量(wordvec),如果能从更大的语料库训练 word2vec,效果应当会更好，例如可以从这里获得。
- 用pytorch完成cnn并训练，cnn.py包含网络结构、训练、验证代码。
- 对已训练的模型，我们需要在测试集上测试。
对于其它的算法的训练，则是使用了sklearn库提供的方法。它们的数据预处理与cnn不同的地方在于“分词后需要做特征提取，而不是训练word2vec”。
这里的输入数据都是已经分好词了，默认不需要再做分词了，如果你想训练其它文本，可以修改jieba_lac.py来分词。

以cnn为例，直接执行 python cnn.py
之所以如此简单有如下两个原因：

另外每个函数都有详细的说明注释，方便理解。

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
ingredients		ingredients
.gitignore		.gitignore
README.md		README.md
cnn.py		cnn.py
corpus.csv		corpus.csv
dump.py		dump.py
fine-tune.txt		fine-tune.txt
jieba_lac.py		jieba_lac.py
kaggle_preprocessing.py		kaggle_preprocessing.py
mlp.py		mlp.py
multinomial_bayes.py		multinomial_bayes.py
requirements.txt		requirements.txt
submit.py		submit.py
svm.py		svm.py
test.csv		test.csv
train.csv		train.csv
word2vec_lac.py		word2vec_lac.py