新闻上的文本分类：机器学习大乱斗 2017.05.05

深度学习：keras

传统机器学习：sklearn

参与比较的机器学习方法

CNN 、 CNN + word2vec
LSTM 、 LSTM + word2vec
MLP（多层感知机）
朴素贝叶斯
KNN
SVM
SVM + word2vec 、SVM + doc2vec 第 1-3 组属于深度学习方法，第 4-6 组属于传统机器学习方法，第 7 组算是种深度与传统合作的方法，画风清奇，拿来试试看看效果

搜狗实验室搜狐新闻数据下载地址：http://www.sogou.com/labs/resource/cs.php

引入预训练的 word2vec 模型会给训练带来好处，具体来说：（1）间接引入外部训练数据，防止过拟合；（2）减少需要训练的参数个数，提高训练效率
LSTM 需要训练的参数个数远小于 CNN，但训练时间大于 CNN。CNN 在分类问题的表现上一直很好，无论是图像还是文本；而想让 LSTM 优势得到发挥，首先让训练数据量得到保证
将单词在 word2vec 中的词向量加和求平均获得整个句子的语义向量的方法看似 naive 有时真挺奏效，当然仅限于短句子，长度 100 以内应该可以
机器学习方法万千，具体选择用什么样的方法还是要取决于数据集的规模以及问题本身的复杂度，对于复杂程度一般的问题，看似简单的方法有可能是坠吼地

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
data_process		data_process
README.md		README.md
bys.py		bys.py
cnn.py		cnn.py
knn.py		knn.py
lstm.py		lstm.py
mlp.py		mlp.py
svm.py		svm.py
svm_doc2vec.py		svm_doc2vec.py
svm_word2vec.py		svm_word2vec.py
test_contents.txt		test_contents.txt
test_labels.txt		test_labels.txt
train_contents.txt		train_contents.txt
train_labels.txt		train_labels.txt
word_vector_cnn.py		word_vector_cnn.py
word_vector_lstm.py		word_vector_lstm.py

yejg2017/SouHu-text-classification