In [1]:
import numpy as np
import matplotlib.pyplot as plt

from time import time

# 预处理
from sklearn.datasets import fetch_20newsgroups
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import PolynomialFeatures    # 生成多项式特征矩阵
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_selection import chi2    # 卡方检验，
from sklearn.feature_selection import SelectKBest

# 分类模型
from sklearn.linear_model import RidgeClassifier    # 岭回归分类
# from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC    # svm
from sklearn.svm import LinearSVC    # 线性SVM
from sklearn.naive_bayes import MultinomialNB    # 多项式贝叶斯
from sklearn.naive_bayes import BernoulliNB     # 伯努利朴素贝叶斯
from sklearn.neighbors import KNeighborsClassifier     # KNN
from sklearn.ensemble import RandomForestClassifier     # 随机森林
from sklearn.model_selection import GridSearchCV     # 交叉验证
from sklearn import metrics    # 结果评估

from sklearn.pipeline import Pipeline

In [6]:
# 数据探索
# 不要头部信息
remove = ('headers', 'footers', 'quotes')
# 只要这四类数据
categories = 'alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space'

data_train = fetch_20newsgroups(
    data_home='./datas/', subset='train',  # 仅读取训练数据
    categories=categories,    # 选取数据类别
    remove=remove,
    shuffle=True, random_state=9
)
data_test = fetch_20newsgroups(
    data_home='./datas/', subset='test',  # 仅读取训练数据
    categories=categories,    # 选取数据类别
    remove=remove,
    shuffle=True, random_state=9
)

In [11]:
# 查看数据信息
print('训练数据类别：', data_train.target_names)
print('训练数据标签：', data_train.target)
print('训练数据的数量：', len(data_train.data))

print('测试数据类别：', data_test.target_names)
print('测试数据标签：', data_test.target)
print('测试数据的数量：', len(data_test.data))

训练数据类别： ['alt.atheism', 'comp.graphics', 'sci.space', 'talk.religion.misc']
训练数据标签： [2 1 3 ... 3 2 1]
训练数据的数量： 2034
测试数据类别： ['alt.atheism', 'comp.graphics', 'sci.space', 'talk.religion.misc']
测试数据标签： [2 2 0 ... 1 1 0]
测试数据的数量： 1353


In [46]:
# 数据归类
x_train = data_train.data
x_test = data_test.data
y_train = data_train.target
y_test = data_test.target

# 文档转换为向量
vectorizer = TfidfVectorizer(stop_words='english', max_df=0.5, sublinear_tf=True)
x_train = vectorizer.fit_transform(x_train)
x_test = vectorizer.transform(x_test)

print('训练集样本个数%d, 特征数量%d' % x_train.shape)
print('停止词汇：\n', vectorizer.get_stop_words())

# 获取特征名称
feature_names = np.asarray(vectorizer.get_feature_names())

训练集样本个数2034, 特征数量26576
停止词汇：
 frozenset({'already', 'show', 'except', 'however', 'thereby', 'eg', 'again', 'system', 'my', 'back', 'perhaps', 'because', 'had', 'throughout', 'thin', 'call', 'should', 'must', 'toward', 'three', 'although', 'itself', 'top', 'yet', 'himself', 'nothing', 'hereby', 'one', 'being', 'fifteen', 'forty', 'after', 'someone', 'please', 'ever', 'down', 'amount', 'is', 'from', 're', 'anyone', 'if', 'how', 'our', 'hereupon', 'never', 'against', 'some', 'through', 'will', 'no', 'at', 'ten', 'co', 'see', 'therein', 'only', 'fifty', 'noone', 'among', 'during', 'both', 'somehow', 'full', 'were', 'less', 'within', 'beforehand', 'somewhere', 'up', 'when', 'am', 'another', 'become', 'latterly', 'otherwise', 'all', 'hence', 'there', 'fill', 'many', 'nevertheless', 'couldnt', 'could', 'whom', 'now', 'beyond', 'other', 'side', 'thru', 'any', 'five', 'others', 'also', 'since', 'once', 'therefore', 'into', 'between', 'together', 'out', 'she', 'several', 'until', 'mine', 'whole'

In [49]:
# 特征选择
ch2 = SelectKBest(chi2, k=1000)    # 使用卡方检验，筛选1000个特征
x_train = ch2.fit_transform(x_train, y_train)
x_test = ch2.transform(x_test)

In [59]:
# 构建分类模型
print('不同分类的比较::\n')
clfs = [
    (RidgeClassifier(), 'ridge'),
    (KNeighborsClassifier(), 'KNN'),
    (MultinomialNB(), 'mnb'),
    (BernoulliNB(), 'bnb'),
    (RandomForestClassifier(n_estimators=200), 'randomforest'),
    (SVC(), 'svm'),
    (LinearSVC(loss='squared_hinge', penalty='l1', dual=False, tol=1e-4), 'linersvc-l1'),
    (LinearSVC(loss='squared_hinge', penalty='l2', dual=False, tol=1e-4), 'linersvc-l2')
    
]

for clf, name in clfs:
    benchmark(clf, name)
    print('--'*20)

不同分类的比较::

当前分类器： ridge
5折交叉验证的训练时间为：3.389秒/(5*10)=0.068秒
最优超参数为： {'alpha': 0.46415888336127775}
测试时间：0.001秒
训练集准确率：92.63%
测试集准确率：75.83%
----------------------------------------
当前分类器： KNN
5折交叉验证的训练时间为：1.444秒/(5*14)=0.021秒
最优超参数为： {'n_neighbors': 1}
测试时间：0.076秒
训练集准确率：96.41%
测试集准确率：50.55%
----------------------------------------
当前分类器： mnb
5折交叉验证的训练时间为：0.084秒/(5*10)=0.002秒
最优超参数为： {'alpha': 0.01}
测试时间：0.000秒
训练集准确率：91.40%
测试集准确率：76.72%
----------------------------------------
当前分类器： bnb
5折交叉验证的训练时间为：0.102秒/(5*10)=0.002秒
最优超参数为： {'alpha': 0.021544346900318832}
测试时间：0.001秒
训练集准确率：88.45%
测试集准确率：74.43%
----------------------------------------
当前分类器： randomforest
5折交叉验证的训练时间为：6.563秒/(5*6)=0.219秒
最优超参数为： {'max_depth': 8}
测试时间：0.033秒
训练集准确率：74.34%
测试集准确率：67.18%
----------------------------------------
当前分类器： svm
5折交叉验证的训练时间为：11.591秒/(5*9)=0.258秒
最优超参数为： {'C': 100.0, 'gamma': 0.03162277660168379}
测试时间：0.132秒
训练集准确率：93.36%
测试集准确率：73.54%
----------------------------------------
当前分类器： linersvc-l



5折交叉验证的训练时间为：5.505秒/(5*3)=0.367秒
最优超参数为： {'C': 10.0}
测试时间：0.001秒
训练集准确率：96.31%
测试集准确率：72.21%
----------------------------------------
当前分类器： linersvc-l2
5折交叉验证的训练时间为：0.613秒/(5*3)=0.041秒
最优超参数为： {'C': 10.0}
测试时间：0.001秒
训练集准确率：95.48%
测试集准确率：74.58%
----------------------------------------


In [57]:
def benchmark(clf, name):
    print('当前分类器：', name)
    
    # 进行交叉验证，获取最优参数
    alpha_can = np.logspace(-2, 1, 10)
    model = GridSearchCV(clf, param_grid={'alpha': alpha_can}, cv=5)
    m = alpha_can.size
    
    # 判断模型中的参数
    if hasattr(clf, 'alpha'):
        model.set_params(param_grid={'alpha': alpha_can})
        m = alpha_can.size
    
    # 设置KNN参数
    if hasattr(clf, 'n_neighbors'):
        neighbors_can = np.arange(1, 15)
        model.set_params(param_grid={'n_neighbors': neighbors_can})
        m = neighbors_can.size
    
    # LinearSVC最优参数配置
    if hasattr(clf, 'C'):
        C_can = np.logspace(1, 3, 3)
        model.set_params(param_grid={'C':C_can})
        m = C_can.size
        
    # SVM最优参数设置
    if hasattr(clf, 'C') & hasattr(clf, 'gamma'):
        C_can = np.logspace(1, 3, 3)
        gamma_can = np.logspace(-3, 0, 3)
        model.set_params(param_grid={'C':C_can, 'gamma':gamma_can})
        m = C_can.size * gamma_can.size
    # 设置深度相关参数，决策树
    if hasattr(clf, 'max_depth'):
        max_depth_can = np.arange(4, 10)
        model.set_params(param_grid={'max_depth': max_depth_can})
        m = max_depth_can.size
        
    ## 模型训练
    t_start = time()
    model.fit(x_train, y_train)
    t_end = time()
    t_train = (t_end - t_start) / (5*m)
    print (u'5折交叉验证的训练时间为：%.3f秒/(5*%d)=%.3f秒' % ((t_end - t_start), m, t_train))
    print (u'最优超参数为：', model.best_params_)
    
    ## 模型预测
    t_start = time()
    y_hat = model.predict(x_test)
    t_end = time()
    t_test = t_end - t_start
    print (u'测试时间：%.3f秒' % t_test)
    
    ## 模型效果评估
    train_acc = metrics.accuracy_score(y_train, model.predict(x_train))
    test_acc = metrics.accuracy_score(y_test, y_hat)
    print (u'训练集准确率：%.2f%%' % (100 * train_acc))
    print (u'测试集准确率：%.2f%%' % (100 * test_acc))

True