In [2]:
# load_digits数据集sklearn.datasets中内置的手写数字图片数据集，这是一个研究图像分类算法的优质数据集。
# 从sklearn.datasets中导入手写体数字加载器
from sklearn.datasets import load_digits
from sklearn.metrics import classification_report
# 从通过数据加载器获得的手写体数字的数码图像数据并储存在digits中
digits = load_digits()
# 查看数据规模和特征维度
print ("数据集生成的数码图像规模和维度:",digits.data.shape)
# 选取其中一个样本查看
print("选取其中一个样本查看:",digits.data[1])

数据集生成的数码图像规模和维度: (1797, 64)
选取其中一个样本查看: [ 0.  0.  0. 12. 13.  5.  0.  0.  0.  0.  0. 11. 16.  9.  0.  0.  0.  0.
  3. 15. 16.  6.  0.  0.  0.  7. 15. 16. 16.  2.  0.  0.  0.  0.  1. 16.
 16.  3.  0.  0.  0.  0.  1. 16. 16.  6.  0.  0.  0.  0.  1. 16. 16.  6.
  0.  0.  0.  0.  0. 11. 16. 10.  0.  0.]


In [3]:
# 将训练数据进行分割
from sklearn.model_selection import train_test_split
# 随机选取70%的数据作为训练样本，其余30%的数据作为测试样本
X_train,X_test,y_train,y_test = train_test_split(digits.data,digits.target,test_size=0.30,random_state=25)

# 查看训练数据和测试数据的规模
print ("训练数据规模:",X_train.shape,"测试数据的规模:",X_test.shape)


训练数据规模: (1257, 64) 测试数据的规模: (540, 64)


In [4]:
# 支持向量机算法对手写数字图像进行分类
# 基于线性假设的SVM模型来训练数据
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC 
#对训练和测试的特征数据进行标准化
ss=StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)
# 初始化线性假设的支持向量机分类器LinearSVC
lsvc = LinearSVC()
# 使用SVC对模型训练
lsvc.fit(X_train,y_train)
# 利用训练好的模型对测试样本的数字类别进行预测，预测结果储存在y_predict中。
y_predict = lsvc.predict(X_test)



In [5]:
# 使用模型自带的评估函数进行测评
print ('LinearSVC对测试样本的识别的准确度:',lsvc.score(X_test,y_test))
# 依然使用sklearn.metrics里面的classification_report模块对预测结果做更加详细的分析
print (classification_report(y_test, y_predict, target_names=digits.target_names.astype(str)))

LinearSVC对测试样本的识别的准确度: 0.9555555555555556
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        56
           1       0.89      0.91      0.90        55
           2       0.98      0.96      0.97        46
           3       0.93      0.95      0.94        55
           4       0.95      0.97      0.96        61
           5       1.00      0.98      0.99        57
           6       1.00      0.94      0.97        53
           7       0.96      0.96      0.96        51
           8       0.89      0.94      0.92        53
           9       0.96      0.94      0.95        53

    accuracy                           0.96       540
   macro avg       0.96      0.96      0.96       540
weighted avg       0.96      0.96      0.96       540



In [11]:
# 使用SVC(kernel=‘poly’),多项式核函数对测试样本进行预测
from sklearn.svm import SVC
poly_svc = SVC(kernel='poly')
poly_svc.fit(X_train,y_train)
y_poly_svc_predict = poly_svc.predict(X_test)
#评估模型性能
print ('SVC(kernel=‘poly’)对测试样本的识别的准确度:',poly_svc.score(X_test,y_test))
print (classification_report(y_test,y_poly_svc_predict,target_names=digits.target_names.astype(str)))

SVC(kernel=‘poly’)对测试样本的识别的准确度: 0.95
              precision    recall  f1-score   support

           0       1.00      0.98      0.99        56
           1       1.00      0.95      0.97        55
           2       1.00      1.00      1.00        46
           3       1.00      0.85      0.92        55
           4       1.00      1.00      1.00        61
           5       1.00      0.89      0.94        57
           6       1.00      0.96      0.98        53
           7       0.98      0.96      0.97        51
           8       0.67      1.00      0.80        53
           9       1.00      0.91      0.95        53

    accuracy                           0.95       540
   macro avg       0.97      0.95      0.95       540
weighted avg       0.97      0.95      0.95       540

