In [13]:
# 使用支持向量机分类器处理 Scikit-learn 内部集成的手写体数字图片数据集
# 从 sklearn.datasets 中导入手写体数字加载器
from sklearn.datasets import load_digits
# 从通过数据加载器获得手写体数字的数码图像数据并储存在digits变量中
digits = load_digits()
# 数码图像数据共 1797 条，每幅图片由 8 * 8 = 64 的像素矩阵表示
# 查看数据规模和特征维度
print(digits.data.shape)
# 数码图像数据共 1797 条
print(digits.target.shape)

(1797, 64)
(1797,)


In [2]:
# 数据分割 75% 的训练样本和 25% 的测试样本
# 导入 train_test_split 用于数据分割
from sklearn.cross_validation import train_test_split

In [9]:
# 随机选取 75% 的数据作为训练样本，其余 25% 的数据作为测试样本
x_train, x_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size = 0.25, random_state = 33)
# 查看 训练集 和 测试集 数据规模 => digits.target
print(y_train.shape, y_test.shape)

(1347,) (450,)


In [14]:
# 基于线性假设的支持向量机(svm)模型 => 使用支持向量机(分类)对手写体数字图像进行识别
# 从 sklearn.preprocessing 里导入数据标准化模块
from sklearn.preprocessing import StandardScaler
# 从 sklearn.svm 里导入基于线性假设的支持向量机分类器 LinearSVC
from sklearn.svm import LinearSVC

In [16]:
# 对训练和测试的特征数据进行标准化
ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
# print(x_train, x_test)

[[ 0.         -0.32672314 -0.87554711 ..., -1.11540424 -0.49709493
  -0.19054741]
 [ 0.         -0.32672314 -0.2423893  ..., -1.11540424 -0.49709493
  -0.19054741]
 [ 0.         -0.32672314 -1.08659972 ..., -1.11540424 -0.49709493
  -0.19054741]
 ..., 
 [ 0.         -0.32672314 -0.2423893  ..., -1.11540424 -0.49709493
  -0.19054741]
 [ 0.         -0.32672314  1.44603155 ..., -1.11540424 -0.49709493
  -0.19054741]
 [ 0.          0.75459398  0.39076852 ..., -1.11540424 -0.49709493
  -0.19054741]] [[ 0.         -0.36287481 -0.28639743 ...,  0.6559761  -0.5311936
  -0.21279447]
 [ 0.         -0.36287481 -0.49493925 ...,  1.52112628  1.84020639
  -0.21279447]
 [ 0.         -0.36287481  0.33922802 ..., -1.24735431 -0.5311936
  -0.21279447]
 ..., 
 [ 0.         -0.36287481  0.13068621 ...,  0.82900613 -0.2940536
  -0.21279447]
 [ 0.         -0.36287481 -1.1205647  ...,  0.6559761  -0.2940536
  -0.21279447]
 [ 0.         -0.36287481 -1.1205647  ...,  1.52112628  2.07734639
  -0.21279447]]


In [18]:
# 初始化线性假设的支持向量机分类器 LinearSVC
lsvc = LinearSVC()
# 进行模型训练
lsvc.fit(x_train, y_train)
# 利用训练好的模型对测试样本的数字类别进行预测，结果储存到变量 y_predict 中
y_predict = lsvc.predict(x_test)
# print(y_predict)

[1 3 7 3 2 4 6 1 4 0 4 7 9 5 2 8 3 6 7 0 6 7 8 3 0 6 2 3 0 9 0 2 0 6 9 1 1
 5 8 0 6 1 5 8 9 5 1 6 2 6 6 7 6 7 7 2 7 8 0 7 3 6 3 9 6 6 5 5 4 2 9 3 7 6
 5 7 2 8 1 2 2 8 1 1 6 3 5 0 0 1 6 7 6 8 9 7 0 0 9 8 0 8 2 3 6 1 9 9 1 7 3
 9 8 8 5 9 5 1 1 7 9 3 3 2 8 1 3 8 6 4 0 0 0 7 1 5 5 1 8 5 1 8 1 6 9 9 4 5
 7 5 2 1 2 5 8 7 7 5 1 9 6 9 8 0 6 1 2 1 5 7 8 9 6 8 4 1 0 0 9 8 7 2 8 6 4
 8 9 4 2 6 1 8 5 6 7 5 1 9 2 8 3 2 9 4 3 5 5 6 2 4 3 2 6 4 8 5 8 0 8 8 6 3
 2 3 0 5 7 1 3 9 3 2 1 6 6 5 1 9 7 2 4 5 2 1 3 1 1 2 1 7 0 1 2 2 1 2 4 9 6
 6 3 9 2 8 1 5 5 1 8 6 2 5 6 0 1 4 2 1 8 9 4 3 0 6 8 3 3 2 0 2 0 6 5 6 6 4
 6 1 8 3 4 1 3 5 1 4 9 8 7 5 1 1 3 7 1 8 3 7 4 0 7 2 8 7 1 9 4 5 3 5 2 5 1
 3 0 5 8 4 7 6 9 9 3 3 4 0 6 4 7 0 6 1 2 3 3 4 5 3 3 5 2 0 9 7 1 5 5 8 4 4
 3 6 2 5 1 0 6 1 5 8 4 7 6 4 3 4 0 3 0 1 2 8 0 5 4 5 2 2 9 6 9 8 0 8 8 2 4
 6 5 6 4 3 9 8 9 7 1 7 9 4 1 9 9 5 9 8 0 8 2 5 1 4 2 6 3 7 9 3 7 4 3 7 1 8
 8 9 5 3 6 6]


In [19]:
# 使用准确率，召回率，正确率以及F1指标，这4个测试对支持向量机(分类)模型对手写体数字图像识别任务进行性能评估
# 使用模型自带的评估函数进行准确性测评
print('The Accuracy of Linear SVC is ', lsvc.score(x_test, y_test))

The Accuracy of Linear SVC is  0.948888888889


In [20]:
# 用 sklearn.metrices 里面的 classification_report 模块对预测结果做更详细的分析
from sklearn.metrics import classification_report
print(classification_report(y_test, y_predict, target_names = digits.target_names.astype(str)))

             precision    recall  f1-score   support

          0       0.92      0.97      0.94        35
          1       0.95      0.98      0.96        54
          2       0.98      1.00      0.99        44
          3       0.93      0.93      0.93        46
          4       0.97      1.00      0.99        35
          5       0.94      0.94      0.94        48
          6       0.96      0.98      0.97        51
          7       0.90      1.00      0.95        35
          8       0.98      0.83      0.90        58
          9       0.95      0.91      0.93        44

avg / total       0.95      0.95      0.95       450

