数据描述
邮政系统每天都会处理大量的信件，最重要的一环是根据信件上的收件人邮编进行识别和分类，以便确定信件的投送地点。原本这项任务是靠人工完成的，后来人们尝试让计算机代替人工。由于多数的邮编都是手写数字，并且样式各异，所以没有统一编制的规则可以很好地用于识别和分类。有大量研究证明，支持向量机可以在手写体数字图片的分类任务上展现量好的性能。本文以88的灰度图片，通过像素数据构成641维的特征向量，具体数字0~9作为标签训练模型。


导入数据
首先从 sklearn.datasets 里导入手写体数字加载器，并通过数据加载器获得手写体数字的数码图像数据，将其储存在 digits 变量中，查看数据规模和特征维度。

In [1]:
from sklearn.datasets import load_digits
digits = load_digits()
print(digits.data.shape)
print(digits.target.shape)


(1797, 64)
(1797,)


分割训练测试数据
将数据集分割为训练集与测试集，其中测试集占 25% ，训练集占 75%

In [2]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.25, random_state=42)



数据标准化，训练模型，预测

In [3]:
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 训练模型
svm = SVC(kernel='linear', C=1.0)  # 线性核函数，惩罚系数 C=1.0
svm.fit(X_train, y_train)
# 预测
y_pred = svm.predict(X_test)


模型评估

In [4]:
from sklearn.metrics import classification_report, confusion_matrix

print("混淆矩阵：\n",confusion_matrix(y_test, y_pred))
print("分类报告：\n",classification_report(y_test, y_pred))
print("accuracy:", svm.score(X_test, y_test))

混淆矩阵：
 [[43  0  0  0  0  0  0  0  0  0]
 [ 0 37  0  0  0  0  0  0  0  0]
 [ 0  0 38  0  0  0  0  0  0  0]
 [ 0  0  1 44  0  1  0  0  0  0]
 [ 0  0  0  0 55  0  0  0  0  0]
 [ 0  0  0  1  0 57  1  0  0  0]
 [ 1  0  0  0  0  0 44  0  0  0]
 [ 0  0  0  0  0  0  0 40  0  1]
 [ 0  1  0  0  0  1  0  0 36  0]
 [ 0  0  0  1  0  0  0  1  0 46]]
分类报告：
               precision    recall  f1-score   support

           0       0.98      1.00      0.99        43
           1       0.97      1.00      0.99        37
           2       0.97      1.00      0.99        38
           3       0.96      0.96      0.96        46
           4       1.00      1.00      1.00        55
           5       0.97      0.97      0.97        59
           6       0.98      0.98      0.98        45
           7       0.98      0.98      0.98        41
           8       1.00      0.95      0.97        38
           9       0.98      0.96      0.97        48

    accuracy                           0.98       450
   ma