# 使用支持向量机做手写数字分类识别

## 从 sklearn.datasets 里导入手写体数字加载器

In [1]:
from sklearn.datasets import load_digits

# 从通过数据加载器获得手写体数字的数码图像数据并储存在 digits 变量中
digits = load_digits()

In [2]:
# 检视数据规模和特征维度
digits.data.shape

(1797, 64)

In [7]:
from sklearn.model_selection import train_test_split

# 随机选取 75% 的数据作为训练样本；其余 25% 的数据作为测试样本。
X_train, X_test, y_train, y_test = train_test_split(
    digits.data, digits.target, test_size=0.25, random_state=33)

In [8]:
y_train.shape

(1347,)

In [9]:
y_test.shape

(450,)

## 数据标准化

In [11]:
from sklearn.preprocessing import StandardScaler

# 从仍然需要对训练和测试的特征数据进行标准化。
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)

In [12]:
# 从 sklearn.svm 里导入基于线性假设的支持向量机分类器 LinearSVC。
from sklearn.svm import LinearSVC

# 初始化线性假设的支持向量机分类器 LinearSVC
lsvc = LinearSVC()
# 进行模型训练
lsvc.fit(X_train, y_train)
# 利用训练好的模型对测试样本的数字类别进行预测，预测结果储存在变量 y_predict 中
y_predict = lsvc.predict(X_test)

In [13]:
# 使用模型自带的评估函数进行准确性测评
print('The Accuracy of Linear SVC is', lsvc.score(X_test, y_test))

The Accuracy of Linear SVC is 0.9533333333333334


注意：指定 target_names 属性。

In [14]:
from sklearn.metrics import classification_report

print(
    classification_report(
        y_test, y_predict, target_names=digits.target_names.astype(str)))

             precision    recall  f1-score   support

          0       0.92      1.00      0.96        35
          1       0.96      0.98      0.97        54
          2       0.98      1.00      0.99        44
          3       0.93      0.93      0.93        46
          4       0.97      1.00      0.99        35
          5       0.94      0.94      0.94        48
          6       0.96      0.98      0.97        51
          7       0.92      1.00      0.96        35
          8       0.98      0.84      0.91        58
          9       0.95      0.91      0.93        44

avg / total       0.95      0.95      0.95       450

