# 互评作业3: 基于支持向量机的手写数字识别
# 1120191287 林超超
## 1. 问题描述
本作业采用支持向量机（SVM）方法对手写数字进行识别。通过对 MNIST 数据集进行处理，划分训练集和测试集。然后构建支持向量机模型，进行模型训练和评估。

## 2. 数据集
MNIST

## 3. 数据分析要求
### 3.1 读取 MNIST 数据
• 加载并处理手写数字图像数据及其对应的标签。

### 3.2 划分训练集和测试集
· 将图像数据划分为训练集和测试集，比例一般为7:3或8:2。

### 3.3 特征缩放
· 对图像数据进行归一化处理，缩放到[0,1]范围。

### 3.4 构建支持向量机模型
· 选择适当的核函数（如线性核、多项式核、径向基核等），训练模型。

### 3.5 模型评估
· 在测试集上进行预测，计算模型的准确率、召回率、F1值等指标，评估模型性能。

In [1]:
import numpy as np
import struct
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn import svm
from sklearn.metrics import accuracy_score  
from sklearn.metrics import recall_score 
from sklearn.metrics import f1_score  

### 1. 读取 MNIST 数据
#### 1.1 下载MNIST数据集并解压
MNIST
http://yann.lecun.com/exdb/mnist/

#### 1.2 加载并处理手写数字图像数据及其对应的标签

In [2]:
def load_mnist_train(labels_path, images_path):
    with open(labels_path, 'rb') as lbpath:
        magic, n = struct.unpack('>II', lbpath.read(8))
        labels = np.fromfile(lbpath, dtype=np.uint8)
    with open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII', imgpath.read(16))
        images = np.fromfile(imgpath, dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

In [3]:
##读取训练数据
labels_path = "./MNIST/train-labels-idx1-ubyte"
images_path = "./MNIST/train-images-idx3-ubyte"
X, y = load_mnist_train(labels_path, images_path)

### 2. 划分训练集和测试集
将图像数据划分为训练集和测试集，比例为7:3

In [4]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)

### 3. 特征缩放
对图像数据进行归一化处理，缩放到[0,1]范围

In [5]:
scaler = preprocessing.StandardScaler()
scaler.fit_transform(X_train)

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [6]:
X_train = scaler.transform(X_train)

In [7]:
X_test = scaler.transform(X_test)

### 4. 构建支持向量机模型
选择适当的核函数（如线性核、多项式核、径向基核等），训练模型

In [8]:
##定义并训练模型
model_svc = svm.SVC(kernel='linear')
model_svc.fit(X_train, y_train)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='linear',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

### 5. 模型评估
在测试集上进行预测，计算模型的准确率、召回率、F1值等指标，评估模型性能。

In [9]:
y_pred = model_svc.predict(X_test)
print('Accuracy:',accuracy_score(y_test,y_pred))
print('Recall  :',recall_score(y_test,y_pred,average='macro'))
print('F1      :',f1_score(y_test,y_pred,average='macro'))

Accuracy: 0.9190555555555555
Recall  : 0.9178355320304199
F1      : 0.9180455996322523


根据测试集的评估结果，支持向量机模型的准确率达到了0.9190555555555555，召回率达到了0.9178355320304199，F1值达到了0.9180455996322523，模型性能较佳