# 实验七 使用SVM对手写体数字图片分类

In [4]:
import pandas as pd
from sklearn import svm
import joblib

## 载入训练数据、分出特征属性和类别，对特征属性标准化，显示读入数据的行数

### 载入训练数据

In [5]:
train_data = pd.read_csv ('data/digits_training.csv')

In [6]:
train_data.head()

Unnamed: 0,label,pixel0,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,...,pixel774,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 分出特征属性和类别

In [None]:
# 分类属性
yTrain = train_data.values[:,0]
# 特征属性
xTrain = train_data.values[:,1:]

### 对特征属性标准化

In [7]:
# 标准化函数
def normalization(X):
    return (X-X.mean())/X.max()

In [9]:
xTrain.shape

(5000, 784)

In [10]:
# 对特征属性进行标准化处理
xTrain = normalization(xTrain)

### 训练数据条数

In [12]:
xTrain.shape[0]

5000

## 构建多分类SVM模型

'''
默认核函数是 ‘rbf’-->就是radial basis function keranl (径向基核函数)
模型准确率约为0.89
使用线性核函数（linear）构建模型，准确率在0.908左右
线性核函数主要用于线性可分的情况
在特征数量相对于样本数量非常多的时候，适合采用线性核函数
'''

In [13]:
model = svm.SVC(decision_function_shape='ovo',kernel='linear')

## 训练模型

In [14]:
model.fit(xTrain,yTrain)

SVC(decision_function_shape='ovo', kernel='linear')

## 保存模型

In [15]:
joblib.dump(model,"output/svm_classifier_model1.m")

['output/svm_classifier_model1.m']

## 载入测试数据，分出特征属性和类别，对特征属性标准化，显示读入数据的行数

In [16]:
test_data = pd.read_csv("data/digits_testing.csv")
yTest = test_data.values[:,0]
xTest = test_data.values[:,1:]
print("测试数据：",xTest.shape[0],"条")
xTest = normalization(xTest)

测试数据： 500 条


## 使用模型对测试集进行预测，显示预测错误数据的数目、预测数据的准确率和模型内建正确率

In [17]:
model = joblib.load("output/svm_classifier_model1.m")
result =model.predict(xTest)
print("预测错误数据：",(result!=yTest).sum())
print("测试数据正确率：",(result==yTest).sum()/len(yTest))
print("模型内构建正确率估计：",model.score(xTest,yTest))

预测错误数据： 48
测试数据正确率： 0.904
模型内构建正确率估计： 0.904
