## **实验0903：多分类问题**

### **1 vs All方法**
* 针对所有样本数据，先分成1类和其它类，使用SVM计算边界超平面L1
* 再分成2类和其它类，再次计算超平面$L_2$。依次类推直到$L_k$ ($k$为分类数)
* 预测新数据时，分别跟$L_1,L_2,\cdots,L_k$进行判断，如果有一个超平面直接判别属于某个类别，则完成预测
* 如果有多个超平面判别属于各自不同类别，则一般只能任选一个
* 如果没有任何超平面判别属于某个类别，则一般只能视为无法分类数据

### **1 vs 1方法**
* 先只对1类和2类的数据进行计算，得到1类和2类的分割超平面
* 然后对2类和3类计算，之后1类和3类...等等。直到两两类别分别完成计算
* 预测新数据时，对两两类别之间的分割超平面分别进行匹配。统计有多少次判别将其划归为1类，多少次判为2类....。判定所属类别次数最多的，就是预测的结果类别

### **案例1：使用多分类SVM来计算数字图片分类**

In [2]:
''' 使用SVM实现多分类 '''
import numpy as np
from sklearn import svm
from sklearn.externals import joblib

def normalizeData(X):
    return (X - X.mean()) / X.max()

trainData = np.loadtxt(open('digits_training.csv', 'r'), delimiter=",",skiprows=1)
MTrain, NTrain = np.shape(trainData)
xTrain = trainData[:,1:NTrain]
xTrain = normalizeData(xTrain)         
yTrain = trainData[:,0]
print("装载训练数据：", MTrain, "条，训练中......")

model = svm.SVC(decision_function_shape='ovo')  # 采用1 vs 1的多分类策略
model.fit(xTrain, yTrain)   

print("训练完毕，保存模型...")
joblib.dump(model, "svm_classifier_model1.m")                 # 保存模型到文件中
print("模型保存完毕，执行测试...")

testData = np.loadtxt(open('digits_testing.csv', 'r'), delimiter=",",skiprows=1)
MTest,NTest = np.shape(testData)
xTest = testData[:,1:NTest]
xTest = normalizeData(xTest)
yTest = testData[:,0]
print("装载测试数据：", MTest, "条，预测中......")

model = joblib.load("svm_classifier_model1.m")               # 从之前保存的模型中装载参数
yPredict = model.predict(xTest)
errors = np.count_nonzero(yTest - yPredict)
print("预测完毕。错误：", errors, "条")
print("测试数据正确率:", (MTest - errors) / MTest)
model_accuracy = model.score(xTest, yTest)
print("模型内建的正确率估计：", model_accuracy)                # 约0.898

装载训练数据： 5000 条，训练中......
训练完毕，保存模型...
模型保存完毕，执行测试...
装载测试数据： 500 条，预测中......
预测完毕。错误： 51 条
测试数据正确率: 0.898
模型内建的正确率估计： 0.898
