# 多类分类

一些算法（比如随机森林分类器或者朴素贝叶斯分类器） 可以直接处理多类分类问题。其他一些算法（比如 SVM 分类器或者线性分类器） 则是严格的二分类器。

使用one_vs_all策略或one_vs_one策略可以让二分类去执行多分类问题
- “一对所有”（OvA） 策略（也被叫做“一对其他”）：举个例子，创建一个可以将图片分成 10 类（从 0 到 9） 的系统的一个方法是：训练10个二分类器，每一个对应一个数字（探测器 0，探测器 1，探测器 2，以此类推） 。然后当你想对某张图片进行分类的时候，让每一个分类器对这个图片进行分类，选出决策分数最高的那个分类器。
- “一对一”（OvO）策略：对每一对数字都训练一个二分类器：一个分类器用来处理数字 0 和数字 1，一个用来处理数字 0 和数字 2，一个用来处理数字 1 和 2，以此类推。如果有 N 个类。你需要训练 N*(N-1)/2 个分类器。

Scikit-Learn 可以探测出你想使用一个二分类器去完成多分类的任务，它会自动地执行OvA（除了 SVM 分类器，它使用 OvO） 

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [1]:
from sklearn.datasets import fetch_mldata
mnist = fetch_mldata('MNIST Original',data_home='../datasets/MNIST-data/')
X,y = mnist['data'],mnist['target']
X.shape,y.shape



((70000, 784), (70000,))

In [4]:
#切分训练集和测试集
X_train,X_test,y_train,y_test = X[:60000],X[60000:],y[:60000],y[60000:]
#打乱顺序
shuffle_index = np.random.permutation(60000)
X_train,y_train = X_train[shuffle_index],y_train[shuffle_index] 

In [7]:
from sklearn.linear_model import SGDClassifier
sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train,y_train)

SGDClassifier(alpha=0.0001, average=False, class_weight=None,
              early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,
              l1_ratio=0.15, learning_rate='optimal', loss='hinge',
              max_iter=1000, n_iter_no_change=5, n_jobs=None, penalty='l2',
              power_t=0.5, random_state=42, shuffle=True, tol=0.001,
              validation_fraction=0.1, verbose=0, warm_start=False)

In [8]:
some_digit = X[36000]
sgd_clf.predict([some_digit])

array([5.])

In [10]:
#可以看到sklearn训练了10个二分类器，有10个数值
some_digit_scores = sgd_clf.decision_function([some_digit])
some_digit_scores

array([[-16671.81652572, -21506.4872451 ,  -8464.16626289,
         -5185.40677213, -10032.54249591,   3611.81337481,
        -16903.35184529, -16802.37078474, -11116.99314301,
        -18388.75747065]])

In [11]:
np.argmax(some_digit_scores)

5

In [12]:
sgd_clf.classes_

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [15]:
sgd_clf.classes_[5]

5.0