# Несколько классов и несколько выходов

Виды задач:

- Multiclass classification: число объектов 1, число классов на выходе>2
- Multilabel classification: число объектов >1, число классов 2 (0 или 1)
- Multiclass-multioutput classification: число объектов >1, число классов на выходе>2
- Multioutput regression: число объектов >1, вектор непрерывных величин

## Встроенная поддержка мультиклассов:

- Inherently multiclass:

    - naive_bayes.BernoulliNB
    - tree.DecisionTreeClassifier
    - tree.ExtraTreeClassifier
    - ensemble.ExtraTreesClassifier
    - naive_bayes.GaussianNB
    - neighbors.KNeighborsClassifier
    - semi_supervised.LabelPropagation
    - semi_supervised.LabelSpreading
    - discriminant_analysis.LinearDiscriminantAnalysis
    - svm.LinearSVC (setting multi_class=”crammer_singer”)
    - linear_model.LogisticRegression (setting multi_class=”multinomial”)
    - linear_model.LogisticRegressionCV (setting multi_class=”multinomial”)
    - neural_network.MLPClassifier
    - neighbors.NearestCentroid
    - discriminant_analysis.QuadraticDiscriminantAnalysis
    - neighbors.RadiusNeighborsClassifier
    - ensemble.RandomForestClassifier
    - linear_model.RidgeClassifier
    - linear_model.RidgeClassifierCV

- Multiclass as One-Vs-One:
    - svm.NuSVC
    - svm.SVC.
    - gaussian_process.GaussianProcessClassifier (setting multi_class = “one_vs_one”)

- Multiclass as One-Vs-The-Rest:
    - ensemble.GradientBoostingClassifier
    - gaussian_process.GaussianProcessClassifier (setting multi_class = “one_vs_rest”)
    - svm.LinearSVC (setting multi_class=”ovr”)
    - linear_model.LogisticRegression (setting multi_class=”ovr”)
    - linear_model.LogisticRegressionCV (setting multi_class=”ovr”)
    - linear_model.SGDClassifier
    - linear_model.Perceptron
    - linear_model.PassiveAggressiveClassifier

- Support multilabel:  
    - tree.DecisionTreeClassifier
    - tree.ExtraTreeClassifier
    - ensemble.ExtraTreesClassifier
    - neighbors.KNeighborsClassifier
    - neural_network.MLPClassifier
    - neighbors.RadiusNeighborsClassifier
    - ensemble.RandomForestClassifier
    - linear_model.RidgeClassifier
    - linear_model.RidgeClassifierCV

- Support multiclass-multioutput:
    - tree.DecisionTreeClassifier
    - tree.ExtraTreeClassifier
    - ensemble.ExtraTreesClassifier
    - neighbors.KNeighborsClassifier
    - neighbors.RadiusNeighborsClassifier
    - ensemble.RandomForestClassifier

## Кодирование принадлежности к классу двоичным кодом

In [1]:
import numpy as np
from sklearn.preprocessing import LabelBinarizer
y = np.array(['apple', 'pear', 'apple', 'orange'])
y_dense = LabelBinarizer().fit_transform(y)
print(y_dense)

from scipy import sparse
y_sparse = sparse.csr_matrix(y_dense)
print(y_sparse)


[[1 0 0]
 [0 0 1]
 [1 0 0]
 [0 1 0]]
  (0, 0)	1
  (1, 2)	1
  (2, 0)	1
  (3, 1)	1


# Multiclass Classification
## OneVsRestClassifier

Для каждого класса строится свой классификатор. Выборка для каждого классификатора делится на принадлежащие классу образцы и непринадлежащие. На выходе - номер наиболее вероятного класса.

Также поддерживается multilabel classification. Для этого метки нужно закодировать в виде матрицы из 1 и 0.

In [2]:
from sklearn import datasets
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import LinearSVC
X, y = datasets.load_iris(return_X_y=True)
OneVsRestClassifier(LinearSVC(random_state=0)).fit(X, y).predict(X)



array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## OneVsOneClassifier

Строится n_classes * (n_classes - 1) / 2 классификаторов - для каждой из пар классов. На выходе класс, набравший наибольшее количество голосов, при ничьей - наибольшая достоверность.

In [3]:
from sklearn.multiclass import OneVsOneClassifier

X, y = datasets.load_iris(return_X_y=True)
OneVsOneClassifier(LinearSVC(random_state=0)).fit(X, y).predict(X)



array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

# Multilabel classification

Формат данных: 0 если объект не содержит метку, иначе - 1.

In [4]:
y = np.array([[1, 0, 0, 1], [0, 0, 1, 1], [0, 0, 0, 0]])
print(y)

y_sparse = sparse.csr_matrix(y)
print(y_sparse)

[[1 0 0 1]
 [0 0 1 1]
 [0 0 0 0]]
  (0, 0)	1
  (0, 3)	1
  (1, 2)	1
  (1, 3)	1


In [5]:
from sklearn.datasets import make_multilabel_classification
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
X, y = make_multilabel_classification(n_classes=3, random_state=0)
clf = MultiOutputClassifier(LogisticRegression()).fit(X, y)
clf.predict(X[-2:])

array([[1, 1, 1],
       [1, 0, 1]])

#  Multiclass-multioutput classification

Формат данных

In [6]:
y = np.array([['apple', 'green'], ['orange', 'orange'], ['pear', 'green']])
print(y)

[['apple' 'green']
 ['orange' 'orange']
 ['pear' 'green']]


In [7]:
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils import shuffle
X, y1 = make_classification(n_samples=10, n_features=100,
                            n_informative=30, n_classes=3,
                            random_state=1)
y2 = shuffle(y1, random_state=1)
y3 = shuffle(y1, random_state=2)
Y = np.vstack((y1, y2, y3)).T
n_samples, n_features = X.shape # 10,100
n_outputs = Y.shape[1] # 3
n_classes = 3
forest = RandomForestClassifier(random_state=1)
multi_target_forest = MultiOutputClassifier(forest, n_jobs=2)
multi_target_forest.fit(X, Y).predict(X)

array([[2, 2, 0],
       [1, 2, 1],
       [2, 1, 0],
       [0, 0, 2],
       [0, 2, 1],
       [0, 0, 2],
       [1, 1, 0],
       [1, 1, 1],
       [0, 0, 2],
       [2, 0, 0]])

# Multioutput regression

Формат данных

In [8]:
y = np.array([[31.4, 94], [40.5, 109], [25.0, 30]])
print(y)

[[ 31.4  94. ]
 [ 40.5 109. ]
 [ 25.   30. ]]


In [9]:
from sklearn.datasets import make_regression
from sklearn.multioutput import MultiOutputRegressor
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_regression(n_samples=10, n_targets=3, random_state=1)
MultiOutputRegressor(GradientBoostingRegressor(random_state=0)).fit(X, y).predict(X)

array([[-154.75474165, -147.03498585,  -50.03812219],
       [   7.12165031,    5.12914884,  -81.46081961],
       [-187.8948621 , -100.44373091,   13.88978285],
       [-141.62745778,   95.02891072, -191.48204257],
       [  97.03260883,  165.34867495,  139.52003279],
       [ 123.92529176,   21.25719016,   -7.84253   ],
       [-122.25193977,  -85.16443186, -107.12274212],
       [ -30.170388  ,  -94.80956739,   12.16979946],
       [ 140.72667194,  176.50941682,  -17.50447799],
       [ 149.37967282,  -81.15699552,   -5.72850319]])