# Многоклассовая классификация

## Импорт библиотек, установка константных значений, загрузка данных

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

In [None]:
RANDOM_STATE = 42
TRAIN_SIZE = 0.75

In [None]:
data = load_iris(as_frame=True)

X = data.data
y = data.target

## Практика

Посмотрим на целевую переменную.

In [None]:
y.value_counts()

0    50
1    50
2    50
Name: target, dtype: int64

Разобъем данные на тренировочную и тестовую части.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    train_size=TRAIN_SIZE,
                                                    random_state=RANDOM_STATE)

X_train.shape, X_test.shape

((112, 4), (38, 4))

Применим логистическую регрессию для решения задачи.

У этой модели есть гиперпараметр `multi_class`, который может принимать значения:
* `ovr`
* `multinomial`

`ovr` - это сведение многоклассовой задаче к серии бинарных методом `one-versus-rest`

`multinomial` - это решение исходной задачи путем обобщения функции потерь логистической регрессии на многоклассовый случай (в многоклассовом случае используется функция потерь под названием [кросс-энтропия](https://en.wikipedia.org/wiki/Logistic_regression)).


Сначала используем опцию `ovr`.  
Обучим модель на тренировочных данных, сделаем предсказания на тесте и оценим качество по метрике *accuracy*.

In [None]:
model_ovr = LogisticRegression(multi_class='ovr')

model_ovr.fit(X_train, y_train)

pred_ovr = model_ovr.predict(X_test)

accuracy_score(y_test, pred_ovr)

0.9736842105263158

Теперь используем подход `multinomial`.

In [None]:
model_mn = LogisticRegression(multi_class='multinomial', max_iter=1000)

model_mn.fit(X_train, y_train)

pred_mn = model_mn.predict(X_test)

accuracy_score(y_test, pred_mn)

1.0

Подход с опцией `multinomial` сработал в этой задаче лучше.

Однако, это не означает, что он всегда будет работать лучше.

Посмотрим на другие метрики.

In [None]:
print(classification_report(y_test, pred_ovr, digits=5))

              precision    recall  f1-score   support

           0    1.00000   1.00000   1.00000        15
           1    1.00000   0.90909   0.95238        11
           2    0.92308   1.00000   0.96000        12

    accuracy                        0.97368        38
   macro avg    0.97436   0.96970   0.97079        38
weighted avg    0.97571   0.97368   0.97358        38



In [None]:
print(classification_report(y_test, pred_mn))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       1.00      1.00      1.00        11
           2       1.00      1.00      1.00        12

    accuracy                           1.00        38
   macro avg       1.00      1.00      1.00        38
weighted avg       1.00      1.00      1.00        38



Мы видим, что модель, полученная в результате `ovr` подхода, путает между собой ирисы типов 1 и 2.

Модель `multinomial` - ничего не путает.