# Альтернативный подход к задачам мультиклассовой классификации:

Вместо того, чтобы предсказывать таргет напрямую, мы можем закодировать таргет в двоичном коде и предсказывать каждый бит по отдельности.

Тогда нам понадобится всего $~ \text{log}_2(L + 1)$ классификаторов на L + 1 класс.

Попробуем обучить набор таких логрегов и сравнить качество полученного классификатора с мультиномиальной и OvR регрессиями.

In [1]:
# импорт базовых библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set();
import scipy.stats as sps

#### Шаг 0: импорт и препроцессинг данных

In [2]:
%%time
# выгружаем датасет
from sklearn.datasets import fetch_openml
mnist = fetch_openml(data_id=554) # https://www.openml.org/d/554
# генерируем сегментирующую случайную переменую
rn = pd.Series(sps.randint.rvs(1, 101, size = len(mnist.data), random_state = 42))
# разбиваем на трейн/валидацию/тест
X = mnist.data
y = mnist.target
train_mask, val_mask, test_mask = (rn <= 60), ((rn > 60) & (rn <= 70)), (rn > 70)
X_train, y_train, X_test, y_test, X_val, y_val = X[train_mask], y[train_mask], X[test_mask], y[test_mask], X[val_mask], y[val_mask]

Wall time: 1min 33s


In [3]:
# нормируем данные
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)

#### Шаг 1: учим классификаторы с семинара

Вообще говоря, мы можем научить классификаторы с базовыми гиперпараметрами -- на семинаре мы видели, что они показывают на нашей задаче неплохое качество, но ведь нет предела совершенству -- давайте подберём какие-нибудь гиперпараметры для логрега (список можно посмотреть тут: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)

#### Автоматизировать подбор гиперпараметров , как правило, удобнее -- ручной подбор предпочтителен для понимания, что и как влияет на качество моделей, но обычно занимает слишком много времени и сил без каких-либо преимуществ над автоматическим отбором

Реализуем функцию grid_search, которая будет делать следующее: принимая обучающую и валидационную выборки, функция обучает набор из классификаторов со всевозможными комбинациями гиперпараметров (предварительно указанных нами для перебора в словаре) и выбирает из них тот, чьё качество по целевой метрике на валидационной выборке оказывается наилучшим.

$\textbf{Вопрос для размышления:}$ можно ли тут попробовать "встроить" защиту от переобучения?

In [19]:
#реализуем функцию для подбора гиперпараметров модели
#для перехода от словаря параметров к списку комбинаций может быть полезен sklearn.model_selection.ParameterGrid
from sklearn.model_selection import ParameterGrid
from sklearn.linear_model import LogisticRegression
from IPython.display import clear_output

def grid_search(X_train,
                X_val,
                y_train,
                y_val,
                params_dict):
    '''
    Функция подбирает гиперпараметры мультиномиальной логитиеской регрессии для получения максимального значения accuracy
    на валидационной выборке, принимает:
    X_train -- DataFrame независимых переменных на обучающей выборке
    X_val -- DataFrame независимых переменных на валидационной выборке
    y_train -- Series таргета на обучающей выборке
    y_val -- Series таргета на валидационной выборке
    params_dict -- словарь гиперпараметров в формате {'paramater_nm':[value_1, value_2, ...]}
    '''
    grid_of_pars = ParameterGrid(params_dict)
    length = len(grid_of_pars)
    grid_of_scores = np.zeros(length)
    for i,par_set in enumerate(grid_of_pars):
        print(f'par_set №{i} of {length}: {par_set}')
        LogReg = LogisticRegression(penalty=par_set['penalty'],
                                    max_iter=par_set['m_i'],
                                    C=par_set['C'],
                                    multi_class=par_set['m_c'])
        LogReg.fit(X_train, y_train)
        score = LogReg.score(X_val, y_val)
        grid_of_scores[i] = score
    best_model = grid_of_pars[np.argmax(grid_of_scores)]
    return(best_model) #ну или best_parameters, если вдруг так интереснее

  and should_run_async(code)


In [None]:
import warnings
warnings.filterwarnings('default')

LogReg_parameters = {'penalty': ['none', 'l1', 'l2'], 
                     'm_i': [500, 1000],
                     'm_c': ['ovr', 'multinomial'],
                     'C': [0.1, 1, 5, 10]}
grid_search(X_train, X_val, y_train, y_val, LogReg_parameters)

In [85]:
# тут обучаем свой классификатор -- можно просто .fit() без подбора параметров, можно -- с подбором
clf = LogisticRegression(penalty='l2',
                            max_iter=5000,
                            C=0.1,
                            multi_class='ovr')

clf.fit(X_train, y_train)

LogisticRegression(C=0.1, max_iter=5000, multi_class='ovr')

#### Шаг 2: бинаризуем таргет и учим классификаторы

In [24]:
pd.unique(y_train)

['5', '4', '2', '3', '6', '1', '7', '9', '8', '0']
Categories (10, object): ['5', '4', '2', '3', ..., '7', '9', '8', '0']

In [30]:
data = pd.DataFrame(index=range(100))
data['num'] = [5*i for i in range(100)]
data

  and should_run_async(code)


Unnamed: 0,num
0,0
1,5
2,10
3,15
4,20
...,...
95,475
96,480
97,485
98,490


10 классов => Log_2 (10) $\approx$ 4 столбца

In [60]:
def make_binary_predictors(y):
    '''
    Функция принимает Series y c категориальной переменной и делает DataFrame с [log_2(L+1)] столбцами из 0 и 1
    
    подсказка: в нашем конкретном случае можно переводить десятичное число в двоичное 
    '''
    cols = 4
    len_y = len(y)
    bin_data = np.zeros((len_y, cols), dtype=int)
    for i, y0 in enumerate(y):
        bin_object = np.binary_repr(int(y0), width=4)
        for j in range(cols):
            bin_data[i][j] = int(bin_object[j])
    targets = pd.DataFrame(data=bin_data, columns=list(map(str, range(cols-1,-1,-1))))
    return(targets)

y_train_b = make_binary_predictors(y_train)
y_val_b = make_binary_predictors(y_val)
y_test_b = make_binary_predictors(y_test)

In [63]:
y_train_b.columns[1:]

Index(['2', '1', '0'], dtype='object')

In [89]:
class BinarisedTargetClassifier():
    '''
    класс BinarisedTargetClassifier -- мультиклассовый классификатор на основании нескольких бинарных логистических регрессий
    '''
    def __init__(self):
        self.models = [LogisticRegression(max_iter=5000, C=0.5) for i in range(4)]
    
    def fit(self,X_train, y_train):
        for col in y_train.columns:
            self.models[int(col)].fit(X_train, y_train[col])
            
    def predict(self, X):
        i = 0
        predict = 2 ** i * self.models[i].predict(X)
        for i in range(1,4):
            predict += 2 ** i * self.models[i].predict(X)
        return list(map(str, predict))
    
    def predict_score(self, X): #(без него не построить AUC, но в целом обойтись можно)
        pass

  and should_run_async(code)


In [90]:
#учим созданный классификатор
from sklearn.metrics import accuracy_score

clf_bin = BinarisedTargetClassifier()
#обучаем
clf_bin.fit(X_train, y_train_b)
#предсказываем класс, считаем accuracy
y_pred = clf_bin.predict(X_test)
accuracy_bin = accuracy_score(y_test, y_pred)
#предсказываем вероятность, считаем AUC
score_bin = clf_bin.predict_score(X_test)
#auc_bin = roc_auc_score(y_test, score_bin, average='macro', multi_class = 'ovr')

#### Шаг 3: сравнение качества полученных классификаторов

In [92]:
accuracy_test = clf.score(X_test, y_test)
y_score = clf.predict_proba(X_test)
#auc_test = roc_auc_score(y_test, y_score, average='macro', multi_class = 'ovr')

  and should_run_async(code)


In [93]:
res = pd.DataFrame(
{'regression_type' : ['sample','BinaryClass'],
'accuracy' : [accuracy_test,accuracy_bin]
#,'macro AUC' : [auc_test,auc_bin]
}
)
res

  and should_run_async(code)


Unnamed: 0,regression_type,accuracy
0,sample,0.914932
1,BinaryClass,0.712144


$\textbf{Вывод}:$

One-Vs-Rest-алгоритм действует лучше Лог-бинаризации, т.к не зависит от порядка классов - например, во втором случае 1 в одном из разрядов будет обозначать принадлежность к нескольким классам, причём разряды разные по мощности множества соответствующих классов (4-й для 9-го и 10-го, 1-й для всех чётных)