# Лабораторная работа №3. Линейные модели для классификации

В задачах классификации, в отличие от задач регрессии, требуется по образу объекта определить его принадлежность к тому или иному классу.
В данной работе будет рассмотрена только задача бинарной (двухклассовой) классификации.
В качестве ответа классификатора используется
$$
P(C_1 | \mathbf\phi) = \sigma( \mathbf{w}^T \mathbf\phi),
$$
где
$$
\sigma(a) = \frac{1}{1 + \mathrm{e}^{-a}}.
$$
 
В случае логистической регрессии минимизируется функция штрафа
$$
E(\mathbf{w}) = -\sum_{n=1}^N\left( t_n \ln y_n + (1 - t_n) \ln (1 - y_n) \right).
$$

Её градиент равен
$$
\nabla E(\mathbf{w}) = \sum_{n=1}^N (y_n - t_n) \mathbf\phi(\mathbf{x}_n) =
\sum_{n=1}^N \left( \sigma(\mathbf{w}^T\mathbf\phi_n - t_n \right) \mathbf\phi_n = \mathbf\Phi^T (\mathbf{y} - \mathbf{T}),
$$
где $\mathbf{y} = (y_1, \dots, y_N)^T$ $-$ отклики распознавателя, $\mathbf{T} = (t_1, \dots, t_N)^T$ $-$ метки классов.
 
Выпишем классический метод градиентного спуска в матричной форме:
$$
\mathbf{w}_{i+1} = \mathbf{w}_i - \alpha\nabla E,\;\;\; i = 1, 2, \dots,
$$
где $\mathbf{w}_0$ задано, а $\nabla E = \nabla E(\mathbf{w}_i, T)$.
Заметим, что здесь $T = \left\{ (\mathbf{x}_k, t_k) \right\}_{k=1}^N$.
То есть в итерационной процедуре на каждой итерации для расчета $\nabla{E}$ используются вся выборка целиком.

Будем теперь вместо полной выборки $T = \left\{ (\mathbf{x}_k, t_k) \right\}_{k=1}^N$ на каждой итерации случайно выбирать $K$ элементов из T:
$T_i = \left( (\mathbf{x}_{i_1}, t_{i_1}), (\mathbf{x}_{i_2}, t_{i_2}), \dots, (\mathbf{x}_{i_K}, t_{i_K}) \right)$.
Назовем $T_i$ пакетом или пачкой (batch).
Индекс $i$ отражает то, что пакет векторов из обучающей выборки выбирается отдельно на каждой итерации.

При $K = 1$ получаем так называемый _стохастический градиентный спуск_ (stochastic gradient descent, SGD).

При $K = N$ используется вся выборка, получаем _классический метод градиентного спуска_ (vanilla gradient descent).

В остальных случаях ($1 < K < N$) метод называют _mini-batch gradient descent_.

На практике обычно _mini-batch gradient descent_ сходится быстрее, чем _vanilla gradient descent_.

Вместе со стохастическим градиентным спуском часто применяют момент.
Момент не позволяет резко измениться направлению спуска.
Это позволяет достичь более плавного и быстрого спуска.
В ряде случаев использование момента также позволяет не «свалиться» в локальный минимум.

**Momentum**.
Итерационный поиск осуществляется по следующему алгоритму:
$$
\begin{gather}
    \mathbf{w}_{i+1} = \mathbf{w}_i + \mathbf{v}_i,\;\;\; i = 1, 2, \dots, \\
    \mathbf{v}_i = \gamma \mathbf{v}_{i-1} - \alpha \nabla{E} \left( \mathbf{w}_i, (\mathbf{x}_{k_i}, t_{k_i} \right), \\
    \mathbf{v}_0 = 0.
\end{gather}
$$

Для параметра $\gamma$ обычно выбирается значение 0.9 или близкое к этому.

In [None]:
import numpy as np
import sklearn as sk
from sklearn import datasets, model_selection, metrics
import matplotlib as mpl
import matplotlib.pyplot as plt
import timeit

mpl.rcParams['axes.grid'] = True

## Задание №1

Разделите выборку на обучающую и тестовую.
Размер тестовой выборки - 20% от размера исходной выборки.
Параметр `n_features` определяется как `3 + mod(<порядковый номер в списке>, 3)`, `n_samples` необходимо взять `600 - 100 * mod(<порядковый номер в списке>, 3)`.

In [None]:
x, y = sk.datasets.make_classification(n_samples=???, n_features=???, random_state=145)
x_train, x_test, y_train, y_test = ???
print(x_train.shape, y_train.shape)

## Задание №2

Реализуйте алгоритм _mini-batch gradient descent_.
В качестве критерия выхода возьмите ограничение по количеству эпох.

In [None]:
class GradientDescent:
    def __init__(self, batch_size, alpha=1e-3, eps=1e-6, epoch=100):
        self.rng = np.random.default_rng(seed=489);
        self.alpha, self.eps, ... = ???
    
    def fit(self, x, y, val_x, val_y):
        self.w = self.rng.???
        self.loss, self.precision = [], []
        self.val_loss, self.val_precision = [], []

        xx = ??? np.concatenate
        idxs = range(0, xx.shape[0], self.batch_size)
        for i in range(???):
            ???
            for idx in ??? rng.permutation
                N = ???
                deriv = ??? np.asmatrix
                self._update(xx???, deriv)

            self.loss.append(sk.metrics.???)
            self.precision.append(sk.metrics.???)
            self.val_loss.append(sk.metrics.???)
            self.val_precision.append(sk.metrics.???)
   
    def _update(self, x, derr):
        self.w = ???

    def predict_proba(self, x):
        xx = ???
        return ??? xx self.w reshape(-1)

    def __call__(self, x):
        return self.predict_proba(x) ???

# Тестирование

test_x = np.array([[1, 1, 1], [2, 4, 16], [3, 9, 27]])
gd = GradientDescent(batch_size=10)
gd.fit(test_x, [1, 0, 1], val_x=test_x, val_y=[1, 0, 1])
print("Response", gd(test_x))
assert sk.metrics.precision_score(gd(test_x), [1, 0, 1]) == 1.0, 'Метод недостаточно точный'
assert sk.metrics.accuracy_score(gd(test_x), [1, 0, 1]) > 0.6, 'Метод недостаточно точный'

## Задание №3

Протестируйте написанный алгоритм, подберите параметры градиентного спуска, дающие после обучения классификатор с наилучшей точностью
($\text{точность} = \frac{\text{количество правильно классифицированных векторов}}{\text{количество векторов}}$).
Сравните классический градиентный спуск, стохастический и mini-batch.
Для начала возьмите следующие параметры:

* случайные начальные значения весов (равномерное распределение на отрезке $[-1; 1]$ для каждой компоненты);
* размер шага обучения $\alpha = 10^{-5}$;
* размер пакета _batch size_ = 20;
* максимальное количество эпох 1000.

Приведите в отчет полученную точность и значение функции штрафа на тестовой и обучающей выборках.
Постройте графики для каждого тестируемого размера батча:

* зависимость функции штрафа на обучающей и тестовой выборках от номера эпохи;
* зависимость точности на обучающей и тестовой выборках от номера эпохи;
* зависимость времени выполнения алгоритма от размера батча.

In [None]:
%%time

times = {}
for batch in [1, 20, 50, 100, x_train.shape[0]]:
    gd = GradientDescent(batch, epoch=???, alpha=???)
    t = timeit.default_timer()
    gd.fit(x_train, y_train, val_x=x_test, val_y=y_test)
    times[batch] = timeit.default_timer() - t
    y_pred = gd(x_test)
    print(f"Batch size = {batch}, precision = {sk.metrics.???(y_test, y_pred)}")
    
    fig, (ax0, ax1) = plt.subplots(1, 2, figsize=(2*6, 4))
    ax0.plot(range(len(gd.loss)), gd.loss, label='обучающая')
    ax0.plot(range(len(gd.val_loss)), gd.???, label='тестовая')
    ax0.set(xlabel='Номер эпохи', ylabel='Ошибка ???', title='Loss')
    ax0.legend()
    ax1.plot(range(len(gd.precision)), gd.precision, label='обучающая')
    ???
    ax1.set(???, title='Precision')
    fig.suptitle(f"Размер батча {batch}")
    
plt.figure()
plt.plot(times.keys(), times.values()) # python3.7+
plt.xlabel(???)
plt.ylabel(???)
plt.title('Зависимость времени работы от размера батча')

**Вопросы**

1. Зависит ли точность от размера батча? Почему?
1. Зависит ли время работы алгоритма от размера батча? Почему?

**Ответы**

1. ???
1. ???

## Задание №4

Реализуйте метод оптимизации градиентного спуска _momentum_.
Примените наследование от `GradientDescent` и перегрузите метод `_update`, в котором происходят обновления весов модели.

In [None]:
class MomentumGD(GradientDescent):
    def __init__(self, gamma, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.gamma = gamma
        
    def fit(self, x, *args, **kwargs):
        self.v = ???
        super().fit(x, *args, **kwargs)
    
    def _update(self, x, err):
        self.v = ???
        self.w += ???

## Задание №5

Подберите параметры, дающие улучшение сходимости (в большей степени это относится к параметру $\gamma$).  

* Сравните скорость сходимости со скоростью в задании 2.
Для этого постройте графики, на которых сравниваются скорости сходимости и качества модели для **обучающей** выборки.
* Сравните достигнутую точность с точностью в задании 2.
Удалось ли лучше обучить модель?
Чтобы эксперимент был «честным» следует запускать все методы с одними и теми же параметрами и с одними и теми же начальными значениями весов.

In [None]:
%%time

gd0 = GradientDescent(batch_size=50, epoch=1000, alpha=1e-5)
gd0.fit(x_train, y_train, val_x=x_test, val_y=y_test)

for gamma in [0.1, 0.3, 0.6, 0.9, 1.0]:
    gd = MomentumGD(gamma=gamma, ???)
    gd.fit(???)
    y_pred = gd(x_test)
    print(f"Gamma = {gamma}, precision = {sk.metrics.???(y_test, y_pred)}")
    
    fig, (ax0, ax1) = plt.subplots(1, 2, figsize=(2*6, 4))
    ???
    ax0.plot(??? label='обучающая')
    ax0.plot(??? label='тестовая')
    ax0.plot(??? label='обучающая GD')
    ax0.set(xlabel='Номер эпохи', ylabel='Ошибка ???', title='Loss')
    ax0.legend()
    ???
    fig.suptitle(f"Коэффициент $\gamma$ {gamma}")

**Вопросы**

1. Какой из алгоритмов быстрее достигает итоговой точности?
1. С ростом коэффициента $\gamma$ алгоритм сходится быстрее или медленее?
1. Что происходит при очень большом коэффициенте $\gamma$?

**Ответы**

1. ???
1. ???
1. ...

## Задание №6

Для какой-либо из обученных моделей постройте график, на котором изображено разделение пространства признаков на две области.
Проверьте, что разделяющая поверхность - линейная.

In [None]:
x_min, x_max = x_test[:, 0].min() - 1, x_test[:, 0].max() + 1
y_min, y_max = x_test[:, 1].min() - 1, x_test[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.05), np.arange(y_min, y_max, 0.05))
Z = gd0(np.c_[xx.ravel(), yy.ravel(), np.zeros((xx.ravel().shape[0], x_test.shape[1] - 2))])
plt.contourf(xx, yy, Z.reshape(xx.shape), cmap=plt.cm.Paired, alpha=0.5)

plt.scatter(x_test[:, 0], x_test[:, 1], c=y_test)
plt.xlabel('X0')
plt.ylabel('X1')

## Задание №7

Классы в выборке не являются линейно разделимыми.
С данной проблемой можно бороться, воздействуя какой-то функцией на старые признаки:
$$
\mathbf{\phi}(\mathbf{x}) = \left( \phi_1(x_1, \dots, x_n), \dots, \phi_n(x_1, \dots, x_n) \right)^T.
$$

Покажите, как изменяется разделяющая поверхность, если задавать разную функцию отображения.
Постройте график, на котором изображено разделение пространства признаков и приведите величину достигнутой точности на тестовой выборке.
Попробуйте добиться лучшей точности (необязательно).

In [None]:
%%time

class MGD(GradientDescent):
    def _func(self, x):
        return ???
    
    def fit(self, x, y, val_x, val_y):
        super().fit(???)
    
    def __call__(self, x):
        return super().__call__(???)

gdx = MGD(batch_size=50, epoch=1000, alpha=1e-5)
gdx.fit(x_train, y_train, x_test, y_test)
plt.plot(???)
plt.plot(???)
plt.legend()

plt.figure()
Z = gdx(???)
???

print("Score =", sk.metrics.???(y_test, gdx(x_test)))

**Выводы**:

...