<font size="6">Линейные модели</font>

Сегодня мы познакомимся с линейными моделями. Это - простые модели, которые являются частью многих сложных моделей, которые мы будем рассказывать на нашем курсе.

В основе линейных моделей лежит линейная функция
$$f(\vec x) = (\vec w, \vec x) +b $$
где $(\vec w, \vec x)$  - скалярное произведение:

$$(\vec w, \vec x) = \sum_{i=1}^n{w_ix_i} = w_1x_1+w_2x_2+...+w_ix_i+ ... + w_nx_n$$

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/scalar_product_ways_to_use.png" width="800">

В дальнейшем мы будем проходить **модель нейрона головного мозга**, которая ляжет в основу всех **нейронных сетей** от полносвязных и сверточных сетей, до сложных генеративных моделей и трансформеров. В ней мы встретимся с **линейным слоем**.


# Линейная регрессия

**Регрессия** — это одна из трех базовых задач машинного обучения (классификация, регрессия, кластеризация).

В задаче **регрессии** мы используем входные **признаки**, чтобы предсказать **целевые значения**. Например, чтобы предсказать цену жилья по его характеристикам (площадь, этаж, год постройки дома, высота потолков, район, ...). **Линейная регрессия** сводится к тому, чтобы провести “**линию наилучшего соответствия**” через набор точек данных. Она является простым предшественником нелинейных методов, которые используются для обучения нейронных сетей.


##  Модель и ее параметры

Цель линейной регрессии — **поиск линии, которая наилучшим образом соответствует заданным точкам**. Напомним, что общее уравнение для прямой есть

$$f(x) = w⋅x + b,$$

где $w$ — характеризует наклон линии (в будущем мы будем называть значения $w$ весом, weight) а $b$ — её сдвиг по $y$ (bias). Таким образом, решение линейной регрессии определяет значения для $w$ и $b$ так, что $f (x)$ приближается как можно ближе к $y$. $w$ и $b$ — **параметры модели**.


Отобразим на графике случайные точки, расположенные в окрестности $y = 3⋅x + 2$

In [None]:
import matplotlib.pyplot as plt
import numpy as np


np.random.seed(0)
x = np.random.rand(100, 1)
y = 2 + 3 * x + (np.random.rand(100, 1) - 0.5)

plt.figure(figsize=(5, 3))
plt.scatter(x, y, s=10)
plt.xlabel("x")
plt.ylabel("y")
plt.show()

Предположим, что нам неизвестны параметры наклона и сдвига $w$ и $b$. Для их определения мы бы могли рассмотреть всевозможные прямые вида $f(x) = w⋅x + b$ и выбрать среди семейства прямых такую, которая лучше всего приближает имеющиеся данные:

In [None]:
plt.figure(figsize=(5, 3))
plt.scatter(x, y, s=10)
for w in np.arange(-5.0, 7.0, 1):
    for b in [-1, 0, 1, 2, 3]:
        y_predicted = b + w * x
        plt.plot(x, y_predicted, color="r", alpha=0.3)
plt.xlabel("x")
plt.ylabel("y")
plt.show()

**Модель** $f(x) = w⋅x + b$ задаёт параметрическое семейство функций, а **выбор "правильного" представителя** из **параметрического семейства** и называется **обучением** модели:

In [None]:
plt.figure(figsize=(5, 3))
plt.scatter(x, y, s=10)
for w in np.arange(-5.0, 7.0, 1):
    for b in [-1, 0, 1, 2, 3]:
        y_predicted = b + w * x
        plt.plot(x, y_predicted, color="r", alpha=0.3)
plt.plot(x, 2 + 3 * x, color="g")
plt.xlabel("x")
plt.ylabel("y")
plt.show()

## Функция потерь

Как выбрать параметры?

**Функция потерь**  позволяет вычислить меру количества ошибок. Для задачи **регрессии** такой мерой может быть **расстояние** между предсказанным значением $f(х)$ и его фактическим значением. Распространенной функцией потерь является **средняя квадратичная ошибка** (MSE). Чтобы вычислить MSE, мы просто берем все значения ошибок, считаем квадраты их длин и усредняем.



То есть мы определяем ошибку модели на одном объекте как квадрат расстояния между предсказанием и истинным значением, а общая функция потерь будет задана выражением:

$$l_i =|y_i - f(x_i)| $$

$$ Loss = \sum l_i^2 = \frac{1}{N} \sum (y_i - f(x_i))^2$$

Для прямой с параметрами $w=4$, $b = 2$ и $w=3$, $b = 2$ (верные значения):

In [None]:
def plot_delta_line(ax, x, y, w, b, color="r"):
    y_predicted = w * x + b
    # line
    ax.plot(x, y_predicted, color=color, alpha=0.5, label=f"f(x)={w}x+{b}")
    # delta
    for x_i, y_i, f_x in zip (x, y, y_predicted):
        ax.vlines(x=x_i, ymin=min(f_x, y_i), ymax = max(f_x, y_i),
                  ls='--', alpha=0.3)
    # MSE
    loss = np.sum((y - (w * x + b)) ** 2) / (len(x))
    ax.set_title(f"MSE = {loss:.3f}")
    ax.legend()


fig, axs = plt.subplots(1, 2,  figsize=(11, 4))

# plot x_i y_i (dots)
for ax in axs:
    ax.scatter(x, y, s=10)
    ax.set_xlim([0, 1])
    ax.set_ylim([2, 6])
    ax.set_xlabel("x")
    ax.set_ylabel("y")

plot_delta_line(axs[0], x, y, w=4, b=2, color="r")
plot_delta_line(axs[1], x, y, w=3, b=2, color="g")

plt.show()

Задача **поиска оптимальных параметров** модели сводится к задаче **поиска минимума функции потерь**.

## Поиск локального минимума

Посмотрим, как будет выглядеть ландшафт функции потерь для нашей задачи.

In [None]:
w = np.arange(-10, 30, 1)
b = np.arange(-10, 10, 1)

w, b = np.meshgrid(w, b)

loss = np.zeros_like(w)
for i in range(w.shape[0]):
    for j in range(w.shape[1]):
        loss[i, j] = np.sum((y - (w[i, j] * x + b[i, j])) ** 2) / (len(x))

fig = plt.figure()
ax = fig.add_subplot(111, projection="3d")
surf = ax.plot_surface(w, b, loss, cmap=plt.cm.RdYlGn_r, alpha=0.5)

ax.contourf(w, b, loss, zdir="z", offset=-1, cmap="RdYlGn_r", alpha=0.5)
ax.set_zlim(0, 20)

ax.set_xlabel("w")
ax.set_ylabel("b")
ax.set_title("MSE")

fig.colorbar(surf, location = 'left')
plt.show()

Необходимым (но недостаточным) [условием локального минимума](http://school-collection.edu.ru/catalog/res/a8dc6578-4819-4297-ab14-95ffab6fe8b6/view/#:~:text=%D0%B5%D1%81%D0%BB%D0%B8%20%D0%BF%D1%80%D0%B8%20%D0%BF%D0%B5%D1%80%D0%B5%D1%85%D0%BE%D0%B4%D0%B5%20%D1%87%D0%B5%D1%80%D0%B5%D0%B7%20%D1%82%D0%BE%D1%87%D0%BA%D1%83%20%D1%850%20%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D0%BD%D0%B0%D1%8F%20%D0%BC%D0%B5%D0%BD%D1%8F%D0%B5%D1%82%20%D1%81%D0%B2%D0%BE%D0%B9,%D1%82%D0%BE%D1%87%D0%BA%D0%B5%20%D1%850%20%D0%BD%D0%B5%D1%82%20%D1%8D%D0%BA%D1%81%D1%82%D1%80%D0%B5%D0%BC%D1%83%D0%BC%D0%B0.) дифференцируемой функции является равенство нулю частных производных:

$$	\begin{equation*}
 \begin{cases}
   \frac{\partial Loss}{\partial w}=0,
   \\
   \frac{\partial Loss}{\partial b}=0.
 \end{cases}
\end{equation*} $$

Т.к. MSE для линейной регрессии - полином второй степени относительно $w$ и $b$, а полином второй степени не может иметь больше одного экстремума, то локальный минимум будет глобальным.

##  Метод наименьших квадратов

Реализуем простейшую модель линейной регрессии с использованием библиотеки NumPy на датасете, определённом выше.

Используем метод наименьших квадратов: [МНК простейшие частные случаи](https://ru.wikipedia.org/wiki/Метод_наименьших_квадратов#Простейшие_частные_случаи).

$$w = \frac{n\sum_{i=1}^nx_iy_i - (\sum_{i=1}^nx_i)(\sum_{i=1}^ny_i)}{n\sum_{i=1}^nx_t^2 - (\sum_{i=1}^n x_t)^2};$$

$$b = \frac{\sum_{i=1}^ny_i - w(\sum_{i=1}^nx_i)}{n}.$$

По сути метод наименьших квадратов - это решение системы уравнений выше.

In [None]:
def estimate_coef(x, y):
    n = len(x)
    assert n == len(y)
    w = (n * sum(np.multiply(x, y)) - sum(x) * sum(y)) / (
         n * sum(np.multiply(x, x)) - sum(x) ** 2
    )
    b = (sum(y) - w * sum(x)) / n
    return w, b

w, b = estimate_coef(x, y)

y_predicted = w * x + b

print(f"Estimated coefficients:\nb = {b[0]:.3f} \nw = {w[0]:.3f}")
print(f"Final equation: \ny = {w[0]:.3f}x +{b[0]:.3f}")

plt.figure(figsize=(5, 3))
plt.scatter(x, y, s=10)
plt.plot(x, y_predicted, color="g")
plt.xlabel("x")
plt.ylabel("y")
plt.show()

## Метрики регрессии

С одной из метрик регрессии мы уже познакомились: это  — $MSE$, которую мы минимизировали в методе наименьших квадратов. Стоит отметить что $MSE$ имеет [размерность](https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8) квадрата размерности предсказываемого значения.

$$ MSE  = \frac{1}{N} \sum (y_i - f(x_i))^2$$

Чтобы получить оценку ошибки той же размерности можно взять корень (root) от $MSE$. Это метрика $RMSE$:

$$ RMSE = \sqrt{\frac{1}{N} \sum (y_i - f(x_i))^2}$$

Или посчитать среднюю абсолютную ошибку $MAE$:

$$ MAE = \frac{1}{N} \sum |y_i - f(x_i)|$$

Существуют и более специфичные метрики, например $R^2$, которая принимает значения от $(-\inf, 1]$, где $1$  —  наилучший вариант. $R^2$  называется [коэффициентом детерминации](https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82_%D0%B4%D0%B5%D1%82%D0%B5%D1%80%D0%BC%D0%B8%D0%BD%D0%B0%D1%86%D0%B8%D0%B8) и характеризуют долю дисперсии целевого значения, которую объясняет модель.

$$R^2 = 1 - \frac{MSE}{\sigma^2}=1 - \frac{\sum {(y_i-f(x_i))^2}}{\sum{(y_i-\bar{y})^2}}$$

$$\bar{y} = \frac{1}{N}\sum {y_i}$$

где $\sigma^2$ - дисперсия.



<center>Когда $R^2$ около нуля - модель плохо объясняет данные.</center>

<center><img src ="https://imgs.xkcd.com/comics/linear_regression.png" width="600"></center>

<center><em> Source: https://xkcd.com/1725</em></center>


In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

def print_metrics(y_true, y_predicted):
    print(f"Mean squared error: {mean_squared_error(y_true, y_predicted):.3f}")
    print("Root mean squared error: ",
          f"{mean_squared_error(y_true, y_predicted, squared=False):.3f}")
    print(f"Mean absolute error: {mean_absolute_error(y_true, y_predicted):.3f}")
    print(f"R2 score: {r2_score(y_true, y_predicted):.3f}")

print_metrics(y, y_predicted)

Подробнее про метрики можно почитать: [тут](https://academy.yandex.ru/handbook/ml/article/metriki-klassifikacii-i-regressii)

## Модель линейной регрессии из библиотеки scikit-learn

Свою линейную регрессию мы написали, теперь изучим как работать с моделью из sklearn.

Рассмотрим следующую задачу. Пусть мы хотим построить модель предсказания успеваемости студента на основе информации о величине потраченного им на изучение материала количества времени в часах. Это пример простейшей задачи линейной регрессии.

Загрузим датасет. Датасет содержит два числовых значения — часы и результаты.

In [None]:
import pandas as pd

dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/student_scores.csv"
)
print(dataset.shape)
dataset.head()

Построим график зависимости одного от другого, а также отобразим распределения каждой из переменных

In [None]:
import seaborn as sns

sns.jointplot(data=dataset, x="Hours", y="Scores", height=5)
plt.show()

Разделим наши данные на train и test

In [None]:
from sklearn.model_selection import train_test_split

x = dataset.iloc[:, :-1].values  # column Hours
y = dataset.iloc[:, 1].values  # column Score

x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.2, random_state=42
)

Теперь создадим модель для линейной регрессии. Чтобы не писать с нуля, воспользуемся готовой моделью из библиотеки `sklearn`

In [None]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()

И обучим ее

In [None]:
regressor.fit(x_train, y_train)

Посмотрим, что получилось

In [None]:
x_train.shape

In [None]:
x_points = np.linspace(min(x_train), max(x_train), 100)  # 100 dots at min to max
y_pred = regressor.predict(x_points)

plt.figure(figsize=(6, 4))
plt.plot(x_train, y_train, "o", label="Scores")
plt.plot(
    x_points,
    y_pred,
    label="y = %.2fx+%.2f" % (regressor.coef_[0], regressor.intercept_),
)
plt.title("Hours vs Percentage", size=12)
plt.xlabel("Hours Studied", size=12)
plt.ylabel("Percentage Score", size=12)
plt.legend()
plt.show()

Теперь сделаем предсказание для тестовой выборки

In [None]:
y_pred = regressor.predict(x_test)

x_points = np.linspace(min(x_test), max(x_test), 100)
y_pred = regressor.predict(x_points)

plt.figure(figsize=(6, 4))
plt.plot(x_test, y_test, "o", label="Scores")
plt.plot(
    x_points,
    y_pred,
    label="y = %.2fx+%.2f" % (regressor.coef_[0], regressor.intercept_),
)
plt.title("Hours vs Percentage", size=12)
plt.xlabel("Hours Studied", size=12)
plt.ylabel("Percentage Score", size=12)
plt.legend()
plt.show()

Выглядит неплохо

Посчитаем метрики для наших значений:

In [None]:
y_pred = regressor.predict(x_test)
print_metrics(y_test, y_pred)

Будьте осторожнее, модели отражают только те закономерности, которые видели в данных. Вероятность того, что студент, потративший на подготовку 20 часов получит больше максимального балла мала.

<center><img src ="https://imgs.xkcd.com/comics/extrapolating.png" width="600"></center>

<center><em> Source: https://xkcd.com/605</em></center>





# Метод градиентного спуска

Мы решали задачу линейной регрессии аналитически (МНК), но это не всегда возможно по нескольким причинам:
* Для аналитического решения нужно считать обратную матрицу, это - вычислительно сложно и матрица бывает плохо определенной.
* Данных может быть слишком много, чтобы их можно было одновременно положить в пямять для расчета обратной матрицы.
* Модели могут быть слишком сложные для поиска аналитического решения. Более того, для сложных моделей  ландшафт функции потерь может иметь сложный рельеф с несколькими локальными минимумами.

Давайте поговорим о том, что делать в таком случае.


## Градиент

Метод, который мы будем использовать, называется **“метод градиентного спуска”**. Для начала вспомним, что такое **градиент**. Возьмем функцию двух переменных:

$$f(x, y) = \sin(x\cdot y)$$

Она будет отличаться от функции потерь, которую мы визуализировали тем, что у нее не будет одного экстремума. Рассчитаем ее на диапазоне значений от 0 до 4.

In [None]:
import numpy as np

f = lambda x, y: np.sin(x * y)

x = np.linspace(0, 4, 1000)
y = np.linspace(0, 4, 1000)
xx, yy = np.meshgrid(x, y)
zz = f(xx, yy)

Eсли $\varphi = \varphi(\vec{x})=\varphi(x_1 \dots x_n)$  — функция $n$ переменных, то её градиентом называется $n$-мерный вектор:
$$
\nabla \varphi(\vec{x})=
\begin{bmatrix}
\frac{\partial\varphi}{\partial x_1}\\
\frac{\partial\varphi}{\partial x_2}\\
...\\
\frac{\partial\varphi}{\partial x_n}\\
\end{bmatrix}
$$


Посчитаем градиент нашей функции $f(x, y)$. Для этого воспользуемся [**таблицей производных**](https://ru.wikipedia.org/wiki/%D0%A2%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D0%BD%D1%8B%D1%85) и правилом вычисления [**производной сложной функции**](https://ru.wikipedia.org/wiki/%D0%94%D0%B8%D1%84%D1%84%D0%B5%D1%80%D0%B5%D0%BD%D1%86%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%BB%D0%BE%D0%B6%D0%BD%D0%BE%D0%B9_%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D0%B8) (Chain-rule) $\frac {\partial f} {\partial x} = \frac {\partial f} {\partial t} \cdot \frac {\partial t} {\partial x}$ - это правило очень нам пригодиться в будущем.

$$\nabla f(x, y)=\begin{bmatrix}
\frac{\partial f}{\partial x}\\
\frac{\partial f}{\partial y}\\
\end{bmatrix}
=\begin{bmatrix}
\frac{\partial\sin(xy)}{\partial(xy)}\cdot\frac{\partial(xy)}{\partial x}\\
\frac{\partial\sin(xy)}{\partial(xy)}\cdot\frac{\partial(xy)}{\partial y}\\
\end{bmatrix}
= \begin{bmatrix}
\cos(xy)\cdot y\\
\cos(xy)\cdot x\\
\end{bmatrix}
$$

Посчитаем градиент на том же диапазоне (сетка реже, т.к. мы будем рисовать не точки, а стрелочки):


In [None]:
gradf = lambda x, y: (np.cos(x * y) * y, np.cos(x * y) * x)

xsmall = np.linspace(0, 4, 15)
ysmall = np.linspace(0, 4, 15)
xxsmall, yysmall = np.meshgrid(xsmall, ysmall)
gradx, grady = gradf(xxsmall, yysmall)

Так как **значение градиента в точке** - это вектор, мы можем говорить о его **величине** и **направлении**. Так как значение градиента в точке - это вектор, мы можем говорить о его величине и направлении. Визуализируем наши расчеты: посмотрим на ландшафт функции $f(x, y)$ и направления градиентов.


In [None]:
import matplotlib.pyplot as plt

fig = plt.figure(figsize=(11, 4))
ax = fig.add_subplot(121, projection="3d")
surf = ax.plot_surface(xx, yy, zz, cmap=plt.cm.RdYlGn_r)

ax.contourf(xx, yy, zz, zdir="zz", offset=-2, cmap="RdYlGn_r")
ax.set_zlim(-2, 2)

ax.set_xlabel("x")
ax.set_ylabel("y")
ax.set_title("sin(xy)")

fig.colorbar(surf, location = 'left')

ax = fig.add_subplot(122)
ax.imshow(zz, extent=(np.min(x), np.max(x), np.min(y), np.max(y)),
          cmap="RdYlGn_r", origin="lower")
ax.quiver(xxsmall, yysmall, gradx, grady)
plt.show()

На рисунке выше значения градиента в точке обозначены чёрными стрелочками. Можно заметить, что длина стрелок в  районе максимальных и минимальных значений функции - почти нулевая, стрелки направлены в направлении возрастания значения функции и наиболее длинные стрелки находятся в области наиболее резкого изменения значений функции.


Это - проявление **свойств градиента**:
* Направление $\frac{\nabla f}{||\nabla f||}$ - сообщает нам направление максимального роста функции.

*  Величина $||\nabla f||$ -  характеризует мгновенную скорость изменения значений функции.

## Идея градиентного спуска

Загрузим еще раз данные с зависимостью оценок студентов от времени подготовки.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/student_scores.csv"
)

x = dataset.iloc[:, :-1].values  # column Hours
y = dataset.iloc[:, 1].values  # column Score

x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.2, random_state=42
)

Ниже **код для интерактивной визуализации**. Он нужен только для объяснения и **не пригодится вам в работе**. Его разбирать мы не будем, если интересно - можно изучить самостоятельно.

In [None]:
# @title *Code for interactive visual
# source: https://github.com/TomasBeuzen/deep-learning-with-pytorch

import torch
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.graph_objects as go

from plotly.subplots import make_subplots
from sklearn.metrics import mean_squared_error, mean_absolute_error
from torchvision import utils


def plot_grid_search(x, y, slopes, prediction, loss, dloss_dw):
    pred_df =  pd.DataFrame(prediction)
    loss_df = pd.DataFrame({"slope": slopes, "loss": loss})
    dloss_dw_df = pd.DataFrame({"slope": slopes, "dloss/dw": dloss_dw})

    fig = make_subplots(
        rows=1, cols=3,
        subplot_titles=("Data & Fitted Line",
                        "Loss",
                        "dLoss/dw")
    )

    # fig 1
    fig.add_trace(
        go.Scatter(x=x, y=y, mode="markers", marker=dict(size=10), name="Data",
                   line_color="#5D5DA6",),
        row=1, col=1,
    )
    fig.add_trace(
        go.Scatter(x=x, y=pred_df.iloc[:, 0], line_color="#F9B041", mode="lines",
                   line=dict(width=3), name="Fitted line"),
        row=1, col=1,
    )
    fig.update_xaxes(row=1, col=1, title="feature")
    fig.update_yaxes(row=1, col=1, title="target")

    # fig 2
    fig.add_trace(
        go.Scatter(x=loss_df["slope"], y=loss_df["loss"], mode="markers",
                   marker=dict(size=7), name="Loss", line_color="#2DA9E1"),
        row=1, col=2,
    )
    fig.add_trace(
        go.Scatter(
            x=loss_df.iloc[[0]]["slope"],
            y=loss_df.iloc[[0]]["loss"],
            line_color="red",
            mode="markers",
            marker=dict(size=14, line=dict(width=1, color="DarkSlateGrey")),
            name="Loss for line"
        ),
        row=1,col=2,
    )
    fig.update_xaxes(row=1, col=2, title="w")

    # fig 3
    fig.add_trace(
        go.Scatter(x=dloss_dw_df["slope"], y=dloss_dw_df["dloss/dw"],
                   mode="markers", marker=dict(size=7), name="derivative",
                   line_color="#4AAE4D"
                   ),
        row=1, col=3,
    )

    fig.add_trace(
        go.Scatter(
            x=dloss_dw_df.iloc[[0]]["slope"],
            y=dloss_dw_df.iloc[[0]]["dloss/dw"],
            line_color="yellow",
            mode="markers",
            marker=dict(size=14, line=dict(width=1, color="DarkSlateGrey")),
            name="derivative for Loss"
        ),
        row=1, col=3,
    )
    fig.update_xaxes(row=1, col=3, title="w")

    # movement
    frames = [
        dict(
            name=f"{slope}",
            data=[
                go.Scatter(x=x, y=y),
                go.Scatter(x=x, y=pred_df[f"{slope}"]),
                go.Scatter(x=loss_df["slope"], y=loss_df["loss"]),
                go.Scatter(
                    x=loss_df.iloc[[n]]["slope"],
                    y=loss_df.iloc[[n]]["loss"],
                ),
                go.Scatter(x=dloss_dw_df["slope"], y=dloss_dw_df["dloss/dw"]),
                go.Scatter(
                    x=dloss_dw_df.iloc[[n]]["slope"],
                    y=dloss_dw_df.iloc[[n]]["dloss/dw"],
                ),
            ],
            traces=[0, 1, 2, 3, 4, 5],
        )
        for n, slope in enumerate(slopes)
    ]

    # slider
    sliders = [
        {
            "currentvalue": {
                "font": {"size": 16},
                "prefix": "w: ",
                "visible": True,
            },
            "pad": {"b": 10, "t": 30},
            "steps": [
                {
                    "args": [
                        [f"{slope}"],
                        {
                            "frame": {
                                "duration": 0,
                                "easing": "linear",
                                "redraw": False,
                            },
                            "transition": {"duration": 0, "easing": "linear"},
                        },
                    ],
                    "label": f"{slope}",
                    "method": "animate",
                }
                for slope in slopes
            ],
        }
    ]
    fig.update(frames=frames), fig.update_layout(sliders=sliders)
    return fig


def plot_gradient_descent(x, y, slopes, prediction, mses, dmse_dws,
                          w_range=(2.5, 17.5, 0.05)):
    pred_df =  pd.DataFrame(prediction)
    slope_range = np.arange(*w_range)
    mse = []
    for w in slope_range:
        mse.append(mean_squared_error(y, w * x + 2.83))  # calc MSE
    mse = pd.DataFrame({"slope": slope_range, "squared_error": mse})
    iters = np.arange(len(dmse_dws)) + 1

    fig = make_subplots(
        rows=1, cols=3,
        subplot_titles=("Data & Fitted Line", "Mean Squared Error", "dMSE/dw" ),
    )

    # fig 1
    fig.add_trace(
        go.Scatter(x=x, y=y, mode="markers", marker=dict(size=10), name="Data",
                   line_color="#5D5DA6",),
        row=1, col=1,
    )
    fig.add_trace(
        go.Scatter(x=x, y=pred_df.iloc[:, 0], line_color="#F9B041", mode="lines",
                   line=dict(width=3), name="Fitted line"),
        row=1, col=1,
    )
    fig.add_trace(
        go.Scatter(
            x=[2], y=[95], mode="text", text=f"<b>w = {slopes[0]:.2f}<b>",
            textfont=dict(size=16, color="DarkSlateGrey"), showlegend=False,
        ),
        row=1, col=1,
    )
    fig.update_xaxes(row=1, col=1, title="feature")
    fig.update_yaxes(row=1, col=1, title="target")

    # fig 2
    fig.add_trace(
        go.Scatter(x=mse["slope"], y=mse["squared_error"], line_color="#2DA9E1",
                   line=dict(width=3), mode="lines", name="MSE"),
        row=1, col=2,
    )
    fig.add_trace(
        go.Scatter(
            x=np.array(slopes[:1]), y=np.array(mses[:1]), line_color="salmon",
            line=dict(width=4), mode="markers+lines", name="Slope history",
            marker=dict(size=10, line=dict(width=1, color="DarkSlateGrey")),
        ),
        row=1, col=2,
    )
    fig.add_trace(
        go.Scatter(
            x=np.array(slopes[0]), y=np.array(mses[0]), line_color="red",
            mode="markers", name="MSE for line",
            marker=dict(size=18, line=dict(width=1, color="DarkSlateGrey")),
        ),
        row=1, col=2,
    )
    fig.update_xaxes(row=1, col=2, title="w")

    # fig 3
    fig.add_trace(
        go.Scatter(
            x=iters, y=dmse_dws, mode="markers", line_color="DarkSlateGrey",
            marker=dict(size=3), name="Gradient values"
        ),
        row=1, col=3,
    )
    fig.add_trace(
        go.Scatter(
            x=np.array(iters[0]), y=np.array(dmse_dws[0]), mode="markers",
            marker=dict(size=10, line=dict(width=1, color="DarkSlateGrey")),
            name="Gradient history", line_color="#4AAE4D"
            ),
        row=1, col=3,
    )
    fig.update_xaxes(row=1, col=3, title="iteration")
    # movement
    frames = [
        dict(
            name=n,
            data=[
                go.Scatter(x=x, y=y),
                go.Scatter(x=x, y=pred_df[slope]),
                go.Scatter(text=f"<b>w = {slope:.2f}<b>"),
                go.Scatter(x=mse["slope"], y=mse["squared_error"]),
                go.Scatter(
                    x=np.array(slopes[: n + 1]),
                    y=np.array(mses[: n + 1]),
                    mode="markers" if n == 0 else "markers+lines",
                ),
                go.Scatter(x=np.array(slopes[n]), y=np.array(mses[n])),
                go.Scatter(x=iters, y=dmse_dws),
                go.Scatter(
                    x=np.array(iters[: n + 1]),
                    y=np.array(dmse_dws[: n + 1]),
                    mode="markers" if n == 0 else "markers+lines",
                ),
            ],
            traces=[0, 1, 2, 3, 4, 5, 6, 7],
        )
        for n, slope in enumerate(slopes)
    ]
    # slider
    sliders = [
        {
            "currentvalue": {
                "font": {"size": 16},
                "prefix": "Iteration: ",
                "visible": True,
            },
            "pad": {"b": 10, "t": 30},
            "steps": [
                {
                    "args": [
                        [n],
                        {
                            "frame": {
                                "duration": 0,
                                "easing": "linear",
                                "redraw": False,
                            },
                            "transition": {"duration": 0, "easing": "linear"},
                        },
                    ],
                    "label": n,
                    "method": "animate",
                }
                for n in range(len(slopes))
            ],
        }
    ]
    fig.update(frames=frames), fig.update_layout(sliders=sliders)
    return fig


def plot_grid_search_2d(x, y, slopes, intercepts):
    mse = np.zeros((len(slopes), len(intercepts)))
    for i, slope in enumerate(slopes):
        for j, intercept in enumerate(intercepts):
            mse[i, j] = mean_squared_error(y, x * slope + intercept)
    fig = make_subplots(
        rows=1,
        cols=2,
        subplot_titles=("Surface Plot", "Contour Plot"),
        specs=[[{"type": "surface"}, {"type": "contour"}]],
    )
    # fig 1
    fig.add_trace(
        go.Surface(
            z=mse, x=intercepts, y=slopes, name="", colorscale="RdYlGn_r"
        ),
        row=1, col=1,
    )
    # fig 2
    fig.add_trace(
        go.Contour(
            z=mse, x=intercepts, y=slopes, name="", showscale=False,
            colorscale="RdYlGn_r",
        ),
        row=1, col=2,
    )
    fig.update_layout(
        scene=dict(
            zaxis=dict(title="MSE"),
            yaxis=dict(title="slope (w<sub>1</sub>)"),
            xaxis=dict(title="intercept (w<sub>0</sub>)"),
        ),
        scene_camera=dict(eye=dict(x=2, y=1.1, z=1.2)),
        margin=dict(l=0, r=0, b=60, t=90),
    )
    fig.update_xaxes(
        title="intercept (w<sub>0</sub>)",
        range=[intercepts.min(), intercepts.max()],
        tick0=intercepts.max(),
        row=1, col=2,
        title_standoff=0,
    )
    fig.update_yaxes(
        title="slope (w<sub>1</sub>)",
        range=[slopes.min(), slopes.max()],
        tick0=slopes.min(),
        row=1, col=2,
        title_standoff=0,
    )
    fig.update_layout(width=900, height=475, margin=dict(t=60))
    return fig


def plot_gradient_descent_2d(x, y, ws, slopes, intercepts,
                             title = "Gradient Descent", mode="markers+lines"):
    bs, ws = ws[:, 0], ws[:, 1]
    mse = np.zeros((len(slopes), len(intercepts)))
    for i, slope in enumerate(slopes):
        for j, intercept in enumerate(intercepts):
            mse[i, j] = mean_squared_error(y, x * slope + intercept)

    fig = make_subplots(
        rows=1,
        subplot_titles=[title],
    )
    fig.add_trace(
        go.Contour(
            z=mse, x=intercepts, y=slopes, name="", showscale=False,
            colorscale="RdYlGn_r",
        ),
        row=1, col=1,
    )
    fig.add_trace(
        go.Scatter(
            x=bs, y=ws, mode=mode, line=dict(width=2.5),
            line_color="coral", marker=dict(
                opacity=1,
                size=np.linspace(19, 1, len(intercepts)),
                line=dict(width=2, color="DarkSlateGrey"),
            ),
            name="Descent Path",
        )
    )
    fig.add_trace(
        go.Scatter(
            x=[bs[0]], y=[ws[0]], mode="markers",
            marker=dict(size=20, line=dict(width=2, color="DarkSlateGrey")),
            marker_color="orangered", name="Start",
        )
    )
    fig.add_trace(
        go.Scatter(
            x=[bs[-1]], y=[ws[-1]], mode="markers",
            marker=dict(size=20, line=dict(width=2, color="DarkSlateGrey")),
            marker_color="yellowgreen", name="End",
        )
    )
    fig.update_layout(
        width=700, height=600, margin=dict(t=60),
        legend=dict(yanchor="top", y=0.99, xanchor="left", x=0.01),
    )
    fig.update_xaxes(
        title="intercept (w<sub>0</sub>)",
        range=[intercepts.min(), intercepts.max()],
        tick0=intercepts.max(),
        row=1, col=1,
        title_standoff=0,
    )
    fig.update_yaxes(
        title="slope (w<sub>1</sub>)",
        range=[slopes.min(), slopes.max()],
        tick0=slopes.min(),
        row=1, col=1,
        title_standoff=0,
    )
    return fig

def plot_panel(f1, f2, f3):
    fig = make_subplots(
        rows=1,
        cols=3,
        subplot_titles=(
            "Gradient Descent",
            "Stochastic Gradient Descent",
            "Minibatch Gradient Descent",
        ),
    )
    for n, f in enumerate((f1, f2, f3)):
        for _ in range(len(f.data)):
            fig.add_trace(f.data[_], row=1, col=n + 1)
    fig.update_layout(
        width=1000, height=400, margin=dict(t=60), showlegend=False
    )
    return fig

Для простоты рассмотрим одномерный случай. Будем подбирать только $w$, значение $b$ зафиксируем на уровне $2.83$. Визуализируем ошибку и значения $\frac{\partial Loss}{\partial w}$ для MSE Loss.

In [None]:
slopes = np.arange(5, 15, 0.5)
prediction = {
    f"{w}": w*x_train[:, 0] + 2.83
    for w in slopes
}
mse = np.array(
    [mean_squared_error(y_train, w*x_train[:, 0] + 2.83)
     for w in slopes]
)
dmse_dw = np.array(
    [(2*x_train[:, 0]*(w*x_train[:, 0] + 2.83 - y_train)).mean()
     for w in slopes]
)
plot_grid_search(x_train[:,0], y_train, slopes, prediction, mse, dmse_dw)

 Видно, что оптимальное значение наклона соответствует минимуму MSE и нулю частной производной $\frac{\partial Loss}{\partial w}$. Аналогично будет, если мы будем возьмем в качестве Loss MAE.

In [None]:
slopes = np.arange(5, 15, 0.5)
prediction = {
    f"{w}": w*x_train[:, 0] + 2.83
    for w in slopes
}
mae = np.array(
    [mean_absolute_error(y_train, w*x_train[:, 0] + 2.83)
     for w in slopes]
)
dmae_dw = np.array(
    [(x_train[:, 0]*np.sign(w*x_train[:, 0] + 2.83 - y_train)).mean()
    for w in slopes]
)
plot_grid_search(x_train[:,0], y_train, slopes, prediction, mae, dmae_dw)

Итого т.к. градиент указывает направления наибольшего возрастания функции. Если $\frac{\partial Loss}{\partial w} < 0$, то нам имеет смысл “идти” в сторону возрастания $\frac{\partial Loss}{\partial w}$, если $\frac{\partial Loss}{\partial w} > 0$ - в сторону убывания. **Метод градиентного спуска** - итеративный метод, идея которого заключается в том, чтобы небольшими шажками “идти” в **обратную от градиента сторону**:

$$ \vec w_{n+1} = \vec w_{n} - α \cdot \nabla_{\vec w_{n}} Loss$$


где $α$ - скорость обучения.

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/update_weghts_values.png" width="450"></center>

<!-- [Визуализация](https://docs.google.com/file/d/0Byvt-AfX75o1ZWxMRkxrUFJ2ZUE/preview)
 -->



Попробуем реализовать это в коде (для простоты только для $w$ при $b=2.83$).

In [None]:
def gradient(x, y, w, b):
    return 2 * (x * (w * x + b - y)).mean()

def gradient_descent(x_train, y_train, x_test, y_test, w, alpha, b=2.83,
                     iteration=10):
    """Gradient descent for optimizing slope in simple linear regression"""
    # history
    ws = [w]
    mse_train = [mean_squared_error(y_train, w*x_train + b)]
    dmse_train = []
    mse_test = [mean_squared_error(y_test, w*x_test + b)]
    prediction = {w: w*x_train + b}
    print(f"Iteration 0: w = {w:.2f}, Loss_train = {mse_train[0]:.2f}, "
          f"Loss_test = {mse_test[0]:.2f}.")
    for i in range(iteration):
        # adjust w based on gradient * learning rate
        grad = gradient(x_train, y_train, w, b)
        w -= alpha * grad  # adjust w based on gradient * learning rate
        # history
        ws.append(w)
        mse_train.append(mean_squared_error(y_train, w*x_train + b))
        dmse_train.append(grad)
        mse_test.append(mean_squared_error(y_test, w*x_test + b))
        prediction[w] = w*x_train + b
        print(f"Iteration {i+1}: w = {w:.2f}, Loss_train = {mse_train[i]:.2f}, "
              f"Loss_test = {mse_test[i]:3.2f}.")
    return ws, prediction, mse_train, dmse_train, mse_test

Обучим нашу модель:

In [None]:
slopes, prediction, mse_train, dmse_train, mse_test = gradient_descent(
    x_train[:, 0], y_train, x_test[:, 0], y_test, w=5, alpha=0.01, iteration=7
)

Визуализируем процесс обучения:

In [None]:
plot_gradient_descent(
    x_train[:, 0], y_train, slopes, prediction, mse_train, dmse_train
)

Видно, что за 7 эпох мы мы получили то же значение $w$, что получали при использовании [`LinearRegression`](https://colab.research.google.com/drive/1QoqgO4nSSQcxKP6arDEcedw7I_XFq4zs#scrollTo=9E8205Ic5ujC). При этом мы пришли в минимум $MSE$ и ноль градиента.


В реальности мы будем работать с функциями многих переменных, поэтому смотреть на сходимость по одной переменной - не самый оптимальный вариант. Более эффективно будет посмотреть на зависимость Loss от количества эпох для train и test.

In [None]:
def plot_mse(mse_train, mse_test):
    plt.figure(figsize=(10, 4))
    plt.title("Learning curve")
    plt.plot(mse_train, label="train")
    plt.plot(mse_test, label="test")
    plt.legend()

    plt. xlabel('iterations', fontsize=12)
    plt. ylabel('MSE Loss', fontsize=12)

    plt.grid(True)
    plt.show()

Такие графики называют кривыми обучения.Посмотрим на кривые обучения для нашей скорости обучения.

In [None]:
plot_mse(mse_train, mse_test)

Видно что **Loss падает**, как на **train**, так и на **test** выборке. Также мы можем сказать, что **сеть обучалась**: train и test **графики вышли на плато**. При этом не произошло **переобучения**: ошибка на **test** выборке **не начала расти** (про переобучение поговорим позже).

В полученных графиках есть особенность, которая бросается в глаза опытному в обучении моделей человеку: **Loss на test выборке меньше, чем на train**. Это - показатель того, что **с данными что-то не так**. Так бывает при утечки данных (об утечке данных вы подробнее узнаете в следующих лекциях) или если, как в данном случае, когда test выборка слишком мала, чтобы отражать генеральною совокупность (всего 4 студента, доверительный интервал для такого маленького количества объектов будет широкий).

## Выбор скорости обучения

**Скорость (шаг) обучения**  — некоторый коэффициент, как правило, небольшой, который не позволяет нам двигаться слишком быстро. У нас есть точка, в которую мы хотим попасть. Если мы сделаем слишком большой шаг, то мы ее перескочим (график справа), поэтому надо подобрать шаг, который не позволит ее перескочить, но в то же время, чтобы тот же процесс не шел слишком медленно (как на графике слева).

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/learning_rate_optimal_value.png">

Посмотрим на скорость обучения на нашем примере. При **маленькой скорости обучения** - мы будем очень медленно сходиться к минимуму.

In [None]:
slopes, prediction, mse_train, dmse_train, mse_test = gradient_descent(
    x_train[:, 0], y_train, x_test[:, 0], y_test, w=5, alpha=0.0005, iteration=30
)

In [None]:
plot_gradient_descent(
    x_train[:, 0], y_train, slopes, prediction, mse_train, dmse_train
)

Спустя 30 итераций оранжевая прямая плохо отражает генеральную совокупность. Мы не достигли минимума MSE и нуля градиента.

Посмотрим, как выглядят кривые обучения.

In [None]:
plot_mse(mse_train, mse_test)

Модель недообученна - значения Loss не вышло на плато.

Посмотрим на **достаточно большую скорость обучения**.

In [None]:
slopes, prediction, mse_train, dmse_train, mse_test = gradient_descent(
    x_train[:, 0], y_train, x_test[:, 0], y_test, w=5, alpha=0.027, iteration=15
)

In [None]:
plot_gradient_descent(
    x_train[:, 0], y_train, slopes, prediction, mse_train, dmse_train
)

Шаг, получаемый умножением градиента на скорость обучения, получается достаточно большим, чтобы “перескочить” локальный минимум, но при этом модель все-таки попадает в локальный минимум. Кривые обучения при этом успешно выходят на плато.

In [None]:
plot_mse(mse_train, mse_test)

В финале посмотрим на **очень большую скорость обучения**.

In [None]:
slopes, prediction, mse_train, dmse_train, mse_test = gradient_descent(
    x_train[:, 0], y_train, x_test[:, 0], y_test, w=5, alpha=0.034, iteration=5,
)

Шаг который мы делаем слишком большой. Мы не попадаем в локальный минимум.

In [None]:
plot_gradient_descent(
    x_train[:, 0], y_train, slopes, prediction, mse_train, dmse_train
)


По кривым обучения видно, что модель не сошлась: ошибка растет.


In [None]:
plot_mse(mse_train, mse_test)

Выбор скорости обучения будет зависеть от модели и данных. В 7 лекции вы познакомитесь с различными модификациями метода градиентного спуска и узнаете больше о выборе скорости обучения, а пока ориентируйтесь на кривые обучения.

## Единый подход к учету смещения

Пока мы настраивали только одну переменную, но даже в случае предсказания оценки по времени подготовки - у нас две переменные: вес $w$ и смещение $b$.

Когда признаков станет больше - у нас получится “лапша” из слагаемых:
$$y = b + w_1\cdot x_1 + w_2\cdot x_2 + w_3\cdot x_3 + w_4\cdot x_4 + w_5\cdot x_5 + ... + w_n\cdot x_n$$

Нам бы хотелось записать их компактно, чтобы не усложнять код и использовать один и тот же код для данных с разным количеством признаков.  Для этого мы будем использовать матричное перемножение и трюк **“столбец единиц”**, который реализует **единый подход к учету смещения**.

Обозначим вектор-столбец из настраиваемых параметров:
$$\vec w = \begin{bmatrix}
b \\ w \\
\end{bmatrix}$$


In [None]:
w = np.array([[0.5], [5]])
w

К матрице (в нашем случае был только один признак, поэтому у нас будет вектор-столбец) признаков слева "дорисуем" столбец единиц:
$$X = \begin{bmatrix}
1 & X \\
\end{bmatrix} =
\begin{bmatrix}
1 & 2.7 \\
1 & 3.3 \\
... & ...\\
1 & 9.2 \\
\end{bmatrix}$$

**Предупреждение:** добавлять столбец единиц нужно только если вы сами пишите модель. **Если вы пользуетесь готовыми моделями - в этом нет необходимости.**


In [None]:
x_train = np.hstack((np.ones((len(x_train), 1)), x_train))
x_test = np.hstack((np.ones((len(x_test), 1)), x_test))
x_test

Матрицу $X$ можно матрично перемножить с столбцом $\vec w$, т.к количество столбцов $X$ совпадает с количеством строк в $\vec w$:

In [None]:
x_train.shape, w.shape

В общем случае:

$$\vec y = b + w_1\cdot x_1 + w_2\cdot x_2 + w_3\cdot x_3 + w_4\cdot x_4 + w_5\cdot x_5 + ... + w_n\cdot x_n = X\vec w $$  

Эту формулу можно свести к нескольким символам кода (`@` - матричное умножение):


In [None]:
y_pred = x_test @ w
y_pred

## Необходимость нормализации

Реализуем многомерный градиентный спуск

In [None]:
y_train = np.expand_dims(y_train, axis=1)
y_test = np.expand_dims(y_test, axis=1)

In [None]:
def gradient(x, y, w):
    """Gradient of mean squared error."""
    return 2 * (x.T @ (x @ w) - x.T @ y) / len(x)

def gradient_descent(x_train, y_train, x_test, y_test, w, alpha,
                     iteration=10):
    """Gradient descent for optimizing slope in simple linear regression"""
    # history
    ws = np.zeros((iteration+1, 2))
    ws[0] = w[:, 0]
    mse_train = [mean_squared_error(y_train, x_train @ w)]
    dmse_train = []
    mse_test = [mean_squared_error(y_test, x_test @ w)]
    prediction = {(w[0][0], w[1][0]): x_train @ w}

    print(f"Iteration 0: b = {w[0][0]:.2f}, w = {w[1][0]:.2f}, "
          f"Loss_train = {mse_train[0]:.2f}, "
          f"Loss_test = {mse_test[0]:.2f}.")

    for i in range(iteration):
        # adjust w based on gradient * learning rate
        grad = gradient(x_train, y_train, w)
        w -= alpha * grad  # adjust w based on gradient * learning rate
        # history
        ws[i+1] = w[:, 0]
        mse_train.append(mean_squared_error(y_train, x_train @ w))
        dmse_train.append(grad)
        mse_test.append(mean_squared_error(y_test, x_test @ w))
        prediction[(w[0][0], w[1][0])] = x_train @ w

        print(f"Iteration {i+1}: b = {w[0][0]:.2f}, w = {w[1][0]:.2f}, "
              f"Loss_train = {mse_train[i]:.2f}, "
              f"Loss_test = {mse_test[i]:3.2f}.")
    return ws, prediction, mse_train, dmse_train, mse_test

Попробуем обучить модель:

In [None]:
w = np.array([[0.5], [5]])
ws, prediction, mse_train, dmse_train, mse_test = gradient_descent(
    x_train, y_train, x_test, y_test, w, 0.01,
)

Мы не дошли до оптимальной прямой $y = 9.68x+2.83$ ([вычисляли выше](https://colab.research.google.com/drive/1QoqgO4nSSQcxKP6arDEcedw7I_XFq4zs#scrollTo=DR5zQvUm5ujD&line=1&uniqifier=1)).

При этом график Loss выглядит не плохо:

In [None]:
plot_mse(mse_train, mse_test)

Такое поведение связано с ландшафтом функции потерь: значение ошибки по оси $w[0]$ измерняется намного медленнее, чем по $w[1]$.

In [None]:
intercepts = np.arange(-7.5, 12.5, 0.1) # b
slopes = np.arange(5, 15, 0.1) # w
plot_grid_search_2d(x_train[:, 1], y_train, slopes, intercepts)

Поэтому основное изменение значений происходит вдоль оси $w[1]$, а $w[0]$ меняется слабо (значение $b$ далеко от ожидаемого).

In [None]:
plot_gradient_descent_2d(
    x_train[:, 1], y_train[:, 0], ws, slopes, intercepts,
)

Чтобы исправить ситуацию применим `StandardScaler`:

In [None]:
from sklearn.preprocessing import StandardScaler


scaler = StandardScaler()

x_train_scaled = scaler.fit_transform(
    np.expand_dims(x_train[:, 1], axis=1)
).flatten()

x_test_scaled = scaler.transform(
    np.expand_dims(x_test[:, 1], axis=1)
).flatten()

In [None]:
intercepts = np.arange(40, 60, 0.1) # b
slopes = np.arange(15, 35, 0.1) # w

plot_grid_search_2d(x_train_scaled, y_train, slopes, intercepts)

In [None]:
x_train_scaled =  np.hstack(
    (np.ones((len(x_train_scaled), 1)), np.expand_dims(x_train_scaled, axis=1)),
)

x_test_scaled =  np.hstack(
    (np.ones((len(x_test_scaled), 1)), np.expand_dims(x_test_scaled, axis=1)),
)

Т.к. диапазоны x изменились - значения $w[0]$ и $w[1]$ тоже изменятся.


In [None]:
w = np.array([[57.0],[33.0]])
ws, prediction, mse_train, dmse_train, mse_test = gradient_descent(
    x_train_scaled, y_train, x_test_scaled, y_test, w, 0.35, iteration=10
)

In [None]:
plot_mse(mse_train, mse_test)

Проверим, что после нормализации мы сходимся к $y = 9.68x + 2.83$.  Для этого используем данные о матожидании и дисперсии из `StandardScaler`.

In [None]:
b = ws[-1][0] - ws[-1][1]*scaler.mean_/(scaler.var_)**0.5
w = ws[-1][1]/(scaler.var_)**0.5

print(f'y = {w[0]:.2f}x + {b[0]:.2f}')

По визуализации видно, что $w[0]$ и $w[1]$ изменяются во время обучения.

In [None]:
plot_gradient_descent_2d(
    x_train_scaled[:, 1], y_train[:, 0], ws, slopes, intercepts,
)

## Cтохастический градиентный спуск

[Блог-пост о стохастическом градиентом спуске](https://www.tomasbeuzen.com/deep-learning-with-pytorch/chapters/chapter2_stochastic-gradient-descent.html#motivation-for-stochastic-gradient-descent)

До этого мы обучали модель, рассчитывая градиент по **всей train выборке**. Это не всегда возможно:
- данных может быть слишком много, чтобы загрузить их в память одновременно и рассчитать градиент,
- мы можем хотеть дообучать модель на свеже пришедших данных, которых может приходить немного.


Поэтому появляется идея **стохастического градиентного спуска**: мы можем делать шаг обучения, рассчитывая градиент не по всей выборке (**batch**), а по нескольким случайно выбранным объектам (**mini-batch**) или даже по одному случайно выбранному объекту (**stochastic**).

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/define_size_of_batch.png" width="500"></center>

Можно [показать](https://academy.yandex.ru/handbook/ml/article/shodimost-sgd), что **стохастический** (с размером batch 1) **градиентный спуск сходится к миниуму (глобальному или локальному) функции потерь** с конечной точностью. Важным условием является **стохастичность**. Если мы будем использовать одну и ту же последовательных выборок это приведет к накоплению ошибки и смещению результата.

Добавим создание подвыборки к нашему алгоритму:

In [None]:
def stochastic_gradient_descent(
    x_train, y_train, x_test, y_test, w, alpha, iteration=10, batch_size=None,
):
    """Gradient descent for optimizing slope in simple linear regression"""
    # history
    ws = np.zeros((iteration+1, 2))
    ws[0] = w[:, 0]
    mse_train = [mean_squared_error(y_train, x_train @ w)]
    dmse_train = []
    mse_test = [mean_squared_error(y_test, x_test @ w)]
    prediction = {(w[0][0], w[1][0]): x_train @ w}

    print(f"Iteration 0: b = {w[0][0]:.2f}, w = {w[1][0]:.2f}, "
          f"Loss_train = {mse_train[0]:.2f}, "
          f"Loss_test = {mse_test[0]:.2f}.")

    for i in range(iteration):
        if not batch_size:
            x_sample = x_train
            y_sample = y_train
        else:
            indxs = np.random.choice(x_train.shape[0], batch_size)
            x_sample = x_train[indxs, :]
            y_sample = y_train[indxs, :]

        # adjust w based on gradient * learning rate
        grad = gradient(x_sample, y_sample, w)
        w -= alpha * grad  # adjust w based on gradient * learning rate
        # history
        ws[i+1] = w[:, 0]
        mse_train.append(mean_squared_error(y_train, x_train @ w))
        dmse_train.append(grad)
        mse_test.append(mean_squared_error(y_test, x_test @ w))
        prediction[(w[0][0], w[1][0])] = x_train @ w
        if (i+1)%10==0:
            print(f"Iteration {i+1}: b = {w[0][0]:.2f}, w = {w[1][0]:.2f}, "
                  f"Loss_train = {mse_train[i]:.2f}, "
                  f"Loss_test = {mse_test[i]:3.2f}.")
    return ws, prediction, mse_train, dmse_train, mse_test

Чтобы сравнить результаты будем использовать одно и то же количество итераций и скорость обучения. Чтобы компенсировать стохастичность возьмем маленькое значение $\alpha$ и 100 итераций.

Для всего train сета мы посчитаем градиент для $20\cdot100 = 2000$ точек.

In [None]:
w = np.array([[57.0],[33.0]])
ws, prediction, mse_train, dmse_train, mse_test = stochastic_gradient_descent(
    x_train_scaled, y_train, x_test_scaled, y_test, w, 0.02, iteration=100,
    batch_size=None,
)

f1 = plot_gradient_descent_2d(
    x_train_scaled[:, 1], y_train[:, 0], ws, slopes, intercepts, mode="lines",
    title="Batch gradient descent",
)

Для стохастического градиентного спуска (размер батча 1) мы посчитаем градиент для $1\cdot100 = 100$ точек.

In [None]:
np.random.seed(42)
w = np.array([[57.0],[33.0]])
ws_stohastic, prediction, mse_train, dmse_train, mse_test = \
    stochastic_gradient_descent(
        x_train_scaled, y_train, x_test_scaled, y_test, w, 0.02, iteration=100,
        batch_size=1,
    )
f2 = plot_gradient_descent_2d(
    x_train_scaled[:, 1], y_train[:, 0], ws_stohastic, slopes, intercepts,
    mode="lines", title="Stochastic gradient descent",
)

Для стохастического спуска с mini-bach = 5 мы посчитаем градиент для $5\cdot100=500$ точек.

In [None]:
np.random.seed(42)
w = np.array([[57.0],[33.0]])
ws_mini_batch, prediction, mse_train, dmse_train, mse_test = \
    stochastic_gradient_descent(
        x_train_scaled, y_train, x_test_scaled, y_test, w, 0.02, iteration=100,
        batch_size=5,
    )
f3 = plot_gradient_descent_2d(
    x_train_scaled[:, 1], y_train[:, 0], ws_mini_batch, slopes, intercepts,
    mode="lines", title="Mini-batch gradient descent",
)

Мы ищем минимум для всех данных.
- Градиент, рассчитанный по одному объекту, будет специфичен. Трек обучения  в случае стохастического градиентного спуска будет запутанным, а итоговая ошибка будет расти с увеличением скорости обучения (мы взяли низкую скорость).
- Градиент, рассчитанный по нескольким объектам будет давать лучшую оценку градиента для всех данных. Трек будет менее сложным.
- Градиент, рассчитанный по всей выборкеб будет давать наиболее точное направление.

In [None]:
plot_panel(f1, f2, f3)

Для **ускорения расчетов** рекомендовано использовать **максимальных размер mini-batch**, который помещается в память, но это не всегда дает лучший результат. На 7 лекции вы увидите, что для сложных моделей стохастичность, связанная с небольшим размером батча, может помочь выбраться из локального минимума и найти более глубокий.


## Численный расчет производной

Мы знаем как **считать производную аналитически**, зная исходную функцию и используя таблицу производных. Но нам может быть полезно **оценить производную в точке**, ничего не зная о функции. Это часто используют для **тестирования правильности кода** для новых рукописных функций.


<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/gradient_descent_analytical_calculation.png" width="650"></center>

Попробуем рассчитать градиент приближенно, воспользовавшись определением (в формуле аргумент обозначен как $x$, у нас же аргументом будет $W$):
На нулевом шаге у нас есть $W_0$ найдем $L_0 = Loss(f(W_0,x))$
Прибавим к первому элементу $W_0$ небольшую величину  $h$ = 0.0001 и получим новую матрицу весов $W_1$ отличающуюся от $W_0$ на один единственный элемент.

Найдем Loss от $\frac {W_1}  {L_1} = Loss(f(W_1,x))$
По определению производной $\frac {dL}{W_0} = \frac{( L_1 - L_0 )}   {h}$

Повторяя этот процесс для каждого элемента из $W$, найдем вектор частных производных, то есть градиент $\frac{dL}{dW}$.

Почему мы будем считать производную **аналитически, а не численно**:

1. Считать производную численно очень **долго**. Нам придется заново искать значение loss функции для каждого $W_i$.

2. Считать производную численно **неточно**, так как по определению приращение $h$ бесконечно мало, а мы используем конкретное, пусть и небольшое число. И если мы сделаем его слишком маленьким, то столкнемся с ошибками, связанными с округлением в памяти компьютера.


# Классификация

## Hinge loss

Теперь попробуем разобраться, что делать в случае случае классификации.

Рассмотрим задачу классификации на два класса, например у нас есть данные о лабораторных мышах. Часть из них имеет нормальную массу тела, а часть - мыши с ожирением.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/svm_mouse_example.png" width="800">


У нас есть:
1. Набор данных из $N$ объектов (мышей).
2. Для каждого из объекта (мыши) нам известно признаковое описание объекта в виде набора вещественных чисел (вес, длина от носа до кончика хвоста, возраст и т.д.). То есть объекту под номером $i$ соответствует вектор $\vec x_i$.
3. Также для каждого объекта нам известна истинная метка класса. Мы знаем что объекту с признаковым описанием $\vec x_i$ соответствует метка класса $y_i$. Будем считать, что метки классов принимают значения $$y_i =
\begin{cases}
    +1, & \text{для толстеньких}, \\
    -1, & \text{для нормальных}.
\end{cases}$$.





В задаче регрессии мы использовали метрику $MSE$ в качестве функции потерь. Здесь мы можем сделать что-то подобное.

Мы можем ввести пороговое решающее правило: определять метку класса по знаку линейной функции (случай $x = 0$ можем отнести к любому классу):

$$y_i^{pred} = sign(\vec{w}\vec{x_i}+b)$$

где $sign$ - сигнум функция знака.

$$sign(x) =
\begin{cases}
    +1, & x>0, \\
    0 & x=0,\\
    -1, & x<0.
\end{cases}$$

Используя такое решающее правило мы можем посчитать метрику $accuracy$:

$$accuracy=\frac{\sum_{i=1}^N [sign(\vec{w}\vec{x_i}+b)==y_i]}{N}$$


Нам нужно максимизировать $accuracy$, а значит минимизировать $1-accuracy$. Действуя по аналогии с задачей регрессии мы могли бы задать функцию потерь следующим образом:
$$Loss = 1-accuracy =  \frac{\sum_{i=1}^N \overline{[sign(\vec{w}\vec{x_i}+b)==y_i]}}{N} = \frac{\sum_{i=1}^N l_i}{N}$$

$$l_i = \overline{[sign(\vec{w}\vec{x_i}+b)==y_i]}$$

Функция $l_i$ будет представлять собой ступеньку (1 - там, где мы ошиблись и 0 - где класс определен правильно). Это плохо, т.к производная такой функции будет равна нулю почти везде, а это значит у нас будут проблемы с поиском минимума.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/hinge_loss.png" width="900">


Мы можем модифицировать функцию потерь задав оценку сверху для $l_i$ полученного из $accuracy$.

$$\large l_i = \max(0, 1 - y_i ((\vec w, \vec x_i) + b ))$$

Данная модификация будет входит в [Hinge loss](https://en.wikipedia.org/wiki/Hinge_loss):
$$\large Loss = \frac{1}{2}||w||^2 + C\frac{\sum_{i=1}^N l_i}{N} $$

где $C$ - обратный коэффициент регуляризации, гиперпараметр, значение по умолчанию в `sklearn`: `C=1.0`.

Пока не очень понятно почему появился член с $w^2$, но он очень важен. Чтобы понять его назначение - рассмотрим задачу геометрически.

##1D классификация

Рассмотрим **одномерный пример**. У нас есть данные только по **массе мышей**. Часть из них определена как мыши с нормальной массой тела, а часть — как мыши с ожирением.

Чтобы их отделить друг от друга, нам достаточно одного критерия. Мы можем посмотреть на график и визуально определить предельную массу, после которой мышки будут жирненькими.

In [None]:
from matplotlib.colors import ListedColormap

custom_cmap = ListedColormap(['#B8E1EC', '#bea6ff','#FEE7D0'])

def generate_data(total_len=40):
    x = np.hstack(
        [
            np.random.uniform(14, 21, total_len // 2),
            np.random.uniform(24, 33, total_len // 2),
        ]
    )
    y = np.hstack([np.zeros(total_len // 2), np.ones(total_len // 2)])
    return x, y

def plot_data_1d(x, y, total_len=40, s=50, threshold=None, margin=None,
                 legend=["Normal", "Obese"], marker='o'):
    ax = sns.scatterplot(x=x, y=np.zeros(len(x)), hue=y, s=s, marker=marker)
    if threshold:
        x_lim,  y_lim = ax.get_xlim(), ax.get_ylim()
        XX, YY = np.meshgrid(np.linspace(x_lim[0], x_lim[1], 100),
                             np.linspace(y_lim[0], y_lim[1], 100))
        pred = np.sign(XX - threshold)
        plt.contourf(XX, YY, pred, alpha=0.3, cmap=custom_cmap)
        ax.axvline(threshold, color="grey")
    if margin:
        for line in margin:
            ax.axvline(line, color="grey", ls="dashed")
    handles, labels = ax.get_legend_handles_labels()
    ax.legend(handles, legend)
    ax.set(xlabel="Mass, g")
    return ax

total_len = 40
np.random.seed(42)
x, y = generate_data(total_len=total_len)
plt.figure(figsize=(5, 3))
ax = plot_data_1d(x, y, threshold=21.5, total_len=total_len)

Теперь, пользуясь нашим простым критерием, попробуем классифицировать каких-то новых (тестовых) мышей $\color{orange}{✭}$ $\color{blue}{✭}$:

In [None]:
x_test = np.random.uniform(14, 30, 5)

def classify(x, threshold=21.5):
    y = np.zeros_like(x)
    y[x > threshold] = 1
    return y

total_len = 40
threshold = 21.5

plt.figure(figsize=(5, 3))
ax = plot_data_1d(x, y, threshold=threshold, total_len=total_len)
ax = plot_data_1d(x_test, classify(x_test, threshold), total_len=total_len,
                  s=500, marker='*')

Одна из тестовых мышей была классифицирована, как толстенькая ($\color{orange}{✭}$ на границе), хотя она ближе по массе к мышам без ожирения из обучающей выборки $\color{blue}{●}$. Не порядок!

## Maximum Margin Classifier

Вооружившись этим новым знанием, попробуем классифицировать наших отъевшихся мышек по-умному. Возьмем крайние точки в каждом кластере. И в качестве порогового значения будем использовать среднее между ними.

In [None]:
normal_limit = x[y == 0].max()  # extreme point for 'normal'
obese_limit = x[y == 1].min()  # extreme point for 'obese'

threshold = np.mean([normal_limit, obese_limit])  # separated with mean value

plt.figure(figsize=(5, 3))
ax = plot_data_1d(x, y, total_len=total_len, threshold=threshold,
                  margin=[normal_limit, obese_limit])
ax = plot_data_1d(x_test, classify(x_test, threshold=threshold),
                  total_len=total_len, s=500, marker='*')

Мы можем посчитать, насколько наша мышь близка к тому, чтобы оказаться в другом классе. Такое расстояние называется **margin**. И оно считается как $\mathrm{margin} = |\mathrm{threshold} - \mathrm{observation}|$

In [None]:
margins = np.abs(x_test - threshold)
print(margins)

Соответственно, если мы посчитаем margins для наших крайних точек `normal_limit` и `obese_limit`, мы найдем самое большое возможное значение margin для нашего классификатора

In [None]:
margin_0 = np.abs(normal_limit - threshold)
margin_1 = np.abs(obese_limit - threshold)
print(margin_0, margin_1)

Такой классификатор мы называем **Maximum Margin Classifier**. Он хорошо работает в случае, когда классы не пересекаются.

## 2D классификация

Теперь рассмотрим пример, где мы измерили не только вес мышей, но и их длину от хвоста до носа. Теперь не очевидно, какие точки кластеров у нас являются крайними и как провести разделяющую прямую, чтобы классы были максимально разнесены.

In [None]:
from sklearn import svm
from sklearn.datasets import make_blobs

def generate_2d_data(total_len=40):
    x, y = make_blobs(n_samples=total_len, centers=2, random_state=42)
    x[:, 0] += 10
    x[:, 1] += 20
    return x, y

total_len = 40
x, y = generate_2d_data(total_len=total_len)

fig = plt.figure()
ax = sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y, s=50)
handles, labels = ax.get_legend_handles_labels()
ax.legend(handles, ["Normal", "Obese"])
ax.set(xlabel="Mass, g", ylabel="Length, cm")
plt.show()

## SVM: Hard and Soft Margin Classifier

Попробуем подойти к задаче с другой стороны (мы немного упростили визуализацию для удобства восприятия, но с мышками будет так же).

Мы хотим провести разделяющую гиперплоскость таким образом, чтобы:
1. Плюсы и минусы лежали по разные стороны от этой плоскости.
2. Ближайшие к плоскости объекты были от нее как можно дальше.

Второе условие дает нам максимальный зазор (*margin*), который мы тривиально находили в одномерном случае.



<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/svm_hard_margin.png" width="1000">

Гиперплоскость однозначно задается вектором нормали $\vec w$ и смещением $b$. Мы ищем решение в виде $(\vec w, \vec x) + b$, где $(\vec w, \vec x)$ - это скалярное произведение, $\vec w$ - вектор весов, а $b$ - смещение. Скалярное произведение вектора признаков на вектор нормали будет давать проекцию вектора признаков на вектор нормали.  Мы не будем делать вектор $\vec w$ единичным, вместо этого мы зафиксируем margin на проекции.


Итого:
1. Мы хотим подобрать такие $\vec  w$ и $b$, чтобы можно было провести такие гиперплоскости:
$$\large (\vec w, \vec x) + b  = 1$$

- **Лежащие на этой плоскости и выше объекты относятся к классу $+1$:** $\large (\vec w, \vec x_+) + b  \ge 1$

$$\large (\vec w, \vec x) + b  = -1$$

- **Лежащие на этой плоскости и ниже объекты относятся к классу $-1$:** $\large (\vec w, \vec x_-) + b  \le -1$


2. Мы хотим разнести эти плоскости как можно дальше. Расстояние между двумя этими **жесткими** границами можно расписать через проекции **опорных** (лежащих на плоскости) **векторов**: $(\vec x_{sv+} - \vec x_{sv-})\frac{\vec w}{||\vec w||} = \frac{2}{||\vec w||}$

Метод использующий **проекции опорных векторов для определения разделяющей гиперплоскости называется SVM** (*support vector machine*).


Условие того, что  $i$-й объект лежит по правильную сторону от разделяющих поверхностей можно записать в совместно:

$$\large y_i ((\vec w, \vec x_i) + b )\ge 1,$$

которое должно выполняться для всех объектов $1 \le i \le N$.

Среди всех решений $\vec w$ и $b$, которые удовлетворяют условию выше, мы хотим подобрать такое, при котором пороговые разделяющие поверхности будут находится дальше всего. Так как расстояние между ними равно $\frac{2}{||\vec w||}$, мы приходим к следующей задаче на экстремум

$$max \frac{2}{||\vec w||} \Leftrightarrow min \frac{1}{2} ||\vec w||^2$$

при условии
$$\large y_i ((\vec w, \vec x_i) + b )\ge 1.$$

Подобная задача на условный экстремум для линейно разделимых классов может быть решена аналитически при помощи [метода множителей Лагранжа](https://en.wikipedia.org/wiki/Lagrange_multiplier):

Найти $\alpha_i$, $\vec w$ и $b$, которые реализуют минимум функции потерь:

$$\large L =  \frac{1}{2} ||\vec w||^2 + \sum_i \alpha_i [y_i ((\vec w, \vec x_i) + b) - 1]$$

$\alpha_i\geq0$ - множитель Лагранжа. Он будет не равен нулю только для **опорных векторов**.

В случае неразделимости классов, написанная выше формула переходит в **Hinge Loss**, $\frac{1}{2} ||\vec w||^2$  котором отвечает за максимальное разнесение классов. **SVM** c **Hinge Loss** называют **Soft Margin Classifier**.

Применим к мышкам ним метод `svm` из библиотеки `sklearn`.

In [None]:
from sklearn import svm

# Code for illustration, later we will understand how it works
# fit the model, don't regularize for illustration purposes
clf = svm.SVC(kernel="linear", C=1000)
clf.fit(x, y)

fig, axs = plt.subplots(1, 2,  figsize=(10, 3))

# first fig
sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y, s=50, ax=axs[0])
handles, labels = axs[0].get_legend_handles_labels()
axs[0].legend(handles, ["Normal", "Obese"])
axs[0].set(xlabel="Mass, g", ylabel="Length, cm")

# plot the decision function
delta = 0.5
# create grid to evaluate model
YY, XX = np.meshgrid(np.linspace(x[:, 1].min()-delta, x[:, 1].max()+delta, 30),
                     np.linspace(x[:, 0].min()-delta, x[:, 0].max()+delta, 30))
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = clf.decision_function(xy).reshape(XX.shape)
pred = np.sign(Z)
axs[0].contourf(XX, YY, pred, alpha=0.3, cmap=custom_cmap)

# plot decision boget_xlimundary and margins
axs[0].contour(
    XX, YY, Z, colors="k", levels=[-1, 0, 1], alpha=0.5,
    linestyles=["--", "-", "--"]
)
# plot support vectors
axs[0].scatter(
    clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
    s=100, linewidth=1, facecolors="none", edgecolors="k"
)

# second fig
dec_val = clf.decision_function(x)
sns.scatterplot(x=dec_val, y=np.zeros(len(x)), hue=y, ax=axs[1])

x_lim, y_lim  = axs[1].get_xlim(), axs[1].get_ylim()
XX, YY = np.meshgrid(np.linspace(x_lim[0], x_lim[1], 100),
                     np.linspace(y_lim[0], y_lim[1], 100))
pred = np.sign(XX)
axs[1].contourf(XX, YY, pred, alpha=0.3, cmap=custom_cmap)

axs[1].axvline(0, color="grey")
axs[1].axvline(-1, color="grey", ls="dashed")
axs[1].axvline(1, color="grey", ls="dashed")
handles, labels = axs[1].get_legend_handles_labels()
axs[1].legend(handles, ["Normal", "Obese"])
axs[1].set(xlabel="wx+b")

sv = clf.decision_function(clf.support_vectors_)
axs[1].scatter(sv, np.zeros_like(sv), s=100, linewidth=1,
               facecolors="none", edgecolors="k")
plt.show()

Видео с хорошим объяснением [SVM](https://youtu.be/_PwhiWxHK8o).

## 3D классификация

Если мы добавим еще одно измерение — возраст, мы обнаружим, что наши данные стали трехмерными, а разделяет их теперь не линия, а плоскость.

In [None]:
def generate_3d_data(total_len=40):
    x, y = make_blobs(n_samples=total_len, centers=2, random_state=42, n_features=3)
    x[:, 0] += 10
    x[:, 1] += 20
    x[:, 2] += 10
    return x, y


def plot_data(x, y, total_len=40, s=50, threshold=21.5):
    fig = plt.figure()
    ax = fig.add_subplot(111, projection="3d")
    ax.scatter(xs=x[:, 0], ys=x[:, 1], zs=x[:, 2], c=y, s=s, cmap="tab10",
               vmin=0, vmax=9)
    # plot the decision function
    ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()

    # create grid to evaluate model
    xx = np.linspace(xlim[0], xlim[1], 30)
    yy = np.linspace(ylim[0], ylim[1], 30)
    YY, XX = np.meshgrid(yy, xx)
    ax.plot_surface(XX, YY, XX * YY * 0.2, alpha=0.2)
    handles, labels = ax.get_legend_handles_labels()
    ax.set(xlabel="Mass, g", ylabel="Length, cm", zlabel="Age, days")
    return ax

total_len = 40
x, y = generate_3d_data(total_len=total_len)
ax = plot_data(x, y, total_len=total_len)

Соответственно, если бы у нас было 4 измерения и больше (например: вес, длина, возраст, кровяное давление), то многомерная плоскость, которая бы разделяла наши классы, называлась бы **гиперплоскость** (рисовать мы ее, конечно же, не будем). Чисто технически, и точка, и линия — тоже гиперплоскости. Но все же гиперплоскостью принято называть то, что нельзя нарисовать на бумаге.

## Многоклассовая классификация

Решение задачи SVM, которое мы рассматривали касалось задачи бинарной классификации. Мы часто будем работать с несколькими классами.

Есть две основных стратегии расширения задачи SVM классификации с двух классов на несколько:
* **one vs rest** (один против всех): каждый класс отделяется от всех других одной прямой (гиперплоскостью).
* **one vs one** (один против одного): классы попарно отделяются друг от друга прямыми (гиперплоскостями).


Создадим датасет из 4 классов, для демонстрации отличий между этими способами.

In [None]:
from sklearn.datasets import make_blobs

centers = [[1, 1], [1, -1], [-1, -1], [-1, 1]]

x, y = make_blobs(
    n_samples=300, centers=centers, cluster_std=0.50, random_state=42
)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.colors import ListedColormap


dark_colors = ['#1B1464','#0961A5', '#754C24', '#006837']
bright_colors = ['#5D5DA6', '#2DA9E1', '#F9B041','#4AAE4D']
dull_cmap = ListedColormap(['#D1D5ED','#B8E1EC','#FEE7D0','#C9E3C8'])

fig, ax = plt.subplots(1, 1,  figsize=(5, 5))

# first fig
sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y, s=50, ax=ax,
                palette=sns.color_palette(bright_colors))

handles, labels = ax.get_legend_handles_labels()
ax.legend(handles, ["0", "1", "2", "3"])
ax.set(xlabel="feature 1", ylabel="feature 2")

plt.xlim([-2.5, 2.5])
plt.ylim([-2.5, 2.5])
plt.show()

### One vs Rest

Классификация **one vs rest** реализована в `sklearn` в классе `svm.LinearSVC`:

In [None]:
from sklearn import svm

clf = svm.LinearSVC()
clf.fit(x, y)

Посмотрим как выглядят разделяющие прямые и нормали к ним для нашей задачи:

In [None]:
from sklearn.inspection import DecisionBoundaryDisplay
import numpy as np

fig, ax = plt.subplots(1, 1,  figsize=(5, 5))

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    x,
    response_method="predict",
    cmap=dull_cmap,
    alpha=0.8,
    xlabel="feature 1",
    ylabel="feature 2",
    ax = ax,
)

# Plot the training points
sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y, s=50, ax=ax,
                palette=sns.color_palette(bright_colors))

# create grid to evaluate model
xx = np.linspace(-2.5, 2.5)
# for visualization
arrow_xs = [0.5, 0.5, -0.5, -0.5]
for i in range(clf.coef_.shape[0]):
    coef = clf.coef_[i]
    w = - coef[0]/coef[1]
    b = - clf.intercept_[0]/coef[1]
    yy = w * xx + b
    # normal
    plt.arrow(arrow_xs[i], w * arrow_xs[i] + b , coef[0]/4,  coef[1]/4,
              edgecolor=dark_colors[i], facecolor=bright_colors[i],
              width=.04)
    # dividing line
    plt.plot(xx, yy, dark_colors[i])

plt.xlim([-2.5, 2.5])
plt.ylim([-2.5, 2.5])

plt.show()

Коэффициенты `clf.coef_` - возвращают вектор нормали. С помощью `clf.coef_` и `clf.intercept_` можно записать уравнение разделяющей прямой.

Для 4 классов стратегия **one vs rest** даст 4 разделяющих прямых (гиперплоскости). Количество разделяющих прямых равно количеству классов.

Существует множество модификаций SVM Loss для решения многоклассовой классификации. В литературе (и в задании) вы можете встретить следующую формулировку Loss для SVM задачи:

$$ Loss = \frac{1}{2} ||\vec w||^2 + {1 \over N}\sum_iL_i(f(x_i,W),y_i),$$

$$L_i = \sum_{j\neq y_i}\begin{cases}
  0,  & \mbox{если } s_{y_i}\geq s_j+1\mbox{} \\
  s_j-s_{y_i}+1, & \mbox{если наоборот, то} \mbox{}
\end{cases}=\sum_{j\neq y_i}max(0,s_j-s_{y_i}+1)$$

где $s_j = f(x_i, W)_j$ - уравнение для $j$-го класса. $s_{y_i}$ - значение уравнения для истинного класса. Идея данной формулы аналогична one vs rest, но вместо абсолютных значений используется разница между предсказаниями для различных классов.

Это формулировка появилась в [статье Weston and C. Watkins 1999 года](https://www.esann.org/sites/default/files/proceedings/legacy/es1999-461.pdf) и стала популянрной благодаря [cтендфорскому курсу](https://cs231n.github.io/linear-classify/#svm), но для нее нет реализации в `sklearn`.

Стратегия **one vs rest** позволяет обучать меньшее количество классификаторов, чем **one vs one**, но при **большом количестве классов** могут появляться проблемы, связанные с **сильным дисбалансом классов** при решении задачи “один против всех”. При большом количестве классов лучше использовать **one vs one** стратегию.  

### One vs One

Второй стратегией многоклассовой классификации для SVM является **one vs one**, в которой классы разделяются попарно. Эта стратегия реализована в классе `svm.SVC`.

In [None]:
clf = svm.SVC(kernel="linear")
clf.fit(x, y)

In [None]:
from sklearn.inspection import DecisionBoundaryDisplay
import numpy as np

fig, ax = plt.subplots(1, 1,  figsize=(5, 5))

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    x,
    response_method="predict",
    cmap=dull_cmap,
    alpha=0.8,
    xlabel="feature 1",
    ylabel="feature 2",
    ax = ax,
)

# Plot the training points
sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y, s=50, ax=ax,
                palette=sns.color_palette(bright_colors))

# for visualization
arrow_xs = [1, -0.1, 0, -0.17, -0.17, -1]
colors_list = [(0, 1), (0, 2), (0, 3),
               (1, 2), (1, 3), (2, 3)]
range_list = [(0, 2.5), (-0.3, 0.1), (-0.1, 0.5),
              (-1, -0.12), (-0.4, 0), (-2.5, 0)]

for i in range(clf.coef_.shape[0]):
    xx = np.linspace(*range_list[i])
    coef = clf.coef_[i]
    w = - coef[0]/coef[1]
    b = - clf.intercept_[0]/coef[1]
    yy = w * xx + b
    # normal
    plt.arrow(arrow_xs[i], w * arrow_xs[i] + b , coef[0]/4,  coef[1]/4,
              edgecolor=dark_colors[colors_list[i][0]],
              facecolor=bright_colors[colors_list[i][0]],
              width=.04)
    # dividing line
    plt.plot(xx, yy, dark_colors[colors_list[i][1]])

plt.xlim([-2.5, 2.5])
plt.ylim([-2.5, 2.5])

plt.show()

Для 4 классов стратегия **one vs one** даст 6 разделяющих прямых (гиперплоскости). Количество разделяющих прямыx:
$$ \frac{n_{classes}\cdot (n_{classes}-1)}{2}$$
гдe $n_{classes}$ - колличество классов.

**Практические советы по использованию SVM:**

* SVM делает **геометрическое разделение данных**, поэтому для адекватной работы модели важна **нормализация**.
* в случае **дисбаланса классов** полезно использовать параметры `class_weight` и  `sample_weight` подробнее об этом можно почитать по ссылке [по ссылке](https://scikit-learn.org/stable/modules/svm.html#unbalanced-problems).
* SVM может давать хорошее решение при небольшом количестве данных, в этом случае стоит попробовать **различные ядра** (про ядра вы узнаете ниже).


# Обобщенные линейные модели

## Kernel SVM

### Идея Kernel SVM

Данные не всегда могут быть **хорошо разделены (гипер)плоскостью**. Например, рассмотрим следующее: у нас есть данные по дозировке лекарства и 2 класса — пациенты, которые поправились, и те, которым лучше не стало.

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
import numpy as np


def generate_patients_data(total_len=40):
    x = np.random.uniform(0, 50, total_len)
    y = np.zeros_like(x)
    y[(x > 15) & (x < 35)] = 1
    return x, y


def plot_data(x, y, total_len=40, s=50):
    plt.figure(figsize=(5, 3))
    ax = sns.scatterplot(x=x, y=np.zeros(len(x)), hue=y, s=s)
    handles, labels = ax.get_legend_handles_labels()
    ax.legend(handles, ["Sick", "Recover"])
    ax.set(xlabel="dose, mg")
    return ax


total_len = 40
x, y = generate_patients_data(total_len=total_len)
ax = plot_data(x, y, total_len=total_len)
plt.show()

Соответственно, мы не можем найти такое пороговое значение, которое будет разделять наши классы на больных и здоровых, а, следовательно, и Support Vector Classifier работать тоже не будет.  Для начала давайте преобразуем наши данные таким образом, чтобы они стали 2-хмерными. В качестве значений по оси Y будем использовать дозу, возведенную в квадрат (**доза**$^2$).

In [None]:
def plot_data(x, y, total_len=40, s=50):
    plt.figure(figsize=(5, 3))
    ax = sns.scatterplot(x=x[0, :], y=x[1, :], hue=y, s=s)
    handles, labels = ax.get_legend_handles_labels()
    ax.legend(handles, ["Sick", "Recover"])
    ax.set(xlabel="Dose, mg")
    ax.set(ylabel="Dose$^2$")
    return ax

total_len = 40
x_1, y = generate_patients_data(total_len=total_len)
x_2 = x_1**2
x = np.vstack([x_1, x_2])

plot_data(x, y, total_len=40, s=50)
plt.show()

Теперь мы можем вновь использовать Support Vector Classifier для классификации

In [None]:
plot_data(x, y, total_len=40, s=50)

x_arr = np.linspace(0, 50, 50)
xs = [x[0, :][y == 1].min(), x[0, :][y == 1].max()]
ys = [x[1, :][y == 1].min(), x[1, :][y == 1].max()]

# Calculate the coefficients.
coefficients = np.polyfit(xs, ys, 1)

# Let's compute the values of the line...
polynomial = np.poly1d(coefficients)
y_axis = polynomial(x_arr)

# ...and plot the points and the line
plt.plot(x_arr, y_axis, "r--")
plt.show()

Основная идея **Kernel SVM** в том, что **мы можем перейти в пространство большей размерности в котором данные будут линейно разделимы**.

Но тут возникает резонный вопрос: **почему мы решили возвести в квадрат**? Почему не в куб? Или, наоборот, не извлечь корень? Как нам решить, какое преобразование использовать?

И у нас есть вторая проблема — а если перейти надо в **пространство очень большой размерности**? В этом случае наши данные очень сильно **увеличатся в размере**.

Комбинация двух проблем дает нам много сложности: надо **перебирать большое число возможных пространств большей размерности**.

 ### Обоснование Kernel SVM

Однако основная фишка **Support Vector Machine** состоит в том, что внутри он работает на скалярных произведениях. И можно эти **скалярные произведения** считать, **не переходя в пространство большей размерности**.

Для этого SVM использует **Kernel Function**.


<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/svm_kernel_function.png" width="700">


Выше мы ввели $Loss$ для **Hard Margin Classifier**:

$$\large Loss =  \frac{1}{2} ||\vec w||^2 + \sum_i \alpha_i [y_i ((\vec w, \vec x_i) + b) - 1]$$

$\alpha_i\geq0$ - множитель Лагранжа. Он будет не равен нулю только для **опорных векторов**.

С добавлением некоторых математических ограничений эту формулу можно [переписать](https://www.geeksforgeeks.org/dual-support-vector-machine/) в **дуальной форме**:

$$\large Loss =  \sum_i \alpha_i+ \sum_i \sum_j \alpha_i \alpha_j
y_i y_j (\vec x_i, \vec x_j) = \sum_i \alpha_i+ \sum_i \sum_j \alpha_i \alpha_j
y_i y_j K(\vec x_i, \vec x_j)$$

(для получения дуальной формы приравнивают нулю производные $\frac {\partial Loss} {\partial w}$ и $\frac {\partial Loss} {\partial b}$ подставляют в исходную формулу)

где $(\vec x_i, \vec x_j)$ - скалярное произведение.
`
В этой формуле можно сделать **kernel trick** - заменить **скалярное произведение** на некоторую функцию от двух векторов, которую мы будем называть **Kernel function**.

Важно заметить, что  **дуальная форма** записи для **многоклассовой классификации** возможна только в случае **one vs one**.


### Примеры ядер

Для демонстрации возможностей kerne SVM создадим датасет, который не разделяется линейными моделями. Для этого воспользуемся функцией `sklearn.datasets.make_circles`.

In [None]:
from sklearn.datasets import make_circles

x, y = make_circles(n_samples=500, factor=0.3, noise=0.05, random_state=42)

Полученный датасет представляет собой две окружности с разными радиусами и общим центром, относящиеся к разным классам.

In [None]:
fig, ax = plt.subplots(1, 1,  figsize=(5, 5))

sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y, s=50, ax=ax,
                palette=sns.color_palette(['#2DA9E1', '#F9B041']))
plt.show()

Напишем функцию визуализации разделяющего правила для SVM модели:

In [None]:
from matplotlib.colors import ListedColormap
from sklearn.inspection import DecisionBoundaryDisplay


def plot_svm(x, y, clf):
    dull_cmap = ListedColormap(['#B8E1EC','#FEE7D0'])
    fig, ax = plt.subplots(1, 1,  figsize=(5, 5))

    disp = DecisionBoundaryDisplay.from_estimator(
        clf,
        x,
        response_method="predict",
        cmap=dull_cmap,
        alpha=0.8,
        xlabel="feature 1",
        ylabel="feature 2",
        ax = ax,
    )

    sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y, s=50, ax=ax,
                    palette=sns.color_palette(['#2DA9E1', '#F9B041']))
    plt.show()

Первое ядро, которое мы рассмотрим - линейное, оно задается формулой:
$$K(\vec x_i, \vec x_j) = (\vec x_i, \vec x_j)$$

Линейным ядром является скалярное произведение векторов.

Линейное ядро не способно справиться с такой задачей:

In [None]:
from sklearn import svm

clf = svm.SVC(kernel="linear")
clf.fit(x, y)
plot_svm(x, y, clf)

Следующее ядро, реализованное в библиотеке `sklearn` - полиномиальное, оно задается формулой:
$$K(\vec x_i, \vec x_j) = (\gamma (\vec x_i, \vec x_j)+r)^d$$
где $d$ - настраиваемый параметр: степень полинома `degree`.
Попробуем применить полиномиальное ядро к нашим данным:

In [None]:
clf = svm.SVC(kernel="poly")
clf.fit(x, y)
plot_svm(x, y, clf)

У модели не получилось разделить данные, это связано с тем, что значение `degree` по-умолчанию равно 3. Попробуем увеличить степень полинома:

In [None]:
clf = svm.SVC(kernel="poly", degree=4)
clf.fit(x, y)
plot_svm(x, y, clf)

Вывод который тут стоит сделать - для получения **оптимального результата** бывает полезным **настроить параметры ядра** с учетом даных.

Самым  популярным ядром SVM является ядро радиальных базисных функций RBF, или гауссово ядро. Оно получено из гауссова  распределения, а гаусово распеление характерно для большого количества измеряемых величин. Данное ядро задается формулой:

$$K(\vec x_i, \vec x_j) = e^{-\gamma{||\vec x_i - \vec x_j||^2}}$$


Настраиваемыми параметрами модели являются `C` и `gamma`, `C` - определяет степень гладкости поверхности принятия решений, чем больше `C` - тем сложнее поверхность и **выше вероятность переобучения** (про переобучение поговорим ниже). `gamma` - определяет  влияние одного обучающего примера [подробнее.](https://scikit-learn.org/stable/modules/svm.html#parameters-of-the-rbf-kernel)


SVM может проверять пространства признаков бесконечного размера, если для такого пространства существует kernel function. RFB ядро как раз [соответствует](https://pages.cs.wisc.edu/~matthewb/pages/notes/pdf/svms/RBFKernel.pdf) такому случаю бесконечномерного пространства признаков.

In [None]:
clf = svm.SVC(kernel="rbf")
clf.fit(x, y)
plot_svm(x, y, clf)

Также в `sklearn` реализовано `sigma` ядро. Оно интересно больше с исторической точки зрения, т.к. эквивалентно модели нейрона - Перцептрону, о котором вы узнаете на 5-й лекции. [На практике](https://home.work.caltech.edu/~htlin/publication/doc/tanh.pdf) оно в большинстве случаев проигрывает RBF ядру.

$$K(\vec x_i, \vec x_j) = tanh (\gamma(\vec x_i, \vec x_j)+r)$$

In [None]:
clf = svm.SVC(kernel="sigmoid")
clf.fit(x, y)
plot_svm(x, y, clf)

# Практические особенности работы с линейными моделями

## Нормализация данных

Мы уже обсудили зачем нужна нормализация данных для линейной модели, в данном пункте мы обсудим виды нормализации более подробно.

Загрузим датасет с образцами здоровой и раковой ткани. Датасет состоит из 569 примеров, где каждой строчке из 30 признаков соответствует класс `1` злокачественной (*malignant*) или `0` доброкачественной (*benign*) ткани. Задача состоит в том, чтобы по 30 признакам обучить модель определять тип ткани (злокачественная или доброкачественная).


In [None]:
import sklearn.datasets

cancer = sklearn.datasets.load_breast_cancer()  # load data

x = cancer.data  # features
y = cancer.target  # labels(classes)
print(f"x shape: {x.shape}, y shape: {y.shape}")
print(f"x[0]: \n {x[0]}")
print(f"y[0]: \n {y[0]}")

Быстрее и удобнее можно посмотреть на данные используя pandas. К тому же Colab добавил возможность визуализации данных (для этого можно тыкнуть синий значок диаграммы ▆ █ ▄  под таблицей)

In [None]:
import pandas as pd

cancer_df = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
cancer_df

Colab делает не полную визуализацию признаков, но и на данных изображениях можно найти полезную **информацию о выбросах** (из графика **Values**), **плотности распределений** (из графика **Distributions**) и о наличии **зависимости между переменными** (из графика **2-d distributions**). Например, мы можем увидеть, что значения признаков *mean area* и *mean perimeter* имеют зависимость близкую к линейной, что не очень хорошо (почему - обсудим позже).

Кроме того можно тыкнуть на рисунок, посмотреть и скопировать код визуализации, чтобы применить к другим данным или изменить под свои нужды.


Теперь давайте посмотрим на сами данные. У нас есть 569 строк, в каждой из которой по 30 колонок. Такие колонки называют признаками или *features*. Попробуем математически описать все эти признаки (mean, std, min и тд).

In [None]:
cancer_df.describe()

То же самое, но в виде графика. Видно, что у фич совершенно разные диапазоны  значений.

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns


plt.figure(figsize=(6, 5))
ax = sns.boxenplot(data=cancer_df, orient="h", palette="Set2", linewidth=0.4,
                   flier_kws={'marker': 'o', 's': 3}, line_kws={'linewidth':1})
ax.set(xscale="log", xlim=(1e-4, 1e4), xlabel="Values", ylabel="Features")
plt.show()

Линейная модель представляет собой **сумму взвешенных признаков**. Если мы приведем признаки к **единому масштабу**, мы сможем **оценить их вклад в модель** по значениям весов. Кроме того, работать с признаками в одном диапазоне вычислительно удобно. Для этого будем использовать нормализацию.


### Выбор Scaler

**Нормализацией** называется процедура приведения входных данных к **общим значениям математических статистик**.

Нормализация строит **взаимно однозначное соответствие** между некоторыми размерными величинами (которые измеряются в метрах, килограммах, годах и т. п.) и их безразмерными аналогами. Исходные значения **можно восстановить**, зная статистики оригинальных данных и правило по которому делалась нормализация.  


Часто используют следующие варианты нормализации:  **`MinMaxScaler`**, **`StandardScaler`**, **`RobustScaler`**.

Идея **`MinMaxScaler`** заключается в том, что он преобразует данные из имеющегося диапазона значений в диапазон от 0 до 1. Может быть полезно, если нужно выполнить преобразование, в котором отрицательные значения не допускаются (например, масштабирование RGB пикселей).

$$z_i=\frac{X_i-X_{min}}{X_{max}-X_{min}}$$

$z_i$ — масштабированное значение,
$X_i$ — текущее значение,
$X_{min}$ и $X_{max}$ — минимальное и максимальное значения имеющихся данных.

Идея **`StandardScaler`** заключается в том, что он преобразует данные таким образом, что распределение будет иметь среднее значение 0 и стандартное отклонение 1. Большинство значений будет в  диапазоне от -1 до 1. Это стандартная трансформация, и она применима во многих ситуациях.

$$z_i=\frac{X_i-u}{s}$$

$u$ — среднее значение (или 0 при `with_mean=False`) и $s$ — стандартное отклонение (или 0 при `with_std=False`)

И `StandardScaler`, и `MinMaxScaler` чувствительны к наличию выбросов. **`RobustScaler`** использует медиану и основан на *процентилях*. k-й процентиль — это величина, равная или не превосходящая k процентов чисел во всем имеющемся распределении. Например, 50-й процентиль (медиана) распределения таков, что 50% чисел из распределения не меньше данного числа. Соответственно, `RobustScaler` не зависит от небольшого числа очень больших предельных выбросов (outliers). Следовательно, результирующий диапазон преобразованных значений признаков больше, чем для предыдущих скэйлеров и, что более важно, примерно одинаков.

$$z_i=\frac{X_i-X_{median}}{IQR}$$

$X_{median}$ — значение медианы, $IQR$ — межквартильный диапазон, равный разнице между 75-ым и 25-ым процентилями.

Сравним `MinMaxScaler`, `StandardScaler`, `RobustScaler` для случайного набора признаков.

In [None]:
import random

random.seed(0)
random_names = random.sample(list(cancer.feature_names), 8)
cut_df = cancer_df[random_names]

In [None]:
from sklearn.preprocessing import MinMaxScaler, RobustScaler, StandardScaler

def plot_norm(df, ax, title):
    sns.boxenplot(df, orient="h", palette="Set2",  ax=ax, linewidth=0.2,
                  flier_kws={'marker': 'o', 's': 5}, line_kws={'linewidth':1})
    ax.set(xlabel="Values", title=title)


fig, axs = plt.subplots(2, 2,  figsize=(10, 7))

plot_norm(cut_df, axs[0][0], "Original")
axs[0][0].set(xscale="log", xlim=(1e-4, 1e4))

min_max_x = MinMaxScaler().fit_transform(cut_df)
plot_norm(pd.DataFrame(min_max_x, columns=random_names), axs[0][1], "MinMax")

std_x = StandardScaler().fit_transform(cut_df)
plot_norm(pd.DataFrame(std_x, columns=random_names), axs[1][0], "Standard")

rob_x = RobustScaler().fit_transform(cut_df)
plot_norm(pd.DataFrame(rob_x, columns=random_names), axs[1][1], "Robust")

plt.subplots_adjust(wspace=0.55, hspace=0.35)

plt.show()

Перед выбором нормализации важно разобраться с природой выбросов. Для этого на выбросы нужно посмотреть, с точки зрения эксперта и попробовать определить, являются ли выбросы ошибкой при сборе данных или редкими случаями, которые необходимо сохранить.

Мы не являемся экспертами в медицине и мало знаем о данных, поэтому мы будем считать что наши признаки имеют распределение близкое к нормальному (мы можем сделать такое предположение из центральной предельной теоремы в теории вероятности). Поэтому мы будем использовать `StandardScaler`. `StandardScaler` часто используют как нормировку по-умолчанию.


In [None]:
x_norm = StandardScaler().fit_transform(cancer_df)  # scaled data

Видим, что они стали намного более сравнимы между собой.

In [None]:
pd.DataFrame(x_norm, columns=cancer.feature_names).describe()

In [None]:
plt.figure(figsize=(6, 5))
ax = sns.boxenplot(data=pd.DataFrame(x_norm, columns=cancer.feature_names),
                   orient="h", palette="Set2", linewidth=0.4,
                   flier_kws={'marker': 'o', 's': 3}, line_kws={'linewidth':1})
ax.set(xlabel="Values")
plt.show()

## Проблема корреляции признаков  в случае линейных моделей

Часто может оказаться, что признаковое описание объекта избыточно и между различными признаками имеются связи. Для устойчивости работы линейных моделей важно, чтобы среди признаков не было скоррелированных пар.

Например, если мы будем решать задачу регрессии на наборе признаков $x_1 \dots x_n$ среди которых есть связь $x_2 = 5 x_1$ и возьмём линейную модель вида
$$\large y = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b,$$
то с учётом данной связи мы можем записать:
$$\large y = w_1 x_1 + w_2 (5x_1) + \dots + w_n x_n + b = (w_1 + 5 w_2) x_1 +  w_3 x_3 + \dots + w_n x_n + b.$$

Таким образом, наша модель теперь учитывает признак $x_1$ с одним "общим" весом $(w_1 + 5 w_2)$, не смотря на то что он закодирован двумя независимыми параметрами. Решение, то есть набор весовых коэффициентов $w_i$ перестало быть единственным, так как мы теперь можем делать произвольные преобразования с числами $w_1$ и $w_2$ до тех пор пока $(w_1 + 5 w_2)$ остаётся неизменным:

$$(w_1 + 5 w_2) = \{w_1 \rightarrow  w_1 + 5000 ,\, w_2 \rightarrow  w_2 - 1000 \} $$
$$(w_1 + 5 w_2) = \{w_1 \rightarrow  w_1 + 5000000 ,\, w_2 \rightarrow  w_2 - 1000000 \} $$
$$(w_1 + 5 w_2) = \{w_1 \rightarrow  w_1 + 5000000000 ,\, w_2 \rightarrow  w_2 - 1000000000 \} $$
$$(w_1 + 5 w_2) = \{w_1 \rightarrow  w_1 + 5000000000000 ,\, w_2 \rightarrow  w_2 - 1000000000000 \} $$
$$(w_1 + 5 w_2) = \{w_1 \rightarrow  w_1 + Nan ,\, w_2 \rightarrow  w_2 + Nan\}$$


**Чем это плохо?**

В случае корреляции признаков задача не имеет единственного решения и не существует обратной матрицы, обеспечивающей аналитическое решение. Мы можем использовать градиентные методы (поговорим позже), для поиска решения, но
при этом веса модели могут неконтролируемо расти. При этом **суммарный вклад** признаков может быть **мал**.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/carrelation_problem1.png" width="700">



Мы можем оценивать **важность признаков в линейной модели**, используя **веса** перед ними (признаки должны быть нормализованы). Чем больше модуль веса, тем больше вклад. Для коррелированных признаков важность будет переоценена.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/carrelation_problem2.png" width="700">


Кроме того, нужно помнить, что диапазоны числовых переменных ограничены. При неконтруемом росте весов, значение может выйти за диапазон и превратиться в ~~тыкву~~ `Nan`.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/carrelation_problem3.png" width="700">


 **Что делать?**

Визуализировать подобные зависимости можно при помощи построения матрицы попарных корреляций признаков:

In [None]:
cancer_df = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)

# Compute the correlation matrix
corr = cancer_df.corr()

# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(8, 6))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(
    corr,
    mask=mask,
    cmap=cmap,
    vmax=1,
    vmin=-1,
    center=0,
    square=True,
    linewidths=0.5,
    cbar_kws={"shrink": 0.5},
)
plt.show()

В наших данных сильно скоррелированы данные о размерах опухоли (мы могли видеть это выше при визуализации 2-d distributions).

В случае корреляции можно:
- **добавить регуляризацию** (о том, что такое регуляризация мы поговорим дальше),
- **оставить один признак**,
- если есть сомнения, что при удалении признаков часть информации будет потеряна, можно оставить **один признак** неизменным и вычесть его из остальных (оставить только **разницу**). Неинформативные шумовые признаки можно удалить (как это делать вы узнаете на 4-й лекции).


## Регуляризация



__Сложность модели__ (*model complexity*) — важный гиперпараметр. В частности, для линейной модели, сложность может быть представлена количеством параметров, для полиномиальных моделей — степенью полинома, для деревьев решений — глубиной дерева и т.д.

Сложность модели тесно связана с __ошибкой обобщения__ (_generalization error_). Ошибка обобщения отличается от ошибки обучения, измеряемой на тренировочных данных, тем, что позволяет оценить обобщающую способность модели, приобретенную в процессе обучения, давать точные ответы на неизвестных ей объектах. Cлишком простой модели не будет хватать мощности для обобщения сложной закономерности в данных, что приводит к большой ошибке обобщения, с другой стороны слишком сложная модель также приводит к большой ошибке обобщения за счет того, что в силу своей сложности модель начинает пытаться искать закономерности в шуме, добиваясь большей точности на тренировочных данных, теряя при этом часть обобщающей способности.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/model_complexity.png" width="500">

Проиллюстрируем описанное явление на примере полиномиальной модели:

In [None]:
x = np.linspace(0, 2 * np.pi, 10)
y = np.sin(x) + np.random.normal(scale=0.25, size=len(x))
x_true = np.linspace(0, 2 * np.pi, 200)
y_true = np.sin(x_true)

plt.figure(figsize=(5, 3))
plt.scatter(x, y, s=50, facecolors="none", edgecolors="b", label="noisy data")
plt.plot(x_true, y_true, c="lime", label="ground truth")
plt.legend()
plt.show()

Попробуем аппроксимировать имеющуюся зависимость с помощью полиномиальной модели, используя шумные данные в качестве тренировочных данных:

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures

x_train = x.reshape(-1, 1)

fig = plt.figure(figsize=(10, 5))

for i, degree in enumerate([0, 1, 3, 9]):
    model = make_pipeline(PolynomialFeatures(degree), LinearRegression())

    model.fit(x_train, y)
    y_plot = model.predict(x_true.reshape(-1, 1))

    fig.add_subplot(2, 2, i + 1)
    plt.plot(x_true, y_plot, c="red", label=f"M={degree}")
    plt.scatter(x, y, s=50, facecolors="none", edgecolors="b")
    plt.plot(x_true, y_true, c="lime")
    plt.legend()
plt.show()

Видно, что модель может переобучаться, подстраиваясь под тренировочную выборку. В полиноме степень, и, как следствие, количество весов — это гиперпараметр, который можно подбирать на кросс-валидации, однако когда мы таким образом подбираем сложность модели, мы накладываем довольно грубое ограничение на обобщающую способность модели в целом. Вместо этого более разумным было бы оставить модель сложной, но использовать некий ограничитель (__регуляризатор__), который будет заставлять модель отдавать предпочтение выбору более простого обобщения.

In [None]:
from sklearn.linear_model import Ridge

model = make_pipeline(PolynomialFeatures(9), LinearRegression())
model_ridge = make_pipeline(PolynomialFeatures(9), Ridge(alpha=0.1))

model.fit(x_train, y)
y_plot = model.predict(x_true.reshape(-1, 1))

model_ridge.fit(x_train, y)
y_plot_ridge = model_ridge.predict(x_true.reshape(-1, 1))

plt.figure(figsize=(5, 3))
plt.plot(x_true, y_plot, c="red", label=f"M={degree}")
plt.plot(x_true, y_plot_ridge, c="black", label=f"M={degree}, alpha=0.1")
plt.scatter(x, y, s=50, facecolors="none", edgecolors="b")
plt.plot(x_true, y_true, c="lime", label="ground truth")
plt.legend()
plt.show()

poly_coef = model[1].coef_

eq = f"y = {round(poly_coef[0], 2)}+{round(poly_coef[1], 2)}*x"
for i in range(2, 10):
    eq += f"+{round(poly_coef[i], 2)}*x^{i}"

print("Without regularization: ", eq)

poly_coef = model_ridge[1].coef_

eq = f"y = {round(poly_coef[0], 2)}+{round(poly_coef[1], 2)}*x"
for i in range(2, 10):
    eq += f"+{round(poly_coef[i], 2)}*x^{i}"

print("With regularization: ", eq)

Видно, что одним из "симптомов" переобучения являются аномально большие веса. Модель Ridge Regression, показанная в примере выше, использует L2-регуляризацию для борьбы с этим явлением:

$$Loss_{L_2} = Loss + \alpha \sum_i w_i^2$$
где $\alpha$ - это коэффициент регуляризации.


<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/l2_regularization.png" width="300"></center>

Идея состоит в том, что мы можем наложить некоторое **требование на сами веса**.

Параметры модели задают некоторую **аппроксимацию целевой функции**. Аппроксимировать целевую функцию можно несколькими способами, например:
1. Использовать все имеющиеся данные и провести ее строго **через все точки**, которые нам известны ($f1$ на картинке);
2. Использовать более простую функцию (в данном случае, линейную), которая не попадет точно во все данные, но зато будет соответствовать некоторым **общим закономерностям**, которые у них есть ($f2$ на картинке).

Характерной чертой переобучения является первый сценарий, и сопровождается он, как правило, **большими весами**. Введение **L2-регуляризации** приводит к тому, что **большие веса больше штрафуются** и предпочтение отдается решениям, использующим **малые значения весов**. При этом модель будет **сохранять скоррелированные и неважные признаки с маленькими весами**.

<center><img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/l1_and_l2_regularization.gif" alt="alttext" width="550"/></center>

Для отбора признаков можно использовать L1-регуляризацию, она больше штрафует маленькие веса.

$$Loss_{L_1} = Loss + \alpha \sum_i |w_i|$$



Для получения интуиции, что L1-регуляризация позволяет отбирать признаки обычно используют картинку ниже. Голубая область - ограничение на значения весов, которое дает регуляризация.

Голубая область - ограничение на значения весов, которое дает регуляризация. Для **L2** - это **окружность**. Черная точка - это минимальное значение для функции Loss с регуляризацией. Для **L2** она будет лежать **на касательной к окружности**. Для **L1** - ограничения на значения весов будут иметь **форму ромба**. При этом минимальное значение для функции Loss с регуляризацией будет чаще попадать в **угол ромба**, что соответствует **обнулению веса** одного из признаков.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/l1_l2_regularization.png" width="1000">

# Вероятностный подход в задаче классификации

## Наивный Байесовский классификатор

Можно построить модель классификации, которая будет напрямую оценивать вероятность принадлежности объекта к интересующему нас классу просто на основе информации о распределении объектов по классам в обучающей выборке. Базовую идею такого примера легко продемонстрировать на следующем примере данных.

### Табличные данные: датасет Wine

Загрузим `DataFrame` датасета [Wine](https://archive.ics.uci.edu/ml/datasets/wine), который являлся примером табличных данных в нашей первой лекции:

In [None]:
import sklearn
from sklearn.datasets import load_wine

# https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine

# Download dataset
features, class_labels = load_wine(
    return_X_y=True, as_frame=True
)  # also we can get data in Bunch (dictionary) or pandas DataFrame

wine_dataset = features
wine_dataset["target"] = class_labels

wine_dataset.head()

наш датасет содержит объекты 3 различных классов:

In [None]:
wine_dataset.target.unique()

Возьмём первый признак `alcohol`. По имеющийся таблице с данными легко построить функцию распределения $f(x)$, которая будет задавать вероятность $p(\text{alcohol} = x)$ найти среди наших данных бутылку вина с параметром `alcohol` равным $x$ (рисунок слева).

Т.к. у нас три класса, мы можем построить распределение объектов в обучающей выборке по признаку `alcohol` отдельно для каждого из этих трёх классов. Эти распределения зададут нам условную вероятность $p(\text{alcohol} = x |\text{target} = i)$ того что объект имеет значение признака `alcohol` равным $x$ при условии, что он относится к одному из классов с номером $i$ (рисунок справа).

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.kdeplot(wine_dataset, x="alcohol",
            fill=True, ax=axes[0])
axes[0].set_title("p(alcohol=x)")

sns.kdeplot(wine_dataset, x="alcohol", hue="target",
            palette=sns.color_palette(['#5D5DA6', '#2DA9E1', '#F9B041']),
            fill=True,
            ax=axes[1])
axes[1].set_title("p(alcohol=x|target=i)")
plt.show()

Посмотрев на плотности распределений по классам (рисунок справа), мы можем предположить, что бутылка с значением $alcohol=11.3$ будет относиться к 1 классу.

На языке формул наш “метод пристального вглядывания” можно записать с помощью формулы для условной вероятности по [теореме Байеса](https://en.wikipedia.org/wiki/Bayes'_theorem):

$$\large p(\text{target} = i | \text{alcohol} = x) = \frac{p(\text{alcohol} = x | \text{target} = i )p(\text{target} = i )}{p(\text{alcohol} = x)},$$

где $p(\text{target} = i | \text{alcohol} = X)$ - вероятность того что объект принадлежит классу $i$ при условии того что признак `alcohol` у него принимает значение $X$, а $p(\text{target} = i)$ - как часто датасете встречаются объекты класса $i$.


Мы поняли, откуда в названии метода **Байес**, теперь разберемся **почему он “наивный”**.

Мы использовали только один признак: `alcohol`, всего же у нас 13 признаков.

$$\large p(\text{target} = i |\text{features} = \vec x ) = \frac{p(\text{features} = \vec x | \text{target} = i )p(\text{target} = i )}{p(\text{features} = \vec x)}$$

**“Наивность”** Байеса состоит в том, что эта модель будет рассматривать признаки, как **независимые случайные величины**:
$$\large p(\text{features} = \vec x)=p(\text{feature}_1 = x_1)\cdotp(\text{feature}_2 = x_2)...(\text{feature}_n = x_n)$$

Если мы решаем задачу классификации на $k$ классов, то для объекта с набором признаком $\vec x$ по формуле выше мы получим $k$ чисел, характеризующих вероятность принадлежности данного объекта к различным классам. Для финального принятия решения нам останется выбрать тот класс, для которого вероятность принадлежности наивысшая:

$$\large \text{рrediction} = \underset{i}{\text{argmax}}{\left(p(\text{target} = i |\text{features} = \vec x )\right)}.$$

Вернёмся к нашему датасету Wine и попробуем решить задачу классификации для него при помощи предложенного алгоритма.

Как обычно, разделим наш датасет на тренировочную и валидационную выборки:

In [None]:
from sklearn.model_selection import train_test_split

# Split the data into train and test data
x_train, x_test, y_train, y_test = train_test_split(
    features.values, class_labels.values, test_size=0.25, random_state=42
)

Возьмём реализацию Наивного Байесовского классификатора из [библиотеки sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNB). Обучим её на тренировочном датасете и измерим качество на отложенной валидационной выборке:

In [None]:
from sklearn.metrics import f1_score
from sklearn.naive_bayes import GaussianNB

# Train the model
model = GaussianNB()
model.fit(x_train, y_train)

# Calculate F1_score
pred = model.predict(x_test)
f1_score(y_test, pred, average="macro")

Благодаря простоте модельного датасета Wine наша наивная статистическая модель показала отличное качество работы, для решения большинства практических задач на реальных датасетах не следует ожидать настолько же высокого качества. Тем не менее, подход к решению задачи классификации, связанный с построением модели предсказания принадлежности объекта к имеющимся классам, оказался крайне конструктивным. Такой подход можно попробовать применить в общем случае.

### NLP: задача определения спама

Наивный Байесовский классификатор часто используют в задаче обнаружения спама и пример его использования в такой задаче может показаться ещё более наглядным.
В рамках данной задачи у нас имеется:
- Датасет из текстов сообщений с некоторым фиксированным словарём возможных слов.
- Два класса сообщений: спам и нормальное.
- Признаковое описание для каждого сообщения характеризует количество вхождений каждого из слов словаря в текст сообщения.


На основе этой информации нам нужно научиться отделять нормальные письма от спама. Все письма состоят из 4-х слов: **‘Добрый’, ‘День’, ‘Гости’, ‘Деньги’**. При этом мы уже посчитали, сколько раз каждое слово встречается в каждом классе.

Мы можем посчитать вероятность встретить слово **‘Добрый’** в нормальном письме: берем количество слов **‘Добрый’** и делим на количество слов во всех нормальных письмах (с повторениями). Аналогично для других слов.

<center><img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/naive_bayes_1.png" alt="alttext" width=900/></center>

Делаем то же самое для слов из спама.

<center><img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/naive_bayes_2.png" alt="alttext" width=900/></center>

Считаем вероятность того, чтобы письмо было нормальным. Для этого количество нормальных писем делим на общее количество писем. Аналогично для спама. Это — $p(\text{target} = i)$ в формуле выше.

<center><img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/naive_bayes_3.png" alt="alttext" width=900/></center>

Чтобы получить вероятность нормального письма с фразой **‘Добрый День’** в "наивном" предположении мы можем перемножить вероятности нормального письма со словом **‘Добрый’** и нормального письма со словом **‘День’**. Это произведение будет $p(\text{target} = i | \text{Features} = \vec X)$ в формуле выше.

Считаем $p(\text{Features} = \vec X|\text{target} = i) p(\text{target} = i)$:

<center><img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/naive_bayes_3_5.png" alt="alttext" width=900/></center>

## Кросс-энтропия, как общая функция потерь для задач классификации

### Переход к вероятностям

**Softmax**

[Видео от StatQuest, которое объясняет Softmax](https://www.youtube.com/watch?v=KpKog-L9veg)

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/scores_to_probability.png" width="750">

Перейти к вероятностям мы сможем, проведя с весами некоторые не очень сложные математические преобразования.

На слайде выше показано, почему выходы модели часто называют [logit’ами](https://en.wikipedia.org/wiki/Logit). Если предположить, что у нас есть некая вероятность, от которой мы берем такую функцию (logit), то результат может принимать значение в любых вещественных числах. Мы можем считать, что выходы модели — это logit’ы.

Например, мы могли бы просто взять индекс массива, в котором значение (logit) максимально. Предположим, что наша модель выдала следующие значения:

In [None]:
logits = [
    5.1,  # cat
    3.2,  # car
    -1.7,  # frog
]

Тогда, чтобы узнать какой класс наша сеть предсказала, мы могли бы просто взять `argmax` от наших `logits`

In [None]:
import numpy as np

print("Predicted class = %i (Cat)" % (np.argmax(logits)))

Но от argmax нельзя посчитать градиент, так как производная от константы равна 0. Соответственно, если бы мы вставили производную от argmax в градиентный спуск, мы бы получили везде нули, и соответственно, наша модель бы вообще ничему не научилась

In [None]:
plt.figure(figsize=(5, 3))
plt.scatter(np.arange(3), [1, 0, 0], color="red", s=50)
plt.show()

А мы бы хотели получить не logit’ы, а настоящую вероятность на выходе модели. Да еще и таким образом, чтобы от наших вероятностей можно было посчитать градиент. Для этого мы можем применить к нашим логитам функцию **Softmax**

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/linear_classifier_softmax.png" width="1024">



1. Отобразим наши logit’ы на значения $[0, +∞)$.

Для этого возведем экспоненту (число Эйлера 2.71828) в **степень логита**. В результате, мы получим вектор гарантированно неотрицательных чисел (положительное число, возведенное в степень, даже отрицательную, даст положительное значение).

2. Нормализуем.

Чтобы  интерпретировать числа как вероятности, их сумма должна быть равна единице. Мы должны их нормализовать, то есть **поделить на сумму**.

Это преобразование называется **Softmax функцией**. **Получаются вероятности**, то есть числа, которые можно интерпретировать, как вероятности.

$\text{Softmax}_\text{кошка} = \frac{e^{5.1}}{e^{5.1} + e^{3.2} + e^{-1.7}}$

In [None]:
def softmax(logits):
    return np.exp(logits) / np.sum(np.exp(logits))


print(softmax(logits))
print("Sum = %.2f" % np.sum(softmax(logits)))

Можно обратить внимание, что Softmax никоим образом не поменял порядок значений. Самому большому logit'у соответствует самая большая вероятность, а самому маленькому, соответственно, самая маленькая.

Посмотрим на графиках. Возьмем массив случайных логитов и применим к ним softmax

In [None]:
rand_logits = np.linspace(-1, 1, 50)
fig, ax = plt.subplots(ncols=2, figsize=(6, 3))

ax[0].plot(np.arange(50), rand_logits)
ax[0].set_title("Logits")
ax[1].plot(np.arange(50), softmax(rand_logits))
ax[1].set_title("Softmax")
plt.show()

#### Практическое вычисление SoftMax

При вычислении экспоненты от выходов модели могут получиться очень большие числа в силу очень высокой скорости роста экспоненты. Этот факт необходимо учитывать, чтобы вычисления SoftMax были численно стабильны:

In [None]:
from warnings import simplefilter

simplefilter("ignore", category=RuntimeWarning)

f = np.array([123, 456, 789])
p = np.exp(f) / np.sum(np.exp(f))
print(f, p)

Чтобы регуляризовать вычисление, нам следует предварительно упростить возникающую в вычислении дробь. Для этого мы можем вычесть из каждого $s_i$ положительную константу, чтобы уменьшить значения экспонент. В качестве константы можно выбрать максимальный элемент этого вектора, тогда у нас гарантированно не будет очень больших чисел, и такой способ будет работать более стабильно.

$$M = \max_j s_{y_{j}}$$
$$s^{new}_{y_{i}}  = s_{y_{i}} - M $$

$$ \dfrac {e^{s^{new}_{y_{i}}}} {\sum_j e^{s^{new}_{y_{j}}}}  = \dfrac {e^{s_{y_{i}} - M }} {\sum_j e^{s_{y_{j}} - M }} = \dfrac {e^{s_{y_{i}}}e ^ {-M}} {\sum_j e^{s_{y_{j}}} e ^ {-M}} = \dfrac {e ^ {-M} e^{s_{y_{i}}}} {e ^ {-M} \sum_j e^{s_{y_{j}}} } = \dfrac { e^{s_{y_{i}}}} { \sum_j e^{s_{y_{j}}} }$$

In [None]:
f = np.array([123, 456, 789])
f -= f.max()
p = np.exp(f) / np.sum(np.exp(f))
print(f, p)

### Расстояние (дивергенция) Кульбака — Лейблера

Теперь нам нужно сравнить полученные вероятности с истинными метками классов.

В математической статистике и теории информации в мерой расхождения между двумя вероятностными распределениями $P$ и $Q$ является расстояние (дивергенция) Кульбака — Лейблера, вычисляемое по формуле
$$D_{KL}(P||Q) = ∑_i P(i)\log\frac{P(i)}{Q(i)}$$

Попробуем разобраться, что значит эта формула на примере двух монеток:
- настоящей с вероятностями орла и решки 0.5 и 0.5 соответственно,
- фальшивой с вероятностями орла и решки 0.2 и 0.8 соответственно.

Возьмем настоящую монету и произведем 10 бросков (выборок). Получили последовательность $\color{blue}{О О} \color{green}{Р} \color{blue}{О О} \color{green}{Р} \color{blue}{О О О} \color{green}{Р}$, где $\color{blue}{O}$ - это орел, $\color{green}{Р}$ - это решка.
Посчитаем вероятности выбросить такую последовательность для настоящей и фальшивой монеты. Броски независимые, поэтому значения вероятностей перемножаются.

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/kl_divergence_1.png" width="900">

Запишем пропорцию вероятностей данной комбинации для настоящей монетки и для фальшивой (независимые случайные величины, вероятности перемножаются). Для заданных значений вероятностей пропорция будет примерно $149:1$.

$$\frac{\color{blue}{p_1^{N_о}}\color{green}{p_2^{N_р}}}
{\color{blue}{q_1^{N_о}}\color{green}{q_2^{N_р}}}=
\frac{\color{blue}{\left(\frac{1}{2}\right)^{7}}\color{green}{\left(\frac{1}{2}\right)^{3}}}
{\color{blue}{\left(\frac{1}{5}\right)^{7}}\color{green}{\left(\frac{4}{5}\right)^{3}}}\approx \frac{149}{1}$$

Возьмем логарифм от этого значения (это позволит нам избавиться от степеней и заменить умножение сложением) и нормируем на количество бросков монетки $N=\color{blue}{N_о}+\color{green}{N_р}$.

$$\frac{\color{blue}{N_о}}{N}\log{\color{blue}{p_1}}+
\frac{\color{green}{N_р}}{N}\log{\color{green}{p_2}}-
\frac{\color{blue}{N_о}}{N}\log{\color{blue}{q_1}}-
\frac{\color{green}{N_р}}{N}\log{\color{green}{q_2}}$$

При увеличении количества бросков $N\to∞$, так как мы бросали настоящую монетку

$$\frac{\color{blue}{N_о}}{N} \to \color{blue}{p1}, \frac{\color{green}{N_р}}{N} \to \color{green}{p2} .$$

Получаем расстояние Кульбака — Лейблера.

$$D_{KL}(P||Q) = \color{blue}{p_1} \log{\color{blue}{p_1}}
+ \color{green}{p_2}\log{\color{green}{p_2}}
- \color{blue}{p_1}\log{\color{blue}{q_1}}
- \color{green}{p_2}\log{\color{green}{q_2}}$$

$$ = \color{blue}{p_1} \log{\color{blue}{\frac{p_1}{q_1}}}
+ \color{green}{p_2} \log{\color{green}{\frac{p_2}{q_2}}}$$

Обратим внимание, что если $P=Q$, то

$$D_{KL}(P||Q) = ∑_i P(i)\log\frac{P(i)}{Q(i)} = 0$$

#### Переход к оценке модели

Мы научились определять близость двух распределений. Как это поможет нам оценить качество модели, если мы знаем, какие метки классов должны получиться?

Пусть $P$ — вероятности истинных меток классов для объекта (1 для правильного класса, 0 для остальных), $Q(\theta)$ — вероятности классов для объекта, предсказанные моделью с обучаемыми параметрами $\theta$.

Расстояние Кульбака — Лейблера между истинными и предсказанными значениями

$$D_{KL}(P||Q(\theta)) = ∑_i P(i)\log\frac{P(i)}{Q(i| \theta)} $$

$$ = ∑_i P(i)\log{P(i))} -  ∑_i P(i)\log{Q(i|\theta)} $$

$$ = - H(P) + H(P|Q(\theta))$$

Мы разбили сумму на две части, первая из которых называется **энтропией** $H(P)$ и не будет зависеть от модели, а вторая называется **кросс-энтропией** $H(P|Q(\theta))$.



#### Энтропия

Понятие энтропии пришло из теории связи. Для расчета энтропии можно использовать формулу Шеннона:

$$H(P)=-\sum^C_{i=1}P(i)\cdot log_{2}(P(i)),$$
где C &mdash; количество классов.


В формуле Шеннона не случайно используется логарифм по основанию 2. Она рассчитывает, **сколько бит информации минимально необходимо для передачи одного значения**, например, одного исхода броска монетки.

Если монетка **всегда выдает орел**, то нам нет смысла передавать информацию, чтобы предсказать исход

$$H(\color{blue}{p_1 = 1}, \color{green}{p_2 = 0}) = 0$$


Для настоящей монетки необходимо будет передавать 1 бит информации на бросок
$$H(\color{blue}{p_1 = 0.5},  \color{green}{p_2 = 0.5})= log_{2}(2) = 1,$$

А вот с поддельной монеткой получается интереснее: если сделать много бросков, можно выявить закономерность что решка выпадет чаще (вероятность трех решек подряд будет больше вероятности одного орла) и за счет этого сократить количество передаваемой информации так, чтобы на один бросок получалось меньше 1 бита. Как это сделать — отдельная область теории информации, называемая **кодирование источника**.
$$H(\color{blue}{q_1 = 0.2}, \color{green}{q_2 = 0.8}) = 0.722$$

__Энтропия__ — мера неуверенности, связанная с распределением $P$.
Зная истинное распределение случайной величины, мы можем рассчитать его энтропию.

Если мы попытаемся использовать статистические данные, полученные для фальшивой монеты $Q$, для настоящей $P$, мы не получим выигрыш в количестве передаваемой информации:

$$H(P||Q) = - \sum^C_{i=1}P(i)\cdot log_2(Q(i)) = 1.322$$

Формула выше называется **кросс-энтропия**.

**Кросс-энтропия** позволяет оценить ситуацию, когда мы аппроксимируем истинное распределение $P$ предсказанным распределением $Q$. Чем больше значения кросс-энтропии, тем больше расхождение между распределениями. Поэтому кросс-энтропию используют в качестве **функции потерь**.




Как мы показали выше, **кросс-энтропия** связана с **энтропией** и **расстоянием Кульбака — Лейблера**
$$H(P||Q) = D_{KL}(P||Q) + H(P).$$

Посчитаем значения для наших монеток с помощью кода:

In [None]:
# normal coin
p1 = 0.5
p2 = 0.5

# fake coin
q1 = 0.2
q2 = 0.8

In [None]:
# Kullback–Leibler divergence
div_kl = p1 * np.log2(p1 / q1) + p2 * np.log2(p2 / q2)
print(f"Dkl(P||Q) = {div_kl:.3f}")

# Entropy normal coin
h_p = -p1 * np.log2(p1) - p2 * np.log2(p2)
print(f"H(P) = {h_p:.3f}")

# Entropy fake coin
h_q = -q1 * np.log2(q1) - q2 * np.log2(q2)
print(f"H(Q) = {h_q:.3f}")

# Cross-entropy
h_p_q = -p1 * np.log2(q1) - p2 * np.log2(q2)
print(f"H(P||Q) = {h_p_q:.3f}")
print(f"H(P||Q) = Dkl(P||Q) + H(P) = {h_p+div_kl:.3f}")

## Расчет функции потерь

Вернемся к задаче классификации изображения. Рассчитаем для предсказания модели Cross-Entropy loss.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/logits_to_scores_to_probabilitys.png" width="900">

В расчетах выше мы использовали логарифм по основанию 2, что приближало нас к теории информации. Мы можем считать кросс-энтропию по натуральному логарифму, она будет отличаться умножением на константу.

$$H(P||Q)=-1⋅\log{0.869}-0\cdot\log{0.13}-0\cdot\log{0.001}\approx0.14$$

In [None]:
def cross_entropy_loss(pred_prob, true_prob):
    return -np.dot(true_prob, np.log(pred_prob))


print(f"Logits = {logits}")

pred_prob = softmax(logits)
print(f"Predicted Probabilities = {pred_prob}")

true_prob = [1.0, 0.0, 0.0]
print(f"True Probabilities = {true_prob}")

print(f"Cross-entropy loss = {cross_entropy_loss(pred_prob, true_prob):.3f}")

### Кросс-энтропия vs Hinge loss

**Cross-entropy / log loss**

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/cross_entropy_plot_loss_with_probability.png" width="800">


Преимуществом Cross-Entropy loss (слева) по сравнению с кусочно-гладкой SVM-Loss (справа) является:
- гладкость и отсутствие участка с плато (не имеет нулевых производных или неопределенных точек),
- большой градиент для большого Loss, маленький вблизи 100% точности (для кусочно гладкой функции градиент ноль или константа).



### Градиент функции потерь. Кросс-энтропия




[Cross Entropy Loss](https://wandb.ai/wandb_fc/russian/reports/---VmlldzoxNDI4NjAw#:~:text=%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F%20%D0%BF%D0%BE%D1%82%D0%B5%D1%80%D1%8C%20%D0%BF%D0%B5%D1%80%D0%B5%D0%BA%D1%80%D0%B5%D1%81%D1%82%D0%BD%D0%BE%D0%B9%20%D1%8D%D0%BD%D1%82%D1%80%D0%BE%D0%BF%D0%B8%D0%B8%20%E2%80%93%20%D1%8D%D1%82%D0%BE,%2C%20%D0%B3%D0%B4%D0%B5%200%20%E2%80%93%20%D0%B8%D0%B4%D0%B5%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C.)

$$ -L = \sum_i y_i \log p_i = \sum_i y_i \log(\dfrac {e^{s_{y_i}}} {\sum_j e^{s_{y_j}}})$$

$$s_{y_i} = w_i x$$

$$ \dfrac {\partial L} {\partial w_i} = \dfrac {\partial L} {\partial s_{y_i}} \dfrac {\partial s_{y_i}} {\partial w_i} $$

$$\dfrac {\partial s_{y_i}} {\partial w_i} = x$$

Только один $y_k = 1$


$$ -L = y_k \log p_i = \log(\dfrac {e^{s_{y_i}}} {\sum_j e^{s_{y_j}}})$$

i = k

$$ -L = \log(\dfrac {e^{s_{y_i}}} {\sum_j e^{s_{y_j}}}) = \log e^{s_{y_i}} - \log  \sum_j e^{s_{y_j}}  = s_{y_i} - \log  \sum_j e^{s_{y_j}}$$

$$\dfrac {\partial -L} {\partial s_{y_i}} = 1 - \dfrac 1 {\sum_j e^{s_{y_j}}} \cdot \dfrac {\partial {\sum_j e^{s_{y_j}}}} {\partial s_{y_i}} = 1 - \dfrac 1 {\sum_j e^{s_{y_i}}} \cdot \dfrac {\partial e^{s_{y_i}}} {\partial s_{y_i}} = 1 - \dfrac {e^{s_{y_i}}} {\sum_j e^{s_{y_j}}} = 1 - p_i$$

$$\dfrac {\partial L} {\partial s_{y_j}} = p_i - 1 $$

$$ \dfrac {\partial L_i} {\partial w_i}  = \dfrac {\partial L} {\partial s_{y_i}} \dfrac {\partial s_{y_i}} {\partial w_i} = (p_i - 1) x $$

i != k

$$ -L = \log(\dfrac {e^{s_{y_i}}} {\sum_j e^{s_{y_j}}}) = \log e^{s_{y_k}} - \log  \sum_j e^{s_{y_j}}  = s_{y_k} - \log  \sum_j e^{s_{y_j}}$$

$$\dfrac {\partial -L} {\partial s_{y_i}} = - \dfrac 1 {\sum_j e^{s_{y_j}}} \cdot \dfrac {\partial {\sum_j e^{s_{y_j}}}} {\partial s_{y_i}} =  \dfrac 1 {\sum_j e^{s_{y_i}}} \cdot \dfrac {\partial e^{s_{y_i}}} {\partial s_{y_i}} = \dfrac {e^{s_{y_i}}} {\sum_j e^{s_{y_j}}} = - p_i$$

$$\dfrac {\partial L} {\partial s_{y_j}} = p_i $$
$$ \dfrac {\partial L_i} {\partial w_i}  = \dfrac {\partial L} {\partial s_{y_i}} \dfrac {\partial s_{y_i}} {\partial w_i} = p_i x $$



В коде это будет выглядеть вот так:

In [None]:
# Input batch of 2 vector with 4 elements
x = np.array([[1, 2, 3, 4], [1, -2, 0, 0]])
# Weights
W = np.random.randn(3, 4)  # 3 class

# model output
logits = x.dot(W.T)
print("Scores(Logits) \n", logits, "\n")

# Probabilities
probs = softmax(logits)  # defined before
print("Probs \n", probs, "\n")

# Ground true classes
y = [0, 1]

# Derivative
probs[np.arange(2), y] = -1  # substract one from true class prob
dW = x.T.dot(probs)  # dot product with input

print("Grads dL/dW \n", dW)  # have same shape as W

# Пример обучения линейного классификатора с hinge loss

Опишем модель:

In [None]:
import random


class LinearClassifier:
    def __init__(self, labels, batch_size, imgsize=28, nchannels=1, random_state=42):
        self.labels = labels  # classes names
        self.classes_num = len(labels)  # num of classes

        np.random.seed(random_state)
        self.W = (
            np.random.randn(nchannels * imgsize**2 + 1, self.classes_num) * 0.0001
        )  # generate random weights, reshape to add bias
        self.batch_size = batch_size  # batch_size

    def fit(self, x_train, y_train, learning_rate=1e-8):
        loss = 0.0  # reset loss
        train_len = x_train.shape[0]  # num of examples
        indexes = list(range(train_len))  # indexes train_len
        random.shuffle(indexes)

        for i in range(0, train_len, self.batch_size):
            idx = indexes[i : i + self.batch_size]
            x_batch = x_train[idx]
            y_batch = y_train[idx]

            x_batch = np.hstack([x_batch, np.ones((x_batch.shape[0], 1))])  # add bias

            loss_val, grad = self.loss(x_batch, y_batch)  # loss and gradient
            self.W -= learning_rate * grad  # update weigths

            loss += loss_val  # loss sum
        return loss / (train_len)  # mean loss

    def loss(self, x, y):
        current_batch_size = x.shape[0]  # batch_size
        loss = 0.0
        dW = np.zeros(self.W.shape)
        for i in range(current_batch_size):
            scores = x[i].dot(self.W)  # vector of shape 10
            correct_class_score = scores[int(y[i])]
            above_zero_loss_count = 0
            for j in range(self.classes_num):
                if j == y[i]:  # predict class
                    continue
                margin = scores[j] - correct_class_score + 1  # loss
                if margin > 0:
                    above_zero_loss_count += 1
                    loss += margin  #
                    dW[:, j] += x[i]  #
            dW[:, int(y[i])] -= above_zero_loss_count * x[i]
        loss /= current_batch_size
        dW /= current_batch_size
        return loss, dW

    def forward(self, x):
        x = np.append(x, 1)  # add 1 (bias)
        scores = x.dot(self.W)
        return np.argmax(scores)

Код для проверки качества полученной модели на валидационной выборке:

In [None]:
def validate(model, x_test, y_test, noprint=False):
    correct = 0
    for i, img in enumerate(x_test):
        index = model.forward(img)
        correct += 1 if index == y_test[i] else 0
        if noprint is False:
            if i > 0 and i % 1000 == 0:
                print("Accuracy {:.3f}".format(correct / i))
    return correct / len(y_test)

Код для обучения модели:

In [None]:
def train_and_validate(
    model_class, x_train, y_train, x_test, y_test, labels, imgsize, nchannels
):
    print("How learning quality depends of speed:")

    for lr in [1e-2, 1e-8]:
        for bs in [256, 2048]:
            print("-" * 50, "\n", "learning_rate =", lr, "\tbatch_size =", bs)
            print()
            model = model_class(labels, bs, imgsize, nchannels)

            best_accuracy = 0
            for epoch in range(10):
                loss = model.fit(x_train, y_train, learning_rate=lr)
                accuracy = validate(model, x_test, y_test, noprint=True)
                if best_accuracy < accuracy:
                    best_accuracy = accuracy
                    best_epoch = epoch
                print(f"Epoch {epoch} \tLoss: {loss}, \tAccuracy:{accuracy}")

            print()
            print(f"Best accuracy is {best_accuracy} in {best_epoch} epoch")

## MNIST

[MNIST](https://paperswithcode.com/dataset/mnist)

In [None]:
import numpy as np
from torchvision.datasets import MNIST
from IPython.display import clear_output

dataset_train = MNIST("content", train=True, download=True)
dataset_test = MNIST("content", train=False, download=True)

x_train = dataset_train.data.numpy().reshape((-1, 28 * 28))
y_train = np.array(dataset_train.targets)

x_test = dataset_test.data.numpy().reshape((-1, 28 * 28))
y_test = np.array(dataset_test.targets)

clear_output()

print(f"x_train shape: {x_train.shape}, y_train shape: {y_train.shape}")
print(f"x_train shape : {x_test.shape}, y_test shape: {y_test.shape}")

In [None]:
train_and_validate(
    LinearClassifier, x_train, y_train, x_test, y_test, np.arange(10), 28, 1
)

## CIFAR-10

[CIFAR-10](https://paperswithcode.com/dataset/cifar-10)

In [None]:
import os

file_exists = os.path.exists("/content/cifar-10-batches-py")
if file_exists == False:
    #!wget https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
    !wget https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/cifar-10-python.tar.gz
    !tar -xzf cifar-10-python.tar.gz
clear_output()

In [None]:
import pickle


def unpickle(file):
    with open(file, "rb") as fo:
        dict = pickle.load(fo, encoding="bytes")
    return dict


x_train = np.zeros((0, 3072))
y_train = np.array([])
for i in range(1, 6):
    # raw = unpickle(f"/content/cifar-10-batches-py/data_batch_{i}")
    raw = unpickle(f"cifar-10-batches-py/data_batch_{i}")
    x_train = np.append(x_train, np.array(raw[b"data"]), axis=0)
    y_train = np.append(y_train, np.array(raw[b"labels"]), axis=0)

# test = unpickle("/content/cifar-10-batches-py/test_batch")
test = unpickle("cifar-10-batches-py/test_batch")
x_test = np.array(test[b"data"])
y_test = np.array(test[b"labels"])

labels_eng = [
    "Airplane",
    "Car",
    "Bird",
    "Cat",
    "Deer",
    "Dog",
    "Frog",
    "Horse",
    "Ship",
    "Truck",
]

print(f"x_train shape: {x_train.shape}, y_train shape: {y_train.shape}")
print(f"x_test shape: {x_test.shape}, y_test shape: {y_test.shape}")

In [None]:
train_and_validate(
    LinearClassifier, x_train, y_train, x_test, y_test, labels_eng, 32, 3
)

# Свалка
Это рабочий заголовок, который будет удален перед чтением. Я переношу сюда картинки, которые не вписываются в лекцию по ходу правок, но могут пригодится в других разделах, чтобы они оставались навиду.

Мы их можем собрать в матрицу, тогда получится следующее:



<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/scalar_product_add_bias.png" width="750">

У нас есть матрица коэффициентов, которые мы каким-то образом подобрали, пока ещё непонятно как. Есть вектор $x$, соответствующий изображению.

Мы умножаем вектор на матрицу, получаем нашу гиперплоскость для четырехмерного пространства в данном случае. Чтобы оно не лежало в 0, мы должны добавить смещение. И мы можем сделать это после, но можно взять и этот вектор смещения (вектор **b**) просто приписать к матрице **W**.

Что будет выходом такой конструкции? Мы умножили матрицу весов на наш вектор, соответствующий изображению, получили некоторый отклик. По этому отклику мы так же, как и при реализации метода ближайшего соседа можем судить: если он больше остальных, то мы предполагаем, что это кошка.


In [None]:
img = np.array([56, 231, 24, 2])
w_cat = np.array([0.2, -0.5, 0.1, 2.0])
print("Image ", img)
print("Weights ", w_cat)
print("img * w_cat ", img * w_cat)
print("sum ", (img * w_cat).sum())
print("Add bias ", (img * w_cat).sum() + 1.1)

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/img_to_function_get_scores.png" width="600">

Обозначим входное изображение как $x$, а шаблон для первого из классов как $w_0$.

Элементы пронумеруем подряд 1,2,3 … $n$. То есть развернем матрицу пикселей изображения в вектор.

Тогда результат сравнения изображения с этим шаблоном будет вычисляться по формуле: $x[0]*w_0[0] + x[1]*w_0[1] + … x[n-1]*w_0[n-1]$

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/img_to_vector_to_compute_scalar_product.png" width="700">

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/scalar_product_ways_to_use.png" width="800">

Эта простая модель лежит в основе практически всех сложных моделей, которые мы будем рассматривать дальше. Внутри будем также пользоваться скалярным произведением.

В дальнейшем мы будем проходить сверточные сети, они работают очень похоже:
мы тоже накладываем шаблон на некоторую матрицу и перемножаем элементы, затем складываем. Единственное отличие — обычно ядро свертки меньше, чем размер самого изображения.



Собирая все вместе, получаем какое-то компактное представление, что у нас есть некоторая функция, на вход которой мы подаем изображение, и у нее есть параметры (веса). Пока происходит просто умножение вектора на матрицу, в дальнейшем это может быть что-то более сложное, функция будет представлять какую-то более сложную модель. А на выходе (для классификатора) мы получаем числа, которые интерпретируют уверенность модели в том, что изображение принадлежит к определенному классу.


<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/input_img_scalar_product_add_bias_get_scores.png" width="450">

Соответственно, эти коэффициенты, которые являются весами модели, надо каким-то образом подбирать. Но прежде чем подбирать коэффициенты, давайте определимся со следующим: как мы будем понимать, что модель работает хорошо или плохо? Вывод модели представляет собой просто некоторый набор чисел. Но как эти числа следует правильно интерпретировать? Рассмотрим этот вопрос в следующем разделе.

# старый мульткласс

https://scikit-learn.org/stable/modules/svm.html#unbalanced-problems

Давайте рассмотрим, как линейная модель классификации с Hinge loss работает на практике. Мы можем применить линейный классификатор в том числе и к изображениям — достаточно просто вытянуть изображение из тензора формата $(\text{C}, \text{H}, \text{W})$ в $(\text{C} \cdot \text{H} \cdot \text{W})$-мерный вектор. Применим линейный классификатор к нескольким изображениям из датасета CIFAR-10:

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/model_predicted_scores_for_10_classes.png" width="550">

По аналогии с тем, что мы уже делали, мы можем сравнивать отклик на ключевой класс  (про который нам известно, что он на изображении, так как у нас есть метка этого класса) с остальными. Соответственно, мы подали изображение кошки и получили на выход вектор. Чем больше значение, тем больше вероятность того, что, по мнению модели, на изображении этот класс. Для кошки в данном случае это значение 3.2. Хорошо это или плохо? Нельзя сказать, пока мы не проанализировали остальную часть вектора. Если бы мы могли посмотреть на все значения в векторе, мы бы увидели, что есть значения больше, то есть в данном случае модель считает, что это собака, а не кошка, потому что для собаки значение максимально.

На основании этого можно построить некоторую оценку. Давайте смотреть на разницу правильного класса с неправильными. Насколько уверенность в кошке будет больше остальных, настолько хорошо работает наша модель.

Но поскольку нам важна не работа модели на конкретном изображении, а важно оценить ее работу в целом, то эту операцию нужно проделать либо для всего датасета, либо для некоторой выборки, которую мы подаем на вход и подсчитываем средний показатель. Этот показатель (насколько хорошо работает модель), называется функцией потерь, или **loss function**. Называется она так потому, что она показывает не то, насколько хорошо работает модель, а то, насколько плохо.

Дальше будет понятно, почему так удобнее (разница только в знаке). Как это посчитать для всего датасета?

Мы каким-то образом считаем loss для конкретного изображения, потом усредняем по всем изображениям.

Дано: 3 учебных примера, 3 класса. При некотором W баллы f (a, W) = Wx равны:

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/model_predicted_scores_for_3_classes.png" width="450">

Функция потерь показывает, насколько хорош наш текущий классификатор.

Дан датасет примеров:

$\begin{Bmatrix} (x_i,y_i)  \end{Bmatrix}_{i=1}^N 	$

Где **$x_i$** — изображение, **$y_i$** — метка (число).

Потери по набору данных — это среднее значение потерь для примеров:

$ L = {1 \over N}\sum_iL_i(f(x_i,W),y_i)$


Построим функцию потерь для одного примера $L_i(f(x_i,W),y_i)$:

1. Вычислим вектор значений прогнозов классификатора $s = f(x_i, W)$.
1. Для всех примеров рассмотрим разницу между оценкой на истинной категории и всеми оценками классификатора для неправильных категорий: $s_{y_i} - s_j$ для $j \neq y_i$.
1. Если получившаяся разница положительная и превышает некоторое пороговое значение («зазор»), которое мы установим равным $1$, то будем считать, что категория $j$ не мешает модели верно классифицировать входной объект, припишем категории $j$ нулевой вклад в $L_i(f(x_i,W),y_i)$.
1. Если получившаяся разница не превосходит установленного нами единичного «зазора», то мы будем считать что ответ классификатора $s_j$ в категории $j$ мешает верной классификации входного объекта. В этом случае припишем для категории $j$ аддитивный вклад в $L_i(f(x_i,W),y_i)$ равный $s_j-s_{y_i}+1$.

Описанную процедуру гораздо проще записать в виде формулы:


$L_i = \sum_{j\neq y_i}\begin{cases}
  0,  & \mbox{если } s_{y_i}\geq s_j+1\mbox{} \\
  s_j-s_{y_i}+1, & \mbox{если наоборот, то} \mbox{}
\end{cases}$

$=\sum_{j\neq y_i}max(0,s_j-s_{y_i}+1)$




Логика такая: если у нас уверенность модели в правильном классе большая, то модель работает хорошо и loss для данного конкретного примера должен быть равен нулю. Если есть класс, в котором модель уверена больше, чем в правильном, то loss должен быть не равен нулю, а отображать какую-то разницу, поскольку модель сильно ошиблась. При этом есть ещё одно соображение: что будет, если на выходе у правильного и ошибочного класса будут примерно равные веса? То есть, например, у кошки было бы 3.2, а у машины не 5.2, а 3.1. В этом случае ошибки нет, но понятно, что при небольшом изменении в данных (просто шум) скорее всего она появится.

То есть модель плохо отличает эти классы. Поэтому мы и вводили некоторый зазор, который должен быть между правильным и неправильным ответом.

Посмотрим на изображение снизу. У нас есть два класса: фиолетовые треугольники и синие квадраты, разделенные зазором. Также можем увидеть желтые треугольники и квадраты — это ошибочно распознанные классы.


<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/svm_decision_boundary.png" width="300">

И тоже учитывать его в loss function: сравнивать его результат для правильного класса не с чистым выходом для другого, а добавить к нему некоторую дельту (в данном случае — 1(единица)). Смотрим: если разница больше 0, то модель работает хорошо и $L_i = 0$. Если нет, то мы возвращаем эту разницу, и loss будет складываться из этих индивидуальных разниц.

$L_i = \sum_{j\neq y_i}\begin{cases}
  0,  & \mbox{если } s_{y_i}\geq s_j+1\mbox{} \\
  s_j-s_{y_i}+1, & \mbox{если наоборот, то} \mbox{}
\end{cases}$

$=\sum_{j\neq y_i}max(0,s_j-s_{y_i}+1)$

Ниже пример того, как считается loss.

Считаем функцию потерь для 1-ого изображения:

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/compute_loss_use_model_scores_for_1_example.png" width="600">

Также считаем потери для 2-ого и 3-его изображения:

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/compute_loss_use_model_scores_for_2_and_3_examples.png" >

Значения потерь получились следующие:

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/summary_losses_for_3_examples.png" width="400">

Считаем среднее значение loss для всего датасета:

$ L = {1 \over N}\sum_{i=1}^N L_i$

$L={2.9 + 0 + 12.9 \over 3} = 5.27$


SVM loss

$L_i=\sum_{j\neq y_i}max(0,s_j-s_{y_i}+1)$

Геометрическая интерпретация

Теперь, когда мы разобрались с тем, что такое регрессия, вернемся к задаче классификации изображений из датасета CIFAR-10. Как можно применить регрессию для классификации?

Предположим, у нас есть только 2 класса. Как можно использовать регрессию для того, чтобы определить относится ли изображение к классу 0 или к классу 1? В упрощенном варианте задача будет состоять в том, чтобы провести разделяющую плоскость (прямую) между 2-мя классами. Например, мы можем провести прямую через 0.

Такая прямая будет задана направляющим вектором $\vec W$, число компонентов которого будет равно размерности пространства признаков. Уравнение гиперплоскоскости в этом случае имеет вид

$$\large \sum_i W_i \cdot x_i = 0$$
или, что эквивалентно:
$$\large ( \vec W , \vec x) = 0$$

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/regression_for_classification_imgs.png" width="270">





Рассмотрим другую ситуацию. В этом случае мы не можем просто провести прямую через 0, но можем отступить от 0 на какое-то расстояние и провести ее там. Вспомним, что уравнение прямой это $y=wx+b$, где $b$ — это смещение (*bias*). Соответственно, если b != 0, то прямая через 0 проходить не будет, а будет проходить через значение b.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/regression_for_classification_add_bias.png" width="270">

Таким образом, для классификации объектов на два класса нам нужно подобрать значение вектора $W$ и величину смещения $B$. Вместе они зададут гиперплоскость вида:
$$\large ( \vec W , \vec x) - B = 0$$

[Linear Classification Loss Visualization
](http://vision.stanford.edu/teaching/cs231n-demos/linear-classify/)


Если у нас есть несколько классов, мы можем для каждого из них посчитать уравнение $y_{i} = w_{i}x_{i}+b_{i}$.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L02/out/regression_for_classification_add_bias_add_multiclasses.jpg" width="400">







На картинке нас интересуют 3 класса. Соответственно, мы можем записать систему линейных уравнений:

\begin{cases}
y_{0} = w_{0}x_{0} + b_{0} \\
y_{1} = w_{1}x_{1} + b_{1} \\
y_{2} = w_{2}x_{2} + b_{2} \\
\end{cases}