# Нейронные сети. Понятно. Детально.

## Раздел 4. Пример обучение простейшей нейронной сети.

<h2>Градиентный спуск в нейронных сетях</h2>

Теперь имеются все необходимые элементы для рассчета градиентного спуска в нейронных сетях. Простейшая нейронная сеть имеет вид $z(x)=actiavation(\vec w \vec x + b)$, где $\vec x$ - вектор признаков, $\vec w$ - веса нейронной сети, $b$ - смещение нейронной сети, $\vec w, b$ - обучаемые параметры, $z(x)=activation(x)=max(0, x)$ (функция активации ReLU). Тогда $z(x)=max(0, \vec w \vec x + b)$. Оптимизация данной нейронной сети сводится к оптимизации параметров $\vec w, b$ с помощью алгоритма градментного спуска. Для этого необходимо рассчитать производные $\frac{\partial z(x)}{\partial \vec w}$ и $\frac{\partial z(x)}{\partial b}$. Для того чтобы определить насколько сильно нейронная сеть ошибается необходимо ввести функцию потерь (loss function). Для примера возьмем функцию потерь $l(x)=\frac{1}{N}\sum\limits_{i}(z(x) - y_i)^2$. Для вычисления данных производных необходимо определить порядок действий $l(x)=loss(max(0, sum(dot(W, x), b)))$. Чтобы найти частные производные необходимо уметь вычислять производные следующих операций:

* вычисление производной суммы
* вычисление производной скалярного произведения векторов
* вычисление производной max
* вычисление производной функции потерь

<h4>Вычисление частных производных суммы</h4>

Как было описано выше частные производные суммы имеют следующий вид:

$\frac{\partial \sum\limits_{i} (x_i) }{\partial x_1} = \sum\limits_{i=1}^n \frac{\partial x_i}{\partial x_1} = 1$

$\frac{\partial \sum\limits_{i} (x_i) }{\partial \vec x} = 
\big(\sum\limits_{i=1}^n \frac{\partial x_i}{\partial x_1}, \sum\limits_{i=1}^n \frac{\partial x_i}{\partial x_2}, ..., \sum\limits_{i=1}^n \frac{\partial x_i}{\partial x_n}  \big) = 
(1, 1, ... 1) = \vec 1 ^ T$

$\frac{\partial \sum\limits_{i} (k_ix_i) }{\partial \vec x} = 
\big(\sum\limits_{i=1}^n \frac{\partial k_ix_i}{\partial x_1}, \sum\limits_{i=1}^n \frac{\partial k_ix_i}{\partial x_2}, ..., \sum\limits_{i=1}^n \frac{\partial k_ix_i}{\partial x_n}  \big) = 
(k_1, k_2, ... k_n) = \vec k_i ^ T$

<h4>Вычисление частных производных скалярного произведения векторов</h4>

Скалярное произведение $\vec w \vec x$ можно представить в виде $\sum\limits_{i}w_ix_i$. Тогда:

$ \frac{\partial \sum\limits_{i}w_ix_i}{\partial \vec w} = (x_1, x_2, ... x_n)^T$

<h4>Вычисление частных производных функции активации</h4>

Как было описанно выше производная функции max:

$
\frac{\partial}{\partial x}max(f, g)=
\begin{equation*}
 \begin{cases}
   \frac{\partial f}{\partial x} \ ,если\ f > g\\
   \frac{\partial g}{\partial x} \ ,если\ f \leq g\\
\end{cases}
\end{equation*}$

Для случая $max(0, \vec w \vec x+b)$:

$
\frac{\partial}{\partial \vec w}max(0, \vec w \vec x + b)=
\begin{equation*}
 \begin{cases}
   \vec 0 \ ,если\ 0 > \vec w \vec x + b \\
   \vec x^T \ ,если\ 0 \leq \vec w \vec x + b\\
\end{cases}
\end{equation*}$

$
\frac{\partial}{\partial b}max(0, \vec w \vec x + b)=
\begin{equation*}
 \begin{cases}
   \vec 0 \ ,если\ 0 > \vec w \vec x + b \\
   1 \ ,если\ 0 \leq \vec w \vec x + b\\
\end{cases}
\end{equation*}$

<h4>Вычисление частных производных функции потерь</h4>

Функция потерь имеет следующий вид:

$l(x) = \frac{1}{N}\sum\limits_{i}(y_i - z(x))^2$

$\frac{\partial l}{\partial x} = \frac{1}{N} \frac{\partial}{\partial x}\sum\limits_{i}(y_i - z(x, \vec w, b))^2 = \frac{1}{N} \sum\limits_{i} \frac{\partial}{\partial x}(y_i - z(x, \vec w, b))^2 = \frac{1}{N} \sum\limits_{i} 2(y_i - z(x, \vec w ,b)) \frac{\partial}{\partial x} (y_i - z(x, \vec w, b)) = \frac{1}{N} \sum\limits_{i} 2(y_i - z(x, \vec w ,b)) \frac{\partial}{\partial x} (- z(x, \vec w, b))) = \frac{1}{N} \sum\limits_{i} 2(z(x, \vec w ,b) - y_i) \frac{\partial z(x, \vec w, b)}{\partial x} )$

Аналогично:

$\frac{\partial l}{\partial \vec w} = \frac{1}{N} \sum\limits_{i} 2(z(x, \vec w ,b) - y_i) \frac{\partial z(x, \vec w, b)}{\partial \vec w}$

$\frac{\partial l}{\partial w} = \frac{1}{N} \sum\limits_{i} 2(z(x, \vec w ,b) - y_i) \frac{\partial z(x, \vec w, b)}{\partial b}$

Рассчитаем производную $\frac{\partial l}{\partial \vec w}$ до конца:

$\frac{\partial l}{\partial \vec w} = \frac{1}{N} \sum\limits_{i} 2(z(x, \vec w ,b) - y_i) \frac{\partial z(x, \vec w, b)}{\partial \vec w}$

$
\frac{\partial z(x, \vec w, b)}{\partial \vec w}=
\begin{equation*}
 \begin{cases}
   \vec 0 \ ,если\ 0 > \vec w \vec x + b \\
   \vec x^T \ ,если\ 0 \leq \vec w \vec x + b\\
\end{cases}
\end{equation*}$

Тогда для случая $0 > \vec w \vec x + b$:

$\frac{\partial l}{\partial \vec w} = \frac{1}{N} \sum\limits_{i} 2(z(x, \vec w ,b) - y_i) \vec 0 = \vec 0$

Для случая $0 \leq \vec w \vec x + b$:

$\frac{\partial l}{\partial \vec w} = \frac{1}{N} \sum\limits_{i} 2(z(x, \vec w ,b) - y_i) ( \vec x)^T = \frac{2}{N} \sum\limits_{i} (z(x, \vec w ,b) - y_i) \vec x ^ T$

Отсюда получаем:

$\frac{\partial l}{\partial \vec w}=
\begin{equation*}
 \begin{cases}
   \vec 0 \ ,если\ 0 > \vec w \vec x + b \\
   \frac{2}{N} \sum\limits_{i} (z(x, \vec w ,b) - y_i) \vec x ^ T \ ,если\ 0 \leq \vec w \vec x + b\\
\end{cases}
\end{equation*}
$

Аналогично получаем:

$\frac{\partial l}{\partial b}=
\begin{equation*}
 \begin{cases}
   0 \ ,если\ 0 > \vec w \vec x + b \\
    \frac{2}{N} \sum\limits_{i} (z(x, \vec w ,b) - y_i) \ ,если\ 0 \leq \vec w \vec x + b\\
\end{cases}
\end{equation*}
$

<h4>Градиентный спуск</h4>

Зная частные производные $\frac{\partial l}{\partial \vec w}$ и $\frac{\partial l}{\partial b}$ можно оптимизировать эти параметры с помощью градиентного спуска. Для этого необхожимо давать небольшие приращения для $w$ и $b$ в направлении противоположном градиенту.

$\vec w_{t+1} = \vec w_t - \alpha \frac{\partial l}{\partial \vec w}$

$b_{t+1} = b_t - \alpha \frac{\partial l}{\partial \vec b}$

где $\alpha$ - коэффициент скорости обучения. 