__Лекция 3. Полносвязные нейронные сети__

__О чём эта лекция__

- Что такое полносвязные нейронные сети
- Как они выглядят
- Каковы их возможности
- Как их обучают


__Что такое нейрон?__

$$ \sigma(\sum_{j=1}^{n} x^j w_j - w_0) $$

$x^j$ - признаки, $w_j$ - веса признаков. $w_0$ - bias.  
Аналогично линейной регрессии, обычно добавляют признак $x^0=-1$ и пишут $$ \sigma(\sum_{j=0}^{n} x^j w_j) $$
![alt](neuron.png)


__Что такое нейрон?__
$$ \sigma(\sum_{j=0}^{n} x^j w_j) $$

$\sigma$ - функция активации. 
Если $ \sigma (z) =  \dfrac{1}{1+e^{-z}} $, то получаем логистическую регрессию.  
Если $ \sigma(z) = z $, то получаем линейную регрессию.

Существует множество разных функций активации.

__Что может один нейрон?__

Реализовать логическое "И" 
$$ x^1 \land x^2 = x^1 + x^2 - 1.5 > 0 $$

Реализовать логическое "ИЛИ"

$$ x^1 \lor x^2  = x^1 + x^2 - 0.5 > 0 $$

Реализовать логическое "НЕ"

$$ \lnot x^1 = -x^1 + 0.5 > 0 $$

__Что НЕ может один нейрон?__

Реализовать XOR (исключающее или).

Два способа решить это:

- Добавление признака: $$ x^1 \oplus x^2  = x^1 + x^2 - 2 x^1 x^2 -0.5 > 0$$
- Добавление __слоя__: $$ x^1 \oplus x^2  = (x^1 \lor x^2) - (x^1 \land x^2) -0.5 > 0 $$

![](xor.png)

__Нейронные сети как граф вычислений__

Суперпозиция слоев:
$$ x^1 \oplus x^2 = (x^1 \lor x^2) \land {\lnot (x^1 \land x^2)} $$  

где $\land, \lor, \lnot$ - нейроны с предыдущих слайдов и функцией активации $sign$.

* Нейронная сеть - граф вычислений (суперпозиция слоев - функций) над признаками. 
* Таким образом с ними работают в современных библиотеках (tensorflow, pytorch, keras...)

* Это язык описания архитектур нейронных сетей

Какие бывают архитектуры нейронных сетей?
![](model.png)

In [2]:
from keras.utils import plot_model
from keras.layers import Layer, Input, Concatenate
from keras import Model


class And(Layer):
    pass

class Or(Layer):
    pass

class Not(Layer):
    pass

x=Input(shape=(2,), name='x')
a_and_b=And(name='')(x)
a_or_b=Or()(x)
not_a = Not()(a_and_b)
model = And()([a_or_b, not_a])
plot_model(Model(inputs=x, outputs=model), show_layer_names=False, rankdir='LR')

__Виды нейронных сетей__

Существуют разные типы слоев (операций) и типы архитектур нейронных сетей:

- полносвязные
- сверточные
- рекуррентные
- рекурсивные

При этом:

- В сверточных сетях используются полносвязные слои
- В рекуррентных сетях аналогично могут использоваться свертки
- и так далее

Почему?
- Так происходит т.к. сеть - граф вычислений в котором могут встречаться разные операции

Далее рассмотрим самый простой тип - полносвязные нейронные сети.

__Пример полносвязной нейронной сети__

У полносвязной нейронной сети каждый нейрон текущего слоя связан с каждым нейроном предыдущего.

Пример для двух слоев:

![](fully_connected.png)

__Нейронные сети__

Вопрос: Чем параметры модели отличаются от гиперпараметров?


__Нейронные сети - параметры и гиперпараметры__

Обучаемые параметры:
- Веса сети - $w_{ij}$ - вес связи нейрона\признака $i$ и нейрона $j$

Гиперпараметры:
- Архитектура сети
   - Количество слоев
   - Количество нейронов в слоях
   - Используемые функции активации
   - ...

На практике встречаются исключения, например функции активации с обучаемыми параметрами

__Нейронные сети - реальность__

Что говорим:

- Нейроны, связи, веса, активации...

Что происходит _на самом деле_:

- Матрицы умножаются на вектора и от них вычисляются нелинейные функции

$$ \sigma (\sum w_{ji} x_{kj}) = \sigma(W^T x) $$ 

Это причина почему нейронные сети обучают на GPU:
- архитектура SIMD (single instruction multiple data) 
- можно быстро умножать матрицы и применять функции на векторы

__Выразительная способность нейронных сетей__

- Нейронная сеть с одним скрытым слоем может отделить в $R^n$ любой многогранник
- Нейронная сеть с двумя скрытыми слоями может отделить в $R^n$ произвольную многогранную область
    - возможно не связную
    - возможно не выпуклую
- Нейронной сетью с одним скрытым слоем и нелинейной функцией активации (предыдущий слайд) можно приблизить любую непрерывную функцию с наперед заданной точностью

Таким образом нейронные сети являются универсальными аппроксиматорами. 
- Теоретически двух-трёх слоев достаточно
- На практике часто используют глубокие нейронные сети для встроенного обучения признаков

__Функции активации__

- На практике применяют разные функции активации
- Обычно стараются применять дифференциируемые почти везде (кроме конечного количества точек)

Очень часто используются:
 -  $ \sigma(x) = \dfrac{1}{1+e^{-x}}$ сигмоида, например, на выходе для задачи бинарной классификации
 - $ softmax(x_j) = \dfrac{e^{x_j}}{\sum_{i}{e^{x_i}}} $ - софтмакс, чаще всего на выходе для задачи с несколькими непересекающимися классами
 
 ![](sigmoid.png)

__Функции активации__

$ tanh(x) $ - гиперболический тангенс, ранее предлагался как альтернатива $\sigma(x)$ на скрытых слоях сети

![](Tanh.gif)

__Функции активации__

$ ReLU(x) = max(x, 0) $ - REctified Linear Unit, широко используется сейчас для скрытых слоёв сетей

<img src="relu.png" width="50%">

__Обучение нейронных сетей__

- Как-правило для обучения сети требуется довольно большая выборка
- Функция потерь нейронной сети на практике не выпуклая

Поэтому для обучения нейронных сетей сейчас применяют вариации метода стохастического градиентного спуска (как правило с использованием mini-batch).


__Обучение нейронных сетей__

Проблема:

На каждом шаге стохастического градиентного спуска нужно вычислить градиент ошибки. Как это сделать эффективно?

Решение:

Метод обратного распространения ошибки (Backprop)

__Алгоритм обратного распространения ошибки__

Пример:
- Полносвязная нейронная сеть с одним скрытым слоем (которую мы рассматривали некоторое время назад)
- Выходной слой $$a_m(x) = \sigma_{m} (\sum_\limits{h=0}^{H}{w_{hm} u_{h}(x)}) $$
Здесь $w_{hm}$ - вес связи нейрона h скрытого слоя и нейрона m выходного слоя
- Скрытый слой $$ u_h(x) = \sigma_{h} (\sum_\limits{j=0}^{n}{w_{jh} x^j}) $$
Здесь также $w_{jh}$ - вес связи признака $x^j$ примера $x$ и нейрона h скрытого слоя
- Среднеквадратичная функция потерь
$$ SE(x, y) = \dfrac{1}{2} \sum_\limits{m=1}^{M} (a_{m}(x) - y_{m})^2 $$

__Алгоритм обратного распространения ошибки__ 


Задача:
- Найти градиент - вектор производных по параметрам модели

Вопрос залу:

- Что за параметры?

__Алгоритм обратного распространения ошибки__

Нужно найти $\nabla SE(w) = < \dfrac{\partial SE(w)}{d w_{ij}} > $ как функции от весов сети.

Найдем сначала производные по нейронам выходного и скрытого слоя:
$ \dfrac{\partial SE(w)}{d a_{m}} $ и $\dfrac{\partial SE(w)}{d u_{h}} $.

$$ \dfrac{\partial SE(w)}{d a_{m}}  = \dfrac{\partial \dfrac{1}{2} \sum_\limits{m=1}^{M} (a_{m}(w) - y_{m})^2}{d a_{m}} = a_m (w) - y_m = \epsilon_m $$ 

$\epsilon_m$ - значение производной выше, ошибка модели на выходном слое.

__Алгоритм обратного распространения ошибки__


Посмотрим на ошибку модели на скрытом слое:
- Правило дифф. сложной функции:
$$\dfrac{\partial SE(w)}{d u_{h}} = \sum_\limits{m=1}^{M} \dfrac{\partial SE}{d a_m} \dfrac{\partial a_m}{d u_h} = $$
- Подстановка известного значения производной по $a_m$:
$$= \sum_\limits{m=1}^{M} \epsilon_m \dfrac{\partial a_m}{d u_h} = $$
- По определению $a_m(x)$:
$$= \sum_\limits{m=1}^{M} \epsilon_m \dfrac{\partial \sigma_{m} (\sum_\limits{h=0}^{H}{w_{hm} u_{h}(x)})}{d u_h} = $$

Вопрос:

Что делаем дальше?

__Алгоритм обратного распространения ошибки__

... продолжаем искать производную ошибки на скрытом слое: 

- Правило дифф. сложной функции, второй раз:
$$= \sum_\limits{m=1}^{M} \epsilon_m \sigma_m' \dfrac{\partial \sum_\limits{h=0}^{H}{w_{hm} u_{h}(x)}}{d u_h} = $$
- Результат:
$$= \sum_\limits{m=1}^{M} \epsilon_m \sigma_m' w_{hm}$$

__Алгоритм обратного распространения ошибки__
- Результат:
$$\dfrac{\partial SE(w)}{d u_{h}} = \sum_\limits{m=1}^{M} \epsilon_m \sigma_m' w_{hm} = \epsilon_h$$
![](backprop.png)
Наблюдения:
 - значение производной можно получить запустив сеть "наоборот"
 - вычисление производной суть последовательное применение правила дифф. сложной функции над компонентами сети

__Алгоритм обратного распространения ошибки__

Наблюдения:
 - значение производной можно получить запустив сеть "наоборот"
 - вычисление производной суть последовательное применение правила дифф. сложной функции над компонентами сети:
    - слоями
    - функциями активаций

Подтверждение:
$$\dfrac{\partial SE}{d w_{hm}}  = \dfrac{\partial SE}{d a_m} \dfrac{\partial a_m}{d w_{hm}} = \epsilon_m \sigma_m' u_h(x)$$

$$\dfrac{\partial SE}{d w_{jh}}  = \dfrac{\partial SE}{d a_m} \dfrac{\partial a_m}{d w_{jh}} = \epsilon_m \dfrac{\partial a_m}{d u_h} \dfrac{\partial u_h}{d w_{jh}} = \epsilon_m \epsilon_h \sigma_h' x^j $$

__Алгоритм обратного распространения ошибки__

- Прямой ход:
    - Применить слой за слоем на данный пример, посчитать значение функции потерь от выходов
- Обратный ход:
    - Считать значения производных слой за слоем в обратном направлении от выходов к входам
        - Используя правило дифференцирования сложной функции
        - Считать сначала производные ошибки от выходов, затем производные ошибки от последнего скрытого слоя и т.д. пока не будут расчитаны производные по всем весам

Посчитаный градиент использовать для расчета шага в стохастическом градиентном спуске.

__Алгоритм обратного распространения ошибки на графе__

Сейчас для работы с нейронными сетями активно используют идею графа вычислений.
В графе есть следующие вершины:
 - Параметры модели (веса)
 - Входы (пример из обучающей выборки)
 - Операции (функции активации, умножение матрицы на вектор...)

Прямой ход: 

- Вычисление значение функции ошибки по графу от входов к вершине - функции ошибки

Обратный ход:

- Вычисление производных ошибки для всех вершин графа в обратном порядке (от ошибки ко входам)

__Алгоритм обратного распространения ошибки на графе__

![](autodiff.png)

__Алгоритм обратного распространения ошибки на графе__


Дано:
- Некоторый граф вычислений (как на предыдущем слайде)
- Значения входов, весов (и прочих параметров)

Вопрос:
- Что нужно знать о каждой вершине графа чтобы уметь применить на нём алгоритм обратного распространения ошибки?

__Алгоритм обратного распространения ошибки на графе__

По сути для каждой вершины нужно знать:
* как по входам вычислить её значение (прямой ход)
* как посчитать её градиент от выходов (обратный ход)

Таким образом построение нейронных сетей превращается из упражнений по дифференцированию и матричной алгебре в описание графов вычислений из заданных компонент (вершин). Обычно предоставляются:
- автоматическое дифференцирование графов - алгоритм обратного распространения ошибки
- набор компонент для построения сетей (слои, функции активации...)
- набор оптимизаторов для обучения

Далее поговорим подробнее об обучении и борьбе с переобучением.

__Momentum__

Существует приличное множество модификаций стохастического градиентного спуска, все из которых используются на практике при обучении сетей:
- Обычный градиентный шаг ` x+= -learning_rate * dx`

- Momentum - экспоненциальное скользящее среднее по $\approx \dfrac{1}{1-\gamma}$ итерациям спуска:
```
v = mu * v - learning_rate * dx # накапливаем скорость
x += v # меняем позицию
```
- Nesterov momentum:
```
v_prev = v # сохраняем старое значение скорости
v = mu * v - learning_rate * dx # накапливаем скорость
x += -mu * v_prev + (1 + mu) * v # обновляем позицию от точки "x - mu * v_prev" вместо x
```

__Momentum__
- Физическая аналогия для этих эвристик - накопление импульса при спуске (шар с ненулевой массой)
    
![](momentum.jpeg)

__Методы с адаптивной скоростью обучения__ 

- Adagrad:
```
# dx - градиент, x - вектор параметров
cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)
```
   - Скорость обучения своя под каждый параметр:
       - Большая производная от параметра - скорость обучения падает
       - Маленькая производная - скорость обучения растет
- RMSProp:
```
cache = decay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)
```
   - decay_rate - гиперпараметр с типичными значениями 0.9, 0.99, 0.999
   - В отличие от Adagrad обновления скорости обучения не монотонны

__Методы с адаптивной скоростью обучения__ 

- Adam - сейчас чаще всего используется на практике
```
# t - номер итерации 
m = beta1*m + (1-beta1)*dx
mt = m / (1-beta1**t)
v = beta2*v + (1-beta2)*(dx**2)
vt = v / (1-beta2**t)
x += - learning_rate * mt / (np.sqrt(vt) + eps)
```
    - Напоминает комбинацию RMSProp и Nesterov momentum
    - Рекомендуемые значения гиперпараметров `eps = 1e-8`, `beta1 = 0.9`, `beta2 = 0.999`

__Визуализация сходимости методов__
![](optimizers.gif)

__Визуализация сходимости методов__

Наблюдение:
Несмотря на то что это всего-лишь эвристики, они обладают большим влиянием на скорость сходимости спуска.

__Dropout__

Идея:
 - Во время обучения (но не применения!) будем случайным образом "выключать" нейроны
 
Мотивы:  
- получаем приближение ансамбля из $2^N$ сетей с общими весами, но разными связями между нейронами
- тренируем сеть наиболее устойчивую к утрате нейронов надеясь что она будет надежной
- заставляем разные части сети решать одну и ту-же задачу, а не компенсировать ошибки других частей

Результат:

Отличный метод борбы с переобучением нейронных сетей

__Инициализация весов__

Как __не надо__ делать:
 - инициализация нулями (эффективно погасит градиенты)

Для неглубоких сетей (2-5 слоев):
 - инициализация небольшими случайными значениями около нуля

Для глубоких сетей применяют спец. методы исходящие из статистических соображений:
- Для симметричных функций активации с нулевым средним:
    - инициализация Ксавье 
 
- Для ReLU, sigmoid и подобных несиммметричных функций:
    - Инициализация Хе
- Batch normalisation - нормализация выходов слоев (до активации) по мини-батчам

__Заключение__

- Нейронные сети - универсальный аппроксиматор
- На практике сейчас их описывают на языке графов вычислений
- Нейронные сети обычно обучаются вариациями стохастического градиентного спуска
    - градиент вычисляют методом обратного распространения ошибки
- Существует очень большое количество эвристик связанных с обучением нейронных сетей
    - Много модификаций алгоритма стохастического градиентного спуска
    - Дополнительные методы регуляризации (dropout)
    - Специальные методы инициализации весов