# Многослойный перцептрон


![Многослойный перцептрон](img/lec01/net.png)

Многослойный перцептрон состоит из нескольких слоев нейронов (входной слой (нулевой), первый скрытый слой, второй скрытый слой, ..., выходной слой).

* нейроны первого слоя получают входные сигналы, преобразуют их и передают нейронам второго слоя;
* далее срабатывает второй слой, получающий сигналы от первого, этот слой также производит преобразование сигналов и их дальнейшую передачу третьему слою и т.д.


## Особенности многослойного перцептрона

Обычно:

* Каждый нейрон имеет нелинейную функцию активации (почему?).
* Функция активации является всюду дифференцируемой.
* Несколько скрытых слоев.

В первых работах очень часто использовалась сигмоидальная функция активации:
\begin{equation}
    f(u) = \frac{1}{1+ e^{-u}}
\end{equation}

Сейчас часто используется ReLU:
\begin{equation}
y = f(u)= \left\lbrace 
    \begin{array}{rl}
        0, & \mbox{если $u < 0$}\\
        u, & \mbox{если $u \geq 0$}
    \end{array}   \right. 
\end{equation}	

## Обучение многослойного перцептрона

Вспоминаем, как производилось обучение однослойного перцептрона.

<img src="img/oneLayer/net.png" height="30%">

### Обучение однослойной сети

* Обучение с учителем.
* Возьмем $L$ примеров из задачника. Рассчитаем для них выходы. Далее можно рассчитать общую ошибку:
\begin{equation}
    E = \sum_{i=1}^{L} E(i)
\end{equation}
\begin{equation}
    E(i) = \frac{1}{2}\sum_{i=1}^{L} \left( y(i) - \tilde y (i)\right)^2
\end{equation}
где $y(i)$ -- выходное значение нейрона для примера № $i$, $\tilde y (i)$ -- желаемое значение (эталон) для примера $i$.
* Процедура обучения состоит в пошаговом подборе весов нейрона таким образом, чтобы ошибка $E$ уменьшалась.

### Обучение однослойной сети: дельта-правило

Пусть $w=(w_0,w_1,\dots, w_m)$ --- вектор весовых коэффициентов нейрона, $x=(x_1,\dots, x_m)$ --- входные значения нейрона, а $\tilde y$ --- желаемое выходное значение, соответствующее заданным входам. Тогда весовые коэффициенты сети следует изменять согласно следующей формуле:
\begin{equation}\label{eq:delta}
    w_j(t+1) = w_j(t) - \alpha ( y - \tilde y ) x_j,
\end{equation}
где $t$ -- номер итерации, $\alpha\in(0,1)$ -- некоторый параметр (скорость обучения).

Что мешает обучать многослойный перцептрон используя выведенное ранее дельта-правило?


У однослойной сети ошибки зависят только от одного слоя нейронов. Поэтому зная ответ сети и желаемый отклик из задачника можно подсчитать общую ошибку сети и рассчитать, как должны меняться весовые коэффициенты сети.

У многослойной сети мы можем вычислить ошибки только для выходного слоя, но общая ошибка сети зависит от весовых коэффициентов всех слоев сети.

**Мы не знаем, как нужно корректировать веса скрытых слоев сети, так как не знаем, насколько сильную ошибку вносят внутренние слои в общую ошибку.**
	

## Алгоритм обратного распространения ошибки

### Общая идея
Обучение будет производиться также по схеме обучения с учителем, когда процедуре обучения передается два параметра: входные значения сети $(x_1, x_2, \dots, x_m)$ и ожидаемые выходы $(\tilde{y_1}, \tilde{y_2}, \dots, \tilde{y_n})$, соответствующие заданным входам. 

Далее рассчитываются реальные выходные значения $(y_1, y_2, \dots, y_n)$, которые получаются, если на входы сети подать заданные $(x_1, x_2, \dots, x_m)$. В результате можно рассчитать общую ошибку работы сети для данного примера:
\begin{equation}
E=\frac12 \sum_{i=1}^n (\tilde{y_i}-y_i)^2
\end{equation}

Для того, чтобы уменьшить ошибку $E$, можно воспользоваться градиентными методами оптимизации.

*(пока ничего нового не появилось)*

### Расчет ошибок
Рассмотрим пример сети с одним скрытым слоем:

<img src="img/mlp/net_mkn.png" height="30%">

Рассчитаем выходные значения нейронов скрытого слоя $y^1_i$:
\begin{equation}
    y^{(1)}_j = f(\sum_{p=0}^m w_{ip}^0 x_p)
\end{equation}
где $w_{jp}^0$ --- весовые коэффициенты нейрона $j$ скрытого слоя.

<img src="img/mlp/net_mkn.png" height="30%">

Пусть уже рассчитаны выходные значения нейронов скрытого слоя $y^{(1)}_i$. Тогда выходной сигнал $j$-го нейрона выходного слоя рассчитывается по формуле:
\begin{equation}
    y^{(2)}_j = f(\sum_{i=0}^K w_{ji}^1 y_i^{(1)})
\end{equation}
где $w_{ji}^1$ --- весовые коэффициенты нейронов выходного слоя, $j=1,2,\dots,N$.

<img src="img/mlp/net_mkn.png" height="30%">


Таким образом, выходное значение сети рассчитывается по формуле:

\begin{equation}
    y^{(2)}_j = f(\sum_{i=0}^K w_{ji}^1 y_i^{(1)}) = f(\sum_{i=0}^K w_{ji}^1 \cdot (f(\sum_{p=0}^m w_{ip}^0 x_p)) )
\end{equation}

Аналогично можно рассчитать выходное значение сети с двумя, тремя и т.д. скрытыми слоями.

### Вывод

Таким образом ошибка сети для конкретного примера из задачника может быть рассчитана по формуле:
\begin{equation}
\begin{split}
    E = \frac12 \sum_{j=1}^N \left ( y^{(2)}_j - \tilde y_j \right )^2 = \\
    = \frac12  \sum_{j=1}^N \left (f \left (\sum_{i=0}^K w_{ji}^1 \cdot \left(f(\sum_{p=0}^m w_{ip}^0 x_p)\right) \right) - \tilde y_j \right ) ^2
\end{split}
\end{equation}
В этой формуле фигурируют веса всех нейронов сети, а не только нейронов выходного слоя. Следовательно, формула дает возможность рассчитать вклад в общую ошибку каждого весового коэффициента в отдельности.

### Коррекция весов


Итак, при обучении будем корректировать веса нейронов так, чтобы ошибка сети уменьшалась.
\begin{equation}
    E = \sum_{j=1}^N \left ( y^{(2)}_j - \tilde y_j \right )^2 \to \min
\end{equation}

Для этого воспользуемся градиентными методами.

### Алгоритм обратного распространения: <<взгляд сверху>>

Выберем очередной пример из задачника.	Алгоритм будем выполнять в два этапа:

* Прямой проход, во время которого рассчитываются отклики каждого слоя сети, начиная с первого и заканчивая последним, выходным, слоем.
* Обратный проход, во время которого рассчитывается ошибка для каждого слоя сети, начиная с последнего (выходного) слоя и заканчивая первым слоем сети.

После расчета ошибок производится коррекция весов, для того, чтобы уменьшить величину ошибки $E$.

### Алгоритм обратного распространения ошибки: 0. Инициализация
    
* Составляем задачник.
* Выбираем архитектуру сети (число слоев, число нейронов в слоях, функцию активации нейронов).
* Генерируем синаптические веса и пороговые значения нейронов с помощью датчика случайных чисел со средним 0.
		

### Алгоритм обратного распространения ошибки: 1. Предъявление примеров обучения (прямой проход).

Пусть пример представлен парой векторов $(x_1, x_2, \dots, x_m)$ --- входные значения сети и $(\tilde{y_1}, \tilde{y_2}, \dots, \tilde{y_n})$ --- ожидаемые выходы.

1. Вычисляем потенциалы нейронов и функциональные сигналы:
\begin{equation}\label{potenc}
u_j^q = \sum_i w_{ji}^q y_i^{q-1}; \qquad y^q_j=f_j(u_j^q)
\end{equation}
где $y_i^{q-1}$ -- выходной сигнал нейрона $i$, расположенного в предыдущем слое, $w_{ji}^q$ -- вес связи нейрона $j$ слоя $q$ с нейроном $i$ слоя $q-1$ (для $i=0$ считаем, что $y_0^{l-1}=1$, и $w_{j0}^q=b^q_j$ -- порог);  $f_j$ -- функция активации нейрона $j$. Здесь для удобства записи принято, что если нейрон находится в первом скрытом слое сети (т.е $q=1$), то считаем, что $y^0_j=x_j$.
2. Вычисляем сигнал ошибки сети:
\begin{equation}
    e_j=\tilde{y}_j - y_j^Q
\end{equation}

### Алгоритм обратного распространения ошибки: 2. Представление примеров обучения (обратный проход).
    
3. Вычисляем локальные градиенты узлов сети по формуле:
\begin{equation}\label{grad_main}
    \delta_j^q= \left\{ 
        \begin{array}{ll}
         e_j^Q f'_j(u_j) & \mbox{для нейрона $j$ выходного слоя  $Q$} \\ 
         f'_j(u_j^q)\sum_k \delta^{q+1}_k w_{kj}^{q+1} & \mbox{для нейрона $j$ скрытого слоя $q$}
        \end{array}  \right .
\end{equation}
4. Корректируем веса:
\begin{equation}\label{korr_w}
w_{ji}^q(t+1) = w_{ji}^q(t) + \alpha w_{ji}^q(t-1) + \eta \delta^q_j(t) y^{q-1}_i(t)
\end{equation}
где $t$ --- номер итерации, $\alpha \in [0,1)$ и $\eta \in (0,1)$ --- параметры, влияющие на скорость градиентного спуска.

### Алгоритм обратного распространения ошибки: 3. Итерации

Последовательно выполняем прямой и обратный проходы, предъявляя сети все примеры обучения, пока не будет достигнут критерий останова.

### Алгоритм обратного распространения ошибки: Параметры скорости и момента
    
При коррекции весов используется параметр момента $\alpha$  и скорость обучения $\eta$. 
\begin{equation*}
    w_{ji}^q(t+1) = w_{ji}^q(t) + \alpha w_{ji}^q(t-1) + \eta \delta^q_j(t) y^{q-1}_i(t)
\end{equation*}

* Чем меньше параметр скорости $\eta$ => тем меньше корректировка весов => тем более гладкой будет траектория изменения весов $w_{ji}^q$. Но это улучшение происходит за счет замедления обучения.
* Если увеличить $\eta$ для повышения скорости => большие изменения весов => возможно неустойчивое состояние системы.

Вводится момент $\alpha$ => ускорение обучения, если веса изменяются в одном направлении, и стабилизация, если веса сети менялись в разных направлениях.

### Алгоритм обратного распространения ошибки: Критерии останова

Критериев может быть много и разных.


Обучение останавливается при достижении такого состояния, когда сеть становится способна обобщать примеры, предъявленные ей в прошлом, на другие, незнакомые примеры.


Для определения было ли достигнуто данное состояние используется процедура перекрестной проверки.

## Перекрестная проверка


### Явление переобучения
<img src="img/mlp/trolernado.png" height="30%">

### Перекрестная проверка: классический вариант


* Данные случайным образом разбивают на обучающее множество и тестовое множество. Обучающее множество, в свою очередь, разбивают на два подмножества: оценочное подмножество и проверочное (валидационное) подмножество.
* Сеть обучают на оценочном подмножестве. 	
Чтобы избежать переобучения, сеть постоянно проверяют, предъявляя ей незнакомые примеры из проверочного подмножества. (Обычно суммарная ошибка сначала падает, потом начинает возрастать).
* Проверочное множество также участвовало в процедуре обучения и в результате может оказаться, что сеть была переобучена на проверочном множестве. Поэтому используют третье, тестовое множество, которое не участвовало в процедуре обучения. На этом множестве и проверяют качество работы сети.

## Функции активации

В формуле коррекции весов учавствуют производная функции активации:

Вычисляем локальные градиенты узлов сети по формуле
    \begin{equation*}
        \delta_j^q= \left\{ 
            \begin{array}{ll}
             e_j^Q f'_j(u_j) & \mbox{для нейрона $j$ выходного слоя  $Q$} \\ 
             f'_j(u_j^q)\sum_k \delta^{q+1}_k w_{kj}^{q+1} & \mbox{для нейрона $j$ скрытого слоя $q$}
            \end{array}  \right .
    \end{equation*}

Корректируем веса с помощью локальных градиентов:
\begin{equation*}
    w_{ji}^q(t+1) = w_{ji}^q(t) + \alpha w_{ji}^q(t-1) + \eta \delta^q_j(t) y^{q-1}_i(t)
\end{equation*}	

### Сигмоидальная функция активации
Функция активации записывается следующим образом:
\begin{equation}
y= f(u) = \frac{1}{1+e^{-au}}
\end{equation}
где $a>0$.
Производная этой функции может быть представлена в виде:
\begin{equation}
f'(u) = a y (1-y).
\end{equation}

Тогда градиенты в узлах сети рассчитываются по формуле:
\begin{equation}
\delta_j^q= \left\{ 
	\begin{array}{ll}
	 a (\tilde y_j - y_j^Q) y_j^Q (1- y_j^Q) & \mbox{для нейрона $j$ выходного слоя $Q$} \\ 
	 a y^q_j (1- y^q_j) \sum_k \delta^{q+1}_k w_{kj}^{q+1} & \mbox{для нейрона $j$ скрытого слоя $q$}
	\end{array}  \right .
\end{equation}	

### Гиперболический тангенс
Функция активации записывается следующим образом:
\begin{equation}
y= f(u) = a th(bu)
\end{equation}
где $a>0$ и $b>0$.
Производная этой функции может быть представлена в виде:
\begin{equation}
f'(u) = \frac{b}{a} (a-y)(a+y).
\end{equation}
Тогда градиенты в узлах сети рассчитываются по формуле:
\begin{equation}
\delta_j^q= \left\{ 
	\begin{array}{ll}
	 \frac{b}{a} (\tilde y_j - y_j^Q) (a-y_j^Q) (a+ y_j^Q) & \mbox{для нейрона $j$ выходного слоя $Q$} \\ 
	 \frac{b}{a} (a-y_j^q) (a+ y_j^q) \sum_k \delta^{q+1}_k w_{kj}^{q+1} & \mbox{для нейрона $j$ скрытого слоя $q$}
	\end{array}  \right .
\end{equation}

## Программная реализация

[В основе - реализация Nicolas P. Rougier (BSD License)](https://github.com/rougier/neural-networks/blob/master/mlp.py)

In [None]:
%matplotlib inline

import matplotlib
import matplotlib.pyplot as plt

In [None]:
#!/usr/bin/env python
# -----------------------------------------------------------------------------
# Multi-layer perceptron
# Copyright (C) 2011  Nicolas P. Rougier
#
# Distributed under the terms of the BSD License.
# -----------------------------------------------------------------------------
# This is an implementation of the multi-layer perceptron with retropropagation
# learning.
# -----------------------------------------------------------------------------
import numpy as np

def sigmoid(x):
    ''' Sigmoid like function using tanh '''
    return np.tanh(x)

def dsigmoid(x):
    ''' Derivative of sigmoid above '''
    return (1.0-x**2)

In [None]:
class MLP:
    def __init__(self, *args):
        ''' Инициализация перцептрона '''

        self.shape = args
        n = len(args)

        # Создаем массивы для хранения выходов из нейронов
        self.layers = []
        # Входной слой (+1 для порога)
        self.layers.append(np.ones(self.shape[0]+1))
        # Скрытые слои + выходной слой
        for i in range(1,n):
            self.layers.append(np.ones(self.shape[i]))

        # Матрицы весов
        self.weights = []
        for i in range(n-1):
            self.weights.append(np.zeros((self.layers[i].size,
                                         self.layers[i+1].size)))

        # dw будет хранить величину последних изменений весов (для момента)
        self.dw = [0,]*len(self.weights)

        # Reset weights
        self.reset()

    def reset(self):
        ''' Reset weights '''

        for i in range(len(self.weights)):
            Z = np.random.random((self.layers[i].size,self.layers[i+1].size))
            self.weights[i][...] = (2*Z-1)*0.25

    def propagate_forward(self, data):
        '''Прямой проход. '''

        # Set input layer
        self.layers[0][0:-1] = data

        # Прямой проход от слоя 0 к слою n-1 (и прогон через функции активации)
        for i in range(1,len(self.shape)):
            # Propagate activity
            self.layers[i][...] = sigmoid(np.dot(self.layers[i-1],self.weights[i-1]))

        # Return output
        return self.layers[-1]


    def propagate_backward(self, target, lrate=0.1, momentum=0.1):
        '''Обратный проход'''

        deltas = []

        # Ошибки на выходном слое
        error = target - self.layers[-1]
        delta = error*dsigmoid(self.layers[-1])
        deltas.append(delta)

        # Ошибки скрытых слоев
        for i in range(len(self.shape)-2,0,-1):
            delta = np.dot(deltas[0], self.weights[i].T) * dsigmoid(self.layers[i])
            deltas.insert(0, delta)
            
        # Обновление весов
        for i in range(len(self.weights)):
            layer = np.atleast_2d(self.layers[i])
            delta = np.atleast_2d(deltas[i])
            dw = np.dot(layer.T,delta)
            self.weights[i] += lrate*dw + momentum*self.dw[i]
            self.dw[i] = dw

        # Вернуть общую ошибку сети
        return (error**2).sum()

In [None]:
np.random.seed(42)
print "Learning the sin function"
network = MLP(1, 15, 1)
samples = np.zeros(500, dtype=[('x',  float, 1), ('y', float, 1)])
samples['x'] = np.linspace(0,1, 500)
samples['y'] = np.sin(samples['x']*np.pi)

for i in range(10000):
    n = np.random.randint(samples.size)
    network.propagate_forward(samples['x'][n])
    network.propagate_backward(samples['y'][n], lrate=.1, momentum=0.1)

plt.figure(figsize=(10,5))
# Draw real function
x,y = samples['x'],samples['y']
plt.plot(x, y, color='b', lw=1)
# Draw network approximated function
for i in range(samples.shape[0]):
    y[i] = network.propagate_forward(x[i])
plt.plot(x,y, color='r', lw=3)
plt.axis([-0.1, 1.1, -0.1, 1.1])