<div style="width: 100%; text-align: center; font-size: 36px; font-weight: 600;  color: #3de642; padding: 10px 10px; line-height: 1em">Многослойный перцептрон и алгоритм обратного распространения ошибки</div>

[1. Оригинальный сайт-книга на английском](http://neuralnetworksanddeeplearning.com/chap2.html)

[2. Перевод вышеизложенной книги на хабре](https://habr.com/ru/post/457980/)

[3. Статья на английском с примером вычисления](https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/)

[4. Видео на ютубе](https://www.youtube.com/watch?v=rP_k8cpsNWY&list=LL&index=1&t=469s)


<div style="width: 100%; text-align: center; font-size: 28px; font-weight: 600;  color: #463ee6; padding-top: 10px">Многослойный перцептрон (перцептрон Румельхарта)</div>

![Структурная схема](Pictures/multi_perz.png)

**Forward propogation** - вычисление и хранение промежуточных переменных (включая выходные данные) для нейронной сети в порядке от входного уровня к выходному уровню.

🚩 Разные слои могут иметь разные активационные функции

🚩 В случае если в задаче классификации больше двух классов, то на выходе можем иметь вектор активаций Y (больше одного нейрона на выходном слое), у которго все нули кроме одного элемента, который соответсвует определенному классу и равен 1.

<div style="width: 100%; text-align: center; font-size: 22px; font-weight: 600;  color: #f244e1; padding-top: 10px">Условности</div>

![Условности](Pictures/conventions.png)

$w_{jk}^l$ — вес, идущий из нейрона с номером k слоя l−1 в нейрон с номером j слоя l.

$z_j^l$ — значение сумматорной функции нейрона номер j на слое l.

$a_j^l$ — значение активационной функции нейрона номер j на слое l.

$b_j^l$ — значение смещения нейрона номер j на слое l.

![Функция активации](Pictures/activation_func.png)

![Функция активации](Pictures/summator_func.png)

![Функция активации](Pictures/matrix_w.png)

<div style="width: 100%; text-align: center; font-size: 22px; font-weight: 600;  color: #f244e1; padding-top: 10px">Преимущества многослойного перцептрона</div>

![Преимущества](Pictures/plus_multy.png)

Преимущества:
+ Можно находить нелинейные границы решений, т.е. можно обучить сложным закономерностям

+ Нейронные сети - универсальные аппроксиматоры. Многослойный перцептронн может приблизить любую функию (если задать веса). Как обучить это другой вопрос

+ Если увеличить количество слоев, то количество нейронов значительно сокращается чтобы аппроксимировать функцию

+ [Можно решить XOR задачу](http://www.aiportal.ru/articles/neural-networks/decision-xor.html)

<div style="width: 100%; text-align: center; font-size: 28px; font-weight: 600;  color: #463ee6; padding-top: 10px">Алгоритм обратного распространения ошибки</div>

**Backward propogation** (обратное распространение) - метод расчета градиента параметров нейронной сети на основании функции потерь. Метод проходит по сети в обратном порядке, от выходного до входного уровня, в соответствии с правилом цепи.

Обратное распространение связано с пониманием того, как изменение весов и смещений сети меняет функцию стоимости (целевую функцию). По сути, это означает подсчёт частных производных **∂C/∂$w_{jk}^l$** и **∂C/∂$b_j^l$**. Но для их вычисления сначала мы вычисляем промежуточное значение $δ_j^l$, которую мы называем ошибкой в нейроне №j в слое №l. Обратное распространение даст нам процедуру для вычисления ошибки $δ_j^l$, а потом свяжет $δ_j^l$ с **∂C/∂$w_{jk}^l$** и **∂C/∂$b_j^l$**.

![Ошибка по определению](Pictures/error.png)

![4 кита обратного распространения ошибки](Pictures/backpropogation.png)

Алгоритм обратного распространения ошибки:
1. Выбрать *m* примеров, на основании которых будет производиться изменение весов.
2. Осуществить прямое распространение активации для каждого примера, не забывая при этом сохранять промежуточные активации для каждого слоя куда-нибудь, чтобы не пересчитывать их потом.
3. Используем первого кита, чтобы посчитать ошибки нейронов в выходном слое по каждому примеру.
4. Используем второго кита. Теперь у нас есть ошибки нейронов во всех слоях, по каждому примеру.
5. Используем третьего и четвёртого кита, не забываем просуммировать. Теперь у нас есть градиенты по параметрам и смещениям.
6. Обновляем параметры.
7. Проверяем критерии остановки алгоритма.

🚩 Входные данные лучше приводить в один диапазон

### Пример 1
Структура нейронной сети взята из [этой статьи](https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/)

In [1]:
import numpy as np

In [2]:
def sigmoid(z):
    """Сигмоидальная функция"""
    return 1.0/(1.0+np.exp(-z))

def sigmoid_prime(z):
    """Производная сигмоидальной функции"""
    return sigmoid(z)*(1-sigmoid(z))

def J_quadratic(y_predict, y_target):
    """Квадратичная целевая функция"""
    return 0.5 * np.mean((y_predict - y_target) ** 2)

def J_quadratic_prime(y_predict, y_target):
    """Производная квадратичной целевой функции"""
    return y_predict - y_target


In [6]:
class Neuron:
    """Класс для создания одного нейрона"""
    def __init__(self, weights, inputs, bias, activation_function=sigmoid, activation_function_derivative=sigmoid_prime):
        """ 
        weights - вектор весов размерностью (1, m)
        inputs - вектор входов размерностью (m, 1). Для нейронов скрытых и выходного слоев
        это вектор активаций предыдущего слоя.
        m - число входов и соответственно весов.
        bias - значение смещения (число)
        """
        self.w = weights
        self.input = inputs
        self.b = bias
        self.activation_function = activation_function
        self.activation_function_derivative = activation_function_derivative
        
    def summatory(self):
        """Сумматорная функция.
           Возвращает numpy.ndarray размерностью (1, 1)
        """
        return self.w @ self.input + self.b
    
    def activation(self):
        """Активационная функция.
           Возвращает numpy.ndarray размерностью (1, 1)
        """
        return self.activation_function(self.summatory())
    
    def activation_prime(self):
        """Производная активационной функции.
           Возвращает numpy.ndarray размерностью (1, 1)
        """
        return self.activation_function_derivative(self.summatory())
    

In [12]:
class Network:
    """Класс для создания нейронной сети"""
    def __init__(self, sizes, inputs, weights, biases, target):
        """
        sizes - список количества нейронов по слоям с учетом входного слоя, где указывается количество входов.
        inputs - вектор входов размерностью (m, 1), где m - количество входов.
        weights - список, элементы которго это матрицы весов для соответсвующих слоев. 
        biases - список массиов смещений для каждого слоя.
        Длина списка у weights и biases равна количеству слоев без учета входного слоя.
        target - вектор выходных значений разменостью (n, 1), где n - количество выходов
        """
        self.num_layers = len(sizes)
        self.sizes = sizes
        self.w = weights
        self.input = inputs
        self.b = biases
        self.Y = target
        # Список значений сумматорных функций 
        self.z = [np.zeros((j, 1)) for j in self.sizes[1:]]
        # Список значений активаций
        self.a = [np.zeros((j, 1)) for j in self.sizes]
        self.a[0] = self.input
        # Список ошибок. Он же список градиентов по смещениям
        self.deltas = [np.zeros((j, 1)) for j in self.sizes[1:]]
        # Список градиентов по весам
        self.nabla_w = [np.zeros(w.shape) for w in self.w]
        # Список значений производных активаций 
        self.a_primes = [np.zeros((j, 1)) for j in self.sizes[1:]] 
            
    def forward_propagation(self):
        """
        Прямое распространение активации.
        Возвращает кортеж значений сумматорных функций и активации
        """
        # i - номер слоя
        for i in range(self.num_layers - 1): 
            # Уменьшаем количество слоев на 1, чтобы не учитывать входной,
            # так как на нем нейроны не создаем. 
            # n - номер нейрона в слое
            for n in range(self.sizes[1:][i]):
                neuron = Neuron(self.w[i][n], self.a[i], self.b[i][n])
                z = neuron.summatory()
                a = neuron.activation()
                a_prime = neuron.activation_prime()
                self.z[i][n] = z
                self.a[i+1][n] = a
                self.a_primes[i][n] = a_prime    
 
        return (self.z, self.a)
    
    def back_propagation(self):
        """
        Обратное распространение ошибки.
        Возвращает градиенты смещений и весов
        """
        # Первый кит. Ошибка выходного слоя
        net.forward_propagation()
        dJ_da = J_quadratic_prime(self.a[-1], self.Y)
        self.deltas[-1] = dJ_da * self.a_primes[-1]
        self.nabla_w[-1] = np.dot(self.a[-2], self.deltas[-1].T)
        # Второй кит. Ошибки на остальных слоях
        for i in range(2, self.num_layers):
            delta = self.w[-i+1].T.dot(self.deltas[-i+1]) * self.a_primes[-i]
            self.deltas[-i] = delta
            self.nabla_w[-i] = np.dot(self.a[-i-1], self.deltas[-i].T)
        return (self.deltas, self.nabla_w)
    
    def get_w(self, j, k, l):
        """Возвращает вес с заданными индексами"""
        return self.nabla_w[l][j, k]

In [13]:
# Задаем начальные параметры сети
sizes = [2, 2, 2]
inputs = np.array([[0.05, 0.1]]).T
weights = [np.array([[0.15, 0.2], [0.25, 0.3]]), np.array([[0.4, 0.45],[0.5, 0.55]])]
biases = [np.array([[0.35], [0.35]]), np.array([[0.6], [0.6]])]
target = np.array([[0.01, 0.99]]).T

In [14]:
# Создаем сеть
net = Network(sizes, inputs, weights, biases, target)
z, a = net.forward_propagation()
print("Результат прямого распространения активации:")
for i, e in enumerate(zip(z, a[1:])):
    print(f'{i} слой')
    print("Z:", e[0])
    print("a:", e[1], end='\n\n')

Результат прямого распространения активации:
0 слой
Z: [[0.3775]
 [0.3925]]
a: [[0.59326999]
 [0.59688438]]

1 слой
Z: [[1.10590597]
 [1.2249214 ]]
a: [[0.75136507]
 [0.77292847]]



In [15]:
# Результат обратного распространения ошибки
dJ_db, dJ_dw = net.back_propagation()
for i, e in enumerate(zip(dJ_db, dJ_dw)):
    print(f'{i} слой')
    print("b:", e[0])
    print("w:", e[1], end='\n\n')

0 слой
b: [[0.00877135]
 [0.00995425]]
w: [[0.00043857 0.00049771]
 [0.00087714 0.00099543]]

1 слой
b: [[ 0.13849856]
 [-0.03809824]]
w: [[ 0.08216704 -0.02260254]
 [ 0.08266763 -0.02274024]]



In [16]:
# Извлекаем вес
net.get_w(j=1, k=1, l=1)

-0.02274024221597822

### Пример 2
Здесь у первого нейрона скрытого слоя активационная функция - ReLU, остальные сигмоды. Выход =1, смещения =0.

Изменился только метод `forward_propagation()` в классе `Network`
![4 кита обратного распространения ошибки](Pictures/network.png)

In [17]:
def relu(z):
    """ReLU функция"""
    return max(z, 0)

def relu_prime(z):
    """Производная ReLU функции"""
    return int(z > 0)

In [18]:
class Network:
    """Класс для создания нейронной сети"""
    def __init__(self, sizes, inputs, weights, biases, target):
        """
        sizes - список количества нейронов по слоям с учетом входного слоя, где указывается количество входов.
        inputs - вектор входов размерностью (m, 1), где m - количество входов.
        weights - список, элементы которго это матрицы весов для соответсвующих слоев. 
        biases - список массиов смещений для каждого слоя.
        Длина списка у weights и biases равна количеству слоев без учета входного слоя.
        target - вектор выходных значений разменостью (n, 1), где n - количество выходов
        """
        self.num_layers = len(sizes)
        self.sizes = sizes
        self.w = weights
        self.input = inputs
        self.b = biases
        self.Y = target
        # Список значений сумматорных функций 
        self.z = [np.zeros((j, 1)) for j in self.sizes[1:]]
        # Список значений активаций
        self.a = [np.zeros((j, 1)) for j in self.sizes]
        self.a[0] = self.input
        # Список ошибок. Он же список градиентов по смещениям
        self.deltas = [np.zeros((j, 1)) for j in self.sizes[1:]]
        # Список градиентов по весам
        self.nabla_w = [np.zeros(w.shape) for w in self.w]
        # Список значений производных активаций 
        self.a_primes = [np.zeros((j, 1)) for j in self.sizes[1:]]            
    
    def forward_propagation(self):
        """
        Прямое распространение активации.
        Возвращает кортеж значений сумматорных функций и активации
        """
        # i - номер слоя (начинается без учета входного слоя)
        for i in range(self.num_layers - 1): 
            # Уменьшаем количество слоев на 1, чтобы не учитывать входной,
            # так как на нем нейроны не создаем. 
            # n - номер нейрона в слое
            for n in range(self.sizes[1:][i]):
                # Задаем активационную функцию ReLU
                if i == 0 and n == 0:
                    neuron = Neuron(self.w[i][n], self.a[i], self.b[i][n], activation_function=relu, activation_function_derivative=relu_prime)
                # Задаем активационную функцию сигмоиды для остальных
                else:    
                    neuron = Neuron(self.w[i][n], self.a[i], self.b[i][n])
                    
                z = neuron.summatory()
                a = neuron.activation()
                a_prime = neuron.activation_prime()
                self.z[i][n] = z
                self.a[i+1][n] = a
                self.a_primes[i][n] = a_prime   
 
        return (self.z, self.a)
    
    def back_propagation(self):
        """
        Обратное распространение ошибки.
        Возвращает градиенты смещений и весов
        """
        # Первый кит. Ошибка выходного слоя
        net.forward_propagation()
        dJ_da = J_quadratic_prime(self.a[-1], self.Y)
        self.deltas[-1] = dJ_da * self.a_primes[-1]
        self.nabla_w[-1] = np.dot(self.a[-2], self.deltas[-1].T).T
        # Второй кит. Ошибки на остальных слоях
        for i in range(2, self.num_layers):
            delta = self.w[-i+1].T.dot(self.deltas[-i+1]) * self.a_primes[-i]
            self.deltas[-i] = delta
            self.nabla_w[-i] = np.dot(self.a[-i-1], self.deltas[-i].T).T
        return (self.deltas, self.nabla_w)
    
    def get_w(self, j, k, l):
        """Возвращает вес с заданными индексами"""
        return self.nabla_w[l][j, k]

In [19]:
# Задаем начальные параметры сети
sizes = [3, 2, 1]
inputs = np.array([[0, 1, 1]]).T
weights = [np.array([[0.7, 0.2, 0.7], [0.8, 0.3, 0.6]]), np.array([[0.2, 0.4]])]
biases = [np.array([[0], [0], [0]]), np.array([[0]])]
target = np.array([[1]]).T

In [20]:
# Создаем сеть
net = Network(sizes, inputs, weights, biases, target)
z, a = net.forward_propagation()
print("Результат прямого распространения активации:")
for i, e in enumerate(zip(z, a[1:])):
    print(f'{i} слой')
    print("Z:", e[0])
    print("a:", e[1], end='\n\n')

Результат прямого распространения активации:
0 слой
Z: [[0.9]
 [0.9]]
a: [[0.9      ]
 [0.7109495]]

1 слой
Z: [[0.4643798]]
a: [[0.61405267]]



In [21]:
# Результат обратного распространения ошибки
dJ_db, dJ_dw = net.back_propagation()
for i, e in enumerate(zip(dJ_db, dJ_dw)):
    print(f'{i} слой')
    print("b:", e[0])
    print("w:", e[1], end='\n\n')

0 слой
b: [[-0.01829328]
 [-0.00751855]]
w: [[-0.         -0.01829328 -0.01829328]
 [-0.         -0.00751855 -0.00751855]]

1 слой
b: [[-0.09146642]]
w: [[-0.08231978 -0.06502801]]



In [22]:
net.get_w(j=1, k=2, l=0)

-0.0075185513677826785

<div style="width: 100%; text-align: center; font-size: 22px; font-weight: 600;  color: #f244e1; padding-top: 10px">Целевые функции</div>

[Сайт с книгой "The Elements of
Statistical Learning"](http://statweb.stanford.edu/~tibs/ElemStatLearn/)

[Статья L1- и L2-регуляризация](https://msdn.microsoft.com/ru-ru/magazine/dn904675.aspx)

<div style="width: 100%; text-align: left; font-size: 22px; font-weight: 600;  color: #0abb19; padding: 20px"> - L1, L2 - регуляризация</div>

**L1- и L2-регуляризация** — эта два тесно связанных метода для уменьшения степени переобучения модели. 

+ L1-регуляризация: к целевой функции добавляем сумму модулей весов  
  [Функция сигнум](https://ru.wikipedia.org/wiki/Sgn)
+ L2-регуляризация: к целевой функции добавляем сумму квадратов весов

🚩Данные методы "штрафуют" за большие веса.

🚩Применяя оба метода получим: L1 + L2 = **Elastic net** регуляризация

$\lambda$ - гиперпараметр, выбираем маленьким



![L1 Регулизация](Pictures/L1_regularization.png)
![L2 Регулизация](Pictures/L2_regularization.png)

<div style="width: 100%; text-align: left; font-size: 22px; font-weight: 600;  color: #0abb19; padding: 20px"> - Кросс энтропия</div>

🚩Для бинарных классификаторов

🚩Минимизурая целевую функцию - максимизируем функцию правдободобия

![Кросс энтропия](Pictures/cross_entropy.png)

<div style="width: 100%; text-align: center; font-size: 22px; font-weight: 600;  color: #f244e1; padding-top: 10px">Алгоритм стохастического градиентного спуска на многослойной нейронной сети</div>

1. Входим в цикл по эпохам:
2. Случайным образом разбиваем **X,y** на батчи $(\bar X^{(i)}, \bar y^{(i)})$
3. Входим в цикл по батчам. Для каждого батча из разбиения:
4. Считаем предсказания сети $y^{(i)}$ для примеров батча (forward pass)
5. Считаем частные производные целевой функции JJJ по всем весам и смещениям сети на примерах $\bar X^{(i)}, \bar y^{(i)}$ (backpropagation, обратное распространение ошибки)
6. Смещаем все веса и смещения сети в сторону, противоположную подсчитанному градиенту, пропорционально заданному learning rate: $w_{jk}^l-= \mathtt{learning\_rate}\cdot\frac{\partial J}{\partial w_{jk}^l}$
7. Конец описания цикла по батчам
8. Считаем значение целевой функции на всех имеющихся примерах **X, y** для сети с обновлёнными весами
9. Если значение целевой функции на обновлённых весах мало изменилось по сравнению с таковым на предыдущей итерации, или если достигнуто максимальное допустимое число эпох — выходим из цикла
10. Конец описания цикла по эпохам