Данный материал основан на статье [A Quick Introduction to Neural Networks](https://ujjwalkarn.me/2016/08/09/quick-intro-neural-networks/)

## Что такое ИНС

**Искусственная нейроная сеть** - это математическая модель, которая грубо приближает работу человеческого мозга.  
Является одним из методов машинного обучения.

### Нейрон

Нейрон - наименьшая единица в нейронной сети. Он представляет некоторую функцию $f$ (обычно нелинейную) от его входов. Каждый вход имеет свой вес $w$, так чтобы нейрон мог отдавать приоритет каким-то из входов больше, чем другим.

![Нейрон](images/neuron.png)

В общем виде, нейрон делает следующее преобразование:
$$y = f(\sum_{i=1}^M{x_i \cdot w_i} + b)$$

Функции $f$ обычно нелинейные, иначе модель свернулась бы к простой линейной регрессии. Несколько примеров нелинейных функций, которые обычно приментяются в нейронных сетях:

$$\text{1. Sigmoid: } \sigma(x) = \frac{1}{1+e^{-x}}$$  
$$\text{2. Hyperbolic tanh: } tanh(x)=\frac{e^{-x} - e^x}{e^{-x} + e^x}$$  
$$\text{3. ReLU (Rectified Linear Unit): } f(x)=max\{0, x\}$$

![Функции активации](images/activation_funcs.png)

### Feedforward сеть

Представляет собой прямую последовательность слоев из нейронов, связи между которыми не формируют цикл ([Википедия](https://en.wikipedia.org/wiki/Feedforward_neural_network))

![Однослойная Feedforward сеть](images/ff_net.png)

**Входной слой** представляет из себя значения по каждому признаку исследуемого объекта.  
**Скрытые слои** содержат закодированную информацию из предыдущего слоя. Этих слоев может быть $\geq 0$  
**Выходной слой** является "презентором" закодированной сетью информацией. Например, может выдавать класс, к которому принадлежит объект в задаче классификации.

*Перцептрон* - нейрон, у которого функцией активации является [функция Хевисайда](https://ru.wikipedia.org/wiki/%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F_%D0%A5%D0%B5%D0%B2%D0%B8%D1%81%D0%B0%D0%B9%D0%B4%D0%B0):

$$f(x) = \begin{cases} 1, & \mbox{if } x \geq 0 \\ 0, & \mbox{if } x < 0 \end{cases}$$

*Однослойный перцептрон* - это нейронная сеть, содержащая $0$ скрытых слоев, *многослойный* содержит более $\geq 1$ скрытых слоев.

### Обратное распространение ошибки (Backward Propagation)

Как учить-то сеть? Ответ - back-propagation.  
**Backward Propagation** - самый популярный метод обучения нейронных сетей. Он подразумевает, что после прямого прохода данных через сеть (forward этап), часть информации, необходимая для обновления весов нейронов, сохраняется и используется при обратном проходе через сеть (backward этап).  
В общем, алгоритм выглядит так:
1. Проход данных через сеть в прямом направлении
2. Полученный результат сравнивается с известными значениями из выборки.
3. Ошибка распространяется обратно по сети, обновляя веса нейронов так. В следующий раз сеть "должна" ошибаться меньше.

![Минимизация функции потерь](images/nn_cost.png)
[Источник картинки](https://github.com/rasbt/python-machine-learning-book/blob/master/faq/visual-backpropagation.md)

#### Обратное распространение ошибки на примере

![Оценки студентов](images/students_eval_table.png)

Сеть выдала неправильный вывод на примере из первой строки таблицы:
![Некорректный вывод сети](images/incorrect_nn_output.png)

Хорошо, обновим веса согласно ошибке:
![Обновление весов](images/weights_updating.png)

Теперь сеть более точна в своих предсказаниях:
![Скорректированный выход сети](images/corrected_nn_output.png)

#### Пример вывода градиентов в back-propagation

[Источник](https://www.ics.uci.edu/~pjsadows/notes.pdf)  
Теперь давайте сделаем вывод градиентов на конктреном примере. Пусть нашей функцией ошибки будет функция *cross-entropy*:
$$E = - \sum_{i=1}^{nout}{t_i log(y_i) + (1-t_i)log(1-y_i)}$$

Функцией активации в нейронах последнего слоя будет сигмоид:
$$y_i = \frac{1}{1+e^{-s_i}} \text{, where } s_i = \sum_{j}{h_j \cdot w_{ji}}$$

Для обновления весов между предпоследним и последним слоями нам нужно посчитать градиент функции ошибки по переменным весов между этими слоями:
$$\frac{\partial E}{\partial w_{ji}} = \frac{\partial E}{\partial y_i} \frac{\partial y_i}{\partial s_i} \frac{\partial s_i}{\partial w_{ji}}$$

Найдем требуемые производные:
$$\frac{\partial E}{\partial y_i} = \frac{-t_i}{y_i} + \frac{1-t_i}{1-y_i} = \frac{y_i-t_i}{y_i(1-y_i)}$$
$$\frac{\partial y_i}{\partial s_i} = y_i(1-y_i)$$
$$\frac{\partial s_i}{\partial w_{ji}} = h_j$$

Теперь, когда соберем все вместе:
$$\frac{\partial E}{\partial w_{ji}} = (y_i-t_i)h_j$$

Все, мы получили градиенты весов между двумя последними слоями. Повторив то же самое для весов между 1-м и 2-м слоями и считая, что функцией активации во 2-м слое был так же сигмоид $h_j=\frac{1}{1+e^{-s_j^1}}$, мы получим следующие градиенты весов между 1-м и 2-м слоями:
$$\frac{\partial E}{\partial w_{kj}^1} = \frac{\partial E}{\partial s_{j}^1} \frac{\partial s_{j}^1}{\partial w_{kj}} = \sum_{i=1}^{nout}{(y_i-t_i)(w_{ji})(h_j(1-h_j))(x_k)}$$

### Пример обучения двуслойного перцептрона на MNIST

Используем [пример из библиотеки keras](https://github.com/fchollet/keras/blob/master/examples/mnist_mlp.py)

In [1]:
from __future__ import print_function

import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import RMSprop

# Кол-во примеров, которые будут проходить через сеть при одном проходе
batch_size = 128
num_classes = 10
epochs = 20

Using TensorFlow backend.


In [2]:
# Загрузка и предобработка данных

(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')

60000 train samples
10000 test samples


In [5]:
# Исходные данные представляют изображения и класс-цифра как метки.
# Нам нужно преобразовать метки в бинарные векторы, т.к. мы будем использовать
# функцию ошибки cross_entropy

import numpy as np

print(np.unique(y_train), y_train[7])

y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

print(np.unique(y_train), y_train[7])

[0 1 2 3 4 5 6 7 8 9] 3
[ 0.  1.] [ 0.  0.  0.  1.  0.  0.  0.  0.  0.  0.]


In [6]:
# Создаем нашу сеть!

model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(784,)))
# model.add(Dropout(0.2))
model.add(Dense(512, activation='relu'))
# model.add(Dropout(0.2))
model.add(Dense(num_classes, activation='softmax'))

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 512)               401920    
_________________________________________________________________
dense_2 (Dense)              (None, 512)               262656    
_________________________________________________________________
dense_3 (Dense)              (None, 10)                5130      
Total params: 669,706
Trainable params: 669,706
Non-trainable params: 0
_________________________________________________________________


In [8]:
784*512 + 512 # num_of_x * num_of_w + num_of_b_components

401920

In [9]:
# Устанавливаем функцию ошибки и метод оптимизации модели

model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

In [10]:
# Обучаем нашу модель и тестируем точность классификации цифр

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test))
score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

Train on 60000 samples, validate on 10000 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss: 0.143663399831
Test accuracy: 0.983


Что дальше? Пробуйте [новые слои](https://keras.io/layers/core/), практикуйтесь на других простых примерах.  
Посмотрите [другие функции активации](http://ruder.io/optimizing-gradient-descent/index.html#rmsprop)