Нейроны - биологическая основа всей разумной жизни на Земле, и казалось, бы при чем здесь математика? При том, что как выяснилось еще в 50е годы, модель нейрона математически очень проста:

<img src=https://neerc.ifmo.ru/wiki/images/a/a5/%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD_%D1%81%D1%85%D0%B5%D0%BC%D0%B0.png>

Нейрон состоит из определенного числа “входов” (синапсов), каждый из которых имеет определенный весовой коэффициент Wij, собственно ячейки нейрона, суммирующей значения “входов”, некоторой функции активации (упрощенно говоря, нейрон переходит в “активное” состояние, если сумма больше некоторого порога), и выхода (аксона), который в свою очередь, может передать сигнал на следующий нейрон.
Можно написать, что:
$$ Sum = w_{11}*x_1 + w_{12}*x_2 + ... + w_{1n}*x_n = \sum_{i=1}^{n} w_{1i}\cdot x_i $$
$$Out = \phi(Sum)$$

В качестве функции активации f часто используется *сигмоида* (хотя бывают и другие [варианты](https://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD):

$$\sigma = \frac{1}{1+e^{-x}}$$

Как можно видеть, все весьма просто - математически нейрон лишь чуть сложнее чем обыкновенный сумматор. Выходы нейрона благодаря функции активации лежат в диапазоне 0..1.
Что может делать один нейрон? Практически ничего полезного, но если объединить их в сеть, возможности возрастают кардинально. Например, сеть из 6 нейронов уже способна воспроизвести любую логическую функцию, что мы сейчас и продемонстрируем.

### многослойный перцептрон
Рассмотрим структуру сети, называемую "многослойный перцептрон" (multilayer perceptron):
<img src=https://matthewmazur.files.wordpress.com/2018/03/neural_network-7.png>

Как можно видеть, она состоит из входного слоя нейронов (input layer), скрытого слоя (hidden layer) и выходного слоя (output layer). Каждый нейрон скрытого слоя соединен со всеми входными нейронами, плюс введено дополнительное “смещение” (bias), которое можно представить как нейрон, вход которого всегда = 1 и вес равен константе (например 0.5). Дальше структура повторяется. Количество входных, выходных и скрытых нейронов может быть различно.
Процесс перехода сигнала по сети называется прямым распространением (forward propagation). Допустим, на входе имеются значения: x1 = 0, x2 = 1. Тогда прямое распространение выглядит так:

Шаг-1: передача сигнала от входа во внутренний (hidden) слой

  h1 = f(x1*w1 + x2*w2 + 0.5*1)
  
  h2 = f(x1*w3 + x2*w4 + 0.5*1)
  
Шаг-2: передача сигнала от внутреннего в наружный (output) слой

  o1 = f(h1*w5 + h2*w6 + 0.5*1)
  
  o2 = f(h1*w7 + h2*w8 + 0.5*1)
  

### Обучение 
Собственно и все, мы подали на вход сети сигнал “х” и получили на выходе сигнал “о”. Однако внимательный читатель может задать вопрос - а как задаются коэффициенты w_i, i=1,...,n?

Это собственно, самое интересное и сложное, процесс настройки
параметров сети и называется **обучением**. Задавая различные наборы входных и выходных данных, мы можем обучить сеть воспроизводить требуемые нам функции.
Для данного типа сетей используется так называемый алгоритм **обратного
распространения** (back propagation). Его суть в модификации коэффициентов w от конца сети к началу, примерно это можно выразить так:

Шаг-0: Значение коэффициентов w1..w8 заполняются некоторыми случайными
величинами.

Шаг-1: Берем набор входных данных, получаем значения выхода (output) методом уже рассмотренного “прямого распространения”.

Шаг-2: Сравниваем значения output с “целевыми” значениями (target). Для удобства сравнения часто используется функция квадрата разности: $Err = (output - target)^2$

Шаг-3: Модифицируем “выходные” коэффициенты w5..w8 так, чтобы значение Err уменьшалось. Для этого используется метод так называемого “градиентного спуска”:
функцию output всей нейронной сети в целом легко можно выразить как
последовательность сумм и произведений (x1*w1 + x2*w2 ...), это значит, что продифференцировав ее по нужному весовому параметру, легко найти производную, например $\frac{dOutput}{dw5}$. Как известно, производная показывает направление роста функции, что нам и нужно - мы можем изменить параметр w5 на величину, обратную производной.

Шаг-4: Выполняем аналогичный процесс для “входных” коэффициентов w1..w4, формулы тут примерно аналогичны предыдущему пункту.
Шаги 1..4 повторяются до тех пор, пока ошибка не станет меньше некоторой величины.
Этот процесс весьма медленный, и может требоваться несколько тысяч итераций, однако выполняется он лишь однократно. Далее коэффициенты можно сохранить, и сеть уже обучена воспроизводить указанный при обучении набор данных. Эти весовые коэффициенты фактически и являются аналогом нейронных связей, появляющихся после обучения в “биологической” сети.
Более подробно формулы с примерами вычислений можно найти [здесь](https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/). А мы
рассмотрим программу на языке Python, реализующую данный метод.

In [9]:
import random
import math

class MLP:
    def __init__(self,n_in,n_hidden, n_out):
        """
        Класс MLP, принимающий на входе 3 параметра: 
        число входных нейронов, 
        число скрытых нейронов, 
        число выходных нейронов
        """
        self.n_in = n_in # число нейронов во входном слое 
        self.n_hidden = n_hidden # число нейронов в скрытом слое
        self.n_out = n_out # число нейронов в выходном слое 
        # Входные данные: массив [n_in + 1] инициализирован значениями 1.0
        self.inputLayer = [1.0]*(n_in + 1)
        # Веса входного-скрытого слоя: матрица [n_in+1]x[n_hidden] заполнена
        # случайеыми числами от 0 до 1
        self.wIH = [[random.random() for x in range(n_in + 1)] for y in range(n_hidden)]
        # Скрытые нейроны: [n_hidden + 1]
        self.hiddenLayer = [1.0]*(n_hidden + 1)
        # Веса нейронов скрытого-выходного слоя: матрица [n_hidden+1]x[n_out] заполнена
        # случайными числами от 0 до 1
        self.wHO = [[random.random() for x in range(n_hidden+1)] for y in range(n_out)]
        # Выходной слой: массив
        self.outputLayer = [1.0]*n_out
        
    def printValues(self):
        print ("Network: input/hidden/output: {}/{}/{}".format(self.n_in, self.n_hidden, self.n_out))
        print ("Вход", self.inputLayer)
        print ("wIH", self.wIH)
        print ("Скрытый слой", self.hiddenLayer)
        print ("wHO", self.wHO)
        print ("Выход", self.outputLayer)
        
    def printOutput(self):
        print ("Вход", self.inputLayer)
        print ("Выход", self.outputLayer)
        
    def sigmoid(self, x):
        """ Функция активации (сигмоида)"""
        return 1.0/(1.0 + math.exp(-x))
    
    def derivative(self, x):
        """Производная функции активации"""
        return x*(1 - x)
    
    def forwardPass(self, x):
        # Прямое распространение сигнала
        # 1.Input
        for p in range(len(x)):
            self.inputLayer[p] = x[p]
            
        # 2.Input-Hidden
        for h in range(self.n_hidden):
            sum = 0.0
            for i in range(len(self.inputLayer)):
                sum += self.inputLayer[i]*self.wIH[h][i]
            self.hiddenLayer[h] = self.sigmoid(sum)
        
        # 3.Hidden-Output
        for o in range(self.n_out):
            sum = 0.0
            for h in range(len(self.hiddenLayer)):
                sum += self.hiddenLayer[h]*self.wHO[o][h]
            self.outputLayer[o] = self.sigmoid(sum)
            
    def backPass(self, input, target):
        """Обратное распространение
           Формулы взяты из статьи
           https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/ 
        """
        learn_rate = 0.5
        # Output->hidden layer adjust weights
        for o in range(self.n_out):
            for h in range(self.n_hidden):
                deout = -(target[o] - self.outputLayer[o])
                der = self.derivative(self.outputLayer[o])
                hid = self.hiddenLayer[h]
                der = deout*der*hid
                prev = self.wHO[o][h]
                self.wHO[o][h] -= learn_rate*der

        # Hidden->input layer adjust weights
        for h in range(self.n_hidden):
            for i in range(self.n_in):
                derSum = 0.0
                for o in range(self.n_out):
                    deout = -(target[o] - self.outputLayer[o])
                    derOut = self.derivative(self.outputLayer[o])
                    der = deout*derOut*self.wHO[o][h]
                    derSum += der
                    
                derH = self.derivative(self.hiddenLayer[h])
                derI = self.inputLayer[i]
                der = derSum*derH*derI
                prev = self.wIH[h][i]
                self.wIH[h][i] -= learn_rate*der
                
    def calcError(self, x, target):
        """Вычисление ошибки: 0.5*Sum(dV^2)"""
        err = 0.0
        for p in range(self.n_out):
            err += 0.5*((self.outputLayer[p] - target[p])**2)
        return err

In [12]:
mlp = MLP(n_in=2, n_hidden=3, n_out=1)

print("Тренировка сети")
inputs = [ [0.0, 0.0], [0.0, 1.0], [1.0, 0.0], [1.0, 1.0] ]
targets = [ [0.0], [1.0], [1.0], [0.0] ]
N = 500000
for p in range(N):
    rand_index = random.randrange(0, len(inputs))
    mlp.forwardPass(inputs[rand_index])
    mlp.backPass(inputs[rand_index], targets[rand_index])
    err = mlp.calcError(inputs[rand_index], targets[rand_index])
    if p % 10000 == 0:
        print("Step", p, "error", err)
print("")
print("Done")
mlp.printValues()
print("")
print("Результаты")
mlp.forwardPass([ 0.0, 0.0 ])
mlp.printOutput()
mlp.forwardPass([ 0.0, 1.0 ])
mlp.printOutput()
mlp.forwardPass([ 1.0, 0.0 ])
mlp.printOutput()
mlp.forwardPass([ 1.0, 1.0 ])
mlp.printOutput()

Тренировка сети
Step 0 error 0.3637716556170986
Step 10000 error 0.002591567414418018
Step 20000 error 0.0001464041930804557
Step 30000 error 0.0006465036512996516
Step 40000 error 0.0004493848175402304
Step 50000 error 0.0003599132129924134
Step 60000 error 2.4689899312746475e-05
Step 70000 error 0.00023247666395566355
Step 80000 error 1.6897813249508125e-05
Step 90000 error 0.00018853271519806775
Step 100000 error 0.00016672341527350655
Step 110000 error 0.00015281793936023082
Step 120000 error 0.0003351033375027316
Step 130000 error 0.0001290239992486286
Step 140000 error 0.00027751709069232764
Step 150000 error 6.933971334374419e-06
Step 160000 error 0.0002512229151484009
Step 170000 error 0.00023319197932234877
Step 180000 error 9.236945865748288e-05
Step 190000 error 0.00020989169472304737
Step 200000 error 8.028666242710179e-05
Step 210000 error 7.802940731997645e-05
Step 220000 error 7.584822850103807e-05
Step 230000 error 7.190433447220447e-05
Step 240000 error 6.6109800137628

In [13]:
mlp.forwardPass([ 0.0, 0.0 ])
mlp.printOutput()
mlp.forwardPass([ 0.0, 1.0 ])
mlp.printOutput()
mlp.forwardPass([ 1.0, 0.0 ])
mlp.printOutput()
mlp.forwardPass([ 1.0, 1.0 ])
mlp.printOutput()

Вход [0.0, 0.0, 1.0]
Выход [0.012441139914418786]
Вход [0.0, 1.0, 1.0]
Выход [0.9920288833511246]
Вход [1.0, 0.0, 1.0]
Выход [0.9919389706399067]
Вход [1.0, 1.0, 1.0]
Выход [0.0017200784023550875]


### Как MLP распознаtn рукописные цифры
Рассмотрим практический пример - распознавание выше написанной нейронной сетью рукописного текста. Для тренировки сети воспользуемся имеющейся в открытом доступе базой MNIST, содержащей 60000 черно-белых рукописных изображений цифр размером 28x28пкс.

- цифры - "C:\Users\user\BigData Developer 2018\lecture11\mnist2500_labels.txt"
- сканы цифр - "C:\Users\user\BigData Developer 2018\lecture11\mnist2500_X.txt"

Выглядят изображения примерно так:
<img src=https://upload.wikimedia.org/wikipedia/commons/2/27/MnistExamples.png>
Массив изображений каждой цифры хранится в виде чисел float в диапазоне от 0 до 1, длина массива равна 28х28 = 784 значения. Кстати, при выводе массива в консоль форма цифры вполне узнаваема:

In [86]:
n=12
print(y[n]) #какой цифре этот массив соответствует
for i in np.reshape(X[n], (28, 28)).T: # список длины 784 превратили в матрицу 28х28 и транспонировали:    
    lst = map(str,list(map(int, i))) # поэлементно округлили до целого и сконвертили в строку
    lst1 = map(lambda x: '#' if x!=0  else ' ',list(map(int, i))) # нули заменяем пробелом, а 1 -> #
    print("".join(lst),' | ',"".join(lst1)) #элементы списка объединили в строку

3.0
1111111111111111111111111111  |  ############################
1111111111111111111111111111  |  ############################
1111111111111111111111111111  |  ############################
1111111111111111111111111111  |  ############################
1111111111111111111111111111  |  ############################
1110000000000000111111111111  |  ###             ############
1110000000000000000111111111  |  ###                #########
1110000000000000000111111111  |  ###                #########
1110000011111100000111111111  |  ###     ######     #########
1111111111111100000111111111  |  ##############     #########
1111111111110000001111111111  |  ############      ##########
1111111111100000001111111111  |  ###########       ##########
1111111111000000001111111111  |  ##########        ##########
1111111111000000000011111111  |  ##########          ########
1111111111000000000000111111  |  ##########            ######
1111111111110000000000011111  |  ############           #####
1111

In [75]:
import numpy as np

X = np.loadtxt("BigData Developer 2018\lecture11\mnist2500_X.txt")
y = np.loadtxt("BigData Developer 2018\lecture11\mnist2500_labels.txt")

In [24]:
X.shape, y.shape

((2500, 784), (2500,))

In [95]:
mlp = MLP(n_in=28*28, n_hidden=48, n_out=10)

print ("2. Подготовка данных")
batch = 50
inputs = []
targets = []
for p in range(batch):
    data = list(X[p])
    resulVal = int(y[p])
    # Конвертация целевого числа в массив: “3” => [0,0,0,1,0,0,0,0,0,0]
    result_flat = [0.0]*10
    result_flat[resulVal] = 1.0
    inputs.append(data)
    targets.append(result_flat)

2. Подготовка данных


In [94]:
targets[:5]

[[0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0],
 [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 [0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0]]

In [97]:
# print ("3. Обучение")

# try:
#     N = 10000
#     for p in range(N):
#         errSum = 0.0
#         for d in range(batch):
#             mlp.forwardPass(inputs[d])
#             mlp.backPass(inputs[d], targets[d])
#             errSum += mlp.calcError(inputs[d], targets[d])
#         print ("Step", p, "error", errSum)
# except KeyboardInterrupt:
#     pass


3. Обучение
Step 0 error 224.99999995337785
