### Главы 6 - 8

####  Создание первой глубокой нейронной сети: введение в МОР

Обучение на одном обучающем примере:

In [6]:
import numpy as np

weights = np.array([0.5, 0.48, -0.7])
alpha = 0.1

streetlights = np.array([[1, 0, 1],
                         [0, 1, 1],
                         [0, 0, 1],
                         [1, 1, 1],
                         [0, 1, 1],
                         [1, 0, 1]]).reshape(6,3)

walk_vs_stop = np.array([[0],
                         [1],
                         [0],
                         [1],
                         [1],
                         [0]]).reshape(6,1)

inp = streetlights[0,:]
goal_prediction = walk_vs_stop[0,:]

for iteration in range(20):
    prediction = inp.dot(weights)
    error = (prediction - goal_prediction) ** 2
    delta = prediction - goal_prediction
    weight_delta = inp*delta*alpha
    print(f'current weights: {np.round(weights, 3)}')
    weights -= weight_delta
    print(f'iteration: {np.round(iteration, 3)}')
    print(f'prediction: {np.round(prediction, 3)}')
    print(f'error: {np.round(error, 5)}')
    print(f'updated weights: {np.round(weights, 3)}')
    print('-'*10)

current weights: [ 0.5   0.48 -0.7 ]
iteration: 0
prediction: -0.2
error: [0.04]
updated weights: [ 0.52  0.48 -0.68]
----------
current weights: [ 0.52  0.48 -0.68]
iteration: 1
prediction: -0.16
error: [0.0256]
updated weights: [ 0.536  0.48  -0.664]
----------
current weights: [ 0.536  0.48  -0.664]
iteration: 2
prediction: -0.128
error: [0.01638]
updated weights: [ 0.549  0.48  -0.651]
----------
current weights: [ 0.549  0.48  -0.651]
iteration: 3
prediction: -0.102
error: [0.01049]
updated weights: [ 0.559  0.48  -0.641]
----------
current weights: [ 0.559  0.48  -0.641]
iteration: 4
prediction: -0.082
error: [0.00671]
updated weights: [ 0.567  0.48  -0.633]
----------
current weights: [ 0.567  0.48  -0.633]
iteration: 5
prediction: -0.066
error: [0.00429]
updated weights: [ 0.574  0.48  -0.626]
----------
current weights: [ 0.574  0.48  -0.626]
iteration: 6
prediction: -0.052
error: [0.00275]
updated weights: [ 0.579  0.48  -0.621]
----------
current weights: [ 0.579  0.48  -0.6

Обучение на всех обучающих примерах:

In [16]:
import numpy as np

weights = np.array([0.5, 0.48, -0.7])
alpha = 0.1

streetlights = np.array([[1, 0, 1],
                         [0, 1, 1],
                         [0, 0, 1],
                         [1, 1, 1],
                         [0, 1, 1],
                         [1, 0, 1]]).reshape(6,3)

walk_vs_stop = np.array([[0],
                         [1],
                         [0],
                         [1],
                         [1],
                         [0]]).reshape(6,1)

inp = streetlights[0,:]
goal_prediction = walk_vs_stop[0,:]

for iteration in range(6):
    print(f'iteration: {iteration}')
    total_error = 0
    for i in range(streetlights.shape[0]):
        prediction = inp.dot(weights)
        error = (prediction - goal_prediction) ** 2
        total_error += error
        delta = prediction - goal_prediction
        weight_delta = inp*delta*alpha
#         print(f'current weights: {np.round(weights, 3)}')
        weights -= weight_delta
        print(f'prediction: {np.round(prediction, 3)}', \
              f'error: {np.round(error, 5)}', \
              f'updated weights: {np.round(weights, 3)}')
#         print('-'*10)
    print(f'TOTAL ERROR iter {iteration}')
    print('-'*10)

iteration: 0
prediction: -0.2 error: [0.04] updated weights: [ 0.52  0.48 -0.68]
prediction: -0.16 error: [0.0256] updated weights: [ 0.536  0.48  -0.664]
prediction: -0.128 error: [0.01638] updated weights: [ 0.549  0.48  -0.651]
prediction: -0.102 error: [0.01049] updated weights: [ 0.559  0.48  -0.641]
prediction: -0.082 error: [0.00671] updated weights: [ 0.567  0.48  -0.633]
prediction: -0.066 error: [0.00429] updated weights: [ 0.574  0.48  -0.626]
TOTAL ERROR iter 0
----------
iteration: 1
prediction: -0.052 error: [0.00275] updated weights: [ 0.579  0.48  -0.621]
prediction: -0.042 error: [0.00176] updated weights: [ 0.583  0.48  -0.617]
prediction: -0.034 error: [0.00113] updated weights: [ 0.587  0.48  -0.613]
prediction: -0.027 error: [0.00072] updated weights: [ 0.589  0.48  -0.611]
prediction: -0.021 error: [0.00046] updated weights: [ 0.591  0.48  -0.609]
prediction: -0.017 error: [0.0003] updated weights: [ 0.593  0.48  -0.607]
TOTAL ERROR iter 1
----------
iteration: 2


#### Глубокая сеть

In [124]:
import numpy as np
np.random.seed(1)

def relu(x):
    '''Зануляет узлы отрицательные слоя'''
    return (x>0)*x

def relu2deriv(output):
    return output > 0

alpha = 0.2
hidden_size = 4 # в скрытом слое 4 узла

# входные данные (векторы 1*3)
streetlights = np.array([[1, 0, 1], 
                         [0, 1, 1],
                         [0, 0, 1],
                         [1, 1, 1]]).reshape(4,3)
# целевая переменная
walk_vs_stop = np.array([[1],
                         [1],
                         [0],
                         [0]]).reshape(4,1)

# инициализируем рандомные веса от -1 до 1 для обоих слоев. 
# Отрицательные значения функция relu() обнулит дальше
weights_0_1 = 2*np.random.random((3, hidden_size)) - 1
weights_1_2 = 2*np.random.random((hidden_size, 1)) - 1

for iteration in range(60):
    layer_2_error = 0
    for i in range(streetlights.shape[0]):
        layer_0 = streetlights[i,:].reshape(-1, streetlights.shape[1]) # подаем на входной слой первое наблюдение, форма (1,3)
        layer_1 = relu(layer_0.dot(weights_0_1)) # получаем значения для скрытого слоя (1,3) х (3,4) = (1,4)
        layer_2 = layer_1.dot(weights_1_2) # получаем ответ сети (1,4) х (4,1) = (1,1)
        
        layer_2_error += (layer_2 - walk_vs_stop[i,:])[0][0] ** 2 # 'скаляр' (1,1)
        layer_2_delta = (layer_2 - walk_vs_stop[i,:]) # 'скаляр' (1,1)
        
        layer_1_delta = layer_2_delta.dot(weights_1_2.T)*relu2deriv(layer_1) # 'скаляр' (1,1) * веса в строку (1,4) * поэлементно на (1,4)
                                                                            # итого (1,4)
        weights_1_2 -= layer_1.T.dot(layer_2_delta) * alpha # (4,1) * (1,1) * скаляр alpha. Итого: (4,1)
        weights_0_1 -= layer_0.T.dot(layer_1_delta) * alpha # (3,1) * (1,4) * скаляр alpha. Итого: (3,4)
        
    if iteration % 9 == 0:
        print(f"iter: {iteration}", "| Error: ", np.round(layer_2_error, 5))
        print('-'*10)



iter: 0 | Error:  1.41421
----------
iter: 9 | Error:  0.63423
----------
iter: 18 | Error:  0.39058
----------
iter: 27 | Error:  0.12299
----------
iter: 36 | Error:  0.01498
----------
iter: 45 | Error:  0.0011
----------
iter: 54 | Error:  7e-05
----------


In [125]:
# проверка примера из книги
import numpy as np
np.random.seed(1)

def relu(x):
    '''Зануляет узлы отрицательные слоя'''
    return (x>0)*x

alpha = 0.2
hidden_size = 3 # в скрытом слое 3 узла

# входные данные (векторы 1*3)
streetlights = np.array([[1, 0, 1], 
                         [0, 1, 1],
                         [0, 0, 1],
                         [1, 1, 1]]).reshape(4,3)
# целевая переменная
walk_vs_stop = np.array([[1],
                         [1],
                         [0],
                         [0]]).reshape(4,1)

# инициализируем рандомные веса от -1 до 1 для обоих слоев. 
# Отрицательные значения функция relu() обнулит дальше
weights_0_1 = 2*np.random.random((3, hidden_size)) - 1
weights_1_2 = 2*np.random.random((hidden_size, 1)) - 1

for iteration in range(2):
    layer_2_error = 0
    print(f"iter: {iteration}")
    for i in range(streetlights.shape[0]):
        layer_0 = streetlights[i,:].reshape(-1, streetlights.shape[1]) # подаем на входной слой первое наблюдение, форма (1,3)
        layer_1 = relu(layer_0.dot(weights_0_1)) # получаем значения для скрытого слоя (1,3) х (3,3) = (1,3)
        
        layer_2 = layer_1.dot(weights_1_2) # получаем ответ сети (1,3) х (3,1) = (1,1)
        
        layer_2_error += (layer_2 - walk_vs_stop[i,:])[0][0] ** 2 # 'скаляр' (1,1)
        layer_2_delta = (layer_2 - walk_vs_stop[i,:]) # 'скаляр' (1,1)
        
        layer_1_delta = layer_2_delta.dot(weights_1_2.T)*relu2deriv(layer_1) # 'скаляр' (1,1) * веса в строку (1,3) * поэлементно на (1,4)
                                                                            # итого (1,3)
        print(f'layer_1: {layer_1} layer_1_delta: {layer_1_delta} \nlayer_2 (res): {layer_2}\n')
        weights_1_2 -= layer_1.T.dot(layer_2_delta) * alpha # (4,1) * (1,1) * скаляр alpha. Итого: (3,1)
        weights_0_1 -= layer_0.T.dot(layer_1_delta) * alpha # (3,1) * (1,4) * скаляр alpha. Итого: (3,3)
        
    if iteration % 5 == 0:
        print("Error: ", np.round(layer_2_error, 5))
        print('-'*10)

iter: 0
layer_1: [[-0.          0.13177044 -0.        ]] layer_1_delta: [[-0.          0.16505257 -0.        ]] 
layer_2 (res): [[-0.02129555]]

layer_1: [[-0. -0. -0.]] layer_1_delta: [[-0.  0. -0.]] 
layer_2 (res): [[0.]]

layer_1: [[-0. -0. -0.]] layer_1_delta: [[0. 0. 0.]] 
layer_2 (res): [[0.]]

layer_1: [[-0. -0. -0.]] layer_1_delta: [[0. 0. 0.]] 
layer_2 (res): [[0.]]

Error:  2.04304
----------
iter: 1
layer_1: [[-0.          0.06574941 -0.        ]] layer_1_delta: [[-0.          0.13588854 -0.        ]] 
layer_2 (res): [[-0.00885616]]

layer_1: [[-0. -0. -0.]] layer_1_delta: [[-0.  0. -0.]] 
layer_2 (res): [[0.]]

layer_1: [[-0. -0. -0.]] layer_1_delta: [[0. 0. 0.]] 
layer_2 (res): [[0.]]

layer_1: [[-0. -0. -0.]] layer_1_delta: [[0. 0. 0.]] 
layer_2 (res): [[0.]]



Добавим еще один слой

In [126]:
import numpy as np
np.random.seed(1)

def relu(x):
    '''Зануляет узлы отрицательные слоя'''
    return (x>0)*x

def relu2deriv(output):
    return output > 0

alpha = 0.2
hidden_size = 4 # в скрытом слое 4 узла

# входные данные (векторы 1*3)
streetlights = np.array([[1, 0, 1], 
                         [0, 1, 1],
                         [0, 0, 1],
                         [1, 1, 1]]).reshape(4,3)
# целевая переменная
walk_vs_stop = np.array([[1],
                         [1],
                         [0],
                         [0]]).reshape(4,1)

# инициализируем рандомные веса от -1 до 1 для обоих слоев. 
# Отрицательные значения функция relu() обнулит дальше
weights_0_1 = 2*np.random.random((3, hidden_size)) - 1
weights_1_1 = 2*np.random.random((hidden_size, hidden_size)) - 1
weights_1_2 = 2*np.random.random((hidden_size, 1)) - 1

for iteration in range(60):
    layer_2_error = 0
    for i in range(streetlights.shape[0]):
        layer_0 = streetlights[i,:].reshape(-1, streetlights.shape[1]) # подаем на входной слой первое наблюдение, форма (1,3)
        layer_1 = relu(layer_0.dot(weights_0_1)) # получаем значения для скрытого слоя (1,3) х (3,4) = (1,4)
        layer_1_5 = relu(layer_1.dot(weights_1_1))
        layer_2 = layer_1_5.dot(weights_1_2) # получаем ответ сети (1,4) х (4,1) = (1,1)
        
        layer_2_error += (layer_2 - walk_vs_stop[i,:])[0][0] ** 2 # 'скаляр' (1,1)
        layer_2_delta = (layer_2 - walk_vs_stop[i,:]) # 'скаляр' (1,1)
        
        layer_1_5_delta = layer_2_delta.dot(weights_1_2.T)*relu2deriv(layer_1_5) # 'скаляр' (1,1) * веса в строку (1,4) * поэлементно на (1,4)

        layer_1_delta = layer_1_5_delta.dot(weights_1_1.T)*relu2deriv(layer_1) # 'скаляр' (1,1) * веса в строку (1,4) * поэлементно на (1,4)
                                                                            # итого (1,4)
        weights_1_2 -= layer_1_5.T.dot(layer_2_delta) * alpha # (4,1) * (1,1) * скаляр alpha. Итого: (4,1)
        weights_1_1 -= layer_1.T.dot(layer_1_5_delta) * alpha # (4,1) * (1,1) * скаляр alpha. Итого: (4,1)
        weights_0_1 -= layer_0.T.dot(layer_1_delta) * alpha # (3,1) * (1,4) * скаляр alpha. Итого: (3,4)
        
    if iteration % 9 == 0:
        print(f"iter: {iteration}", "| Error: ", np.round(layer_2_error, 5))
        print('-'*10)



iter: 0 | Error:  1.90276
----------
iter: 9 | Error:  0.846
----------
iter: 18 | Error:  0.64655
----------
iter: 27 | Error:  0.11332
----------
iter: 36 | Error:  0.00054
----------
iter: 45 | Error:  0.0
----------
iter: 54 | Error:  0.0
----------


In [131]:
# трехслойная сеть сошлась быстрее!

### Глава 8

In [1]:
#!pip install mnist
import mnist
import sys, numpy as np

x_train = mnist.train_images()[:1000,:,:]
y_train = mnist.train_labels()[:1000,...]

x_test = mnist.test_images()[:2000,:,:]
y_test = mnist.test_labels()[:2000,...]

In [19]:
images, labels = x_train[:1000].reshape(1000, 28*28)/255 , y_train[:1000] # загружаем 1000 изображений и меток (train)
one_hot_labels = np.zeros((1000, 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n,l in enumerate(labels):
    one_hot_labels[n,l] = 1 # для каждой строки в одном из столбцов ставим 1, соответствующую метке (train)
labels = one_hot_labels # переопределяем labels

test_images, test_labels = x_test[:,:,:].reshape(-1, 28*28)/255, y_test[:] # загружаем 1000 изображений и меток (test)
one_hot_labels_test = np.zeros((x_test.shape[0], 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n, l in enumerate(test_labels): # для каждой строки в одном из столбцов ставим 1, соответствующую метке (test)
    one_hot_labels_test[n,l] = 1
test_labels = one_hot_labels_test

    
np.random.seed(1) # фиксируем псевдослучайный генератор случайных чисел

relu = lambda x: (x>=0)*x # пишем лямбда-функцию relu (обнуляет отрицательные веса)
relu2deriv = lambda x: x >= 0 # пишем лямбда-функцию relu2deriv (обнуляет отрицательные нейроны)

# устанавливаем параметры
alpha, iterations, hidden_size, pixels_per_image, num_labels = (0.005, 351,        40,          784,              10)

# инициализируем случайные веса
weights_0_1 = 0.2*np.random.random((pixels_per_image, hidden_size)) - 0.1 # для слоя 1, форма (784, 40)
weights_1_2 = 0.2*np.random.random((hidden_size, num_labels)) - 0.1 # для слоя 2, форма (40, 10)

for j in range(iterations): # итерируемся
    error, correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов
    
    for i in range(images.shape[0]): # бежим по обучающим примерам

        layer_0 = images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
        layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                                # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
        layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                            # получаем выходной слой (1,10) с вероятностями каждого лейбла.
        
        error += np.sum((layer_2 - labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                        # в общей ошибке для j-той итерации
        correct_cnt += int(np.argmax(layer_2) == np.argmax(labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                            # в общем показателей correct_cnt для j-той итерации
        layer_2_delta = (layer_2 - labels[i,:]) # считаем отклонение по выходному слою (1,10)
        
        layer_1_delta = layer_2_delta.dot(weights_1_2.T) * relu2deriv(layer_1) # считаем отклонение по среднему слою:
                                                        # скалярно перемножаем отклонение по выходному слою (1,10)
                                                        # на транспонированную матрицу весов weights_1_2 (10,40)
                                                        # получаем вектор (1,40)
        weights_1_2 -= alpha * layer_1.T.dot(layer_2_delta) # корректируем веса для выходного слоя: 
                                                            # из матрицы текущих весов (40,10) вычитаем
                                                            # помноженный на скорость обучения слой 1 транспонированный (40,1)
                                                            # скалярно умножаем на отклонение по слою 2 (1,10)
                                                            # получаем (40,10) - такой же формы, как и были наши веса weights_1_2
        weights_0_1 -= alpha * layer_0.T.dot(layer_1_delta) # корректируем веса для скрытого слоя: 
                                                            # из матрицы текущих весов (784, 40) вычитаем
                                                            # помноженный на скорость обучения слой 0 транспонированный (784,1)
                                                            # скалярно умножаем на отклонение по слою 1 (1,40)
                                                            # получаем (784,40) - такой же формы, как и были наши веса weights_0_1
    if j % 10 == 0:    
        print("Iter:" + str(j) + " Error:" + str(error/float(images.shape[0]))[:5] + \
              " Correct: " + str(correct_cnt/float(images.shape[0])) )
        
print('-'*20)
print("Но покажем сети теперь новые изображения...")

# проверяем на тесте
error, correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов

for i in range(test_images.shape[0]): # бежим по обучающим примерам

    layer_0 = test_images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
    layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                            # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
    layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                        # получаем выходной слой (1,10) с вероятностями каждого лейбла.

    error += np.sum((layer_2 - test_labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                    # в общей ошибке для j-той итерации
    correct_cnt += int(np.argmax(layer_2) == np.argmax(test_labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                        # в общем показателей correct_cnt для j-той итерации
print("Test:" + " Error:" + str(error/float(test_images.shape[0]))[:5] + \
          " Correct: " + str(correct_cnt/float(test_images.shape[0])) )
print('-'*20)

Iter:0 Error:0.722 Correct: 0.537
Iter:10 Error:0.312 Correct: 0.901
Iter:20 Error:0.260 Correct: 0.93
Iter:30 Error:0.232 Correct: 0.946
Iter:40 Error:0.215 Correct: 0.956
Iter:50 Error:0.204 Correct: 0.966
Iter:60 Error:0.194 Correct: 0.967
Iter:70 Error:0.186 Correct: 0.975
Iter:80 Error:0.179 Correct: 0.979
Iter:90 Error:0.172 Correct: 0.981
Iter:100 Error:0.166 Correct: 0.984
Iter:110 Error:0.161 Correct: 0.984
Iter:120 Error:0.157 Correct: 0.986
Iter:130 Error:0.153 Correct: 0.99
Iter:140 Error:0.149 Correct: 0.991
Iter:150 Error:0.145 Correct: 0.991
Iter:160 Error:0.141 Correct: 0.992
Iter:170 Error:0.138 Correct: 0.992
Iter:180 Error:0.135 Correct: 0.995
Iter:190 Error:0.132 Correct: 0.995
Iter:200 Error:0.130 Correct: 0.998
Iter:210 Error:0.127 Correct: 0.998
Iter:220 Error:0.125 Correct: 0.998
Iter:230 Error:0.123 Correct: 0.998
Iter:240 Error:0.121 Correct: 0.998
Iter:250 Error:0.120 Correct: 0.999
Iter:260 Error:0.118 Correct: 0.999
Iter:270 Error:0.117 Correct: 0.999
Iter:

Выведем в листинг одновременно результаты обучения и результаты проверки 

In [27]:
images, labels = x_train[:1000].reshape(1000, 28*28)/255 , y_train[:1000] # загружаем 1000 изображений и меток (train)
one_hot_labels = np.zeros((1000, 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n,l in enumerate(labels):
    one_hot_labels[n,l] = 1 # для каждой строки в одном из столбцов ставим 1, соответствующую метке (train)
labels = one_hot_labels # переопределяем labels

test_images, test_labels = x_test[:,:,:].reshape(-1, 28*28)/255, y_test[:] # загружаем 1000 изображений и меток (test)
one_hot_labels_test = np.zeros((x_test.shape[0], 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n, l in enumerate(test_labels): # для каждой строки в одном из столбцов ставим 1, соответствующую метке (test)
    one_hot_labels_test[n,l] = 1
test_labels = one_hot_labels_test

    
np.random.seed(1) # фиксируем псевдослучайный генератор случайных чисел

relu = lambda x: (x>=0)*x # пишем лямбда-функцию relu (обнуляет отрицательные веса)
relu2deriv = lambda x: x >= 0 # пишем лямбда-функцию relu2deriv (обнуляет отрицательные нейроны)

# устанавливаем параметры
alpha, iterations, hidden_size, pixels_per_image, num_labels = (0.005, 351,        40,          784,              10)

# инициализируем случайные веса
weights_0_1 = 0.2*np.random.random((pixels_per_image, hidden_size)) - 0.1 # для слоя 1, форма (784, 40)
weights_1_2 = 0.2*np.random.random((hidden_size, num_labels)) - 0.1 # для слоя 2, форма (40, 10)

for j in range(iterations): # итерируемся
    error, correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов
    
    for i in range(images.shape[0]): # бежим по обучающим примерам

        layer_0 = images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
        layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                                # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
        layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                            # получаем выходной слой (1,10) с вероятностями каждого лейбла.
        
        error += np.sum((layer_2 - labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                        # в общей ошибке для j-той итерации
        correct_cnt += int(np.argmax(layer_2) == np.argmax(labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                            # в общем показателей correct_cnt для j-той итерации
        layer_2_delta = (layer_2 - labels[i,:]) # считаем отклонение по выходному слою (1,10)
        
        layer_1_delta = layer_2_delta.dot(weights_1_2.T) * relu2deriv(layer_1) # считаем отклонение по среднему слою:
                                                        # скалярно перемножаем отклонение по выходному слою (1,10)
                                                        # на транспонированную матрицу весов weights_1_2 (10,40)
                                                        # получаем вектор (1,40)
        weights_1_2 -= alpha * layer_1.T.dot(layer_2_delta) # корректируем веса для выходного слоя: 
                                                            # из матрицы текущих весов (40,10) вычитаем
                                                            # помноженный на скорость обучения слой 1 транспонированный (40,1)
                                                            # скалярно умножаем на отклонение по слою 2 (1,10)
                                                            # получаем (40,10) - такой же формы, как и были наши веса weights_1_2
        weights_0_1 -= alpha * layer_0.T.dot(layer_1_delta) # корректируем веса для скрытого слоя: 
                                                            # из матрицы текущих весов (784, 40) вычитаем
                                                            # помноженный на скорость обучения слой 0 транспонированный (784,1)
                                                            # скалярно умножаем на отклонение по слою 1 (1,40)
                                                            # получаем (784,40) - такой же формы, как и были наши веса weights_0_1
        
    if j % 10 == 0:
        
    # проверяем на тесте
        test_error, test_correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов

        for i in range(test_images.shape[0]): # бежим по обучающим примерам

            layer_0 = test_images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
            layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                                    # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
            layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                                # получаем выходной слой (1,10) с вероятностями каждого лейбла.

            test_error += np.sum((layer_2 - test_labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                            # в общей ошибке для j-той итерации
            test_correct_cnt += int(np.argmax(layer_2) == np.argmax(test_labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                                # в общем показателей correct_cnt для j-той итерации
        print("Iter:" + str(j) + " Error:" + str(error/float(images.shape[0]))[:5] + \
              " Correct: " + str(correct_cnt/float(images.shape[0])) +\
             "| Test_Error:" + str(test_error/float(test_images.shape[0]))[:5] +\
             " Test Correct: " + str(test_correct_cnt/float(test_images.shape[0])) )

Iter:0 Error:0.722 Correct: 0.537| Test_Error:0.645 Test Correct: 0.5985
Iter:10 Error:0.312 Correct: 0.901| Test_Error:0.469 Test Correct: 0.761
Iter:20 Error:0.260 Correct: 0.93| Test_Error:0.461 Test Correct: 0.7635
Iter:30 Error:0.232 Correct: 0.946| Test_Error:0.464 Test Correct: 0.7595
Iter:40 Error:0.215 Correct: 0.956| Test_Error:0.475 Test Correct: 0.754
Iter:50 Error:0.204 Correct: 0.966| Test_Error:0.487 Test Correct: 0.7515
Iter:60 Error:0.194 Correct: 0.967| Test_Error:0.499 Test Correct: 0.744
Iter:70 Error:0.186 Correct: 0.975| Test_Error:0.511 Test Correct: 0.7365
Iter:80 Error:0.179 Correct: 0.979| Test_Error:0.521 Test Correct: 0.7305
Iter:90 Error:0.172 Correct: 0.981| Test_Error:0.531 Test Correct: 0.7225
Iter:100 Error:0.166 Correct: 0.984| Test_Error:0.540 Test Correct: 0.718
Iter:110 Error:0.161 Correct: 0.984| Test_Error:0.549 Test Correct: 0.7135
Iter:120 Error:0.157 Correct: 0.986| Test_Error:0.557 Test Correct: 0.711
Iter:130 Error:0.153 Correct: 0.99| Test_E

#### Ранняя остановка

Сократим число итераций до 26, чтобы не дать сети возможности заучить шум

In [30]:
images, labels = x_train[:1000].reshape(1000, 28*28)/255 , y_train[:1000] # загружаем 1000 изображений и меток (train)
one_hot_labels = np.zeros((1000, 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n,l in enumerate(labels):
    one_hot_labels[n,l] = 1 # для каждой строки в одном из столбцов ставим 1, соответствующую метке (train)
labels = one_hot_labels # переопределяем labels

test_images, test_labels = x_test[:,:,:].reshape(-1, 28*28)/255, y_test[:] # загружаем 1000 изображений и меток (test)
one_hot_labels_test = np.zeros((x_test.shape[0], 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n, l in enumerate(test_labels): # для каждой строки в одном из столбцов ставим 1, соответствующую метке (test)
    one_hot_labels_test[n,l] = 1
test_labels = one_hot_labels_test

    
np.random.seed(1) # фиксируем псевдослучайный генератор случайных чисел

relu = lambda x: (x>=0)*x # пишем лямбда-функцию relu (обнуляет отрицательные веса)
relu2deriv = lambda x: x >= 0 # пишем лямбда-функцию relu2deriv (обнуляет отрицательные нейроны)

# устанавливаем параметры
alpha, iterations, hidden_size, pixels_per_image, num_labels = (0.005, 26,        40,          784,              10)

# инициализируем случайные веса
weights_0_1 = 0.2*np.random.random((pixels_per_image, hidden_size)) - 0.1 # для слоя 1, форма (784, 40)
weights_1_2 = 0.2*np.random.random((hidden_size, num_labels)) - 0.1 # для слоя 2, форма (40, 10)

for j in range(iterations): # итерируемся
    error, correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов
    
    for i in range(images.shape[0]): # бежим по обучающим примерам

        layer_0 = images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
        layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                                # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
        layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                            # получаем выходной слой (1,10) с вероятностями каждого лейбла.
        
        error += np.sum((layer_2 - labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                        # в общей ошибке для j-той итерации
        correct_cnt += int(np.argmax(layer_2) == np.argmax(labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                            # в общем показателей correct_cnt для j-той итерации
        layer_2_delta = (layer_2 - labels[i,:]) # считаем отклонение по выходному слою (1,10)
        
        layer_1_delta = layer_2_delta.dot(weights_1_2.T) * relu2deriv(layer_1) # считаем отклонение по среднему слою:
                                                        # скалярно перемножаем отклонение по выходному слою (1,10)
                                                        # на транспонированную матрицу весов weights_1_2 (10,40)
                                                        # получаем вектор (1,40)
        weights_1_2 -= alpha * layer_1.T.dot(layer_2_delta) # корректируем веса для выходного слоя: 
                                                            # из матрицы текущих весов (40,10) вычитаем
                                                            # помноженный на скорость обучения слой 1 транспонированный (40,1)
                                                            # скалярно умножаем на отклонение по слою 2 (1,10)
                                                            # получаем (40,10) - такой же формы, как и были наши веса weights_1_2
        weights_0_1 -= alpha * layer_0.T.dot(layer_1_delta) # корректируем веса для скрытого слоя: 
                                                            # из матрицы текущих весов (784, 40) вычитаем
                                                            # помноженный на скорость обучения слой 0 транспонированный (784,1)
                                                            # скалярно умножаем на отклонение по слою 1 (1,40)
                                                            # получаем (784,40) - такой же формы, как и были наши веса weights_0_1
    if j % 5 == 0:    
        print("Iter:" + str(j) + " Error:" + str(error/float(images.shape[0]))[:5] + \
              " Correct: " + str(correct_cnt/float(images.shape[0])) )
        
print('-'*20)
print("Но покажем сети теперь новые изображения...")

# проверяем на тесте
error, correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов

for i in range(test_images.shape[0]): # бежим по обучающим примерам

    layer_0 = test_images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
    layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                            # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
    layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                        # получаем выходной слой (1,10) с вероятностями каждого лейбла.

    error += np.sum((layer_2 - test_labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                    # в общей ошибке для j-той итерации
    correct_cnt += int(np.argmax(layer_2) == np.argmax(test_labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                        # в общем показателей correct_cnt для j-той итерации
print("Test:" + " Error:" + str(error/float(test_images.shape[0]))[:5] + \
          " Correct: " + str(correct_cnt/float(test_images.shape[0])) )
print('-'*20)

Iter:0 Error:0.722 Correct: 0.537
Iter:5 Error:0.367 Correct: 0.863
Iter:10 Error:0.312 Correct: 0.901
Iter:15 Error:0.281 Correct: 0.918
Iter:20 Error:0.260 Correct: 0.93
Iter:25 Error:0.245 Correct: 0.939
--------------------
Но покажем сети теперь новые изображения...
Test: Error:0.461 Correct: 0.762
--------------------


#### DropOut

In [51]:
np.sum(np.random.randint(2, size=(1,40)) == 1)

15

In [52]:
np.sum(np.random.randint(2, size=(1,40)) == 0)

19

In [55]:
images, labels = x_train[:1000].reshape(1000, 28*28)/255 , y_train[:1000] # загружаем 1000 изображений и меток (train)
one_hot_labels = np.zeros((1000, 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n,l in enumerate(labels):
    one_hot_labels[n,l] = 1 # для каждой строки в одном из столбцов ставим 1, соответствующую метке (train)
labels = one_hot_labels # переопределяем labels

test_images, test_labels = x_test[:,:,:].reshape(-1, 28*28)/255, y_test[:] # загружаем 1000 изображений и меток (test)
one_hot_labels_test = np.zeros((x_test.shape[0], 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n, l in enumerate(test_labels): # для каждой строки в одном из столбцов ставим 1, соответствующую метке (test)
    one_hot_labels_test[n,l] = 1
test_labels = one_hot_labels_test

    
np.random.seed(1) # фиксируем псевдослучайный генератор случайных чисел

relu = lambda x: (x>=0)*x # пишем лямбда-функцию relu (обнуляет отрицательные веса)
relu2deriv = lambda x: x >= 0 # пишем лямбда-функцию relu2deriv (обнуляет отрицательные нейроны)

# устанавливаем параметры
alpha, iterations, hidden_size, pixels_per_image, num_labels = (0.005, 301, 100, 784, 10)

# инициализируем случайные веса
weights_0_1 = 0.2*np.random.random((pixels_per_image, hidden_size)) - 0.1 # для слоя 1, форма (784, 40)
weights_1_2 = 0.2*np.random.random((hidden_size, num_labels)) - 0.1 # для слоя 2, форма (40, 10)

for j in range(iterations): # итерируемся
    error, correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов
    
    for i in range(images.shape[0]): # бежим по обучающим примерам
        
        layer_0 = images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
        
        layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                                # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
        dropout_mask = np.random.randint(2, size=layer_1.shape) # создаем маску вида array([[0, 1, 0, ... 0, 0, 1]]),
                                                                # где вероятность единиц и нулей по 50%
        layer_1 *= dropout_mask * 2 # применяем маску, но умноженную на 2 
                        # (т.к. сигнал от слоя 1 примерно в 2 раза уменьшается после применения маски, поэтому его нужно усилить)
        
        layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                            # получаем выходной слой (1,10) с вероятностями каждого лейбла.
        
        error += np.sum((layer_2 - labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                        # в общей ошибке для j-той итерации
        correct_cnt += int(np.argmax(layer_2) == np.argmax(labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                            # в общем показателей correct_cnt для j-той итерации
        layer_2_delta = (layer_2 - labels[i,:]) # считаем отклонение по выходному слою (1,10)
        
        layer_1_delta = layer_2_delta.dot(weights_1_2.T) * relu2deriv(layer_1) # считаем отклонение по среднему слою:
                                                        # скалярно перемножаем отклонение по выходному слою (1,10)
                                                        # на транспонированную матрицу весов weights_1_2 (10,40)
                                                        # получаем вектор (1,40)
        layer_1_delta *= dropout_mask # при обратном распространении корректировать обнуленные маской нейроны не следует
                                        # поэтому той же маской обнуляем полученные дельты
        
        weights_1_2 -= alpha * layer_1.T.dot(layer_2_delta) # корректируем веса для выходного слоя: 
                                                            # из матрицы текущих весов (40,10) вычитаем
                                                            # помноженный на скорость обучения слой 1 транспонированный (40,1)
                                                            # скалярно умножаем на отклонение по слою 2 (1,10)
                                                            # получаем (40,10) - такой же формы, как и были наши веса weights_1_2
        weights_0_1 -= alpha * layer_0.T.dot(layer_1_delta) # корректируем веса для скрытого слоя: 
                                                            # из матрицы текущих весов (784, 40) вычитаем
                                                            # помноженный на скорость обучения слой 0 транспонированный (784,1)
                                                            # скалярно умножаем на отклонение по слою 1 (1,40)
                                                            # получаем (784,40) - такой же формы, как и были наши веса weights_0_1
    if j % 10 == 0:
        
        test_error, test_correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов

        for i in range(test_images.shape[0]): # бежим по обучающим примерам

            layer_0 = test_images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
            layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                                    # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
            layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                                # получаем выходной слой (1,10) с вероятностями каждого лейбла.

            test_error += np.sum((layer_2 - test_labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                            # в общей ошибке для j-той итерации
            test_correct_cnt += int(np.argmax(layer_2) == np.argmax(test_labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                                # в общем показателей correct_cnt для j-той итерации
        print("Iter:" + str(j) + " Test_Error:" + str(test_error/float(test_images.shape[0]))[:5] +\
             " Test_Accuracy: " + str(test_correct_cnt/float(test_images.shape[0])) +\
              "| Train_Error:" + str(error/float(images.shape[0]))[:5] + \
              " Train_Accuracy: " + str(correct_cnt/float(images.shape[0])) )

Iter:0 Test_Error:0.674 Test_Accuracy: 0.584| Train_Error:0.891 Train_Accuracy: 0.413
Iter:10 Test_Error:0.496 Test_Accuracy: 0.7285| Train_Error:0.472 Train_Accuracy: 0.764
Iter:20 Test_Error:0.453 Test_Accuracy: 0.7685| Train_Error:0.430 Train_Accuracy: 0.809
Iter:30 Test_Error:0.454 Test_Accuracy: 0.772| Train_Error:0.415 Train_Accuracy: 0.811
Iter:40 Test_Error:0.456 Test_Accuracy: 0.7635| Train_Error:0.413 Train_Accuracy: 0.827
Iter:50 Test_Error:0.445 Test_Accuracy: 0.777| Train_Error:0.392 Train_Accuracy: 0.836
Iter:60 Test_Error:0.446 Test_Accuracy: 0.7885| Train_Error:0.402 Train_Accuracy: 0.836
Iter:70 Test_Error:0.446 Test_Accuracy: 0.7725| Train_Error:0.383 Train_Accuracy: 0.857
Iter:80 Test_Error:0.443 Test_Accuracy: 0.775| Train_Error:0.386 Train_Accuracy: 0.854
Iter:90 Test_Error:0.446 Test_Accuracy: 0.78| Train_Error:0.376 Train_Accuracy: 0.868
Iter:100 Test_Error:0.440 Test_Accuracy: 0.768| Train_Error:0.369 Train_Accuracy: 0.864
Iter:110 Test_Error:0.446 Test_Accuracy

#### С пакетным градиентным спуском

In [59]:
aa = np.array([[1,2,3],
              [4,5,6]])
aa

array([[1, 2, 3],
       [4, 5, 6]])

In [69]:
np.sum(aa)

21

In [71]:
aa[:,1:2]

array([[2],
       [5]])

In [3]:
images, labels = x_train[:1000].reshape(1000, 28*28)/255 , y_train[:1000] # загружаем 1000 изображений и меток (train)
one_hot_labels = np.zeros((1000, 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n,l in enumerate(labels):
    one_hot_labels[n,l] = 1 # для каждой строки в одном из столбцов ставим 1, соответствующую метке (train)
labels = one_hot_labels # переопределяем labels

test_images, test_labels = x_test[:,:,:].reshape(-1, 28*28)/255, y_test[:] # загружаем 1000 изображений и меток (test)
one_hot_labels_test = np.zeros((x_test.shape[0], 10)) # готовим нулевую матрицу. По строкам обучающие примеры, по столбцам метка
for n, l in enumerate(test_labels): # для каждой строки в одном из столбцов ставим 1, соответствующую метке (test)
    one_hot_labels_test[n,l] = 1
test_labels = one_hot_labels_test

    
np.random.seed(1) # фиксируем псевдослучайный генератор случайных чисел

relu = lambda x: (x>=0)*x # пишем лямбда-функцию relu (обнуляет отрицательные веса)
relu2deriv = lambda x: x >= 0 # пишем лямбда-функцию relu2deriv (обнуляет отрицательные нейроны)

# устанавливаем параметры
alpha, iterations, hidden_size, pixels_per_image, num_labels = (0.01, 301, 100, 784, 10)
batch_size = 100

# инициализируем случайные веса
weights_0_1 = 0.2*np.random.random((pixels_per_image, hidden_size)) - 0.1 # для слоя 1, форма (784, 100)
weights_1_2 = 0.2*np.random.random((hidden_size, num_labels)) - 0.1 # для слоя 2, форма (100, 10)

for j in range(iterations): # итерируемся
    error, correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов
    
    for i in range(round(images.shape[0]/batch_size)): # бежим по обучающим примерам
        batch_start, batch_end = ((i * batch_size),((i+1) * batch_size)) # 0-99, 100-199 ...
        
        layer_0 = images[batch_start:batch_end,:].reshape(batch_size,pixels_per_image) # подаем на входной слой изображение (100,784)
        
        layer_1 = relu(layer_0.dot(weights_0_1)).reshape(batch_size,batch_size) # скалярное перемножение входного слоя (100,784) на веса (784,100), 
                                                # получаем (100,100), затем применяем relu для обнуления нейронов с отриц. знач.
        dropout_mask = np.random.randint(2, size=layer_1.shape) # создаем маску вида array([[0, 1, 0, ... 0, 0, 1]]),
                                                                # где вероятность единиц и нулей по 50% (100,100)
        layer_1 *= dropout_mask * 2 # применяем маску, но умноженную на 2 
                        # (т.к. сигнал от слоя 1 примерно в 2 раза уменьшается после применения маски, поэтому его нужно усилить)
        
        layer_2 = layer_1.dot(weights_1_2).reshape(batch_size,num_labels) # скалярное перемножение внутреннего слоя (100,100) на веса (100,10), 
                                            # получаем выходной слой (100,10) с вероятностями каждого лейбла.
        
        error += np.sum((layer_2 - labels[batch_start:batch_end,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                        # в общей ошибке для j-той итерации
#         print(error)
        for k in range(batch_size): # итерируемся по примерам в батче
            correct_cnt += int(np.argmax(layer_2[k,:]) == np.argmax(labels[batch_start+k,:])) # учитываем True-Positive ответ (если есть)
                                                                                # в общем показателей correct_cnt для j-той итерации
        layer_2_delta = (layer_2 - labels[batch_start:batch_end,:])/batch_size # считаем отклонение по выходному слою (100,10)
        #print(layer_2_delta.shape)
        layer_1_delta = layer_2_delta.dot(weights_1_2.T) * relu2deriv(layer_1) # считаем отклонение по среднему слою:
                                                        # скалярно перемножаем отклонение по выходному слою (100,10)
                                                        # на транспонированную матрицу весов weights_1_2 (10,100)
                                                        # получаем вектор (100,100)
        layer_1_delta *= dropout_mask # при обратном распространении корректировать обнуленные маской нейроны не следует
                                        # поэтому той же маской обнуляем полученные дельты

        weights_1_2 -= alpha * layer_1.T.dot(layer_2_delta) # корректируем веса для выходного слоя: 
                                                            # из матрицы текущих весов (100,10) вычитаем
                                                            # помноженный на скорость обучения слой 1 транспонированный (100,100)
                                                            # скалярно умножаем на отклонение по слою 2 (100,10)
                                                            # получаем (100,10) - такой же формы, как и были наши веса weights_1_2
        weights_0_1 -= alpha * layer_0.T.dot(layer_1_delta) # корректируем веса для скрытого слоя: 
                                                            # из матрицы текущих весов (784, 100) вычитаем
                                                            # помноженный на скорость обучения слой 0 транспонированный (784,100)
                                                            # скалярно умножаем на отклонение по слою 1 (100,100)
                                                            # получаем (784,100) - такой же формы, как и были наши веса weights_0_1
    if j % 10 == 0:
        
        test_error, test_correct_cnt = (0.0, 0) # error - RSE, correct_cnt - количество True-Positive ответов

        for i in range(test_images.shape[0]): # бежим по обучающим примерам

            layer_0 = test_images[i,:].reshape(1,-1) # подаем на входной слой изображение (1,784)
            layer_1 = relu(layer_0.dot(weights_0_1)).reshape(1,-1) # скалярное перемножение входного слоя (1,784) на веса (784,40), 
                                                    # получаем (1,40), затем применяем relu для обнуления нейронов с отриц. знач.
            layer_2 = layer_1.dot(weights_1_2).reshape(1,-1) # скалярное перемножение внутреннего слоя (1,40) на веса (40,10), 
                                                # получаем выходной слой (1,10) с вероятностями каждого лейбла.

            test_error += np.sum((layer_2 - test_labels[i,:])**2) # учитываем ошибку по i-тому обучающему примеру 
                                                            # в общей ошибке для j-той итерации
            test_correct_cnt += int(np.argmax(layer_2) == np.argmax(test_labels[i,:])) # учитываем True-Positive ответ (если есть)
                                                                                # в общем показателей correct_cnt для j-той итерации
        print("Iter:" + str(j) + " Test_Error:" + str(test_error/float(test_images.shape[0]))[:5] +\
             " Test_Accuracy: " + str(test_correct_cnt/float(test_images.shape[0])) +\
              "| Train_Error:" + str(error/float(images.shape[0]))[:5] + \
              " Train_Accuracy: " + str(correct_cnt/float(images.shape[0])) )

Iter:0 Test_Error:1.113 Test_Accuracy: 0.12| Train_Error:1.766 Train_Accuracy: 0.085
Iter:10 Test_Error:0.825 Test_Accuracy: 0.3825| Train_Error:0.957 Train_Accuracy: 0.286
Iter:20 Test_Error:0.750 Test_Accuracy: 0.5065| Train_Error:0.802 Train_Accuracy: 0.448
Iter:30 Test_Error:0.712 Test_Accuracy: 0.564| Train_Error:0.741 Train_Accuracy: 0.523
Iter:40 Test_Error:0.686 Test_Accuracy: 0.602| Train_Error:0.706 Train_Accuracy: 0.57
Iter:50 Test_Error:0.667 Test_Accuracy: 0.62| Train_Error:0.674 Train_Accuracy: 0.605
Iter:60 Test_Error:0.652 Test_Accuracy: 0.6315| Train_Error:0.656 Train_Accuracy: 0.627
Iter:70 Test_Error:0.638 Test_Accuracy: 0.643| Train_Error:0.628 Train_Accuracy: 0.664
Iter:80 Test_Error:0.627 Test_Accuracy: 0.645| Train_Error:0.621 Train_Accuracy: 0.663
Iter:90 Test_Error:0.617 Test_Accuracy: 0.6525| Train_Error:0.609 Train_Accuracy: 0.672
Iter:100 Test_Error:0.609 Test_Accuracy: 0.66| Train_Error:0.609 Train_Accuracy: 0.671
Iter:110 Test_Error:0.600 Test_Accuracy: 0.