### Main Topics
* Regularization
* Overfitting
* Dropout
* Batch Size

# Ordinary network 
В этой главе мы познакомимся с основами регуляризации — ключевым средством в борьбе против переобучения нейронных сетей. С этой целью мы сразу возьмем самую мощную нейронную сеть из имеющихся у нас (трехслойную сеть со скрытым слоем relu) и используем ее для решения задачи классификации рукописных цифр из набора данных MNIST.

In [13]:
def training(data, labels, num_epochs:int, weight:list, j:int, test_data=False, alpha=0.001, printing=50):
    """
        Fitting Neural Network
        1) Make a layers
        2) Counting Error 
        3) For Train Data: Update Weights
    """
    error, correct_answer = (0, 0.0)
    for i in range(len(data)):
        
        layer_0 = data[i:i+1]                      # (1, 784)
        layer_1 = relu(np.dot(layer_0, weight[0])) # (1, 40) =  (1, 784) * (784, 40)
        layer_2 = np.dot(layer_1, weight[1])       # (1, 10) =  (1, 40) * (40, 10)
        
        # Labels [0, 0, 0, 1 ... 0] - Layers_2 [-0.1, -0.5, 0.06 ... 0.2]
        # Если будем без np.sum, то будет массив из 10 элементов, а так мы суммируем весь лист
        error += np.sum((labels[i:i+1] - layer_2) ** 2)
        # Argmax Return Position Max Value In List
        # Когда позиции макс значений совпадает тогда 1
        correct_answer += np.argmax(layer_2) == np.argmax(labels[i:i+1])
        
        # Нам не нужно пересчитывать веса для теста
        if test_data==False:
            
            layer_2_delta = labels[i:i+1] - layer_2
            layer_1_delta = np.dot(layer_2_delta, weight[1].T) * relu2deriv(layer_1)

            weight[1] += alpha * layer_1.T.dot(layer_2_delta)
            weight[0] += alpha * np.dot(layer_0.T, layer_1_delta)
        
    
    
    if test_data == False:
        # Вывод каждые 50 или самая последняя
        if(j % printing == 0 or j == num_epochs - 1):
            # [0:5] выводим первые 5 чисел от ошибки
            # Чтобы понять какой процент ошибки делем на общее число примеров 1000
            print("\nEpochs:" + str(j) +
              "\nTrain-Err:" + str(error / float(len(data)))[0:5] +
              " Train-Acc:" + str(correct_answer / float(len(data))))
    
    else: # Для тестовых данных
        if(j % printing == 0 or j == num_epochs - 1):
            print("Test-Err:" + str(error / float(len(data)))[0:5] +
              "  Test-Acc:" + str(correct_answer / float(len(data))))

In [14]:
import numpy as np
from keras.datasets import mnist

np.random.seed(1)

(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Делаем train_images (1000, 784) то есть одно изображение это вектор (784, 1)
train_images, train_labels = (x_train[0:1000].reshape(1000, 28*28) / 255, y_train[0:1000])

one_hot_labels = np.zeros((len(train_labels), 10)) # Заполняем нулями для лабелов (1000, 10)

# Enumerate - отдает два числа индекс и номер этого индекса и ставим единицу 
for index, label in enumerate(train_labels):
    one_hot_labels[index][label] = 1

# [0, 0, 0, 1 ... 0]
train_labels = one_hot_labels

#Тоже самое, что и для train
test_images = x_test[0:1000].reshape(1000, 28*28) / 255
test_labels = np.zeros((len(y_test), 10))
for index, label in enumerate(y_test):
    test_labels[index][label] = 1
    
relu = lambda x: (x > 0) * x
relu2deriv = lambda output: (output > 0)

alpha, epochs, hidden_layer, pixel_per_image, num_labels = (0.001, 350, 40, 784, 10)

weight_0_1 = 0.2 * np.random.random((pixel_per_image, hidden_layer)) - 0.1
weight_1_2 = 0.2 * np.random.random((hidden_layer, num_labels)) - 0.1

for j in range(epochs):
    # Train
    training(train_images, train_labels, epochs, [weight_0_1, weight_1_2], j)
    # Test
    training(test_images, test_labels, epochs, [weight_0_1, weight_1_2], j, test_data=True)


Epochs:0
Train-Err:0.952 Train-Acc:0.215
Test-Err:0.850  Test-Acc:0.337

Epochs:50
Train-Err:0.192 Train-Acc:0.946
Test-Err:0.354  Test-Acc:0.839

Epochs:100
Train-Err:0.118 Train-Acc:0.977
Test-Err:0.325  Test-Acc:0.841

Epochs:150
Train-Err:0.085 Train-Acc:0.991
Test-Err:0.323  Test-Acc:0.844

Epochs:200
Train-Err:0.065 Train-Acc:0.995
Test-Err:0.326  Test-Acc:0.842

Epochs:250
Train-Err:0.052 Train-Acc:0.996
Test-Err:0.329  Test-Acc:0.838

Epochs:300
Train-Err:0.042 Train-Acc:0.997
Test-Err:0.333  Test-Acc:0.831

Epochs:349
Train-Err:0.036 Train-Acc:0.997
Test-Err:0.336  Test-Acc:0.83


In [None]:
"""
Logs

Epochs:0
Train-Err:0.952 Train-Acc:0.215
Test-Err:0.850  Test-Acc:0.337

Epochs:50
Train-Err:0.192 Train-Acc:0.946
Test-Err:0.354  Test-Acc:0.839

Epochs:100
Train-Err:0.118 Train-Acc:0.977
Test-Err:0.325  Test-Acc:0.841

Epochs:150
Train-Err:0.085 Train-Acc:0.991
Test-Err:0.323  Test-Acc:0.844

Epochs:200
Train-Err:0.065 Train-Acc:0.995
Test-Err:0.326  Test-Acc:0.842

Epochs:250
Train-Err:0.052 Train-Acc:0.996
Test-Err:0.329  Test-Acc:0.838

Epochs:300
Train-Err:0.042 Train-Acc:0.997
Test-Err:0.333  Test-Acc:0.831

Epochs:349
Train-Err:0.036 Train-Acc:0.997
Test-Err:0.336  Test-Acc:0.83
"""

# With Dropout
Чтобы сделать дропаут нам нужно сделать маску из нулей и единиц и умножить на основной слой

**Важно:** Чтобы слой имеел столько же значения, **мы умножаем на 2**, так как у нас половина слоя стало с нулями, поэтому другую половину, надо увеличить в два раза, для баланса или взвешенной суммы.  

In [16]:
# Dropout In Code

# 1)Делаем макску из 0 и 1, то есть [0, 1, 0, 1]
# dropout_mask = np.random.randint(2,size=layer_1.shape)

# 2) Умножаем на два 
# layer_1 *= dropout_mask * 2

# 3) Пересчитываем дельту 
# layer_1_delta *= dropout_mask


In [25]:
def training_with_dropout(data, labels, num_epochs:int, weight:list, j:int, test_data=False, alpha=0.001, printing=50):

    
    error, correct_answer = (0, 0.0)
    
    for i in range(len(data)):
        
        layer_0 = data[i:i+1]
        layer_1 = relu(np.dot(layer_0, weight[0])) # (1, 40)
        
        # !NEW LINE:
        # Делаем Dropout маску и заполняем ее 0 и 1 
        dropout_mask = np.random.randint(2, size=layer_1.shape)
        # Чтобы слой имеел столько же значения мы умножаем на 2,  
        # так как у нас половина слоя стало с нулями, поэтому другую половину, 
        # надо увеличить в два раза, для баланса или взвешенной суммы.
        layer_1 *= dropout_mask * 2
        
        layer_2 = np.dot(layer_1, weight[1])
        
        
        error += np.sum((labels[i:i+1] - layer_2) ** 2)
        correct_answer += np.argmax(layer_2) == np.argmax(labels[i:i+1])
        
      
        if test_data==False:
            layer_2_delta = labels[i:i+1] - layer_2
            layer_1_delta = np.dot(layer_2_delta, weight[1].T) * relu2deriv(layer_1)
            
            # !NEW LINE:
            layer_1_delta *= dropout_mask
            
            weight[1] += alpha * layer_1.T.dot(layer_2_delta)
            weight[0] += alpha * np.dot(layer_0.T, layer_1_delta)
        
    
    
    if test_data == False:
        if(j % printing == 0 or j == num_epochs - 1):
            print("\nEpochs:" + str(j) +
              "\nTrain-Err:" + str(error / float(len(data)))[0:5] +
              " Train-Acc:" + str(correct_answer / float(len(data))))
    else: 
        if(j % printing == 0 or j == num_epochs - 1):
            print("Test-Err:" + str(error / float(len(data)))[0:5] +
              "  Test-Acc:" + str(correct_answer / float(len(data))))

In [27]:
import numpy as np
from keras.datasets import mnist

np.random.seed(1)

(x_train, y_train), (x_test, y_test) = mnist.load_data()

train_images, train_labels = (x_train[0:1000].reshape(1000, 28*28) / 255, y_train[0:1000])
one_hot_labels = np.zeros((len(train_labels), 10)) 
for index, label in enumerate(train_labels):
    one_hot_labels[index][label] = 1
train_labels = one_hot_labels


test_images = x_test[0:1000].reshape(1000, 28*28) / 255
test_labels = np.zeros((len(y_test), 10))
for index, label in enumerate(y_test):
    test_labels[index][label] = 1
    
relu = lambda x: (x > 0) * x
relu2deriv = lambda output: (output > 0)

alpha, epochs, hidden_layer, pixel_per_image, num_labels = (0.005, 300, 100, 784, 10)

weight_0_1 = 0.2 * np.random.random((pixel_per_image, hidden_layer)) - 0.1
weight_1_2 = 0.2 * np.random.random((hidden_layer, num_labels)) - 0.1

for j in range(epochs):
    
    # With Dropout
    training_with_dropout(train_images, train_labels, epochs, [weight_0_1, weight_1_2], j)
    training_with_dropout(test_images, test_labels, epochs, [weight_0_1, weight_1_2], j, test_data=True)


Epochs:0
Train-Err:1.236 Train-Acc:0.17
Test-Err:1.029  Test-Acc:0.231

Epochs:50
Train-Err:0.381 Train-Acc:0.832
Test-Err:0.506  Test-Acc:0.71

Epochs:100
Train-Err:0.312 Train-Acc:0.885
Test-Err:0.475  Test-Acc:0.72

Epochs:150
Train-Err:0.269 Train-Acc:0.927
Test-Err:0.446  Test-Acc:0.761

Epochs:200
Train-Err:0.251 Train-Acc:0.932
Test-Err:0.438  Test-Acc:0.767

Epochs:250
Train-Err:0.231 Train-Acc:0.955
Test-Err:0.422  Test-Acc:0.771

Epochs:299
Train-Err:0.223 Train-Acc:0.96
Test-Err:0.420  Test-Acc:0.785


Как было показано в примере выше, нейронная сеть **(без прореживания) достигла точности 81.14 % на контрольных данных, после чего, к концу обучения, ее точность упала до 70.73 %**. 

**После добавления прореживания** сеть ведет себя иначе.
**Сеть не только достигает максимума с оценкой 82.36 %, но и прекрасно справляется с эффектом переобучения, завершая обучение с точностью 81.81 % на контрольных данных.** Обратите внимание, что прореживание также замедляет обучение — рост показателя Training-Acc, который в предыдущем примере достиг 100 % и остановился. 



# With Batch Size
Этот метод увеличивает скорость обучения и улучшает сходимость. 

Прежде мы передавали обучающие примеры в сеть по одному, корректируя веса после каждого из них. **Теперь попробуем передавать сети сразу по 100 примеров**, усредняя корректирующие значения для весов по всем 100 примерам. 

Как оказывается, отдельные обучающие примеры несут в себе очень много шума, в смысле корректирующих значений, которые они генерируют. То есть усреднение делает процесс обучения более плавным.

In [39]:
def training_with_batchsize(data, labels, test_images, test_labels, num_epochs:int, weight:list, j:int, batch_size=100, test_data=False, alpha=0.001, printing=50):
    
    error, correct_answer = (0, 0.0)
    
    # NEW LINE:
    # Делем общее число на размер батча(range(10))
    for i in range(int(len(data) / batch_size)):
        # Делаем начальный батч и конечный 
        batch_start, batch_end = ((i * batch_size), ((i+1)*batch_size))
        
        layer_0 = data[batch_start:batch_end]
        layer_1 = relu(np.dot(layer_0, weight[0])) # (1, 40)
        
        dropout_mask = np.random.randint(2, size=layer_1.shape)
        layer_1 *= dropout_mask * 2
        
        layer_2 = np.dot(layer_1, weight[1])
        
        # Считаем ошибку с батчем 
        error += np.sum((labels[batch_start:batch_end] - layer_2) ** 2)
        # Смотрим каждый экземпляр в батче и считаем правильные ответы, после корректируем веса
        for k in range(batch_size):
            
            correct_answer += int(np.argmax(layer_2[k : k+1]) == \
                                  np.argmax(labels[batch_start + k : batch_start + k + 1]))

            layer_2_delta = (labels[batch_start:batch_end] - layer_2) / batch_size
            layer_1_delta = layer_2_delta.dot(weight[1].T) * relu2deriv(layer_1)
            layer_1_delta *= dropout_mask

            weight[1] += alpha * layer_1.T.dot(layer_2_delta)
            weight[0] += alpha * layer_0.T.dot(layer_1_delta)
            
    if(j%10 == 0):
        test_error = 0.0
        test_correct_cnt = 0

        for i in range(len(test_images)):
            layer_0 = test_images[i:i+1]
            layer_1 = relu(np.dot(layer_0,weight[0]))
            layer_2 = np.dot(layer_1, weight[1])

            test_error += np.sum((test_labels[i:i+1] - layer_2) ** 2)
            test_correct_cnt += int(np.argmax(layer_2) == np.argmax(test_labels[i:i+1]))

        print("\n" + \
                "I:" + str(j) + \
                " Test-Err:" + str(test_error/ float(len(test_images)))[0:5] +\
                " Test-Acc:" + str(test_correct_cnt/ float(len(test_images)))+\
                " Train-Err:" + str(error/ float(len(data)))[0:5] +\
                " Train-Acc:" + str(correct_answer / float(len(data))))

In [40]:
import numpy as np
from keras.datasets import mnist

np.random.seed(1)

(x_train, y_train), (x_test, y_test) = mnist.load_data()

train_images, train_labels = (x_train[0:1000].reshape(1000, 28*28) / 255, y_train[0:1000])
one_hot_labels = np.zeros((len(train_labels), 10)) 
for index, label in enumerate(train_labels):
    one_hot_labels[index][label] = 1
train_labels = one_hot_labels


test_images = x_test[0:1000].reshape(1000, 28*28) / 255
test_labels = np.zeros((len(y_test), 10))
for index, label in enumerate(y_test):
    test_labels[index][label] = 1
    
relu = lambda x: (x > 0) * x
relu2deriv = lambda output: (output > 0)

alpha, epochs, hidden_layer, pixel_per_image, num_labels = (0.005, 300, 100, 784, 10)

weight_0_1 = 0.2 * np.random.random((pixel_per_image, hidden_layer)) - 0.1
weight_1_2 = 0.2 * np.random.random((hidden_layer, num_labels)) - 0.1

for j in range(epochs):
    
    # With Dropout
    training_with_batchsize(train_images, train_labels, test_images, test_labels, epochs, [weight_0_1, weight_1_2], j)


I:0 Test-Err:0.839 Test-Acc:0.35 Train-Err:1.286 Train-Acc:0.151

I:10 Test-Err:0.572 Test-Acc:0.691 Train-Err:0.583 Train-Acc:0.66

I:20 Test-Err:0.496 Test-Acc:0.734 Train-Err:0.496 Train-Acc:0.748

I:30 Test-Err:0.452 Test-Acc:0.769 Train-Err:0.444 Train-Acc:0.792

I:40 Test-Err:0.425 Test-Acc:0.791 Train-Err:0.412 Train-Acc:0.806

I:50 Test-Err:0.402 Test-Acc:0.801 Train-Err:0.388 Train-Acc:0.833

I:60 Test-Err:0.388 Test-Acc:0.817 Train-Err:0.364 Train-Acc:0.843

I:70 Test-Err:0.377 Test-Acc:0.824 Train-Err:0.345 Train-Acc:0.865

I:80 Test-Err:0.368 Test-Acc:0.821 Train-Err:0.333 Train-Acc:0.859

I:90 Test-Err:0.360 Test-Acc:0.825 Train-Err:0.319 Train-Acc:0.883

I:100 Test-Err:0.353 Test-Acc:0.826 Train-Err:0.305 Train-Acc:0.89

I:110 Test-Err:0.348 Test-Acc:0.831 Train-Err:0.297 Train-Acc:0.893

I:120 Test-Err:0.343 Test-Acc:0.825 Train-Err:0.289 Train-Acc:0.899

I:130 Test-Err:0.338 Test-Acc:0.83 Train-Err:0.273 Train-Acc:0.902

I:140 Test-Err:0.336 Test-Acc:0.834 Train-Err:0.