# Задание 2.1 - Нейронные сети

В этом задании вы реализуете и натренируете настоящую нейроную сеть своими руками!

В некотором смысле это будет расширением прошлого задания - нам нужно просто составить несколько линейных классификаторов вместе!

<img src="https://i.redd.it/n9fgba8b0qr01.png" alt="Stack_more_layers" width="400px"/>

In [2]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

%load_ext autoreload
%autoreload 2

In [3]:
from dataset import load_svhn, random_split_train_val
from gradient_check import check_layer_gradient, check_layer_param_gradient, check_model_gradient
from layers import FullyConnectedLayer, ReLULayer
from model import TwoLayerNet
from trainer import Trainer, Dataset
from optim import SGD, MomentumSGD
from metrics import multiclass_accuracy

# Загружаем данные

И разделяем их на training и validation.

In [4]:
def prepare_for_neural_network(train_X, test_X):
    train_flat = train_X.reshape(train_X.shape[0], -1).astype(np.float32) / 255.0
    test_flat = test_X.reshape(test_X.shape[0], -1).astype(np.float32) / 255.0
    
#     Substract mean
    mean_image = np.mean(train_flat, axis = 0)
    train_flat -= mean_image
    test_flat -= mean_image
    
    return train_flat, test_flat

train_X, train_y, test_X, test_y = \
load_svhn("/home/artem/Загрузки/dlcourse_ai-master/assignments/assignment1/data", max_train=10000, max_test=1000)    
train_X, test_X = prepare_for_neural_network(train_X, test_X)
# Split train into train and val
train_X, train_y, val_X, val_y = random_split_train_val(train_X, train_y, num_val = 1000)

# Как всегда, начинаем с кирпичиков

Мы будем реализовывать необходимые нам слои по очереди. Каждый слой должен реализовать:
- прямой проход (forward pass), который генерирует выход слоя по входу и запоминает необходимые данные
- обратный проход (backward pass), который получает градиент по выходу слоя и вычисляет градиент по входу и по параметрам

Начнем с ReLU, у которого параметров нет.

In [7]:
# TODO: Implement ReLULayer layer in layers.py
# Note: you'll need to copy implementation of the gradient_check function from the previous assignment

X = np.array([[1,-2,3],
              [-1, 2, 0.1]
              ], np.float)

# layer = ReLULayer()
# layer.forward(X)

assert check_layer_gradient(ReLULayer(), X)

Gradient check passed!


А теперь реализуем полносвязный слой (fully connected layer), у которого будет два массива параметров: W (weights) и B (bias).

Все параметры наши слои будут использовать для параметров специальный класс `Param`, в котором будут храниться значения параметров и градиенты этих параметров, вычисляемые во время обратного прохода.

Это даст возможность аккумулировать (суммировать) градиенты из разных частей функции потерь, например, из cross-entropy loss и regularization loss.

In [56]:
X = np.random.rand(3,4)
# batch_size
print(X)
layer = FullyConnectedLayer(4, 1)
layer.forward(X)

[[0.19528314 0.96487838 0.44907066 0.94757789]
 [0.81548198 0.3297735  0.63902502 0.68414436]
 [0.65714564 0.13244167 0.83916937 0.30836793]]


array([[-0.00180717],
       [-0.00232708],
       [-0.00166812]])

In [70]:
# TODO: Implement FullyConnected layer forward and backward methods
assert check_layer_gradient(FullyConnectedLayer(4, 2), X)
# TODO: Implement storing gradients for W and B
assert check_layer_param_gradient(FullyConnectedLayer(4, 1), X, 'W')
assert check_layer_param_gradient(FullyConnectedLayer(4, 2), X, 'B')

индекс
(0, 0)
аналитический градиент
0.0021606810817644904
численный градиент
0.0021606810817528105
------------------------------------
индекс
(0, 1)
аналитический градиент
-0.0010858910704181386
численный градиент
-0.0010858910703785696
------------------------------------
индекс
(0, 2)
аналитический градиент
-0.0016587015098898689
численный градиент
-0.0016587015098674244
------------------------------------
индекс
(0, 3)
аналитический градиент
-0.0007980676066189699
численный градиент
-0.0007980676065746233
------------------------------------
индекс
(1, 0)
аналитический градиент
-0.002399917471071902
численный градиент
-0.002399917471088836
------------------------------------
индекс
(1, 1)
аналитический градиент
0.0036056628515224267
численный градиент
0.0036056628514944534
------------------------------------
индекс
(1, 2)
аналитический градиент
-0.0011166355816512549
численный градиент
-0.0011166355816556728
------------------------------------
индекс
(1, 3)
аналитический гради

## Создаем нейронную сеть

Теперь мы реализуем простейшую нейронную сеть с двумя полносвязным слоями и нелинейностью ReLU. Реализуйте функцию `compute_loss_and_gradients`, она должна запустить прямой и обратный проход через оба слоя для вычисления градиентов.

Не забудьте реализовать очистку градиентов в начале функции.

In [41]:
# TODO: In model.py, implement compute_loss_and_gradients function
model = TwoLayerNet(n_input = train_X.shape[1], n_output = 10, hidden_layer_size = 3, reg = 0)
loss = model.compute_loss_and_gradients(train_X[:2], train_y[:2])

# TODO Now implement backward pass and aggregate all of the params
check_model_gradient(model, train_X[:2], train_y[:2])

Checking gradient for W1
Gradient check passed!
Checking gradient for B1
Gradient check passed!
Checking gradient for W2
Gradient check passed!
Checking gradient for B2
Gradient check passed!


True

Теперь добавьте к модели регуляризацию - она должна прибавляться к loss и делать свой вклад в градиенты.

In [75]:
# TODO Now implement l2 regularization in the forward and backward pass
model_with_reg = TwoLayerNet(n_input = train_X.shape[1], n_output = 10, hidden_layer_size = 3, reg = 1e1)
loss_with_reg = model_with_reg.compute_loss_and_gradients(train_X[:2], train_y[:2])
assert ((loss_with_reg > loss).all() and not np.isclose(loss_with_reg, loss).all())
check_model_gradient(model_with_reg, train_X[:3], train_y[:3])

Checking gradient for W1
индекс
(0, 0)
аналитический градиент
0.01119454914981575
численный градиент
[0.01125273 0.01125273 0.01119455]
------------------------------------
индекс
(0, 1)
аналитический градиент
-0.0006202200978216002
численный градиент
[-0.00021093 -0.00024863 -0.00058252]
------------------------------------
индекс
(0, 2)
аналитический градиент
0.02627013654436516
численный градиент
[0.02626496 0.02627014 0.02626496]
------------------------------------
индекс
(1, 0)
аналитический градиент
-0.008373161746383669
численный градиент
[-0.00829776 -0.00829776 -0.00837316]
------------------------------------
индекс
(1, 1)
аналитический градиент
0.01069921452274931
численный градиент
[0.01122575 0.01118083 0.01074414]
------------------------------------
индекс
(1, 2)
аналитический градиент
-0.0018905961001228673
численный градиент
[-0.00189677 -0.0018906  -0.00189677]
------------------------------------
индекс
(2, 0)
аналитический градиент
-0.0072990637116138474
численный 

[-0.00394259 -0.00389366 -0.00425948]
------------------------------------
индекс
(36, 2)
аналитический градиент
-0.006654754946245207
численный градиент
[-0.00664803 -0.00665475 -0.00664803]
------------------------------------
индекс
(37, 0)
аналитический градиент
-0.01219120214156524
численный градиент
[-0.01212139 -0.01212139 -0.0121912 ]
------------------------------------
индекс
(37, 1)
аналитический градиент
-0.00629837501066028
численный градиент
[-0.00578704 -0.0058525  -0.00623291]
------------------------------------
индекс
(37, 2)
аналитический градиент
0.015312094528508992
численный градиент
[0.0153031  0.01531209 0.0153031 ]
------------------------------------
индекс
(38, 0)
аналитический градиент
-0.004051155577373043
численный градиент
[-0.00397527 -0.00397527 -0.00405116]
------------------------------------
индекс
(38, 1)
аналитический градиент
-0.04240304763577817
численный градиент
[-0.04176836 -0.04191835 -0.04225306]
------------------------------------
индекс
(

индекс
(75, 1)
аналитический градиент
-0.00844604884130655
численный градиент
[-0.00815132 -0.00806689 -0.00853048]
------------------------------------
индекс
(75, 2)
аналитический градиент
0.006151201219308194
численный градиент
[0.0061628 0.0061512 0.0061628]
------------------------------------
индекс
(76, 0)
аналитический градиент
-0.043062388962266746
численный градиент
[-0.04299774 -0.04299774 -0.04306239]
------------------------------------
индекс
(76, 1)
аналитический градиент
0.01533186916719687
численный градиент
[0.01575301 0.01574476 0.01534012]
------------------------------------
индекс
(76, 2)
аналитический градиент
-0.0335216367777428
численный градиент
[-0.03352277 -0.03352164 -0.03352277]
------------------------------------
индекс
(77, 0)
аналитический градиент
0.025212728550986496
численный градиент
[0.02526912 0.02526912 0.02521273]
------------------------------------
индекс
(77, 1)
аналитический градиент
-0.00558545677640393
численный градиент
[-0.00511431 -0.0

индекс
(104, 1)
аналитический градиент
0.008484278763025117
численный градиент
[0.00900352 0.00903906 0.00844874]
------------------------------------
индекс
(104, 2)
аналитический градиент
0.0036909600316614648
численный градиент
[0.00369584 0.00369096 0.00369584]
------------------------------------
индекс
(105, 0)
аналитический градиент
0.017626469048063923
численный градиент
[0.01768586 0.01768586 0.01762647]
------------------------------------
индекс
(105, 1)
аналитический градиент
0.026938875699392958
численный градиент
[0.02710518 0.02731818 0.02672587]
------------------------------------
индекс
(105, 2)
аналитический градиент
0.036191123673276995
численный градиент
[0.03622038 0.03619112 0.03622038]
------------------------------------
индекс
(106, 0)
аналитический градиент
0.029541569337132974
численный градиент
[0.02961713 0.02961713 0.02954157]
------------------------------------
индекс
(106, 1)
аналитический градиент
0.051640304478622286
численный градиент
[0.0519279  0.

индекс
(140, 2)
аналитический градиент
-0.03366019580131196
численный градиент
[-0.03366879 -0.0336602  -0.03366879]
------------------------------------
индекс
(141, 0)
аналитический градиент
0.016607886677844925
численный градиент
[0.01665217 0.01665217 0.01660789]
------------------------------------
индекс
(141, 1)
аналитический градиент
0.006645131247795226
численный градиент
[0.00678687 0.00692799 0.00650401]
------------------------------------
индекс
(141, 2)
аналитический градиент
-0.023817447343648827
численный градиент
[-0.02379806 -0.02381745 -0.02379806]
------------------------------------
индекс
(142, 0)
аналитический градиент
-0.01747192702645085
численный градиент
[-0.01741078 -0.01741078 -0.01747193]
------------------------------------
индекс
(142, 1)
аналитический градиент
-0.029602140460816037
численный градиент
[-0.02925923 -0.02921162 -0.02964975]
------------------------------------
индекс
(142, 2)
аналитический градиент
-0.005143555488460244
численный градиент


индекс
(169, 0)
аналитический градиент
0.008506349018069341
численный градиент
[0.00858051 0.00858051 0.00850635]
------------------------------------
индекс
(169, 1)
аналитический градиент
-0.0027673460397886233
численный градиент
[-0.00224522 -0.00229366 -0.00271891]
------------------------------------
индекс
(169, 2)
аналитический градиент
-0.025109430285411957
численный градиент
[-0.02511608 -0.02510943 -0.02511608]
------------------------------------
индекс
(170, 0)
аналитический градиент
0.037921067056466584
численный градиент
[0.03799043 0.03799043 0.03792107]
------------------------------------
индекс
(170, 1)
аналитический градиент
0.03258504489310608
численный градиент
[0.03318978 0.03302805 0.03274678]
------------------------------------
индекс
(170, 2)
аналитический градиент
-0.017753663356144447
численный градиент
[-0.01777588 -0.01775366 -0.01777588]
------------------------------------
индекс
(171, 0)
аналитический градиент
-0.05126371184880245
численный градиент
[-0

[-0.02611809 -0.02582102 -0.02661289]
------------------------------------
индекс
(199, 2)
аналитический градиент
-0.01031676597721467
численный градиент
[-0.01027596 -0.01031677 -0.01027596]
------------------------------------
индекс
(200, 0)
аналитический градиент
-0.005580927408569873
численный градиент
[-0.00549235 -0.00549235 -0.00558093]
------------------------------------
индекс
(200, 1)
аналитический градиент
-0.019466402545861818
численный градиент
[-0.01908209 -0.01890066 -0.01964783]
------------------------------------
индекс
(200, 2)
аналитический градиент
-0.00020068887506253716
численный градиент
[-0.00017577 -0.00020069 -0.00017577]
------------------------------------
индекс
(201, 0)
аналитический градиент
0.013083256345679285
численный градиент
[0.01314372 0.01314372 0.01308326]
------------------------------------
индекс
(201, 1)
аналитический градиент
-0.006980916298586925
численный градиент
[-0.00698375 -0.00659476 -0.00736991]
-----------------------------------

аналитический градиент
-0.012487775190669653
численный градиент
[-0.01243521 -0.01243521 -0.01248778]
------------------------------------
индекс
(229, 1)
аналитический градиент
-0.00035286185496351106
численный градиент
[ 8.71273720e-05 -1.71118897e-05 -2.48622589e-04]
------------------------------------
индекс
(229, 2)
аналитический градиент
0.013660765961991275
численный градиент
[0.01364645 0.01366077 0.01364645]
------------------------------------
индекс
(230, 0)
аналитический градиент
0.0004857547291448553
численный градиент
[0.00055016 0.00055016 0.00048575]
------------------------------------
индекс
(230, 1)
аналитический градиент
0.005021083942062568
численный градиент
[0.00563568 0.00543241 0.00522435]
------------------------------------
индекс
(230, 2)
аналитический градиент
-0.019422010091069048
численный градиент
[-0.01944993 -0.01942201 -0.01944993]
------------------------------------
индекс
(231, 0)
аналитический градиент
0.029346798482480476
численный градиент
[0.0

индекс
(261, 2)
аналитический градиент
0.014768247000977421
численный градиент
[0.01476645 0.01476825 0.01476645]
------------------------------------
индекс
(262, 0)
аналитический градиент
-0.005080956225934986
численный градиент
[-0.00500274 -0.00500274 -0.00508096]
------------------------------------
индекс
(262, 1)
аналитический градиент
0.018664496640657766
численный градиент
[0.01923524 0.01916407 0.01873567]
------------------------------------
индекс
(262, 2)
аналитический градиент
0.018068066274403088
численный градиент
[0.01805829 0.01806807 0.01805829]
------------------------------------
индекс
(263, 0)
аналитический градиент
0.003132541866924868
численный градиент
[0.00321128 0.00321128 0.00313254]
------------------------------------
индекс
(263, 1)
аналитический градиент
-0.06513653675343696
численный градиент
[-0.06443029 -0.06463363 -0.0649332 ]
------------------------------------
индекс
(263, 2)
аналитический градиент
-0.021030571395649622
численный градиент
[-0.021

KeyboardInterrupt: 

Также реализуем функцию предсказания (вычисления значения) модели на новых данных.

Какое значение точности мы ожидаем увидеть до начала тренировки?

In [90]:
# Finally, implement predict function!

# TODO: Implement predict function
# What would be the value we expect?
# multiclass_accuracy(model_with_reg.predict(train_X[:100]), train_y[:100]) 
multiclass_accuracy(model_with_reg.predict(train_X), train_y) 

[[0.10010651 0.09995978 0.09999308 0.09993072 0.09998445 0.09997087
  0.09992974 0.09999959 0.10006523 0.10006005]
 [0.10010624 0.09995946 0.09999271 0.09993072 0.09998438 0.09997065
  0.0999299  0.09999959 0.10006573 0.10006063]
 [0.1001105  0.09995445 0.09999004 0.09992328 0.09998673 0.09997112
  0.09992887 0.09999998 0.10006615 0.10006889]
 [0.10010598 0.0999588  0.09999319 0.09993095 0.09998447 0.09997101
  0.09992956 0.0999999  0.10006628 0.10005985]
 [0.10010651 0.09995978 0.09999307 0.09993072 0.09998445 0.09997086
  0.09992974 0.09999959 0.10006523 0.10006006]
 [0.10010566 0.0999582  0.09999325 0.09993109 0.09998448 0.0999711
  0.09992946 0.1000001  0.10006693 0.10005973]
 [0.10010635 0.09995976 0.09999247 0.09993061 0.09998434 0.09997047
  0.09993006 0.09999944 0.10006548 0.10006103]
 [0.10010758 0.09995798 0.09999109 0.09992808 0.09998502 0.09997031
  0.09992997 0.09999948 0.10006594 0.10006455]
 [0.10010972 0.09995571 0.09999134 0.09992511 0.09998631 0.09997144
  0.09992875 

0.05

# Допишем код для процесса тренировки

Если все реализовано корректно, значение функции ошибки должно уменьшаться с каждой эпохой, пусть и медленно. Не беспокойтесь пока про validation accuracy.

In [None]:
model = TwoLayerNet(n_input = train_X.shape[1], n_output = 10, hidden_layer_size = 100, reg = 1e1)
dataset = Dataset(train_X, train_y, val_X, val_y)
trainer = Trainer(model, dataset, SGD(), learning_rate = 1e-2)

# TODO Implement missing pieces in Trainer.fit function
# You should expect loss to go down every epoch, even if it's slow
loss_history, train_history, val_history = trainer.fit()

In [None]:
plt.plot(train_history)
plt.plot(val_history)

# Улучшаем процесс тренировки

Мы реализуем несколько ключевых оптимизаций, необходимых для тренировки современных нейросетей.

## Уменьшение скорости обучения (learning rate decay)

Одна из необходимых оптимизаций во время тренировки нейронных сетей - постепенное уменьшение скорости обучения по мере тренировки.

Один из стандартных методов - уменьшение скорости обучения (learning rate) каждые N эпох на коэффициент d (часто называемый decay). Значения N и d, как всегда, являются гиперпараметрами и должны подбираться на основе эффективности на проверочных данных (validation data). 

В нашем случае N будет равным 1.

In [None]:
# TODO Implement learning rate decay inside Trainer.fit method
# Decay should happen once per epoch

model = TwoLayerNet(n_input = train_X.shape[1], n_output = 10, hidden_layer_size = 100, reg = 1e-1)
dataset = Dataset(train_X, train_y, val_X, val_y)
trainer = Trainer(model, dataset, SGD(), learning_rate_decay=0.99)

initial_learning_rate = trainer.learning_rate
loss_history, train_history, val_history = trainer.fit()

assert trainer.learning_rate < initial_learning_rate, "Learning rate should've been reduced"
assert trainer.learning_rate > 0.5*initial_learning_rate, "Learning rate shouldn'tve been reduced that much!"

# Накопление импульса (Momentum SGD)

Другой большой класс оптимизаций - использование более эффективных методов градиентного спуска. Мы реализуем один из них - накопление импульса (Momentum SGD).

Этот метод хранит скорость движения, использует градиент для ее изменения на каждом шаге, и изменяет веса пропорционально значению скорости.
(Физическая аналогия: Вместо скорости градиенты теперь будут задавать ускорение, но будет присутствовать сила трения.)

```
velocity = momentum * velocity - learning_rate * gradient 
w = w + velocity
```

`momentum` здесь коэффициент затухания, который тоже является гиперпараметром (к счастью, для него часто есть хорошее значение по умолчанию, типичный диапазон -- 0.8-0.99).

Несколько полезных ссылок, где метод разбирается более подробно:  
http://cs231n.github.io/neural-networks-3/#sgd  
https://distill.pub/2017/momentum/

In [None]:
# TODO: Implement MomentumSGD.update function in optim.py

model = TwoLayerNet(n_input = train_X.shape[1], n_output = 10, hidden_layer_size = 100, reg = 1e-1)
dataset = Dataset(train_X, train_y, val_X, val_y)
trainer = Trainer(model, dataset, MomentumSGD(), learning_rate=1e-4, learning_rate_decay=0.99)

# You should see even better results than before!
loss_history, train_history, val_history = trainer.fit()

# Ну что, давайте уже тренировать сеть!

## Последний тест - переобучимся (overfit) на маленьком наборе данных

Хороший способ проверить, все ли реализовано корректно - переобучить сеть на маленьком наборе данных.  
Наша модель обладает достаточной мощностью, чтобы приблизить маленький набор данных идеально, поэтому мы ожидаем, что на нем мы быстро дойдем до 100% точности на тренировочном наборе. 

Если этого не происходит, то где-то была допущена ошибка!

In [None]:
data_size = 15
model = TwoLayerNet(n_input = train_X.shape[1], n_output = 10, hidden_layer_size = 100, reg = 1e-1)
dataset = Dataset(train_X[:data_size], train_y[:data_size], val_X[:data_size], val_y[:data_size])
trainer = Trainer(model, dataset, SGD(), learning_rate=1e-1, num_epochs=150, batch_size=5)

# You should expect this to reach 1.0 training accuracy 
loss_history, train_history, val_history = trainer.fit()

Теперь найдем гипепараметры, для которых этот процесс сходится быстрее.
Если все реализовано корректно, то существуют параметры, при которых процесс сходится в **20** эпох или еще быстрее.
Найдите их!

In [None]:
# Now, tweak some hyper parameters and make it train to 1.0 accuracy in 20 epochs or less

model = TwoLayerNet(n_input = train_X.shape[1], n_output = 10, hidden_layer_size = 100, reg = 1e-1)
dataset = Dataset(train_X[:data_size], train_y[:data_size], val_X[:data_size], val_y[:data_size])
# TODO: Change any hyperparamers or optimizators to reach training accuracy in 20 epochs
trainer = Trainer(model, dataset, SGD(), learning_rate=1e-1, num_epochs=20, batch_size=5)

loss_history, train_history, val_history = trainer.fit()

# Итак, основное мероприятие!

Натренируйте лучшую нейросеть! Можно добавлять и изменять параметры, менять количество нейронов в слоях сети и как угодно экспериментировать. 

Добейтесь точности лучше **60%** на validation set.

In [None]:
# Let's train the best one-hidden-layer network we can

learning_rates = 1e-4
reg_strength = 1e-3
learning_rate_decay = 0.999
hidden_layer_size = 128
num_epochs = 200
batch_size = 64

best_classifier = None
best_val_accuracy = None

loss_history = []
train_history = []
val_history = []

# TODO find the best hyperparameters to train the network
# Don't hesitate to add new values to the arrays above, perform experiments, use any tricks you want
# You should expect to get to at least 40% of valudation accuracy
# Save loss/train/history of the best classifier to the variables above

print('best validation accuracy achieved: %f' % best_val_accuracy)

In [None]:
plt.figure(figsize=(15, 7))
plt.subplot(211)
plt.title("Loss")
plt.plot(loss_history)
plt.subplot(212)
plt.title("Train/validation accuracy")
plt.plot(train_history)
plt.plot(val_history)

# Как обычно, посмотрим, как наша лучшая модель работает на тестовых данных

In [None]:
test_pred = best_classifier.predict(test_X)
test_accuracy = multiclass_accuracy(test_pred, test_y)
print('Neural net test set accuracy: %f' % (test_accuracy, ))