# Сверточные сети
До сих пор мы работали с глубокими полносвязанными сетями и изучали различные стратегии оптимизации. Полносвязанные сети - хороший объект для экспериментов, потому что они простые с точки зрения программирования вычислений, но на практике часто применяют и другие архитектуры, в частности, сверточные сети.

Реализуем несколько типов слоев, которые используются в сверточных сетях. Далее мы будем использовать эти слои для обучения сверточных сетей, используя множество данных CIFAR-10.

# Проблемы выполнения первой ячеки

Если при первом выполнении первой ячейки данного блокнота будет генерироваться сообщение:

```bash 
Перейдите в директорию dlcv и выполните там команду:
python setup.py build_ext --inplace
Возможно вам также будет необходимо перезапустить iPython kernel
```
то необходимо выполнить компиляцию кода для быстрых функций свертки и пуллинга  с использованием указанной команды (при работе в ОС Windows должны быть установлены средства разработки на С++ 14.х "Microsoft Build Tools for Visual Studio 2019").
Выполнить команду можно не только из командного окна среды Python, но также и из ячейки блокнота с помощью следующего кода
```bash
%cd dlcv
!python setup.py build_ext --inplace
%cd ..
```

In [5]:
# Выполните начальные установки блокнота.
# Внимание! Блокнот работает в версии Python 3.6!

import numpy as np
import matplotlib.pyplot as plt
from dlcv.classifiers.cnn import *
from dlcv.data_utils import get_CIFAR10_data
from dlcv.gradient_check import eval_numerical_gradient_array, eval_numerical_gradient
from dlcv.layers import *
from dlcv.fast_layers import *
from dlcv.solver import Solver

%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # установка размеров графиков по умолчанию
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# Для перезагрузки внешних модулей python;
# см. http://stackoverflow.com/questions/1907993/autoreload-of-modules-in-ipython
%load_ext autoreload
%autoreload 2

def rel_error(x, y):
  """ возвращает относительную ошибку"""
  return np.max(np.abs(x - y) / (np.maximum(1e-8, np.abs(x) + np.abs(y))))

Перейдите в директорию dlcv и выполните там команду:
python setup.py build_ext --inplace
Возможно вам также будет необходимо перезапустить iPython kernel
The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [None]:
# Загрузка и предобработка данных CIFAR10
data = get_CIFAR10_data()
for k, v in data.items():
  print('%s: ' % k, v.shape)

# Свертка: наивное прямое распространение

Ядром сверточной сети является операция свертки. В файле `dlcv/layers.py` реализуйте прямое распространение для сверточного слоя в функции `conv_forward_naive`.

На данный момент вам не нужно слишком беспокоиться об эффективности; просто напишите код, реализующий свертку.

Протестируйте свою реализацию, выполнив следующую ячейку:

In [None]:
x_shape = (2, 3, 4, 4)
w_shape = (3, 3, 4, 4)
x = np.linspace(-0.1, 0.5, num=np.prod(x_shape)).reshape(x_shape)
w = np.linspace(-0.2, 0.3, num=np.prod(w_shape)).reshape(w_shape)
b = np.linspace(-0.1, 0.2, num=3)

conv_param = {'stride': 2, 'pad': 1}
out, _ = conv_forward_naive(x, w, b, conv_param)
correct_out = np.array([[[[-0.08759809, -0.10987781],
                           [-0.18387192, -0.2109216 ]],
                          [[ 0.21027089,  0.21661097],
                           [ 0.22847626,  0.23004637]],
                          [[ 0.50813986,  0.54309974],
                           [ 0.64082444,  0.67101435]]],
                         [[[-0.98053589, -1.03143541],
                           [-1.19128892, -1.24695841]],
                          [[ 0.69108355,  0.66880383],
                           [ 0.59480972,  0.56776003]],
                          [[ 2.36270298,  2.36904306],
                           [ 2.38090835,  2.38247847]]]])

# Сравните результаты с требуемыми; ошибка должна быть около e-8
print('Тестирование функции conv_forward_naive')
print('Относительная ошибка: ', rel_error(out, correct_out))

# Обработка изображений с помощью сверток

В качестве любопытного способа проверки вашей реализации, а также с целью лучшего понимания операций, которые выполняют сверточные слои, подадим на вход два изображения, и вручную настроим фильтры, которые выполняют общие операции обработки изображений (преобразование цветного изображения в градации серого и выделение границ на изображении). Прямое распространение изображений через сверточный слой  обеспечит применение этих операций к каждому из входных изображений. Для проверки работоспособности мы  визуализируем  результаты обработки.

In [None]:
from imageio import imread
from PIL import Image

kitten = imread('kitten.jpg')
puppy = imread('puppy.jpg')

# изображение кошки широкое, поэтому делаем его обрезку
d = kitten.shape[1] - kitten.shape[0]
kitten_cropped = kitten[:, d//2:-d//2, :]

img_size = 200   # Можно уменьшить, если будет работать медленно
resized_puppy = np.array(Image.fromarray(puppy).resize((img_size, img_size)))
resized_kitten = np.array(Image.fromarray(kitten_cropped).resize((img_size, img_size)))
x = np.zeros((2, 3, img_size, img_size))
x[0, :, :, :] = resized_puppy.transpose((2, 0, 1))
x[1, :, :, :] = resized_kitten.transpose((2, 0, 1))

# Начальная установка сверточных весов  двух фильтров размерами 3x3
w = np.zeros((2, 3, 3, 3))

# Первый фильтр преобразует изображение в оттенки серого.
# Устанавливаем значения красного, зеленого и синего каналов фильтра.
w[0, 0, :, :] = [[0, 0, 0], [0, 0.3, 0], [0, 0, 0]]
w[0, 1, :, :] = [[0, 0, 0], [0, 0.6, 0], [0, 0, 0]]
w[0, 2, :, :] = [[0, 0, 0], [0, 0.1, 0], [0, 0, 0]]

# Второй фильтр выделяет горизонтальные края в канале синего цвета.
w[1, 2, :, :] = [[1, 2, 1], [0, 0, 0], [-1, -2, -1]]

# Вектор смещения. Нам не нужно смещение для оттенков серого,
# но для фильтра, обнаруживающего края мы  добавим 128
# к каждому выходу, чтобы значения не были отрицательными.
b = np.array([0, 128])

# Вычисляем результат свертки каждого входа из x с каждым фильтром из w,
# смещаем на b и сохраняем результаты в out.
out, _ = conv_forward_naive(x, w, b, {'stride': 1, 'pad': 1})

def imshow_no_ax(img, normalize=True):
    """ Отображение изображений в формате uint8 и удаления меток осей """
    if normalize:
        img_max, img_min = np.max(img), np.min(img)
        img = 255.0 * (img - img_min) / (img_max - img_min)
    plt.imshow(img.astype('uint8'))
    plt.gca().axis('off')

# Отображение исходных изображений и результатов свертки
plt.subplot(2, 3, 1)
imshow_no_ax(puppy, normalize=False)
plt.title('Исходное изображение')
plt.subplot(2, 3, 2)
imshow_no_ax(out[0, 0])
plt.title('Полутоновое')
plt.subplot(2, 3, 3)
imshow_no_ax(out[0, 1])
plt.title('Границы')
plt.subplot(2, 3, 4)
imshow_no_ax(kitten_cropped, normalize=False)
plt.subplot(2, 3, 5)
imshow_no_ax(out[1, 0])
plt.subplot(2, 3, 6)
imshow_no_ax(out[1, 1])
plt.show()

# Свертка: наивное обратное распространение

Реализуйте обратное распространение для операции свертки в функции `conv_backward_naive` в файле `dlcv/layers.py`. Вам не нужно слишком беспокоиться об эффективности вычислений.

Запустите код в ячейке, чтобы протестировать обратное распространение с помощью проверки градиентов.

In [None]:
np.random.seed(231)
x = np.random.randn(4, 3, 5, 5)
w = np.random.randn(2, 3, 3, 3)
b = np.random.randn(2,)
dout = np.random.randn(4, 2, 5, 5)
conv_param = {'stride': 1, 'pad': 1}

dx_num = eval_numerical_gradient_array(lambda x: conv_forward_naive(x, w, b, conv_param)[0], x, dout)
dw_num = eval_numerical_gradient_array(lambda w: conv_forward_naive(x, w, b, conv_param)[0], w, dout)
db_num = eval_numerical_gradient_array(lambda b: conv_forward_naive(x, w, b, conv_param)[0], b, dout)

out, cache = conv_forward_naive(x, w, b, conv_param)
dx, dw, db = conv_backward_naive(dout, cache)

# Ошибки должны быть около e-8 или меньше.
print('Тестирование функции conv_backward_naive')
print('Относительная ошибка dx: ', rel_error(dx, dx_num))
print('Относительная ошибка dw: ', rel_error(dw, dw_num))
print('Относительная ошибка db error: ', rel_error(db, db_num))

#  Макс-пулинг (max-pooling): наивное прямое распространение
Реализуйте прямое распространение для операции max-pooling в функции `max_pool_forward_naive` в файле `dlcv/layers.py`. 

Проверьте реализацию, выполнив следующие действия:

In [None]:
x_shape = (2, 3, 4, 4)
x = np.linspace(-0.3, 0.4, num=np.prod(x_shape)).reshape(x_shape)
pool_param = {'pool_width': 2, 'pool_height': 2, 'stride': 2}

out, _ = max_pool_forward_naive(x, pool_param)

correct_out = np.array([[[[-0.26315789, -0.24842105],
                          [-0.20421053, -0.18947368]],
                         [[-0.14526316, -0.13052632],
                          [-0.08631579, -0.07157895]],
                         [[-0.02736842, -0.01263158],
                          [ 0.03157895,  0.04631579]]],
                        [[[ 0.09052632,  0.10526316],
                          [ 0.14947368,  0.16421053]],
                         [[ 0.20842105,  0.22315789],
                          [ 0.26736842,  0.28210526]],
                         [[ 0.32631579,  0.34105263],
                          [ 0.38526316,  0.4       ]]]])

# Сравните результаты с требуемыми. Разница должна быть порядка e-8.
print('Тестирование функции max_pool_forward_naive:')
print('Относительная ошибка выхода: ', rel_error(out, correct_out))

# Макс-пулинг: наивное обратное распространение 

Реализуйте обратный проход для операции max-pooling в функции `max_pool_backward_naive` в файле `dlcv/layers.py`. 

Протестируйте свою реализацию с помощью проверки градиента, выполнив следующее:

In [None]:
np.random.seed(231)
x = np.random.randn(3, 2, 8, 8)
dout = np.random.randn(3, 2, 4, 4)
pool_param = {'pool_height': 2, 'pool_width': 2, 'stride': 2}

dx_num = eval_numerical_gradient_array(lambda x: max_pool_forward_naive(x, pool_param)[0], x, dout)

out, cache = max_pool_forward_naive(x, pool_param)
dx = max_pool_backward_naive(dout, cache)

# Ваша ошибка должна быть порядка e-12
print('Тестирование функции max_pool_backward_naive:')
print('Ошибка dx: ', rel_error(dx, dx_num))

# Быстрые слои

Реализации свертки и пулинга в виде наивных функций, определенных вами выше, могут быть медленными. В файле `dlcv/fast_layers.py` подготовлены быстрые реализации прямого и обратного распространения для свертки и пулинга. 
Реализация быстрой свертки осуществляется с помощью расширения на Cython (файлы с расширением .pyx). 

API для быстрых версий слоев свертки и пулинга в точности совпадает с наивными версиями, которые вы реализовали выше: функция прямого распространения принимает данные, веса и параметры и формирует выходы и кеш; функция обратного распространения получает производные восходящего потока и кэш и вычисляет градиенты по отношению к данным и весам.

ПРИМЕЧАНИЕ. Быстрая реализация для пулинга будет выполняться оптимально только в том случае, если области пулинга не перекрываются. Если эти условия не выполняются, реализация быстрого пулинга не будет быстрее, чем наивная реализация.

Вы можете сравнить производительность наивных и быстрых версий слоев, выполнив следующие действия:

In [None]:
# Ошибки должны быть около e-9 или менее
from dlcv.fast_layers import conv_forward_fast, conv_backward_fast
from time import time
np.random.seed(231)
x = np.random.randn(100, 3, 31, 31)
w = np.random.randn(25, 3, 3, 3)
b = np.random.randn(25,)
dout = np.random.randn(100, 25, 16, 16)
conv_param = {'stride': 2, 'pad': 1}

t0 = time()
out_naive, cache_naive = conv_forward_naive(x, w, b, conv_param)
t1 = time()
out_fast, cache_fast = conv_forward_fast(x, w, b, conv_param)
t2 = time()

print('Тестирование функции conv_forward_fast:')
print('Наивная реализация: %fs' % (t1 - t0))
print('Быстрая реализация: %fs' % (t2 - t1))
print('Увеличение скорости: %fx' % ((t1 - t0) / (t2 - t1)))
print('Относительная ошибка: ', rel_error(out_naive, out_fast))

t0 = time()
dx_naive, dw_naive, db_naive = conv_backward_naive(dout, cache_naive)
t1 = time()
dx_fast, dw_fast, db_fast = conv_backward_fast(dout, cache_fast)
t2 = time()

print('\nТестирование функции conv_backward_fast:')
print('Наивная реализация: %fs' % (t1 - t0))
print('Быстрая реализация: %fs' % (t2 - t1))
print('Увеличение скорости: %fx' % ((t1 - t0) / (t2 - t1)))
print('Ошибка dx: ', rel_error(dx_naive, dx_fast))
print('Ошибка dw: ', rel_error(dw_naive, dw_fast))
print('Ошибка db: ', rel_error(db_naive, db_fast))

In [None]:
# Ошибки должны быть близки к  0.0
from dlcv.fast_layers import max_pool_forward_fast, max_pool_backward_fast
np.random.seed(231)
x = np.random.randn(100, 3, 32, 32)
dout = np.random.randn(100, 3, 16, 16)
pool_param = {'pool_height': 2, 'pool_width': 2, 'stride': 2}

t0 = time()
out_naive, cache_naive = max_pool_forward_naive(x, pool_param)
t1 = time()
out_fast, cache_fast = max_pool_forward_fast(x, pool_param)
t2 = time()

print('Тестирование функции pool_forward_fast:')
print('Наивная реализация: %fs' % (t1 - t0))
print('Быстрая реализация: %fs' % (t2 - t1))
print('Увеличение скорости: %fx' % ((t1 - t0) / (t2 - t1)))
print('Относительная ошибка: ', rel_error(out_naive, out_fast))

t0 = time()
dx_naive = max_pool_backward_naive(dout, cache_naive)
t1 = time()
dx_fast = max_pool_backward_fast(dout, cache_fast)
t2 = time()

print('\nТестирование функции pool_backward_fast:')
print('Наивная реализация: %fs' % (t1 - t0))
print('Быстрая реализация: %fs' % (t2 - t1))
print('Увеличение скорости: %fx' % ((t1 - t0) / (t2 - t1)))
print('Относительная ошибка dx: ', rel_error(dx_naive, dx_fast))

# Сверточные "сэндвич-слои"
Ранее мы ввели понятие "сэндвич" слоев , которые объединяют несколько операций в широко используемых шаблонах слоев. В файле `dlcv / layer_utils.py` вы найдете "сэндвич-слои", которые реализуют несколько часто используемых шаблонов для сверточных сетей.

In [None]:
from dlcv.layer_utils import conv_relu_pool_forward, conv_relu_pool_backward
np.random.seed(231)
x = np.random.randn(2, 3, 16, 16)
w = np.random.randn(3, 3, 3, 3)
b = np.random.randn(3,)
dout = np.random.randn(2, 3, 8, 8)
conv_param = {'stride': 1, 'pad': 1}
pool_param = {'pool_height': 2, 'pool_width': 2, 'stride': 2}

out, cache = conv_relu_pool_forward(x, w, b, conv_param, pool_param)
dx, dw, db = conv_relu_pool_backward(dout, cache)

dx_num = eval_numerical_gradient_array(lambda x: conv_relu_pool_forward(x, w, b, conv_param, pool_param)[0], x, dout)
dw_num = eval_numerical_gradient_array(lambda w: conv_relu_pool_forward(x, w, b, conv_param, pool_param)[0], w, dout)
db_num = eval_numerical_gradient_array(lambda b: conv_relu_pool_forward(x, w, b, conv_param, pool_param)[0], b, dout)

# Относительные ошибки должны быть около e-8 или менее
print('Тестирование функции conv_relu_pool')
print('Относительная ошибка dx: ', rel_error(dx_num, dx))
print('Относительная ошибка dw: ', rel_error(dw_num, dw))
print('Относительная ошибка db: ', rel_error(db_num, db))

In [None]:
from dlcv.layer_utils import conv_relu_forward, conv_relu_backward
np.random.seed(231)
x = np.random.randn(2, 3, 8, 8)
w = np.random.randn(3, 3, 3, 3)
b = np.random.randn(3,)
dout = np.random.randn(2, 3, 8, 8)
conv_param = {'stride': 1, 'pad': 1}

out, cache = conv_relu_forward(x, w, b, conv_param)
dx, dw, db = conv_relu_backward(dout, cache)

dx_num = eval_numerical_gradient_array(lambda x: conv_relu_forward(x, w, b, conv_param)[0], x, dout)
dw_num = eval_numerical_gradient_array(lambda w: conv_relu_forward(x, w, b, conv_param)[0], w, dout)
db_num = eval_numerical_gradient_array(lambda b: conv_relu_forward(x, w, b, conv_param)[0], b, dout)

# Относительные ошибки должны быть около e-8 или менее
print('Тестирование функции conv_relu:')
print('Относительная ошибка dx: ', rel_error(dx_num, dx))
print('Относительная ошибка dw: ', rel_error(dw_num, dw))
print('Относительная ошибка db: ', rel_error(db_num, db))

# Трехслойная ConvNet
Теперь, когда Вы реализовали все необходимые слои,  можно объединить их в простую сверточную сеть.

Откройте файл `dlcv / classifiers / cnn.py` и завершите реализацию класса` ThreeLayerConvNet`. Помните, что вы можете использовать быстрые / сэндвич-слои (уже импортированные в вашей реализации). Запустите  ячейки ниже, чтобы выполнить отладку:

## Проверка значения потерь

После построения новой сети, одной из первых вещей, которую вы должны сделать, является проверка значения потерь на здравый смысл. Когда мы используем потери softmax, мы ожидаем, что потери для случайных начальных весов (при отсутствие регуляризации) будет примерно равны `log(C)` для `C` классов . Когда мы добавляем регуляризацию, потери должны повышаться.

In [None]:
model = ThreeLayerConvNet()

N = 50
X = np.random.randn(N, 3, 32, 32)
y = np.random.randint(10, size=N)

loss, grads = model.loss(X, y)
print('Начальные потери (без регуляризации): ', loss)

model.reg = 0.5
loss, grads = model.loss(X, y)
print('Начальные потери (с регуляризацией): ', loss)

## Проверка градиента

После проверки потерь, сделайте проверку численного градиента, чтобы убедиться, что  обратное распространение реализовано правильно. Когда вы используете численную проверку градиента, вы должны использовать небольшое количество искусственных данных и небольшое количество нейронов на каждом уровне. Примечание: правильные реализации могут  иметь относительные ошибки  порядка e-2.

In [None]:
num_inputs = 2
input_dim = (3, 16, 16)
reg = 0.0
num_classes = 10
np.random.seed(231)
X = np.random.randn(num_inputs, *input_dim)
y = np.random.randint(num_classes, size=num_inputs)

model = ThreeLayerConvNet(num_filters=3, filter_size=3,
                          input_dim=input_dim, hidden_dim=7,
                          dtype=np.float64)
loss, grads = model.loss(X, y)
# Ошибки должны быть маленькими, но корректные реализации 
# могут иметь относительную ошибку порядка e-2
for param_name in sorted(grads):
    f = lambda _: model.loss(X, y)[0]
    param_grad_num = eval_numerical_gradient(f, model.params[param_name], verbose=False, h=1e-6)
    e = rel_error(param_grad_num, grads[param_name])
    print('%s максимальная относительная ошибка: %e' % (param_name, rel_error(param_grad_num, grads[param_name])))

## Переобучение на малом объеме данных

Хороший трюк проверки работоспособности модели сети состоит в том, чтобы обучить вашу модель всего на нескольких примерах. Вы должны достичь переобучения на  небольшом наборе данных, что приведет к  высокой точности обучения и сравнительно низкой точности валидации.

In [None]:
np.random.seed(231)

num_train = 100
small_data = {
  'X_train': data['X_train'][:num_train],
  'y_train': data['y_train'][:num_train],
  'X_val': data['X_val'],
  'y_val': data['y_val'],
}

model = ThreeLayerConvNet(weight_scale=1e-2)

solver = Solver(model, small_data,
                num_epochs=15, batch_size=50,
                update_rule='adam',
                optim_config={
                  'learning_rate': 1e-3,
                },
                verbose=True, print_every=1)
solver.train()

Графики потерь, точности обучения и точности валидации должны демонстрировать четкое переобучение:

In [None]:
plt.subplot(2, 1, 1)
plt.plot(solver.loss_history, 'o')
plt.xlabel('Итерации')
plt.ylabel('Потери')

plt.subplot(2, 1, 2)
plt.plot(solver.train_acc_history, '-o')
plt.plot(solver.val_acc_history, '-o')
plt.legend(['обучение', 'валидация'], loc='upper left')
plt.xlabel('Эпохи')
plt.ylabel('Точность')
plt.show()

## Обучение сети
Обучая трехслойную сверточную сеть в течение одной эпохи, вы должны достичь более 40% точности на обучающем наборе:

In [None]:
model = ThreeLayerConvNet(weight_scale=0.001, hidden_dim=500, reg=0.001)

solver = Solver(model, data,
                num_epochs=1, batch_size=50,
                update_rule='adam',
                optim_config={
                  'learning_rate': 1e-3,
                },
                verbose=True, print_every=20)
solver.train()

## Визуализация фильтров
Для понимания низкоуровневых признаков, которые способна распознавать после обучения, можно визуализировать сверточные фильтры первого слоя обученной сети, выполнив следующее:

In [None]:
from dlcv.vis_utils import visualize_grid

grid = visualize_grid(model.params['W1'].transpose(0, 2, 3, 1))
plt.imshow(grid.astype('uint8'))
plt.axis('off')
plt.gcf().set_size_inches(5, 5)
plt.show()

# Пространственная блочная нормализация

Мы уже видели, что блочная нормализация - полезный метод обучения глубоких полносвязанных сетей. Как предложено  работе [1], блочная нормализация также может быть использована в сверточных сетях, но нам нужно немного ее адаптировать; модификация будет называться "пространственной блочной нормализацией".

Обычная блочная нормализация получает на вход массив формы (N, D) и формирует выходной массив формы (N, D), где нормализация выполняется  в отношении каждого признака из D путем вычисления статистик по размеру мини-блока N. Для данных, поступающих из сверточных слоев, процедура блочной нормализации должна  получать на вход массив формы (N, C, H, W) и формировать выход формы (N, C, H, W), где размерность N задает размер мини-блока, а размеры (H, W) дают пространственный размер карты признаков.

Если карта признаков была создана с использованием сверток, то мы ожидаем, что статистика каждого канала признаков будет относительно последовательной как между разными изображениями, так и в разных местах внутри одного и того же изображения. Поэтому пространственная блочная нормализация  вычисляет среднее значение и дисперсию для каждого из каналов признаков C, вычисляя средние как по N, так и по пространственным размерам H и W.

[1] [Sergey Ioffe and Christian Szegedy, "Batch Normalization: Accelerating Deep Network Training by Reducing
Internal Covariate Shift", ICML 2015.](https://arxiv.org/abs/1502.03167)

## Пространственная блочная нормализация: прямое распространение

В файле `dlcv/layers.py`, реализуйте прямое распространение для пространственной блочной нормализации  в функции `spatial_batchnorm_forward`. Проверьте свою реализацию, выполнив следующие действия:


In [None]:
np.random.seed(231)
# Проверьте средние и дисперсии   признаков
# прямого пути как до, так и после блочной пространственной нормализации

N, C, H, W = 2, 3, 4, 5
x = 4 * np.random.randn(N, C, H, W) + 10

print('Перед пространственной блочной нормализации:')
print('  Форма: ', x.shape)
print('  Средние: ', x.mean(axis=(0, 2, 3)))
print('  Стандартное отклонение: ', x.std(axis=(0, 2, 3)))

# Средние должны быть близки к нулю, а дисперсии - близко к 1
gamma, beta = np.ones(C), np.zeros(C)
bn_param = {'mode': 'train'}
out, _ = spatial_batchnorm_forward(x, gamma, beta, bn_param)
print('После пространственной блочной нормализации:')
print('  Форма: ', out.shape)
print('  Средние: ', out.mean(axis=(0, 2, 3)))
print('  Стандартное отклонение: ', out.std(axis=(0, 2, 3)))

# Средние должны быть близки к beta, а дисперсии - близко к gamma
gamma, beta = np.asarray([3, 4, 5]), np.asarray([6, 7, 8])
out, _ = spatial_batchnorm_forward(x, gamma, beta, bn_param)
print('После пространственной блочной нормализации (не тривиальные gamma, beta):')
print('  Форма: ', out.shape)
print('  Средние: ', out.mean(axis=(0, 2, 3)))
print('  Стандартное отклонение: ', out.std(axis=(0, 2, 3)))

In [None]:
np.random.seed(231)
# Проверьте прямой путь в режиме тестирования, выполняя прямой путь
# режима обучения много раз, чтобы сгладить скользящие средние, а затем
# проверьте средние и дисперсии активаций после выполнения прямого распространения 
# в тестовом режиме.
N, C, H, W = 10, 4, 11, 12

bn_param = {'mode': 'train'}
gamma = np.ones(C)
beta = np.zeros(C)
for t in range(50):
  x = 2.3 * np.random.randn(N, C, H, W) + 13
  spatial_batchnorm_forward(x, gamma, beta, bn_param)
bn_param['mode'] = 'test'
x = 2.3 * np.random.randn(N, C, H, W) + 13
a_norm, _ = spatial_batchnorm_forward(x, gamma, beta, bn_param)


# Средние должны быть близки к нулю, а дисперсии близки к 1
print('После пространственной блочной нормализацией  (режим test):')
print('  Средние: ', a_norm.mean(axis=(0, 2, 3)))
print('  Стандартное отклонение: ', a_norm.std(axis=(0, 2, 3)))

## Пространственная блочная нормализация: обратное распространение
В файле `dlcv / layers.py`, реализуйте обратное распространение для пространственной блочной нормализациив в функции` space_batchnorm_backward`. Чтобы проверить реализацию, выполните следующее:

In [None]:
np.random.seed(231)
N, C, H, W = 2, 3, 4, 5
x = 5 * np.random.randn(N, C, H, W) + 12
gamma = np.random.randn(C)
beta = np.random.randn(C)
dout = np.random.randn(N, C, H, W)

bn_param = {'mode': 'train'}
fx = lambda x: spatial_batchnorm_forward(x, gamma, beta, bn_param)[0]
fg = lambda a: spatial_batchnorm_forward(x, gamma, beta, bn_param)[0]
fb = lambda b: spatial_batchnorm_forward(x, gamma, beta, bn_param)[0]

dx_num = eval_numerical_gradient_array(fx, x, dout)
da_num = eval_numerical_gradient_array(fg, gamma, dout)
db_num = eval_numerical_gradient_array(fb, beta, dout)

# Ошибки должны быть  между 1e-12 ~ 1e-06
_, cache = spatial_batchnorm_forward(x, gamma, beta, bn_param)
dx, dgamma, dbeta = spatial_batchnorm_backward(dout, cache)
print('Относительная ошибка dx: ', rel_error(dx_num, dx))
print('Относительная ошибка dgamma: ', rel_error(da_num, dgamma))
print('Оносительная ошибка dbeta: ', rel_error(db_num, dbeta))

## Конец блокнота

Задания в нижеследующей части блокнота выполняются факультативно!


# Нормализация группы
Ранее мы упоминали, что нормализация на слое — это альтернативный метод нормализации, который смягчает ограничения размера пакета блочной нормализации. Однако, как заметили авторы [2], нормализация на слое не работает так же хорошо, как блочная нормализация при использовании со сверточными слоями:

>В полносвязанных слоях все скрытые элементы слоя имеют тенденцию вносить одинаковый вклад в окончательный результат предсказания, а рецентрирование и ремасштабирование суммируемых входных данных в слое работает хорошо. Однако предположение о подобных вкладах не справедливо для сверточных нейронных сетей. Большое количество скрытых нейронов, чьи рецептивные поля расположены вблизи границы изображения, редко срабатывают и, таким образом, имеют сильно отличающуюся статистику от остальных скрытых нейронов в том же слое.

Авторы [3] предлагают промежуточный подход. В отличие от нормализации на слое, где  нормализуются все признаки для каждого примера данных, они предлагают последовательное разделение каждого признака для каждого примера данных на G групп и нормализацию в каждой группе для каждого примера данных.

![Сравнение методов нормализации, обсуждавшихся до сих пор](norm.png)
<center>Визуальное сравнение методов нормализации, обсуждавшихся до сих пор (изображение отредактировано из [3])</center>

Несмотря на то, что внутри каждой группы все еще делается предположение о равном вкладе, авторы предполагают, что это не так проблематично, поскольку внутри признаков возникает врожденная группировка для визуального распознавания. Одним из примеров, которые они используют, чтобы проиллюстрировать это, является то, что многие высокоэффективные признаки, созданные вручную в традиционном компьютерном зрении, имеют элементы, которые явно сгруппированы вместе. Возьмем, к примеру, гистограмму ориентированных градиентов [4] — после вычисления гистограмм для каждого пространственно локального блока каждая гистограмма для каждого блока нормализуется перед объединением вместе для формирования окончательного вектора признаков.

Ниже в ячейках блокнота вам необходимо реализовать нормализацию группы. 

[2] [Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. "Layer Normalization." stat 1050 (2016): 21.](https://arxiv.org/pdf/1607.06450.pdf)


[3] [Wu, Yuxin, and Kaiming He. "Group Normalization." arXiv preprint arXiv:1803.08494 (2018).](https://arxiv.org/abs/1803.08494)


[4] [N. Dalal and B. Triggs. Histograms of oriented gradients for
human detection. In Computer Vision and Pattern Recognition
(CVPR), 2005.](https://ieeexplore.ieee.org/abstract/document/1467360/)

## Нормализация группы: прямое распространение

В файле  `dlcv/layers.py`, реализуйте прямое распространение для нормализации группы в функции `spatial_groupnorm_forward`. Проверьте вашу реализацию, выполнив следующее:

In [None]:
np.random.seed(231)

# Проверяем прямое распространение в режиме обучения, оценив средние значения и отклонения
# признаков как до, так и после пространственной групповой нормализации

N, C, H, W = 2, 6, 4, 5
G = 2
x = 4 * np.random.randn(N, C, H, W) + 10
x_g = x.reshape((N*G,-1))
print('Перед пространственной нормализацией группы:')
print('  Форма: ', x.shape)
print('  Средние: ', x_g.mean(axis=1))
print('  Стандартные отклонения: ', x_g.std(axis=1))

# Средние должны быть близки к нулю, а стандартные отклонения к единице
gamma, beta = np.ones((1,C,1,1)), np.zeros((1,C,1,1))
bn_param = {'mode': 'train'}

out, _ = spatial_groupnorm_forward(x, gamma, beta, G, bn_param)
out_g = out.reshape((N*G,-1))
print('После пространственной нормализацией группы:')
print('  Форма: ', out.shape)
print('  Средние: ', out_g.mean(axis=1))
print('  Стандартные отклонения: ', out_g.std(axis=1))


## Пространственная нормализация группы: обратное распространение
В файле `dlcv/layers.py`, реализуйте обратное распространение для пространственной нормализации группы в функции  `spatial_groupnorm_backward`. Выполните следующее, чтобы проверить свою реализацию путем проверки градиентов:

In [None]:
np.random.seed(231)
N, C, H, W = 2, 6, 4, 5
G = 2
x = 5 * np.random.randn(N, C, H, W) + 12
gamma = np.random.randn(1,C,1,1)
beta = np.random.randn(1,C,1,1)
dout = np.random.randn(N, C, H, W)

gn_param = {}
fx = lambda x: spatial_groupnorm_forward(x, gamma, beta, G, gn_param)[0]
fg = lambda a: spatial_groupnorm_forward(x, gamma, beta, G, gn_param)[0]
fb = lambda b: spatial_groupnorm_forward(x, gamma, beta, G, gn_param)[0]

dx_num = eval_numerical_gradient_array(fx, x, dout)
da_num = eval_numerical_gradient_array(fg, gamma, dout)
db_num = eval_numerical_gradient_array(fb, beta, dout)

_, cache = spatial_groupnorm_forward(x, gamma, beta, G, gn_param)
dx, dgamma, dbeta = spatial_groupnorm_backward(dout, cache)
# Ошибки долны быть в пределах 1e-12~1e-07
print('Относительная ошибка dx: ', rel_error(dx_num, dx))
print('Относительная ошибка dgamma: ', rel_error(da_num, dgamma))
print('Относительная ошибка dbeta: ', rel_error(db_num, dbeta))