# Глубокое обучение на TensorFlow?

Вы написали много кода во второй части задания, чтобы реализовать весь набор функций нейронных сетей. Dropout, блочная нормализация и двумерные свертки являются рабочими лошадками глубокого обучения в компьютерном зрении. Вы также приложили много усилий, чтобы сделать ваш код эффективным и векторизованным.

Однако в последней части этого задания мы не станем использовать ваш код, а перейдем к одной из двух популярных платформ глубокого обучения - TensorFlow

## Что такое TensorFlow?
TensorFlow - это система для вычислений над тензорными объектами с использованием вычислительных графов и поддержкой выполнения обратного распространения. Тензоры представляют собой n-мерные массивы, аналогичные numpy ndarray.

## Зачем изучать TensorFlow?
Наш код теперь сможет исполняться на графических процессорах! В этом случае обучение будет проходить гораздо быстрее.
Мы хотим, чтобы Вы были готовы использовать один из развитых фреймворков для своих проектов, чтобы Вы могли проводить эксперименты эффективнее, чем если бы Вы писали каждую функцию вручную.
Мы хотим, чтобы Вы стояли на плечах гигантов! TensorFlow и PyTorch - отличные фреймворки, которые сделают вашу жизнь намного проще.
Мы хотим, чтобы Вы ознакомились с подходом к кодированию глубокого обучения, который применяется в академических кругах или в промышленности.

## Как изучать TensorFlow?

Есть много прекрасных руководств по изучению  TensorFlow, включая руководство Google (https://www.tensorflow.org/get_started/get_started).

Этот блокнот также послужит Вам руководством по обучению моделей в TensorFlow. Просмотрите имеющиеся в  этом блокноте некоторые ссылки на полезные руководства, если вы хотите узнать больше или если Вам требуются дополнительные разъяснения.

**ПРИМЕЧАНИЕ. Этот блокнот предназначен для изучения последней версии Tensorflow 2.0. Большинство примеров в Интернете по-прежнему относятся к версии 1.x, поэтому будьте осторожны, чтобы не перепутать их при поиске документации**.

## Установка Tensorflow 2.0
Tensorflow 2.0  проще в использовании и более интуитивен, чем TF 1.x. Пожалуйста, убедитесь, что он установлен, прежде чем переходить к этому блокноту! Вот несколько шагов для начала:

1. Установите последнюю версию Anaconda на вашем компьютере.
2. Создайте новую среду conda, начиная с Python 3.7. В этом примере настройки мы назовем его `tf_20_env`.
3. Запустите команду: `source activ tf_20_env`
4. Затем установите TF 2.0, как описано здесь: https://www.tensorflow.org/install/pip

Руководство по созданию среды Anaconda: https://uoa-eresearch.github.io/eresearch-cookbook/recipe/2014/11/20/conda/

Так Вы создадите новую среду для экспериментов с TF 2.0. Как правило, если Вы планируете также использовать TensorFlow в других своих проектах, вы можете  сохранить отдельную среду Conda или virtualenv в Python 3.7, содержащую с Tensorflow 1.х, так что  можно будет переключаться туда и обратно по своему усмотрению.

# Содержание

Этот блокнот состоит из 5 частей. Мы будем рассматривать  TensorFlow на трех разных уровнях абстракции , что должно способствовать лучшему пониманию.

1. Часть I, Подготовка: загрузка множества данных CIFAR-10.
2. Часть II, Базовый TensorFlow (**уровень 1**): непосредственно используются низкоуровневые возможности TensorFlow.
3. Часть III, API объекта tf.keras.Model (**уровень 2**): используется  `tf.keras.Model` для определения произвольной архитектуры нейронной сети.
4.  Часть IV, Последовательный и функциональные API Keras (**уровень 3**): используется объект `tf.keras.Sequential` для определения простой линейной структуры сети прямого распространения и функциональные вызовы слоев сети при построении более сложных взаимосвязей. 
5. Часть V, Открытая задача классификации изображений  CIFAR-10: выполняется построение сети, которая способна обеспечить  точность классификации более 70% для базы изображений CIFAR-10. Вы можете экспериментировать с любым слоем, оптимизатором, гиперпараметрами или другими дополнительными свойствами.

Сравнительная таблица свойств программных интерфейсов (API):

| API           | Гибкость    | Простота    |
|---------------|-------------|-------------|
| Базовый       | Высокая     | Низкая      |
| `tf.keras.Model`     | Высокая| Средняя   |
| `tf.keras.Sequential`| Низкая | Высокая   |


# Часть I: Подготовительная

Сначала загрузим набор данных CIFAR-10. Это может занять несколько минут для загрузки при первом запуске, но после этого файлы должны быть кэшированы на диске, а загрузка должна быть быстрее.

В предыдущих частях задания мы использовали специфический код для загрузки и чтения набора данных CIFAR-10; однако пакет `tf.keras.datasets` в TensorFlow предоставляет предустановленные утилиты для загрузки многих распространенных наборов данных.

Для целей задания мы по-прежнему будем писать собственный код для предварительной обработки данных и итерации на данных по мини-блокам. Модуль `tf.data` в TensorFlow предоставляет необходимые инструменты для автоматизации этого процесса, однако работа с этим модулем  выходит за рамки заданий, рассматриваемых в этом блокноте. Тем не менее, использование `tf.data` может быть намного эффективнее, чем простой подход, рассматриваемый ниже. Поэтому самостоятельно познакомьтесь с модулем  `tf.data` и используйте его в своих проектах.

In [1]:
import os
import tensorflow as tf
import numpy as np
import math
import timeit
import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
def load_cifar10(num_training=49000, num_validation=1000, num_test=10000):
    """
    Извлекает набор данных CIFAR-10 из Интернета и выполняет предварительную
    обработку данных. 
    Это те же шаги, что мы использовали для SVM и которые собраны в одной функции.
      
    """
    # Load the raw CIFAR-10 dataset and use appropriate data types and shapes
    cifar10 = tf.keras.datasets.cifar10.load_data()
    (X_train, y_train), (X_test, y_test) = cifar10
    X_train = np.asarray(X_train, dtype=np.float32)
    y_train = np.asarray(y_train, dtype=np.int32).flatten()
    X_test = np.asarray(X_test, dtype=np.float32)
    y_test = np.asarray(y_test, dtype=np.int32).flatten()

    # Subsample the data
    mask = range(num_training, num_training + num_validation)
    X_val = X_train[mask]
    y_val = y_train[mask]
    mask = range(num_training)
    X_train = X_train[mask]
    y_train = y_train[mask]
    mask = range(num_test)
    X_test = X_test[mask]
    y_test = y_test[mask]

    # Normalize the data: subtract the mean pixel and divide by std
    mean_pixel = X_train.mean(axis=(0, 1, 2), keepdims=True)
    std_pixel = X_train.std(axis=(0, 1, 2), keepdims=True)
    X_train = (X_train - mean_pixel) / std_pixel
    X_val = (X_val - mean_pixel) / std_pixel
    X_test = (X_test - mean_pixel) / std_pixel

    return X_train, y_train, X_val, y_val, X_test, y_test


# Если при SSL загрузке  возникают ошибки, связанные с самозаверяющими сертификатами,
# возможно, ваша версия Python была недавно установлена на данном компьютере.
# См .: https://github.com/tensorflow/tensorflow/issues/10779
# Чтобы исправить, запустите команду: /Applications/Python\ 3.7 /Install\ Certificates.command
# ... заменив пути при необходимости.

# Invoke the above function to get our data.
NHW = (0, 1, 2)
X_train, y_train, X_val, y_val, X_test, y_test = load_cifar10()
print('Train data shape: ', X_train.shape)
print('Train labels shape: ', y_train.shape, y_train.dtype)
print('Validation data shape: ', X_val.shape)
print('Validation labels shape: ', y_val.shape)
print('Test data shape: ', X_test.shape)
print('Test labels shape: ', y_test.shape)

Train data shape:  (49000, 32, 32, 3)
Train labels shape:  (49000,) int32
Validation data shape:  (1000, 32, 32, 3)
Validation labels shape:  (1000,)
Test data shape:  (10000, 32, 32, 3)
Test labels shape:  (10000,)


### Подготовка: объект Dataset

Для нашего удобства мы определим упрощенный класс `Dataset`, который позволит нам перебирать данные и метки. Это не самый гибкий или эффективный способ перебора данных, но он будет служить нашим целям.

In [3]:
class Dataset(object):
    def __init__(self, X, y, batch_size, shuffle=False):
        """
        Создание объекта Dataset для итераций по набору данных X и  меткам y
        
         Входы:
         - X: numpy массив данных любой формы
         - y: numpy массив меток любой формы, но с y.shape [0] == X.shape [0]
         - batch_size: целое число, указывающее количество элементов миниблока
         - shuffle: (необязательный) Логическое значение, следует ли перетасовывать данные
        на каждой эпохе
        """
                
        assert X.shape[0] == y.shape[0], 'Got different numbers of data and labels'
        self.X, self.y = X, y
        self.batch_size, self.shuffle = batch_size, shuffle

    def __iter__(self):
        N, B = self.X.shape[0], self.batch_size
        idxs = np.arange(N)
        if self.shuffle:
            np.random.shuffle(idxs)
        return iter((self.X[i:i+B], self.y[i:i+B]) for i in range(0, N, B))


train_dset = Dataset(X_train, y_train, batch_size=64, shuffle=True)
val_dset = Dataset(X_val, y_val, batch_size=64, shuffle=False)
test_dset = Dataset(X_test, y_test, batch_size=64)

In [4]:
# Мы можем выполнять итерации так:
for t, (x, y) in enumerate(train_dset):
    print(t, x.shape, y.shape)
    if t > 5: break

0 (64, 32, 32, 3) (64,)
1 (64, 32, 32, 3) (64,)
2 (64, 32, 32, 3) (64,)
3 (64, 32, 32, 3) (64,)
4 (64, 32, 32, 3) (64,)
5 (64, 32, 32, 3) (64,)
6 (64, 32, 32, 3) (64,)


Вы можете опционально использовать GPU, установив флаг **USE_GPU в True** ниже. Для этого задания не обязательно использовать GPU

In [6]:
# Задание некоторых глобальных переменных
USE_GPU = False

if USE_GPU:
    device = '/device:GPU:0'
else:
    device = '/cpu:0'

# Константа, управляющая частотой печати при обучении моделей
print_every = 100

print('Using device: ', device)

Using device:  /cpu:0


# Часть II: Базовый интерфейс TensorFlow

TensorFlow поставляется с различными высокоуровневыми API, что делает его очень удобным для определения и обучения нейронных сетей; мы рассмотрим некоторые из этих конструкций в части III и части IV этого блокнота. В этом разделе мы начнем с построения модели с базовыми конструкциями TensorFlow, чтобы далее помочь вам лучше разобраться с тем, что происходит под капотом высокоуровневых API.

**«Базовый Tensorflow» важен для понимания строительных блоков TensorFlow. Значительная его часть включает в себя концепции из TensorFlow 1.x.** Поэтому мы будем использовать старые модули, например `tf.Variable`.

Прочитайте ниже и поймите различия между устаревшим TF 1.x и новым TF 2.0.

### Основная философия  TensorFlow 1.x
TensorFlow 1.x, в первую очередь, - это фреймворк для  работы со **статическими вычислительными графами**. Ребрами  вычислительного графа являются тензоры, которые хранят n-мерные массивы; узлы  графа представляют собой функции, которые применяются к тензорам, когда выполняются вычисления в соответствии с вычислительным графом.

Это означает, что типичная программа с использованием TensorFlow 1.x выполняется в два этапа:

1. Создание вычислительного графа, который описывает вычисления, подлежащие выполнению. Этот этап фактически не выполняет никаких вычислений; он просто создает символическое представление ваших вычислений. Этот этап обычно определяет один или несколько объектов типа `placeholder`, которые представляют входные данные вычислительного графа.
2. Многократное исполнение вычислительного графа. Каждый раз, когда граф исполняется, вы указываете, какие части графа вы хотите вычислить, и передаёте словарь `feed_dict`, который поставляет конкретные значения любому объекту ` placeholder `на вход графа.

### Новая парадигма в Tensorflow 2.0
В Tensorflow 2.0, мы можем  использовать Python-подобные функциональные формы, которые более похожи по духу на PyTorch и  операции  Numpy библиотеки. Вместо двухэтапной парадигмы работы со статическим графом вычислений, Tensorflow 2.0 использует динамический граф, что облегчает (помимо прочего) отладку кода TF 2.0.
Более подробно об этом можно почитатать здесь https://www.tensorflow.org/guide/eager.

В TF 2.0 не используются модули TF 1.x, такие как : `tf.Session`,` tf.run`, `placeholder`,` feed_dict`. Чтобы получить детальную информацию о различиях между двумя версиями и о том, как выполнять преобразование между ними, ознакомьтесь с официальным руководством по миграции: https://www.tensorflow.org/alpha/guide/migration_guide.

Ниже, в соответствующих частях этого блокнота, мы будем рассмотривать этот новый, более простой подход.

### Разминка с TensorFlow: функция flatten

Определим простую функцию «уплощения данных» `flatten`, которая реформатирует данные изображений для использования в полносвязанной нейронной сети.

В TensorFlow данные для сверточных карт признаков  обычно хранятся в тензоре формы N x H x W x C, где:

- N - количество точек данных (размер мини-блока);
- H - высота карты; 
- W - ширина карты; 
- C - количество каналов карты.

Это правильный способ представления данных для двумерной свертки, которая учитывает пространственные отношения между признаками изображений. Однако, когда мы используем полносвязанные слои нейронов для обработки изображений, то требуется, чтобы каждое  изображение представлялось вектором. Поэтому необходимо реформатировать изображение размером «H x W x C» в один длинный вектор. Функция реформатирования (flatten)  сначала определяет значение N заданного блока данных, а затем возвращает реформатированное представление этих данных. Это представление формируется аналогично методу «reshape» numpy:   размер x заменяется на  N x ??, где ?? некоторое значение (в рассматриваемом случае это H x W x C, но нам не требуется указывать его явно).

Обратите внимание,  что вызов `tf.reshape` в ячейке ниже имеет целевую форму `(N, -1)`, что означает, что он оставит первое измерение равным N, а затем  автоматически определит , каким должно быть  второе измерение выходных данных.  


**ПРИМЕЧАНИЕ**: TensorFlow и PyTorch различаются своими представлениями тензоров по умолчанию; TensorFlow использует представление N x H x W x C, а PyTorch использует N x C x H x W.


In [7]:
def flatten(x):
    """    
    Входные данные:
     - Тензор формы (N, D1, ..., DM)
    
     Выход:
     Тензор формы (N, D1 * ... * DM)
    """
    
    N = tf.shape(x)[0]
    return tf.reshape(x, (N, -1))

In [8]:
def test_flatten():
    # Задание конкретных значений х с использованием numpy
    x_np = np.arange(24).reshape((2, 3, 4))
    print('x_np:\n', x_np, '\n')
    # вычисление выходного значения
    x_flat_np = flatten(x_np)
    print('x_flat_np:\n', x_flat_np, '\n')

test_flatten()

x_np:
 [[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]] 

x_flat_np:
 tf.Tensor(
[[ 0  1  2  3  4  5  6  7  8  9 10 11]
 [12 13 14 15 16 17 18 19 20 21 22 23]], shape=(2, 12), dtype=int32) 



### Базовый  TensorFlow: Двухслойная сеть
Теперь мы реализуем нашу первую нейронную сеть на TensorFlow: двухслойную сеть с двумя полносвязными скрытыми слоями без смещений и с ReLU нелинейностью. Пока будем использовать только низкоуровневые операторы TensorFlow для определения сети; позже мы увидим, как использовать абстракции более высокого уровня, предоставляемые `tf.keras`, чтобы упростить процесс.

Определим функцию прямого распространения  `two_layer_fc`; она будет принимать тензоры входов и весов сети и возвращать тензор оценки предсказания класса. 

После определения  функции `two_layer_fc` мы проверим её реализацию, исполнив вычислительный граф, подав нули на входы сети и проверив форматы вывода.

Важно, чтобы вы прочитали и поняли эту реализацию.

In [9]:
def two_layer_fc(x, params):
    """
    Полносвязная нейронная сеть; архитектура:
    полносвязный слой -> ReLU ->  полносвязный слой .
    Обратите внимание, что нам сейчас нужно только определить прямое распространение; 
    TensorFlow позаботится сам о вычислении градиентов для нас.
    
    Вход сети - мини-блок данных размерности (формы):
    (N, d1, ..., dM), где d1 * ... * dM = D. 
    Скрытый слой содержит H нейронов.
    Выходной слой вычисляет оценки рейтигов для C классов.

    Входы:
     - x: тензор формы (N, d1, ..., dM), представляющий мини-блок
       входных данных.
     - params: список [w1, w2] тензоров, представляющих веса сети,
       где w1 имеет форму (D, H), а w2 имеет форму (H, C).
    
     Возвращает:
     - scores: тензор формы (N, C), представляющий оценки рейтингов 
       принадлежности классам входных данных x.  
    """
    
    w1, w2 = params                   # распаковка параметров
    x = flatten(x)                    # реформатируем x к форме (N, D)
    h = tf.nn.relu(tf.matmul(x, w1))  # Скрытый слой : форма h - (N, H)
    scores = tf.matmul(h, w2)         # Вычисление рейтингов, форма scores - (N, C)
    return scores

In [10]:
def two_layer_fc_test():
    hidden_layer_size = 42

    # Разместим  код вычислительного графа в контексте менежджера tf.device,
    # что позволит указывать TensorFlow, где должны размещаться тензоры в CPU или GPU
    with tf.device(device):        
        x = tf.zeros((64, 32, 32, 3))
        w1 = tf.zeros((32 * 32 * 3, hidden_layer_size))
        w2 = tf.zeros((hidden_layer_size, 10))

        # Вызов функции two_layer_fc для прямого распространения значений
        scores = two_layer_fc(x, [w1, w2])

    print(scores.shape) #Вывод размерности score

two_layer_fc_test()

(64, 10)


### Базовый TensorFlow: Трехслойная  ConvNet

Реализуйте функцию `three_layer_convnet`, которая будет выполнять прямое распространение для трехслойной сверточной сети. Сеть  должна иметь следующую архитектуру:

1. Сверточный слой (со смещением) с числом фильтров `channel_1`, каждый размером ` KW1 x KH1` и дополнением двумя нулями, P=2
2. Нелинейность ReLU
3. Сверточный слой (со смещением) с числом фильтров `channel_2`, каждый размером ` KW2 x KH2` и  дополнением одним нулем, P=1
4. Нелинейность ReLU
5. Полносвязанный слой со смещением, вычисляющий оценки рейтингов для `C` классов .


**СОВЕТ**: Для сверток: https://www.tensorflow.org/api_docs/python/tf/nn/conv2d; будьте внимательны с добавлением нулей!

**СОВЕТ**: Для смещений: https://www.tensorflow.org/performance/xla/broadcasting

In [11]:
def three_layer_convnet(x, params):
   
    """
    Трехслойная сверточная сеть с описанной выше архитектурой.
    
    Входы:
    - x: тензор формы (N, H, W, 3), представляющий мини-блок изображений
    - params: список тензоров, представляющих веса и смещения 
      сети; должен содержать следующее:
      - conv_w1: тензор формы (KH1, KW1, 3, channel_1) -
        веса первого сверточного слоя.
      - conv_b1: тензор формы (channel_1,) - смещения
        первого сверточного слоя.
      - conv_w2: тензор формы (KH2, KW2, channel_1, channel_2) -
        веса второго сверточного слоя
      - conv_b2: тензор  формы (channel_2,) - смещения
        второго сверточного слоя.
      - fc_w: тензор представляющий весовые коэффициенты полносвязанного слоя.
        Укажите сами, какая должна быть форма?
      - fc_b: тензор смещений полносвязанного слоя.
        Укажите сами, какая должна быть форма?    
    """

    conv_w1, conv_b1, conv_w2, conv_b2, fc_w, fc_b = params
    scores = None
    ############################################################################
    # ЗАДАНИЕ: Реализуйте прямое распространение для 3-х слойной ConvNet.      #
    ############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    conv_l1 = tf.nn.conv2d(input=x, filters=conv_w1, strides=[1, 1, 1, 1], padding=[[0, 0], [2, 2], [2, 2], [0, 0]])
    conv_l1 += conv_b1
    relu_l1 = tf.nn.relu(conv_l1)
    
    conv_l2 = tf.nn.conv2d(relu_l1, conv_w2, [1, 1, 1, 1], [[0, 0], [1, 1], [1, 1], [0, 0]])
    conv_l2 += conv_b2

    relu_l2 = tf.nn.relu(conv_l2)
    
    relu_l2 = flatten(relu_l2)
    scores = tf.matmul(relu_l2, fc_w) + fc_b
    # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ############################################################################
    #                              КОНЕЦ ВАШЕГО КОДА                           #
    ############################################################################
    return scores

После определения  трехслойной ConvNet выше, запустите следующую ячейку, чтобы проверить вашу реализацию. Подобно двухслойной сети выполним граф на блоке из нулей только для того, чтобы убедиться, что функция не дает сбоя, и создает выходы правильной формы (размерности).

Когда вы запустите эту функцию, `scores_np` должен будет иметь форму` (64, 10) `.

In [12]:
def three_layer_convnet_test():
    
    with tf.device(device):
        x = tf.zeros((64, 32, 32, 3))
        conv_w1 = tf.zeros((5, 5, 3, 6))
        conv_b1 = tf.zeros((6,))
        conv_w2 = tf.zeros((3, 3, 6, 9))
        conv_b2 = tf.zeros((9,))
        fc_w = tf.zeros((32 * 32 * 9, 10))
        fc_b = tf.zeros((10,))
        params = [conv_w1, conv_b1, conv_w2, conv_b2, fc_w, fc_b]
        scores = three_layer_convnet(x, params)

    # Входы  сверточных слоев представляют собой 4-мерные массивы с формой
    # [размер_блока, высота, ширина, каналы]
    print('scores_np has shape: ', scores.shape)

three_layer_convnet_test()

scores_np has shape:  (64, 10)


### Базовый TensorFlow: шаг обучения

Теперь мы определим функцию `training_step`, которая выполняет один шаг обучения. Для этого необходимо выполнить три основных действия:

1. Вычислить функцию потерь
2. Вычислить градиент функции потерь по отношению ко всем весам сети.
3. Выполнить шаг обновления весов, используя стохастический градиентный спуск.


Чтобы сделать все это, нам нужно использовать несколько новых функций TensorFlow:
- Для вычисления кросс-энтропийной функции потерь будем использовать `tf.nn.sparse_softmax_cross_entropy_with_logits`: https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/nn/sparse_softmax_cross_entropy_with_logits

- Для усреднения потерь по мини-блоку данных будем использовать `tf.reduce_mean`:
https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/reduce_mean

- Для вычисления градиентов функции потерь по отношению к весам будем использовать `tf.GradientTape` (обеспечивает режим  Eager исполнения): https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/GradientTape

- Будем изменять значения весов, хранящихся в виде тензоров TensorFlow, используя `tf.assign_sub` («sub» - вычитание): https://www.tensorflow.org/api_docs/python/tf/assign_sub

In [13]:
def training_step(model_fn, x, y, params, learning_rate):
    with tf.GradientTape() as tape:
        scores = model_fn(x, params) # Прямое распространение
        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=scores)
        total_loss = tf.reduce_mean(loss) # Вычисление потерь
        grad_params = tape.gradient(total_loss, params) # Вычисление градиентов 

        # Выполнение шага обычного градиентного спуска по всем параметрам модели
        # Ручное обновление весов с помощью assign_sub()
        for w, grad_w in zip(params, grad_params):
            w.assign_sub(learning_rate * grad_w)
                        
        return total_loss

In [14]:
def train_part2(model_fn, init_fn, learning_rate):
    """
    Обучение модели на множестве CIFAR-10.
        
    Входы:
     - model_fn: функция Python, которая выполняет прямое распространение,
       используя TensorFlow; она должна иметь следующую сигнатуру:
       scores = model_fn (x, params), где x - тензор, представляющий
       мини-блок данных с изображениями, params - список тензоров, хранящих
       веса модели, scores - тензор  формы (N, C), содержащий
       рейтинги  всех элементов x.
     - init_fn: функция Python, которая инициализирует параметры модели.
       Она должна иметь сигнатуру params = init_fn(), где params - это список
       тензоров, хранящих (случайно инициализированные) веса
       модели.
     - learning_rate: вещественное значение Python, представлящее скорость обучения  SGD.
      
    """
    
    params = init_fn()  # Инициализация параметров модели            
        
    for t, (x_np, y_np) in enumerate(train_dset):
        # Выполнение графа на блоке обучающих данных
        loss = training_step(model_fn, x_np, y_np, params, learning_rate)
        
        # Периодически выводим потери и проверяем точность на валидационном множестве
        if t % print_every == 0:
            print('Iteration %d, loss = %.4f' % (t, loss))
            check_accuracy(val_dset, x_np, model_fn, params)

In [15]:
def check_accuracy(dset, x, model_fn, params):
    """
    Проверяет точность классификации.
    
     Входы:
     - dset: объект Dataset, используемый для проверки точности
     - x: тензор, представляющий входные изображения
     - model_fn: модель, которую мы будем вызывать для предказания по x
     - params: параметры модели  model_fn
      
     Возвращает: ничего не возвращает, но выводит точность модели
    """
    num_correct, num_samples = 0, 0
    for x_batch, y_batch in dset:
        scores_np = model_fn(x_batch, params).numpy()
        y_pred = scores_np.argmax(axis=1)
        num_samples += x_batch.shape[0]
        num_correct += (y_pred == y_batch).sum()
    acc = float(num_correct) / num_samples
    print('Got %d / %d correct (%.2f%%)' % (num_correct, num_samples, 100 * acc))

### Базовый TensorFlow: инициализация
Мы будем использовать следующую утилиту для инициализации матриц весов моделей, использующую метод
нормировки Кайминга.

[1] He et al, *Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
*, ICCV 2015, https://arxiv.org/abs/1502.01852

In [16]:
def create_matrix_with_kaiming_normal(shape):
    if len(shape) == 2:
        fan_in, fan_out = shape[0], shape[1]
    elif len(shape) == 4:
        fan_in, fan_out = np.prod(shape[:3]), shape[3]
    return tf.keras.backend.random_normal(shape) * np.sqrt(2.0 / fan_in)

### Базовый  TensorFlow: обучение 2-х слойной нейросети
Наконец, мы готовы использовать все части, определенные выше, для обучения двухслойной полносвязной сети на множестве данных CIFAR-10.

Нам просто нужно определить функцию для инициализации весов модели и вызвать `train_part2`.

Определение весов сети представляет собой еще один важный компонент TensorFlow API: `tf.Variable`. TensorFlow Variable - это тензор-переменная, значение которой хранится в графе и сохраняется на разных  циклах исполнения вычислительного графа; однако в отличие от констант, определенных с помощью `tf.zeros` или` tf.random_normal`, значения переменной могут быть изменены при выполнении графа; эти изменения будут сохраняться в графе. Обучаемые параметры сети обычно хранятся в переменных.

Вам не нужно настраивать гиперпараметры, но вы должны достичь точности выше 40% после одной эпохи обучения.

In [16]:
def two_layer_fc_init():
    """
    Инициализирует веса двухслойной сети для использования с
    two_layer_network, определенной выше.
    
     Входы: отсутствуют
    
     Возвращает: список:
     - w1: TensorFlow tf.Variable, представляющая веса первого слоя
     - w2: TensorFlow tf.Variable, представляющая веса второго слоя
    """
    hidden_layer_size = 4000
    w1 = tf.Variable(create_matrix_with_kaiming_normal((3 * 32 * 32, 4000)))
    w2 = tf.Variable(create_matrix_with_kaiming_normal((4000, 10)))
    return [w1, w2]

# Обучение двухслойной сети
learning_rate = 1e-2
train_part2(two_layer_fc, two_layer_fc_init, learning_rate)

Iteration 0, loss = 2.9075
Got 112 / 1000 correct (11.20%)
Iteration 100, loss = 1.9064
Got 389 / 1000 correct (38.90%)
Iteration 200, loss = 1.4295
Got 396 / 1000 correct (39.60%)
Iteration 300, loss = 1.7866
Got 393 / 1000 correct (39.30%)
Iteration 400, loss = 1.8234
Got 410 / 1000 correct (41.00%)
Iteration 500, loss = 1.7567
Got 435 / 1000 correct (43.50%)
Iteration 600, loss = 1.8743
Got 416 / 1000 correct (41.60%)
Iteration 700, loss = 1.9870
Got 439 / 1000 correct (43.90%)


### Базовый  TensorFlow: Обучение 3-х слойной  ConvNet

Теперь мы будем использовать TensorFlow для обучения трехслойной ConvNet на CIFAR-10.

Вам нужно реализовать функцию `three_layer_convnet_init`. Напомним архитектуру сети:

1. Сверточный слой (со смещением) с 32 фильтрами 5 × 5 с дополнением нулями Р=2
2. ReLU
3. Сверточный слой (со смещением) с 16 фильтрами 3x3 с дополнением нулями Р=1
4. ReLU
5. Полносвязный слой (со смещением) для вычисления оценок scores 10 классов

Вам не нужно делать какие-либо настройки гиперпараметров, но вы должны получить точность выше 43% после одной эпохи обучения.

In [17]:
def three_layer_convnet_init():
    """
    Инициализирует веса трехслойной ConvNet, для использования с
    three_layer_convnet, определенной выше.
    Вы можете использовать `create_matrix_with_kaiming_normal`!
    
     Входы: Отсутствуют
    
     Возвращает список, содержащий:
     - conv_w1: TensorFlow переменная tf.Variable, содержащая веса для первого слоя conv
     - conv_b1: TensorFlow переменная tf.Variable, содержащая смещения для первого слоя conv
     - conv_w2: TensorFlow переменная tf.Variable, содержащая веса для второго слоя conv
     - conv_b2: TensorFlow переменная tf.Variable, содержащая смещения для второго слоя conv
     - fc_w: TensorFlow переменная tf.Variable, содержащая веса  для полносвязанного слоя
     - fc_b: TensorFlow переменная tf.Variable, содержащая смещения для полносвязанного слоя
    """
    
    params = None
    ############################################################################
    # ЗАДАНИЕ: Инициализаровать параметры 3-х слойной сети                     #
    ############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****

    conv_w1 = tf.Variable(create_matrix_with_kaiming_normal((5, 5, 3, 32)))
    conv_b1 = tf.Variable(tf.zeros((32,)))
    
    conv_w2 = tf.Variable(create_matrix_with_kaiming_normal((3, 3, 32, 16)))
    conv_b2 = tf.Variable(tf.zeros((16,)))
    
    fc_w = tf.Variable(create_matrix_with_kaiming_normal((32 * 32 * 16, 10)))
    fc_b = tf.Variable(tf.zeros((10,)))
    
    params = [conv_w1, conv_b1, conv_w2, conv_b2, fc_w, fc_b]
    # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ############################################################################
    #                              КОНЕЦ ВАШЕГО КОДА                           #
    ############################################################################
    return params

# Обучение трехслойной сверточной модели
learning_rate = 3e-3
train_part2(three_layer_convnet, three_layer_convnet_init, learning_rate)

Iteration 0, loss = 2.9125
Got 130 / 1000 correct (13.00%)
Iteration 100, loss = 1.8690
Got 364 / 1000 correct (36.40%)
Iteration 200, loss = 1.5395
Got 403 / 1000 correct (40.30%)
Iteration 300, loss = 1.7402
Got 382 / 1000 correct (38.20%)
Iteration 400, loss = 1.7306
Got 436 / 1000 correct (43.60%)
Iteration 500, loss = 1.7174
Got 448 / 1000 correct (44.80%)
Iteration 600, loss = 1.7280
Got 467 / 1000 correct (46.70%)
Iteration 700, loss = 1.5775
Got 473 / 1000 correct (47.30%)


# Часть III: Использование API объекта tf.keras.Model
Реализация нейронной сети с использованием базового API TensorFlow - это хороший способ понять, как работает TensorFlow, но несколько не удобно - нам пришлось вручную отслеживать все тензоры, представляющие обучаемые параметры. Это не сложно для небольшой сети, но усложняется при большой модели нейросети.

К счастью, TensorFlow 2.0 имеет API  высокого уровня, такой как `tf.keras`, который упрощает создание моделей из модульных объектно-ориентированных слоев. Кроме того, TensorFlow 2.0 использует eager выполнение, которое оценивает операции немедленно, без явного построения каких-либо вычислительных графов. Это облегчает написание и отладку моделей и сокращает стандартный код. 

В этой части блокнота мы определим модели нейронных сетей, используя API интерфейс высокого уровня `tf.keras.Model`. Чтобы реализовать свою собственную модель, вам необходимо сделать следующее:

1. Определите новый класс, который является подклассом `tf.keras.model`. Присвойте вашему классу соответствующее имя, которое указывает его назначение, например `TwoLayerFC` или `ThreeLayerConvNet`.
2. В инициализаторе `__init __ ()` нового класса определите все слои, которые вам нужны, в виде атрибутов класса. Модуль `tf.keras.layers` предоставляет множество обобщенных нейросетевых слоёв, таких как `tf.keras.layers.Dense` для полносвязанных слоев и  `tf.keras.layers.Conv2D` для сверточных слоев. Внутри эти слои будут создавать  `Variable` тензоры  для любых обучаемых параметров. **Предупреждение**: Не забудьте вызвать `super(YourModelName, self).__init__()`  в качестве первой строки вашего инициализатора!
3. Реализуйте метод `call ()` для вашего класса; он осуществляет прямое распространение для вашей модели и определяет *связи*  вашей сети. Слои, определенные в `__init __ ()`, применяются в  `__call __ ()`, поэтому они могут использоваться как функции объектов, которые преобразуют входные тензоры в выходные тензоры. Не определяйте новые слои в `call ()`; любые слои, которые вы хотите использовать при прямом распространении, должны быть определены в `__init __ ()`.

После того, как вы определили свой подкласс `tf.keras.Model`, вы можете создать его экземпляр и использовать его подобно модели из части II.

### Создание  модели 2-х слойной сети в виде подкласса tf.keras.Model

Ниже приведен конкретный пример использования API `tf.keras.Model` для определения двухслойной сети. 

Мы используем объект `Initializer` для задания начальных значений обучаемых параметров слоев; в частности, `tf.initializers.VarianceScaling` соответствует методу инициализации Kaiming, использованному в части II. Подробнее об этом можно узнать здесь: https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/initializers/VarianceScaling

Объект `tf.keras.layers.Dense`  используется для представления двух полносвязанных слоев модели. В дополнение к умножению входа на весовую матрицу и добавлению вектора смещения, этот слой также может обеспечить применение нелинейности. Для первого слоя ниже используется функция активации ReLU, для этого конструктору передается параметр `activation='relu'`; второй слой использует softmax функцию активации. В заключение мы определяем слой `tf.keras.layers.Flatten` для "уплощения" выхода предыдущего  слоя.

In [17]:
class TwoLayerFC(tf.keras.Model):
    def __init__(self, hidden_size, num_classes):
        super(TwoLayerFC, self).__init__()        
        initializer = tf.initializers.VarianceScaling(scale=2.0)
        self.fc1 = tf.keras.layers.Dense(hidden_size, activation='relu',
                                   kernel_initializer=initializer)
        self.fc2 = tf.keras.layers.Dense(num_classes, activation='softmax',
                                   kernel_initializer=initializer)
        self.flatten = tf.keras.layers.Flatten()
    
    def call(self, x, training=False):
        x = self.flatten(x)
        x = self.fc1(x)
        x = self.fc2(x)
        return x


def test_TwoLayerFC():
    """ Небольшой тест для модели TwoLayerFC"""
    input_size, hidden_size, num_classes = 50, 42, 10
    x = tf.zeros((64, input_size))
    model = TwoLayerFC(hidden_size, num_classes)
    with tf.device(device):
        scores = model(x)
        print(scores.shape)
        
test_TwoLayerFC()

(64, 10)


### Создание  модели 3-х слойной Conv сети в виде подкласса tf.keras.Model 
Теперь настало время Вам самим реализовать трехслойную ConvNet с использованием API `tf.keras.Model`. Модель должна иметь ту же архитектуру, что и ранее в части II:

1. Сверточный слой с 5 х 5 фильтрами и  с дополнением нулями Р=2
2. Нелинейность ReLU
3. Сверточный слой с 3 x 3 фильтрами и  с дополнением нулями Р=1
4. Нелинейность ReLU
5. Полносвязный слой, формирующий рейтинги  классов scores
6. Softmax нелинейность

Вы должны инициализировать веса сети, используя тот же метод инициализации, который использовался в двухслойной сети выше.

**Совет**: обратитесь к документации для `tf.keras.layers.Conv2D` и `tf.keras.layers.Dense`:
https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/layers/Conv2D

https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/layers/Dense

In [18]:
class ThreeLayerConvNet(tf.keras.Model):
    def __init__(self, channel_1, channel_2, num_classes):
        super(ThreeLayerConvNet, self).__init__()
        ########################################################################
        # ЗАДАНИЕ:                                                             #
        # Реализуйте метод __init__ для трехслойной ConvNet. Вы должны создать #    
        # экземпляры объектов слоя,используемые при прямом распространении     #
        ########################################################################
        # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        super(ThreeLayerConvNet, self).__init__()        
        initializer = tf.initializers.VarianceScaling(scale=2.0)
        
        self.conv1 = tf.keras.layers.Conv2D(channel_1, kernel_size=(5, 5), activation='relu',
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.conv2 = tf.keras.layers.Conv2D(channel_2, kernel_size=(3, 3), activation='relu',
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.fc = tf.keras.layers.Dense(num_classes, activation='softmax',
                                        kernel_initializer=initializer)
        
        self.flatten = tf.keras.layers.Flatten()
        # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        ########################################################################
        #                             КОНЕЦ ВАШЕГО КОДА                        #
        ########################################################################
        
    def call(self, x, training=False):
        scores = None
        ########################################################################
        # ЗАДАНИЕ: выполнить прямое распространение для 3-х слойной ConvNet.   #
        # Используйте объекты слоя, определенные в методе __init__.            #
        ########################################################################
        # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****

        conv1 = self.conv1(x)
        conv2 = self.conv2(conv1)
        
        conv2_fltn = self.flatten(conv2)
        scores = self.fc(conv2_fltn)
        
        # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        ########################################################################
        #                             КОНЕЦ ВАШЕГО КОДА                        #    
        ########################################################################        
        return scores

После завершения реализации `ThreeLayerConvNet`  выше вы можете запустить код ниже, чтобы убедиться, что ваша реализация не сбоит и возвращает выходы ожидаемой формы.

In [19]:
def test_ThreeLayerConvNet():    
    channel_1, channel_2, num_classes = 12, 8, 10
    model = ThreeLayerConvNet(channel_1, channel_2, num_classes)
    with tf.device(device):
        x = tf.zeros((64, 3, 32, 32))
        scores = model(x)
        print(scores.shape)

test_ThreeLayerConvNet()

(64, 10)


### Организация собственного цикла обучения для моделей в виде подкласса tf.keras.Model (использование tf. GradintTape) 

Keras имеет простой встроенный цикл обучения (реализуется посредством `model.fit`), но иногда вам требуется большая гибкость  настроек процесса обучения. Ниже приведен пример цикла обучения, реализованного с использованием безотлагательного (eager) исполнения.

Для  реализации такого цикла используется объект `tf.GradientTape`, который называется лентой (tape). В основе TensorFlow заложено автоматическое дифференцирование  для реализации обратного распространения. В ходе безотлагательного исполнения tf.GradientTape используется для трассировки операций, которые позже будут применены для вычисления градиентов. 

TensorFlow 2.0 поставляется с простыми в использовании встроенными метриками в модуле `tf.keras.metrics`. Каждая метрика является объектом, и мы можем использовать `update_state ()` для обновления состояний метрик и `reset_state ()` для очистки всех состояний. Мы можем получить текущее значение метрики, вызвав `result ()` для объекта-метрики.

In [20]:
def train_part34(model_init_fn, optimizer_init_fn, num_epochs=1, is_training=False):
    """
    Простой цикл обучения для использования с моделями, определенными с помощью tf.keras. 
    Он обучает модель на одной эпохе на мн-ве CIFAR-10 и периодически проверяет
    точность на валидационном мн-ве CIFAR-10.
    
     Входы:
     - model_init_fn: функция, которая не принимает никаких параметров; когда её вызывают
       создает модель, которую мы хотим обучить: model = model_init_fn ()
     - optimizer_init_fn: функция, которая не принимает никаких параметров; когда его вызывают
       создает объект Optimizer, который мы будем использовать для оптимизации модели:
       optimizer = optimizer_init_fn ()
     - num_epochs: количество эпох обучения
    
     Возвращает: ничего не возвращает, но выводит ход обучения
      
    """
    
    with tf.device(device):

        
        # Создаем экземпляр объекта для вычисления кросс-энтропийных потерь
        loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()
        # Cоздаем экземпляры объектов модели и оптимизатора
        model = model_init_fn()
        optimizer = optimizer_init_fn()
        # Создаем экземпляры метрик для этапов обучения и валидации
        train_loss = tf.keras.metrics.Mean(name='train_loss')
        train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='train_accuracy')
        val_loss = tf.keras.metrics.Mean(name='val_loss')
        val_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='val_accuracy')
        
        t = 0 # номер шага итерации    
        for epoch in range(num_epochs):
            
            # Сброс состояний метрик этапа обучения
            train_loss.reset_states()
            train_accuracy.reset_states()
            
            # Итерации по обучающему множеству
            for x_np, y_np in train_dset:
                with tf.GradientTape() as tape:
                    
                    # Используем model для вычислений прямого пути и потерь
                    scores = model(x_np, training=is_training)
                    loss = loss_fn(y_np, scores)
                    
                    # Вычисляем градиенты и обновляем обучаемые переменные
                    gradients = tape.gradient(loss, model.trainable_variables)
                    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
                    
                    # Обновляем метрики
                    train_loss.update_state(loss)
                    train_accuracy.update_state(y_np, scores)
                    
                    # Мониторинг процесса обучения через заданное число итераций
                    if t % print_every == 0:
                        val_loss.reset_states()
                        val_accuracy.reset_states()
                        
                        # Предсказание и оценка потерь на множестве валидации
                        for test_x, test_y in val_dset:
                            # В ходе валидации  устанавливаем training в False
                            prediction = model(test_x, training=False)
                            t_loss = loss_fn(test_y, prediction)
                            # Обновляем состояния метрик валидации
                            val_loss.update_state(t_loss)
                            val_accuracy.update_state(test_y, prediction)
                        
                        template = 'Iteration {}, Epoch {}, Loss: {}, Accuracy: {}, Val Loss: {}, Val Accuracy: {}'
                        print (template.format(t, epoch+1,
                                             train_loss.result(),
                                             train_accuracy.result()*100,
                                             val_loss.result(),
                                             val_accuracy.result()*100))
                    t += 1

### Обучение двухслойной модели, реализованной в виде подкласса  tf.keras.Model
Теперь мы можем использовать описанные выше инструменты для обучения двухслойной сети на множестве CIFAR-10. При вызове модели необходимо определить функции `model_init_fn` и` optimizer_init_fn`, которые задают используемую модель и оптимизатор, соответственно. Обучение модели будем выполнять с использованием стохастического градиентного спуска, поэтому в качестве оптимизатора используем функцию `tf.keras.optimizers.SGD`; Вы можете [прочитать об этом здесь] (https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/optimizers/SGD).

Здесь не требуется настраивать какие-либо гиперпараметры, но вы должны достичь точности валидации выше 40% после одной эпохи обучения. 

In [21]:
hidden_size, num_classes = 4000, 10
learning_rate = 1e-2

def model_init_fn():
    return TwoLayerFC(hidden_size, num_classes)

def optimizer_init_fn():
    return tf.keras.optimizers.SGD(learning_rate=learning_rate)

train_part34(model_init_fn, optimizer_init_fn)

Iteration 0, Epoch 1, Loss: 3.0984673500061035, Accuracy: 9.375, Val Loss: 2.8516249656677246, Val Accuracy: 13.600000381469727
Iteration 100, Epoch 1, Loss: 2.2504920959472656, Accuracy: 28.496286392211914, Val Loss: 1.9252341985702515, Val Accuracy: 37.29999923706055
Iteration 200, Epoch 1, Loss: 2.0742552280426025, Accuracy: 32.71144485473633, Val Loss: 1.870265007019043, Val Accuracy: 38.0
Iteration 300, Epoch 1, Loss: 1.999646782875061, Accuracy: 34.281558990478516, Val Loss: 1.9172619581222534, Val Accuracy: 35.900001525878906
Iteration 400, Epoch 1, Loss: 1.9312841892242432, Accuracy: 36.10504913330078, Val Loss: 1.768872857093811, Val Accuracy: 41.10000228881836
Iteration 500, Epoch 1, Loss: 1.8875585794448853, Accuracy: 37.0228271484375, Val Loss: 1.676851749420166, Val Accuracy: 42.599998474121094
Iteration 600, Epoch 1, Loss: 1.859166145324707, Accuracy: 37.80418014526367, Val Loss: 1.6936614513397217, Val Accuracy: 43.0
Iteration 700, Epoch 1, Loss: 1.8330157995224, Accurac

### Обучение трехслойной модели ConvNet, реализованной в виде подкласса  tf.keras.Model
Здесь необходимо использовать инструменты, которые мы определили выше для обучения трехслойной сверточной сети ConvNet на множестве  CIFAR-10. Модель ConvNet должна содержать 32 фильтра в первом сверточном слое и 16 фильтров во втором слое.

Для обученияи модели следует использовать алгоритм градиентного спуска с моментом Нестерова с  коэффициентом затухания  0,9.

** СПРАВКА **: https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/optimizers/SGD

Вам не требуется выполнять какую-либо настройку гиперпараметров, но вы должны достичь точности вадидации более 50% после одной эпохи обучения.

In [23]:
learning_rate = 3e-3
channel_1, channel_2, num_classes = 32, 16, 10

def model_init_fn():
    model = None
    ############################################################################
    # ЗАДАНИЕ:Добавьте функцию, определящую модель  model сети                 #
    ############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****

    model = ThreeLayerConvNet(channel_1, channel_2, num_classes)

    # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ############################################################################
    #                           КОНЕЦ ВАШЕГО КОДА                              #
    ############################################################################
    return model

def optimizer_init_fn():
    optimizer = None
    ############################################################################
    # ЗАДАНИЕ: Добавьте функцию, определящуюю optimizer                        #
    ############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****

    optimizer = tf.keras.optimizers.SGD(learning_rate=learning_rate, momentum=0.9, nesterov=True)
    #optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate, beta_1=0.9, beta_2=0.999, epsilon=1e-08)
    # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ############################################################################
    #                           КОНЕЦ ВАШЕГО КОДА                              #
    ############################################################################
    return optimizer

train_part34(model_init_fn, optimizer_init_fn)

Iteration 0, Epoch 1, Loss: 2.6106503009796143, Accuracy: 12.5, Val Loss: 3.3557097911834717, Val Accuracy: 7.599999904632568
Iteration 100, Epoch 1, Loss: 1.8870357275009155, Accuracy: 34.48329162597656, Val Loss: 1.593184471130371, Val Accuracy: 44.900001525878906
Iteration 200, Epoch 1, Loss: 1.7240623235702515, Accuracy: 39.83986282348633, Val Loss: 1.481963872909546, Val Accuracy: 47.79999923706055
Iteration 300, Epoch 1, Loss: 1.6429890394210815, Accuracy: 42.457435607910156, Val Loss: 1.4283427000045776, Val Accuracy: 49.900001525878906
Iteration 400, Epoch 1, Loss: 1.5738052129745483, Accuracy: 44.65399169921875, Val Loss: 1.3634414672851562, Val Accuracy: 50.0
Iteration 500, Epoch 1, Loss: 1.5240527391433716, Accuracy: 46.26060485839844, Val Loss: 1.309277057647705, Val Accuracy: 52.39999771118164
Iteration 600, Epoch 1, Loss: 1.4931232929229736, Accuracy: 47.3455696105957, Val Loss: 1.2640419006347656, Val Accuracy: 54.400001525878906
Iteration 700, Epoch 1, Loss: 1.464528203

# Часть IV:  Последовательный и функциональные API Keras
В третьей части мы представили API `tf.keras.Model`, который позволяет Вам определять модели с любым количеством доступных для обучения слоев и с произвольными связями между слоями.

Однако для многих случаев такая гибкость модели не требуется - многие модели могут быть выражены в виде последовательного стека слоев, при этом выходные данные каждого слоя передаются на следующий уровень в качестве входных данных. Если ваша модель соответствует этому шаблону, то существует еще более простой способ определить вашу модель: использовать `tf.keras.Sequential`. Вам не нужно писать какие-либо пользовательские классы; Вы просто вызываете конструктор `tf.keras.Sequential` со списком, содержащим последовательность объектов слоя.

Одна сложность с `tf.keras.Sequential` заключается в том, что вы должны определить форму входных данных для модели, передав значение` input_shape` первого слоя в вашей модели.

### Keras Sequential API: двухслойная сеть
В этом подразделе мы перепишем полносвязанную двухслойную сеть, используя `tf.keras.Sequential`, и обучим ее, используя обучающий цикл, определенный выше.

Здесь не требуется выполнять какую-либо настройку гиперпараметров, но вы должны достичь точности вадидации более 40% после одной эпохи обучения.

In [22]:
learning_rate = 1e-2

def model_init_fn():
    input_shape = (32, 32, 3)
    hidden_layer_size, num_classes = 4000, 10
    initializer = tf.initializers.VarianceScaling(scale=2.0)
    layers = [
        tf.keras.layers.Flatten(input_shape=input_shape),
        tf.keras.layers.Dense(hidden_layer_size, activation='relu',
                              kernel_initializer=initializer),
        tf.keras.layers.Dense(num_classes, activation='softmax', 
                              kernel_initializer=initializer),
    ]
    model = tf.keras.Sequential(layers)
    return model

def optimizer_init_fn():
    return tf.keras.optimizers.SGD(learning_rate=learning_rate) 

train_part34(model_init_fn, optimizer_init_fn)

Iteration 0, Epoch 1, Loss: 3.2741641998291016, Accuracy: 6.25, Val Loss: 2.8154661655426025, Val Accuracy: 12.700000762939453
Iteration 100, Epoch 1, Loss: 2.251986265182495, Accuracy: 28.449874877929688, Val Loss: 1.9031457901000977, Val Accuracy: 35.60000228881836
Iteration 200, Epoch 1, Loss: 2.0823843479156494, Accuracy: 32.16728973388672, Val Loss: 1.8667652606964111, Val Accuracy: 38.29999923706055
Iteration 300, Epoch 1, Loss: 2.008950710296631, Accuracy: 33.918190002441406, Val Loss: 1.8584648370742798, Val Accuracy: 38.900001525878906
Iteration 400, Epoch 1, Loss: 1.9393081665039062, Accuracy: 35.80501937866211, Val Loss: 1.7096425294876099, Val Accuracy: 42.39999771118164
Iteration 500, Epoch 1, Loss: 1.895296573638916, Accuracy: 37.000999450683594, Val Loss: 1.6743513345718384, Val Accuracy: 42.69999694824219
Iteration 600, Epoch 1, Loss: 1.865538239479065, Accuracy: 37.8743782043457, Val Loss: 1.708923101425171, Val Accuracy: 41.5
Iteration 700, Epoch 1, Loss: 1.8393962383

### Keras: Обучение  Sequential  модели с помощью встроенного метода model.fit

В предыдущих примерах мы использовали собственный настраиваемый цикл обучения для обучения моделей (например, `train_part34`). Написание собственного цикла обучения требуется только в том случае, если вам нужна большая гибкость и контроль во время обучения Вашей модели. Альтернативно, Вы также можете использовать встроенные API, такие как `tf.keras.Model.fit ()` и `tf.keras.Model.evaluate`, чтобы обучать и оценивать модель. Также не забывайте  настраивать свою модель для обучения, вызвав `tf.keras.Model.compile`.

Здесь не требуется выполнять какую-либо настройку гиперпараметров, но вы должны достичь точности вадидации более 42% после одной эпохи обучения.

In [23]:
model = model_init_fn()
model.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=learning_rate),
              loss='sparse_categorical_crossentropy',
              metrics=[tf.keras.metrics.sparse_categorical_accuracy])
model.fit(X_train, y_train, batch_size=64, epochs=1, validation_data=(X_val, y_val))
model.evaluate(X_test, y_test)

Train on 49000 samples, validate on 1000 samples


[1.660937841796875, 0.4321]

### ### Keras Sequential API: 3-х слойная сеть ConvNet
Здесь Вы должны использовать `tf.keras.Sequential` для переопределения одной и той же трехуровневой архитектуры ConvNet, используемой в Части II и Части III. Напоминаем, что ваша модель должна иметь следующую архитектуру:

1. Сверточный слой с  16 фильтрами 5x5 с дополнением нулями Р=2
2. Нелинейность ReLU
3. Сверточный слой с 32 фильтрами 3x3 с дополнением нулями Р=1
4. Нелинейность ReLU
5. Полносвязный слой, оценивающий рейтинги классов scores
6. Softmax нелинейность

Необходимо инициализировать весовые коэффициенты модели с помощью `tf.initializers.VarianceScaling`, как указано выше.

Модель необходимо обучить  с использованием алгоритма моментов Нестерова, коэффициент затухания 0.9.

Вам не нужно выполнять выбор гиперпараметров, но вы должны достичь точности выше 45% после обучения в течение одной эпохи.

In [25]:
def model_init_fn():
    model = None
    ############################################################################
    # ЗАДАНИЕ: Создайте 3-х слойную ConvNet, используя tf.keras.Sequential     #
    ############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    input_shape = (32, 32, 3)
    channel_1 = 32
    channel_2 = 16
    num_classes = 10
    initializer = tf.initializers.VarianceScaling(scale=2.0)
    layers = [
        tf.keras.layers.Conv2D(input_shape=input_shape, filters=channel_1, kernel_size=(5, 5), activation='relu',
                               strides = (1, 1), padding ='same',
                               kernel_initializer=initializer),
        
        tf.keras.layers.Conv2D(channel_2, kernel_size=(3, 3), activation='relu',
                               strides = (1, 1), padding ='same',
                               kernel_initializer=initializer),

        tf.keras.layers.Flatten(),
        
        tf.keras.layers.Dense(num_classes, activation='softmax',
                              kernel_initializer=initializer)
       
    ]
    model = tf.keras.Sequential(layers)
    
    # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ############################################################################
    #                           КОНЕЦ ВАШЕГО КОДА                              #
    ############################################################################
    return model

learning_rate = 5e-4
def optimizer_init_fn():
    optimizer = None
    ############################################################################
    # ЗАДАНИЕ: Добавьте функцию, определяющую optimizer                        #
    ############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    optimizer = tf.keras.optimizers.SGD(learning_rate=learning_rate, nesterov=True, momentum=0.9) 

    # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ############################################################################
    #                           КОНЕЦ ВАШЕГО КОДА                              #
    ############################################################################
    return optimizer

train_part34(model_init_fn, optimizer_init_fn)

Iteration 0, Epoch 1, Loss: 3.6824898719787598, Accuracy: 3.125, Val Loss: 2.8281984329223633, Val Accuracy: 11.0
Iteration 100, Epoch 1, Loss: 2.0240089893341064, Accuracy: 29.362625122070312, Val Loss: 1.7774907350540161, Val Accuracy: 37.79999923706055
Iteration 200, Epoch 1, Loss: 1.8870512247085571, Accuracy: 33.94744873046875, Val Loss: 1.6428370475769043, Val Accuracy: 43.5
Iteration 300, Epoch 1, Loss: 1.802298665046692, Accuracy: 36.85111999511719, Val Loss: 1.6035712957382202, Val Accuracy: 44.29999923706055
Iteration 400, Epoch 1, Loss: 1.7345882654190063, Accuracy: 39.113155364990234, Val Loss: 1.5337750911712646, Val Accuracy: 47.0
Iteration 500, Epoch 1, Loss: 1.6865283250808716, Accuracy: 40.58445739746094, Val Loss: 1.4865682125091553, Val Accuracy: 48.0
Iteration 600, Epoch 1, Loss: 1.6547081470489502, Accuracy: 41.768924713134766, Val Loss: 1.4615528583526611, Val Accuracy: 48.10000228881836
Iteration 700, Epoch 1, Loss: 1.625129222869873, Accuracy: 42.83389663696289,

Также обучим эту модель с помощью встроенного цикла обучения, предоставляемого TensorFlow.

In [26]:
model = model_init_fn()
model.compile(optimizer='sgd',
              loss='sparse_categorical_crossentropy',
              metrics=[tf.keras.metrics.sparse_categorical_accuracy])
model.fit(X_train, y_train, batch_size=64, epochs=1, validation_data=(X_val, y_val))
model.evaluate(X_test, y_test)

Train on 49000 samples, validate on 1000 samples


[1.359589426612854, 0.5195]

## Функциональный API:
### Демонстрация с двухслойной сетью

В предыдущем разделе видели, как мы можем использовать `tf.keras.Sequential` для быстрого построения простых моделей. Но это достигается за счет потери гибкости.

Часто нам приходится писать сложные модели, которые имеют непоследовательные потоки данных: у слоя может быть **несколько входов и / или выходов**, таких как объединение выходных данных двух предыдущих слоев для подачи на вход третьего слоя! (примеры: шунтирование слоев и полносвязанные  блоки.)

В таких случаях мы можем использовать функциональный API Keras для написания моделей со сложными топологиями, такими как:

  1. Модели с несколькими входами
  2. Модели с несколькими выходами
  3. Модели с общими слоями (один и тот же слой вызывается несколько раз)
  4. Модели с непоследовательными потоками данных (например, шунтирующие соединения)

Написание модели с помощью Functional API требует от нас создания экземпляра `tf.keras.Model` и явной записи входных и выходных тензоров в виде параметров слоев для этой модели.

In [27]:
def two_layer_fc_functional(input_shape, hidden_size, num_classes):  
    initializer = tf.initializers.VarianceScaling(scale=2.0)
    inputs = tf.keras.Input(shape=input_shape)
    flattened_inputs = tf.keras.layers.Flatten()(inputs)
    fc1_output = tf.keras.layers.Dense(hidden_size, activation='relu',
                                 kernel_initializer=initializer)(flattened_inputs)
    scores = tf.keras.layers.Dense(num_classes, activation='softmax',
                             kernel_initializer=initializer)(fc1_output)

    # Создание экземпляра модели с заданными входами и выходами
    model = tf.keras.Model(inputs=inputs, outputs=scores)
    return model

def test_two_layer_fc_functional():
    """ Небольшой тест для модели TwoLayerFC, определенной выше  """
    input_size, hidden_size, num_classes = 50, 42, 10
    input_shape = (50,)
    
    x = tf.zeros((64, input_size))
    model = two_layer_fc_functional(input_shape, hidden_size, num_classes)
    
    with tf.device(device):
        scores = model(x)
        print(scores.shape)
        
test_two_layer_fc_functional()

(64, 10)


### Функциональный API Keras: обучение двухслойной сети
Теперь вы можете обучить эту двухслойную сеть, построенную с использованием функционального API.

Вам не нужно выполнять выбор гиперпараметров, но вы должны достичь валидационной точности выше 40% после обучения в течение одной эпохи.

In [28]:
input_shape = (32, 32, 3)
hidden_size, num_classes = 4000, 10
learning_rate = 1e-2

def model_init_fn():
    return two_layer_fc_functional(input_shape, hidden_size, num_classes)

def optimizer_init_fn():
    return tf.keras.optimizers.SGD(learning_rate=learning_rate)

train_part34(model_init_fn, optimizer_init_fn)

Iteration 0, Epoch 1, Loss: 2.693085193634033, Accuracy: 9.375, Val Loss: 2.6375133991241455, Val Accuracy: 14.5
Iteration 100, Epoch 1, Loss: 2.2292568683624268, Accuracy: 28.18688201904297, Val Loss: 1.8746564388275146, Val Accuracy: 38.5
Iteration 200, Epoch 1, Loss: 2.0687203407287598, Accuracy: 32.1750602722168, Val Loss: 1.8695086240768433, Val Accuracy: 40.20000076293945
Iteration 300, Epoch 1, Loss: 1.9936503171920776, Accuracy: 33.959716796875, Val Loss: 1.87815260887146, Val Accuracy: 37.400001525878906
Iteration 400, Epoch 1, Loss: 1.9267337322235107, Accuracy: 35.886844635009766, Val Loss: 1.7086855173110962, Val Accuracy: 43.0
Iteration 500, Epoch 1, Loss: 1.8827489614486694, Accuracy: 36.90119552612305, Val Loss: 1.6773103475570679, Val Accuracy: 43.29999923706055
Iteration 600, Epoch 1, Loss: 1.855273962020874, Accuracy: 37.76258087158203, Val Loss: 1.6770309209823608, Val Accuracy: 43.70000076293945
Iteration 700, Epoch 1, Loss: 1.8293070793151855, Accuracy: 38.43616104

# Часть IV: CIFAR-10 - открытая задача

В этом разделе Вы можете поэкспериментировать с любой архитектурой ConvNet, которую Вы хотели бы использовать для клаасификации изображений множества CIFAR-10.

Вы должны поэкспериментировать с архитектурами, гиперпараметрами, функциями потерь, регуляризацией или чем-либо еще, что Вы посчитаете важным для обучения модели, которая достигает **не менее 70%** точности на **валидационном** множестве в течение 10 эпох. Вы можете использовать встроенную функцию обучения, функцию `train_part34`, определенную выше, или Вы можете реализовать свой собственный цикл обучения.

Опишите Ваши эксперименты в конце этого блокнота.

### С чем Вам следует экспериментировать:
- **Размер фильтра**: Выше мы использовали 5x5 и 3x3; это оптимально?
- **Количество фильтров**: Выше мы использовали 16 и 32 фильтра. Будет ли большее или меньшее число фильтров лучше?
- **Пулинг**: Мы не использовали никакого пулинга выше. Будет ли пулинг улучшать модель?
- **Нормализация**: улучшится ли ваша модель при использовании блочной нормализации, нормализации на слое, нормализации группы или какой-либо иной стратегии нормализации?
- **Архитектура**: В приведенной выше ConvNet имеется только три уровня обучаемых параметров. Будет ли более глубокая модель работать лучше?
- **Глобальный усредняющий пулинг**: вместо "уплощения" данных после последнего сверточного слоя будет ли глобальный усредняющий пулинг лучше? Эта стратегия используется, например, в  сети Google Inception  и в Остаточных (Residual) сетях.
- **Регуляризация**: Будет ли какая-то регуляризация повышать эффективность сети? Может быть, затухание весов или dropout?

### Замечание: Блочная нормализация/ Dropout
Если вы используете Batch Normalization и Dropout, не забудьте передать `is_training = True`, если вы используете функцию` train_part34 () `. Слои BatchNorm и Dropout ведут себя по-разному во время обучения и предсказания. `training` - это специальный ключевой аргумент, зарезервированный для этой цели в любой `tf.keras.Model` функции` call () `. Подробнее об этом здесь:
https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/layers/BatchNormalization#methods
https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/layers/Dropout#methods

### Подсказки для обучения
Для каждой сетевой архитектуры, с которой Вы экспериментируете, Вы должны выбрать скорость обучения и другие гиперпараметры. При этом есть несколько важных моментов, которые нужно иметь в виду:

- Если параметры работают хорошо, вы должны видеть улучшение в течение нескольких сотен итераций;
- Помните о грубой и тонкой настройке гиперпараметров: начните с проверки  гиперпараметров в широком диапазоне   всего на нескольких обучающих итерациях, чтобы найти комбинации параметров, которые вообще работают;
- После того, как вы найдете несколько наборов параметров, которые работают,  найдите их более точные значения. Возможно, вам придется проводить обучение при большом числе эпох.
- Вы должны использовать валидационное множество для поиска гиперпараметров.


### Стремимся к лучшему
Если Вы ощущаете энтузиазм, то есть много других функций, которые можно реализовать, чтобы попытаться повысить эффективность. Вы **не обязаны** их реализовывать, но не упустите шанс, если у вас есть время!

- Альтернативные оптимизаторы: вы можете попробовать Адам, Адаград, RMSprop и т. д.;
- Альтернативные функции активации, такие как  ReLU с утечкой, параметрическое ReLU, ELU или MaxOut;
- Ансамбли моделей;
- Расширение набора данных;
- Новые архитектуры.

  - [ResNets](https://arxiv.org/abs/1512.03385) , где вход  предыдущего слоя добавляется к выходу.
  - [DenseNets](https://arxiv.org/abs/1608.06993) , где входы предыдущих слоев объединяются вместе.
  - [Этот блог содержит подробный обзор](https://chatbotslife.com/resnets-highwaynets-and-densenets-oh-my-9bb15918ee32)
  
### Успешного обучения! 


In [21]:
class CustomConvNet(tf.keras.Model):
    def __init__(self):
        super(CustomConvNet, self).__init__()
        ############################################################################
        # ЗАДАНИЕ: Постройте модель, которая хорошо работает на CIFAR-10           #
        ############################################################################
        # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        
        self.init_with_maxpool()

        # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        ############################################################################
        #                           КОНЕЦ ВАШЕГО КОДА                              #
        ############################################################################
    
    def call(self, input_tensor, training=False):
        ############################################################################
        # ЗАДАНИЕ: Постройте модель, которая хорошо работает на CIFAR-10           #
        ############################################################################
        # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        
        scores = None
        ########################################################################
        # ЗАДАНИЕ: выполнить прямое распространение для 3-х слойной ConvNet.   #
        # Используйте объекты слоя, определенные в методе __init__.            #
        ########################################################################
        # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        

        scores = self.call_with_maxpool(input_tensor, training)
        
        # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        ########################################################################
        #                             КОНЕЦ ВАШЕГО КОДА                        #    
        ########################################################################        
        

        
        # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        ############################################################################
        #                           КОНЕЦ ВАШЕГО КОДА                              #
        ############################################################################
        return scores
    
    def init_with_maxpool(self):
        channel_1 = 8
        channel_2 = 16
        channel_3 = 32
        channel_4 = 64
        num_classes = 10
        
        initializer = tf.initializers.VarianceScaling(scale=2.0)
       
        
        self.conv1 = tf.keras.layers.Conv2D(channel_1, kernel_size=(64, 64), activation='relu',
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.conv2 = tf.keras.layers.Conv2D(channel_2, kernel_size=(32, 32), activation='relu',
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.maxpool1 = tf.keras.layers.MaxPool2D(pool_size=(2, 2), strides=None, padding='same')
        
        self.fc1 = tf.keras.layers.Dense(num_classes, activation='relu',
                                         kernel_initializer=initializer)
        
        self.conv3 = tf.keras.layers.Conv2D(channel_3, kernel_size=(8, 8), activation='relu',
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.conv4 = tf.keras.layers.Conv2D(channel_4, kernel_size=(4, 4), activation='relu',
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.maxpool2 = tf.keras.layers.MaxPool2D(pool_size=(2, 2), strides=None, padding='same')
        
        self.fc2 = tf.keras.layers.Dense(num_classes, activation='softmax',
                                         kernel_initializer=initializer)
        
        self.flatten = tf.keras.layers.Flatten()
    
    def call_with_maxpool(self, input_tensor, training=False):
        conv1 = self.conv1(input_tensor)
        conv2 = self.conv2(conv1)
        max_pool1 = self.maxpool1(conv2)
        
        conv3 = self.conv3(max_pool1)
        conv4 = self.conv4(conv3)
        maxpool2 = self.maxpool2(conv4)
        
        max_pool_fltn = self.flatten(maxpool2)
        fc1 = self.fc1(max_pool_fltn)
        scores = self.fc2(fc1)
        
        return scores
    
    def init_with_batch(self):
        
        channel_1 = 16
        channel_2 = 32
        num_classes = 10
        
        initializer = tf.initializers.VarianceScaling(scale=2.0)
       
        self.batchNorm1 = tf.keras.layers.BatchNormalization()
        self.batchNorm2 = tf.keras.layers.BatchNormalization()
        self.conv1 = tf.keras.layers.Conv2D(channel_1, kernel_size=(5, 5),
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.maxpool = tf.keras.layers.MaxPool2D(pool_size=(2, 2), strides=None, padding='same')
        
        self.conv2 = tf.keras.layers.Conv2D(channel_2, kernel_size=(3, 3),
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.fc = tf.keras.layers.Dense(num_classes, activation='softmax',
                                        kernel_initializer=initializer)
        
        self.flatten = tf.keras.layers.Flatten()
        
    def call_with_batch(self, input_tensor, training=False):
        
        conv1 = self.conv1(input_tensor)
        bn_conv1 = self.batchNorm1(conv1, training=training)
        conv1_bn_relu = tf.nn.relu(bn_conv1)
        
        conv2 = self.conv2(conv1_bn_relu)
        bn_conv2 = self.batchNorm2(conv2, training=training)
        conv1_bn_relu = tf.nn.relu(bn_conv2)
        
        max_pool = self.maxpool(conv1_bn_relu)
        
        max_pool_fltn = self.flatten(max_pool)
        scores = self.fc(max_pool_fltn)
        
        return scores
        
    def init_with_layernorm(self):
        
        channel_1 = 32
        channel_2 = 16
        num_classes = 10
        
        initializer = tf.initializers.VarianceScaling(scale=2.0)
       
        self.layerNorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.layerNorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.conv1 = tf.keras.layers.Conv2D(channel_1, kernel_size=(5, 5),
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.maxpool = tf.keras.layers.MaxPool2D(pool_size=(2, 2), strides=None, padding='same')
        
        self.conv2 = tf.keras.layers.Conv2D(channel_2, kernel_size=(3, 3),
                                            strides = (1, 1), padding ='same',
                                            kernel_initializer=initializer)
        
        self.fc = tf.keras.layers.Dense(num_classes, activation='softmax',
                                        kernel_initializer=initializer)
        
        self.flatten = tf.keras.layers.Flatten()
        
    def call_with_layernorm(self, input_tensor, training=False):
        conv1 = self.conv1(input_tensor)
        ln_conv1 = self.layerNorm1(conv1)
        conv1_ln_relu = tf.nn.relu(ln_conv1)
        
        conv2 = self.conv2(conv1_ln_relu)
        ln_conv2 = self.layerNorm2(conv2)
        conv1_ln_relu = tf.nn.relu(ln_conv2)
        
        max_pool = self.maxpool(conv1_ln_relu)
        
        max_pool_fltn = self.flatten(max_pool)
        scores = self.fc(max_pool_fltn)
        
        return scores
    
#device = '/device:GPU:0'   # Измените это на CPU/GPU, если хотите!
device = '/cpu:0'        # Измените это на CPU/GPU, если хотите!
print_every = 100
num_epochs = 1

model = CustomConvNet()

def model_init_fn():
    return CustomConvNet()

def optimizer_init_fn():
    learning_rate = 1e-3
    return tf.keras.optimizers.Adam(learning_rate) 

train_part34(model_init_fn, optimizer_init_fn, num_epochs=num_epochs, is_training=True)

Iteration 0, Epoch 1, Loss: 2.4308676719665527, Accuracy: 12.5, Val Loss: 2.3973565101623535, Val Accuracy: 11.399999618530273


KeyboardInterrupt: 

In [7]:
def generate_random_hyperparams(lr_min, lr_max, reg_min, reg_max):
    lr = 10**np.random.uniform(lr_min,lr_max)
    reg = 10**np.random.uniform(reg_min,reg_max)
    
    return lr, reg

def update_hyper_params(params, lr, reg):
    params["lr"] = lr
    params["reg"] = reg
    
    return params

In [36]:
from tensorflow.keras import regularizers

def model_init_fn(reg):
    model = None
    ############################################################################
    # ЗАДАНИЕ: Создайте 3-х слойную ConvNet, используя tf.keras.Sequential     #
    ############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    input_shape = (32, 32, 3)
    channel_1 = 8
    channel_2 = 16
    channel_3 = 24
    channel_4 = 32
    channel_5 = 64
    num_classes = 10
    initializer = tf.initializers.VarianceScaling(scale=2.0)
    layers = [
        
        tf.keras.layers.Conv2D(filters=channel_3, kernel_size=(5, 5),
                               strides = (1, 1), padding ='same',
                               kernel_initializer=initializer,
                               kernel_regularizer=regularizers.l2(reg)),
        tf.keras.layers.BatchNormalization(),
        
        tf.keras.layers.ReLU(),
        
        
#         tf.keras.layers.Conv2D(channel_4, kernel_size=(3, 3), activation='relu',
#                                strides = (1, 1), padding ='same',
#                                kernel_initializer=initializer,
#                                kernel_regularizer=regularizers.l2(reg)),
        
    
        tf.keras.layers.MaxPool2D(pool_size=(2, 2), strides=None, padding='same'),
        
        tf.keras.layers.Conv2D(filters=channel_4, kernel_size=(3, 3),
                               strides = (1, 1), padding ='same',
                               kernel_initializer=initializer,
                               kernel_regularizer=regularizers.l2(reg)),
        tf.keras.layers.BatchNormalization(),
        tf.keras.layers.Dropout(0.2),
        tf.keras.layers.ReLU(),
        
        #tf.keras.layers.MaxPool2D(pool_size=(2, 2), strides=None, padding='same'),
        
#         tf.keras.layers.Conv2D(filters=channel_4, kernel_size=(3, 3), activation='relu',
#                                strides = (1, 1), padding ='same',
#                                kernel_initializer=initializer,
#                                kernel_regularizer=regularizers.l2(reg)),
        
#         tf.keras.layers.Conv2D(channel_4, kernel_size=(3, 3), activation='relu',
#                                strides = (1, 1), padding ='same',
#                                kernel_initializer=initializer,
#                                kernel_regularizer=regularizers.l2(reg)),
    
        
        
        
        #tf.keras.layers.GlobalAveragePooling2D(),
        
        
        tf.keras.layers.Flatten(),
        
        tf.keras.layers.Dense(256, activation='relu',
                               kernel_initializer=initializer,
                               kernel_regularizer=regularizers.l2(reg)),
        tf.keras.layers.Dropout(0.2),
        
        tf.keras.layers.Dense(num_classes, activation='softmax',
                              kernel_initializer=initializer,
                              kernel_regularizer=regularizers.l2(reg))
       
    ]
    model = tf.keras.Sequential(layers)
    
    # *****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ############################################################################
    #                           КОНЕЦ ВАШЕГО КОДА                              #
    ############################################################################
    return model

def optimizer_init_fn(learning_rate):
   
    
    optimizer = tf.keras.optimizers.SGD(learning_rate=learning_rate, nesterov=True, momentum=0.9) 
    #optimizer = tf.keras.optimizers.Adagrad(learning_rate=learning_rate) 
    #optimizer = tf.keras.optimizers.RMSprop(learning_rate=learning_rate) 
    #optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate) 
    
    return optimizer


X_train_search = X_train[:100]
y_train_search = y_train[:100]
X_val_search = X_val[:100]
y_val_search = y_val[:100]
X_test_search = X_test[:1000]
y_test_search = y_test[:1000]
best_model = None
best_val = 0
best_params = {}
for i in range(0, 10):
    lr, reg = generate_random_hyperparams(-4, -2, -3, -2)
    optimizer = optimizer_init_fn(lr)
    model = model_init_fn(reg)
    model.compile(optimizer=optimizer,
                  loss='sparse_categorical_crossentropy',
                  metrics=[tf.keras.metrics.sparse_categorical_accuracy])
    history = model.fit(X_train_search, y_train_search, batch_size=64, epochs=10, verbose=1, 
                        validation_data=(X_val_search, y_val_search))
    train_acc = history.history['sparse_categorical_accuracy'][-1]
    val_acc = history.history['val_sparse_categorical_accuracy'][-1]
    #loss, val_acc = model.evaluate(X_test_search, y_test_search, verbose =0)
    print("-------------------------------------------------------------")
    print("train_accuracy = {0}, val_accuracy={1}".format(train_acc, val_acc))
    print("lr = {0}, reg={1}".format(lr, reg))
    print("-------------------------------------------------------------")
    if val_acc > best_val:
        best_model = model
        best_val = val_acc
        update_hyper_params(best_params, lr, reg)

Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------
train_accuracy = 0.3400000035762787, val_accuracy=0.2199999988079071
lr = 0.0003664451195960563, reg=0.0011316190953378944
-------------------------------------------------------------
Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------
train_accuracy = 1.0, val_accuracy=0.25
lr = 0.008693450952278033, reg=0.009545967975994477
-------------------------------------------------------------
Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------
trai

Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------
train_accuracy = 0.9900000095367432, val_accuracy=0.28999999165534973
lr = 0.004015920814124664, reg=0.0019141557282086263
-------------------------------------------------------------
Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------
train_accuracy = 0.6000000238418579, val_accuracy=0.20999999344348907
lr = 0.0006007403558176856, reg=0.0029182480036547484
-------------------------------------------------------------
Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
----------------------------------

-------------------------------------------------------------
train_accuracy = 0.9800000190734863, val_accuracy=0.20999999344348907
lr = 0.003709539604024702, reg=0.002648385385868818
-------------------------------------------------------------
Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------
train_accuracy = 0.7699999809265137, val_accuracy=0.1899999976158142
lr = 0.0009441193263805545, reg=0.0012933556699171404
-------------------------------------------------------------
Train on 100 samples, validate on 100 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------
train_accuracy = 0.14000000059604645, val_accuracy=0.1599999964237213
lr = 0.00012294709894094885, reg=0.0010963363623299914
------

In [37]:
print(best_params)
print(best_val)

{'lr': 0.004015920814124664, 'reg': 0.0019141557282086263}
0.29


In [38]:
best_model.fit(X_train, y_train, batch_size=200, epochs=10, validation_data=(X_val, y_val))

Train on 49000 samples, validate on 1000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x24c86824048>

In [None]:
best_model.evaluate(X_test, y_test, verbose=0)

## Опишите Ваши эксперименты
В приведенной ниже ячейке Вы должны объяснить, что Вы делали. Также опишите какие-либо дополнительные особенности, которые Вы использовали, и / или любые графики, которые Вы получили в процессе обучения и тестирования сети.

ЗАДАНИЕ: Опишите, что Вы делали

In [44]:
Val Accuracy: 61.0 - [conv-relu-conv-relu-maxpool-fc] - 1 epoch
Val Accuracy: 52.79999923706055 - [conv-bn-relu-conv-bn-relu-maxpool-fc] - 1 epoch
Val Accuracy: 55.5 - [conv-ln-relu-conv-ln-relu-maxpool-fc] - 1epoch
Val Accuracy: 0.6550 - [conv-ln-relu-conv-ln-relu-maxpool-fc] - 10epoch (nesterov optimizer)
Val Accuracy: 0.7010 - [conv-bn-relu-maxpool-conv-bn-dropout-relu-fc-relu-fc-softmax] - 10epoch(nesterov)

SyntaxError: invalid syntax (<ipython-input-44-9aab2a168990>, line 1)