# Оптимизация гиперпараметров нейросети с помощью [Keras Tuner](https://github.com/keras-team/keras-tuner)


Чтобы запускать и редактировать код, сохраните копию этого ноутбука себе (File->Save a copy in Drive...). Свою копию вы сможете изменять и запускать.

Не забудьте подключить GPU, чтобы сеть обучалась быстрее (Runtime -> Change Runtime Type -> Hardware Accelerator -> GPU).



## Гиперпараметры обучения нейронной сети

- Количество слоев нейронной сети
- Количество нейронов в каждом слое
- Функции активации, которые используются в слоях
- Тип оптимизатора при обучении нейронной сети
- Количество эпох обучения

## Установка Keras Tuner

In [52]:
pip install -U keras-tuner



## Подключаем нужные пакеты

In [53]:
%tensorflow_version 2.x
from tensorflow.keras.datasets import fashion_mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras import utils
from google.colab import files
from keras import layers
from kerastuner.tuners import RandomSearch, Hyperband, BayesianOptimization
import numpy as np

Colab only includes TensorFlow 2.x; %tensorflow_version has no effect.


## Подготовка данных для обучения сети

In [54]:
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

In [55]:
x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train / 255
x_test = x_test / 255
y_train = utils.to_categorical(y_train, 10)
y_test = utils.to_categorical(y_test, 10)

## Задаем функцию создания нейронной сети

In [56]:
def build_model(hp):
    model = Sequential()
    activation_choice = hp.Choice('activation', values=['relu', 'sigmoid', 'tanh', 'elu', 'selu'])
    model.add(Dense(units=hp.Int('units_input',    # Полносвязный слой с разным количеством нейронов
                                   min_value=512,    # минимальное количество нейронов - 128
                                   max_value=1024,   # максимальное количество - 1024
                                   step=32),
                    input_dim=784,
                    activation=activation_choice))
    model.add(Dense(units=hp.Int('units_hidden',
                                   min_value=128,
                                   max_value=600,
                                   step=32),
                    activation=activation_choice))
    model.add(Dense(10, activation='softmax'))
    model.compile(
        optimizer=hp.Choice('optimizer', values=['adam','rmsprop','SGD']),
        loss='categorical_crossentropy',
        metrics=['accuracy'])
    return model

## Создаем tuner

Доступные типы тюнеров:
- RandomSearch - случайный поиск.
- Hyperband - алгоритм оптимизации на основе многорукого бандита, Li, Lisha, and Kevin Jamieson. ["Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization."Journal of Machine Learning Research 18 (2018): 1-52](http://jmlr.org/papers/v18/16-558.html).
- BayesianOptimization - [байесовская оптимизация](https://en.wikipedia.org/wiki/Bayesian_optimization).

In [57]:
tuner = RandomSearch(
    build_model,                 # функция создания модели
    objective='val_accuracy',    # метрика, которую нужно оптимизировать -
                                 # доля правильных ответов на проверочном наборе данных
    max_trials=80,               # максимальное количество запусков обучения
    directory='test_directory'   # каталог, куда сохраняются обученные сети
    )

Reloading Tuner from test_directory/untitled_project/tuner0.json


## Запускаем подбор гиперпараметров

Пространство поиска

In [58]:
tuner.search_space_summary()

Search space summary
Default search space size: 4
activation (Choice)
{'default': 'relu', 'conditions': [], 'values': ['relu', 'sigmoid', 'tanh', 'elu', 'selu'], 'ordered': False}
units_input (Int)
{'default': None, 'conditions': [], 'min_value': 512, 'max_value': 1024, 'step': 32, 'sampling': 'linear'}
units_hidden (Int)
{'default': None, 'conditions': [], 'min_value': 128, 'max_value': 600, 'step': 32, 'sampling': 'linear'}
optimizer (Choice)
{'default': 'adam', 'conditions': [], 'values': ['adam', 'rmsprop', 'SGD'], 'ordered': False}


Подбор гиперпараметров

In [59]:
tuner.search(x_train,                  # Данные для обучения
             y_train,                  # Правильные ответы
             batch_size=256,           # Размер мини-выборки
             epochs=20,                # Количество эпох обучения
             validation_split=0.2,     # Часть данных, которая будет использоваться для проверки
             )

## Выбираем лучшую модель

In [60]:
tuner.results_summary()

Results summary
Results in test_directory/untitled_project
Showing 10 best trials
Objective(name="val_accuracy", direction="max")

Trial 05 summary
Hyperparameters:
activation: relu
units_input: 1024
units_hidden: 416
optimizer: adam
Score: 0.9003333449363708

Trial 16 summary
Hyperparameters:
activation: relu
units_input: 800
units_hidden: 160
optimizer: adam
Score: 0.8981666564941406

Trial 18 summary
Hyperparameters:
activation: relu
units_input: 640
units_hidden: 224
optimizer: adam
Score: 0.8977500200271606

Trial 65 summary
Hyperparameters:
activation: relu
units_input: 800
units_hidden: 512
optimizer: adam
Score: 0.8977500200271606

Trial 11 summary
Hyperparameters:
activation: tanh
units_input: 576
units_hidden: 256
optimizer: adam
Score: 0.8976666927337646

Trial 15 summary
Hyperparameters:
activation: relu
units_input: 736
units_hidden: 224
optimizer: adam
Score: 0.8974999785423279

Trial 20 summary
Hyperparameters:
activation: relu
units_input: 896
units_hidden: 128
optimize

Получаем три лучших модели

In [61]:
models = tuner.get_best_models(num_models=3)

Оцениваем качество модели на тестовых данных

In [62]:
for model in models:
  model.summary()
  model.evaluate(x_test, y_test)
  print()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 1024)              803840    
                                                                 
 dense_1 (Dense)             (None, 416)               426400    
                                                                 
 dense_2 (Dense)             (None, 10)                4170      
                                                                 
Total params: 1234410 (4.71 MB)
Trainable params: 1234410 (4.71 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 800)               628000    
                                                               