# Лабораторна робота №4
# Дровольського Ярослава, ПЗС 1 курс магістратури

**Завдання:** Підібрати оптимальні параметри до мережі (багатошарового персептрону) з lab4.

*Спочатку нагадаємо зміст задачі та суть моделі*

Задача моделі: задача класифікації одягу на датасеті Fashion MNIST.

Всі дані (зображення одягу) в Fashion MNIST поділяються на 10 класів:

0. T-shirt / top (футболка / топ)
1. Trouser (брюки)
2. Pullover (пуловер)
3. Dress (плаття)
4. Coat (пальто)
5. Sandal (сандалі)
6. Shirt (сорочка)
7. Sneaker (кеди)
8. Bag (сумка)
9. Ankle boot (ботильйони).

- **Вхідні значення нейронної мережі:** інтенсивність пікселя (число в діапазоні 0-255), центрована і нормована до інтервалу [-0.5, 0.5]. В зображені 784 (28*28) пікселів. Вхідний шар 784 нейрона.
- **Вихідний шар** 10 нейронів. Кожен нейрон повертає ймовірність (0-1) того, що на зображенні предмет одягу з певної категорії (10 категорій = 10 нейронів)

## Підготовка даних

Імпортуємо необхідні бібліотеки

In [36]:
import numpy as np
import sklearn # algorithms for classical ML
import tensorflow as tf # build and train Neural network
from tensorflow import keras

Завантажимо датасет Fashion MNIST

In [37]:
from keras.datasets import mnist

(x_train, y_train), (x_val, y_val) = tf.keras.datasets.fashion_mnist.load_data()

# x_train, x_val - clothes images (28x28 px) for train and validation sample, correspondingly (sample - вибірка)
# y_train, y_val - correct answers for corresponding images

Центруємо і нормуємо вхідні дані, так, щоб значення змінювалися від `-0.5` до `+0.5`.

In [38]:
x_train_float = x_train.astype(np.float64) / 255 - 0.5
x_val_float = x_val.astype(np.float64) / 255 - 0.5

Перетворимо правильні відповіді `y_train` і `y_val` в one-hot encode.

Тобто у кожного об'єкта з `y_train` та `y_val` створюється 10 нових ознак (кожна відповідає за те, чи належать об'єкт певній категорії). Ознака, яка відповідає за ту категорію, якій належить об'єкт, дорівнює `1`, решта дорівнюють `0`.

In [39]:
y_train_oh = keras.utils.to_categorical(y_train, 10)
y_val_oh = keras.utils.to_categorical(y_val, 10)

## Робота з моделлю

Згідно зі слайдом №6 презентації, **Схема** нашої подальшої роботи для кожного завдання така:
1. перебираємо всі дані в умові значення гіперпараметру
2. при цьому робимо крос-валідацію (перересну перевірку)
3. на основі результатів перехресної перевірки обираємо найкраще значення гіперпараметру

### Базова модель

Для отримання однакових похибок при повторному запуску клітинок навчання моделі (наприклад, під час перевірки викладачем), **фіксуємо** `seed` **рандомності**.


*Пояснення: When re-training a Keras neural network on the same data as before, you’ll rarely get the same results twice. This is due to the fact that neural networks in Keras are using randomness when initializing their weights, so on every run weights are initialized differently, therefore during the learning process these will get updated differently, so the same accuracy results when making predictions are unlikely.* [(Джерело)](https://medium.com/@pop.kristina1/why-loading-a-previously-saved-keras-model-gives-different-results-lessons-learned-aeea1014e0ba)

In [53]:
np.random.seed(100)

import tensorflow
tensorflow.random.set_seed(100)

**Тепер перейдемо до складання моделі й підбору її параметрів**.

На **вхід** будемо подавати картинки, витягнуті у вектор довжини 28 * 28 (= 784).

На **виході** маємо 10 вихідних нейронів за кількістю класів в нашій задачі.

Задаємо ці та описані вище параметри.


Побудуємо **БАЗОВУ МОДЕЛЬ** багатошарового персептрона з двома прихованими шарами по 128 нейронів у кожному. Саме для цієї моделі будемо шукати оптимальні значення параметрів.

На прихованих шарах використовуватимемо функцію elu.

Створимо функцію для побудови та тренування базової моделі

In [70]:
from keras import backend as K
from keras import layers as L


def create_basic_model():
  K.clear_session()

  # create model
  model = keras.Sequential()
  model.add(L.Dense(128, input_dim=784, activation='relu')) # relu(x)=max(0,x)
  model.add(L.Dense(128, activation='elu'))
  model.add(L.Dense(10, activation='softmax'))

  # configure the model with losses and metrics, configure for training
  model.compile(
    loss='categorical_crossentropy', # minimize cross-entropy
    optimizer='adam',
    metrics=['accuracy'] # calculated using validation_data
  )

  return model

'''
How to train:

  # train the model
  model.fit(
    x_train_float.reshape(-1, 28*28),
    y_train_oh,
    batch_size=64, # Number of samples per gradient update.
    epochs=10,
    validation_data=(x_val_float.reshape(-1, 28*28), y_val_oh) # The model will not be trained on this data.
  )

'''


 # Dense is Just regular densely-connected NN layer.
 # first argument of Dense constructor is `units` - Positive integer, dimensionality of the output space.
 # Dense implements the operation: output = activation(dot(input, kernel) + bias)


  # Model documentation: https://www.tensorflow.org/api_docs/python/tf/keras/Sequential
  # Layer documentation: https://www.tensorflow.org/api_docs/python/tf/keras/layers/Dense


'\nHow to train:\n\n  # train the model\n  model.fit(\n    x_train_float.reshape(-1, 28*28),\n    y_train_oh,\n    batch_size=64, # Number of samples per gradient update. \n    epochs=10,\n    validation_data=(x_val_float.reshape(-1, 28*28), y_val_oh) # The model will not be trained on this data.\n  )\n\n'

Напишемо функцію для виконання крос-валідації моделі

In [71]:
# .fit() calls on already trained models, will train model from xero (ignore previous trained coeffircients, etc.) - not for Keras
# function does not call .fit() on passed model - but call on its copy - https://stackoverflow.com/a/49771618 - not for Keras

from sklearn.model_selection import KFold

# create_model_function - is function to create model. It should return ONLY created and compiled model, NOT trained.
# calculates accuracies for cross-validation
# (X, y) are TRAIN data. It will be divided into local-train and local-validation data on each fold.
def cross_validate(X, y, create_model_function, batch_size, number_of_epochs):
  kf = KFold(n_splits=5, shuffle=True, random_state=42)  # 5 folds

  fold_accuracies = []

  for train_index, val_index in kf.split(X):
      X_train, X_val = X[train_index], X[val_index]
      y_train, y_val = y[train_index], y[val_index]

      model = create_model_function()  # Create a new model instance, Keras models need to be re-initialized for each fold.
      model.fit(
          X_train.reshape(-1, 28*28),
          y_train,
          epochs=number_of_epochs,
          batch_size=batch_size,
          verbose=0)  # Train the model

      loss, accuracy = model.evaluate(X_val.reshape(-1, 28*28), y_val, batch_size=batch_size, verbose=1)  # Evaluate on local-validation set

      fold_accuracies.append(accuracy)

  return fold_accuracies

### №1 Підбір кількості нейронів на вхідному шарі
Використайте різну кількість нейронів на вхідному шарі: 400, 600, 800, 1200. Аргументуйте відповідь.

Для цього створимо функцію, яка буде створювати та навчати модель, ідентичну з базовою, але яка *має різну кількість нейронів на вхідному шарі*.

In [73]:
def create_basic_model_with_input_layer_neurons(input_layer_neurons_number):
  K.clear_session()

  # create model
  model = keras.Sequential()
  model.add(L.Dense(input_layer_neurons_number, input_dim=784, activation='relu'))
  model.add(L.Dense(128, activation='elu'))
  model.add(L.Dense(10, activation='softmax'))

  # configure the model with losses and metrics
  model.compile(
    loss='categorical_crossentropy', # minimize cross-entropy
    optimizer='adam',
    metrics=['accuracy'] # calculated using validation_data
  )

  return model

In [76]:
def task_1(number_of_neurons):
  accuracies = cross_validate(
    x_train_float, y_train_oh,
    lambda: create_basic_model_with_input_layer_neurons(number_of_neurons),
    batch_size=64,
    number_of_epochs=10)

  print("\n\n\n\n\n")
  print("accuracies: ", accuracies)
  print("Mean accuracy", accuracies.mean())

**1)** 400 нейронів на вхідному шарі

In [None]:
task_1(400)

**2)** 600 нейронів на вхідному шарі

In [None]:
task_1(600)

**3)** 800 нейронів на вхідному шарі

In [None]:
task_1(800)

**4)** 1200 нейронів на вхідному шарі

In [None]:
task_1(1200)

Використаємо модель в робочому режимі на деяких валідаційних даних:

**Приклад №1**

In [46]:
img1 = x_val[1]
img1

In [47]:
prediction1 = model.predict(x_val_float.reshape(-1, 28*28)[1:2])
print(prediction1)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 63ms/step
[[1.0754323e-02 7.2234570e-07 9.8170841e-01 1.1337875e-06 7.0201666e-03
  8.2625441e-08 5.1517563e-04 2.2363762e-09 2.8930799e-10 2.7427308e-10]]


Отримали, що ця річ належить до категорії 2 (пуловер) з ймовірністю `99.95%`. Це відповідає дійсності, бо річ, що зображена на картинці, є пуловером.

**Приклад №2**

In [48]:
img2 = x_val[2]
img2

In [49]:
prediction2 = model.predict(x_val_float.reshape(-1, 28*28)[2:3])
print(prediction2)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step
[[4.5182727e-10 1.0000000e+00 7.3348723e-14 1.5930256e-08 2.2682888e-10
  4.4047523e-17 1.7106184e-09 3.9186285e-15 8.8719164e-17 3.6053544e-17]]


Отримали, що ця річ належить до категорії 1 (брюки) з ймовірністю `99.9%`. Це відповідає дійсності, бо річ, що зображена на картинці, є брюками.

**Приклад №3**

In [50]:
img3 = x_val[10]
img3

In [51]:
prediction3 = model.predict(x_val_float.reshape(-1, 28*28)[10:11])
print(prediction3)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 21ms/step
[[3.3148459e-05 7.0027031e-06 1.5823666e-02 8.0435717e-07 9.7216570e-01
  4.3759633e-07 1.1968223e-02 9.2737125e-08 6.0377893e-08 8.5606467e-07]]


Отримали, що ця річ належить до категорії 4 (пальто) з ймовірністю `95.77%`. Це відповідає дійсності, бо річ, що зображена на картинці, є пальто.