# Tак Keras чи TensorFlow?


**Keras** - це бібліотека верхнього рівня, з її допомогою можна конструювати нейромережі, маніпулюючи їх шарами та параметрами.

Для роботи з тензорами та виконання над ними різних операцій вона покладається на бекенди. Останні спеціально оптимізовані під обчислення з використанням тензорів та інших багатовимірних об'єктів. В якості таких бекендів keras може використовувати такі бібліотеки Tensorflow, Theano, CNTK, etc.

Код, написаний з використанням Keras, може бути запущений за допомогою будь-якого з перерахованих бекендів. Більше того, в процесі розробки між ними можна перемикатися, що може бути досить корисним, так як у певних ситуаціях одні бекенди працюють швидше, ніж інші. Ми ж далі весь час будемо використовувати tensorflow як найбільш поширений та популярний фреймворк.

Якщо ми виконуємо код на **CPU tensorflow** сам по собі працює як обгортка над більш низькорівневою бібліотекою для тензорних операцій, яка називається **Eigen**.

Якщо ж ми використовуємо для обчислень **GPU**, то тоді tensorflow використовує **NVIDIA CUDA Deep Neural Network library (cuDNN)** - це добре оптимізована низькорівнева бібліотека для глибокого навчання.

![alt text](https://textbook.edu.goit.global/python/data-science-remaster/v1/img/module-10/backends.png)

https://keras.io/api/layers/core_layers/dense/

https://www.tensorflow.org/api_docs/python/tf/keras/layers/Dense

# Навчання моделі

Структура.

1. Імпорт.
2. Завантаження даних.
3. Підготовка даних.
4. Аналіз даних.
5. Створення архітектури моделі (Sequantial).
6. Компілювання (.compile()).
7. Навчання (.fit()).
8. Оцінка.
9. Збереження + деплой.

In [1]:
# 1
import tensorflow as tf
from tensorflow.keras import layers, models
from tensorflow.keras.datasets import mnist
# 2-3
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0
#4

# 5
model = models.Sequential([
    layers.Flatten(input_shape=(28, 28)),
    layers.Dense(128, activation='relu'),
    layers.Dropout(0.2),
    layers.Dense(10, activation='softmax')
])

# 6
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 7
model.fit(train_images, train_labels, epochs=5)

# 8
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

# 9
model.save("my_model")
# model.save("my_model.h5")

# my_model_weights = model.get_weights()
# model.save_weights("my_model_weights")
# model.save_weights("my_model_weights.h5")

# model.to_json("my_model.json")

# Завантаження
# model = keras.models.load_model("my_model")
# model = keras.models.load_weights("my_model")
# model = keras.models.model_from_json("my_model.json")

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.9771999716758728


In [3]:
new_model = models.load_model("my_model")
new_model.evaluate(test_images, test_labels)



[0.07514239847660065, 0.9771999716758728]

https://www.tensorflow.org/api_docs/python/tf/keras/Sequential#compile
https://www.tensorflow.org/api_docs/python/tf/keras/Sequential#fit

In [None]:
model.compile(
    optimizer='rmsprop', # Стрінг (назва оптимізатора) або екземпляр оптимізатора
    loss=None, # Функція втрат
    metrics=None, # Список показників, які оцінює модель під час навчання та тестування.
    loss_weights=None, # Додатковий список або словник із зазначенням скалярних коефіцієнтів (числа з плаваючою точкою Python) для зважування внесків втрат різних вихідних даних моделі.
    weighted_metrics=None, # Список показників, які потрібно оцінити та зважити за sample_weight або class_weight під час навчання та тестування.
    run_eagerly=None, # Якщо True, логіка цієї моделі не буде загорнута в tf.function.
    steps_per_execution=None, # Кількість пакетів для запуску під час кожного виклику tf.function.
    jit_compile=None, # Якщо True, скомпілюйте етап навчання моделі за допомогою XLA. XLA — це оптимізуючий компілятор для машинного навчання.
    pss_evaluation_shards=0, # його аргумент встановлює кількість сегментів, на які потрібно розділити набір даних, щоб увімкнути точну гарантію відвідування для оцінки, тобто модель буде застосовано до кожного елемента набору даних точно один раз, навіть якщо працівники не впораються.
)

In [None]:
model.fit(
    x=None, # Вхідні дані
    y=None, # Цільові дані
    batch_size=None, #  Кількість зразків на оновлення градієнта
    epochs=1, # . Кількість епох для навчання моделі.
    verbose='auto', # режим докладності.
    callbacks=None, # Список зворотних викликів для застосування під час навчання.
    validation_split=0.0, # Частка даних навчання, які будуть використовуватися як дані перевірки.
    validation_data=None,  # Дані для оцінки втрат і будь-яких показників моделі в кінці кожної епохи
    shuffle=True, # Цей аргумент ігнорується, якщо x є генератором або об’єктом tf.data.Dataset.
    class_weight=None, # Додатковий словник, що відображає індекси класу (цілі числа) на значення ваги (float), що використовується для зважування функції втрат (лише під час навчання)
    sample_weight=None, # Додатковий масив ваг Numpy для навчальних зразків, що використовується для зважування функції втрат (лише під час навчання).
    initial_epoch=0, # Епоха, з якої розпочинається тренування (корисно для відновлення попереднього тренування).
    steps_per_epoch=None, # Загальна кількість кроків (пакетів зразків) до оголошення однієї епохи завершеною та початку наступної епохи.
    validation_steps=None, # Загальна кількість кроків (пакетів зразків) для малювання перед зупинкою під час виконання перевірки в кінці кожної епохи.
    validation_batch_size=None, # Кількість зразків на пакет перевірки
    validation_freq=1,  # Якщо ціле число, вказує, скільки епох навчання потрібно виконати перед тим, як буде виконано новий запуск перевірки
    max_queue_size=10, #Максимальний розмір черги генератора.
    workers=1, # Максимальна кількість процесів для розкручування при використанні потоків на основі процесів.
    use_multiprocessing=False # Якщо True, використовувати потоки на основі процесу.
)

# Зміна оптимізатора

## Нащо змінювати оптимізатор?

**Градієнтний вибух (Gradient Explosion)** і **градієнтне затухання (Gradient Vanishing)** - це два проблеми, які можуть виникати при навчанні нейронних мереж, особливо у глибоких архітектурах.

![alt text](https://miro.medium.com/v2/resize:fit:1400/1*EGWeyCcqVokP-XllKyPvVg.gif)

**Градієнтний вибух (Gradient Explosion):**

- Це ситуація, коли значення градієнтів стають дуже великими під час навчання. Це може відбутися, наприклад, під час зворотного поширення помилки, коли градієнти передаються назад через декілька шарів і помножуються на кожному кроці.
- Градієнтний вибух може призвести до розбіжності навчання, оскільки великі значення градієнтів можуть викликати перевантаження (overflow) числових типів даних і втрату стабільності процесу навчання.

**Градієнтне затухання (Gradient Vanishing):**

- Це протилежна проблема, коли значення градієнтів стають дуже малими під час навчання, особливо у глибоких архітектурах. Це може виникнути через декілька факторів, таких як велика кількість шарів, використання активаційних функцій з малим градієнтом (наприклад, сигмоїдальна або тангенс гіперболічний), або низька швидкість навчання.
- Градієнтне затухання може призвести до того, що ваги моделі не оновлюються або оновлюються дуже повільно, що призводить до повільного навчання або навіть до того, що модель не навчається взагалі.

https://www.comet.com/site/blog/vanishing-exploding-gradients-in-deep-neural-networks/

https://medium.com/dscier/how-to-deal-with-vanishing-and-exploding-gradients-in-neural-networks-24eb00c80e84

## SGD

Оптимізатор **SGD (Stochastic Gradient Descent)** є одним з найпоширеніших методів оптимізації у машинному навчанні. Формула для оновлення ваг моделі за допомогою оптимізатора SGD можна записати наступним чином:

$$w_{нове} = w_{поточне} - LearningRate * ∇J(w_{поточне}) $$

$w_{нове}$ - нове значення параметра ваги,

$w_{поточне}$ - поточне значення параметра ваги,

$LearningRate$ - швидкість навчання (learning rate), яка визначає, наскільки швидко модель навчається

$∇J$ - градієнт функції втрат $J$ відносно параметра ваги $w_{поточне}$

$∇J$ обчислюється шляхом знаходження похідних функції втрат за кожним параметром ваги відносно вхідних даних.

https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/experimental/SGD


In [4]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01) # Компіляція моделі з оптимізатором SGD
# optimizer = tf.keras.optimizers.experimental.SGD(learning_rate=0.01)
model.compile(optimizer=optimizer,
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])


model.fit(train_images, train_labels, epochs=5)

test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.9412999749183655


**Переваги SGD:**

- Простота: Алгоритм SGD є відносно простим у реалізації та розумінні. Це один з основних алгоритмів оптимізації, який зазвичай вивчається в курсах з машинного навчання.
- Ефективність на великих наборах даних: SGD може бути ефективним на великих наборах даних, оскільки він оновлює параметри моделі по частинам даних, що дозволяє швидше навчати модель.
- Можливість уникнути локальних мінімумів: Завдяки стохастичності та випадковому вибору партій даних, SGD може допомогти уникнути застрягання в локальних мінімумах функції втрат.

**Недоліки SGD:**

- Нестійкість: SGD може бути нестійким, оскільки він може змінювати напрямок оновлення на кожному кроці. Це може призвести до мінливого навчання та ускладнити збіжність алгоритму.
- Швидкість збіжності: У порівнянні з більш складними методами оптимізації, SGD може мати меншу швидкість збіжності, особливо на багатовимірних та складних просторах параметрів.
- Чутливість до гіперпараметрів: Швидкість навчання (learning rate) впливає на швидкість збіжності та стабільність алгоритму SGD. Встановлення відповідного значення learning rate може бути нетривіальною задачею, і невірне значення може призвести до поганої збіжності або розбіжності.

## SGDMomentum

**SGD з моментом (SGD with Momentum)** - це вдосконалена версія стохастичного градієнтного спуску (SGD), яка дозволяє розглядати не тільки поточний градієнт, але й попередні оновлення ваг для керування швидкістю та напрямком оптимізації.

$$w_{нове} = w_{поточне} - LearningRate * ∇J(w_{поточне}) * momentum $$
$$ momentum =β⋅v_t+(1−β)$$

$v_t$ -  швидкість оновлення (момент).

$β$ -  коефіцієнт моменту, який зазвичай має значення від 0 до 1.

In [5]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9) # Компіляція моделі з оптимізатором SGDMomentum
model.compile(optimizer=optimizer,
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])


model.fit(train_images, train_labels, epochs=5)

test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.9746000170707703


**Переваги:**

- Прискорення збіжності: Момент допомагає прискорити процес збіжності, особливо в областях з поганим градієнтом або в узких мінімумах функції втрат.

- Стабільність швидкості навчання: Момент допомагає зберегти стабільну швидкість навчання в напрямку найшвидшого спуску.

- Зменшення збурень: Момент зменшує вплив великих або випадкових градієнтів, дозволяючи більш стабільний та менш шумний процес оптимізації.

**Недоліки:**

- Необхідність налаштування параметрів: Параметр моменту (momentum) потрібно налаштовувати, і невірно обране значення може призвести до повільного навчання або нестабільності.

- Можливість втрати величини градієнта: При неправильному налаштуванні параметра моменту може виникнути ситуація, коли швидкість навчання стає занадто великою або занадто малою, що може призвести до втрати важливих градієнтів та повільного навчання.

## SGDNesterov (SGD with Nesterov Momentum/SGD with Nesterov Accelerated Gradient)

**SGD з Nesterov Accelerated Gradient (SGD with Nesterov Momentum)** є варіацією алгоритму стохастичного градієнтного спуску (SGD) з моментом, яка використовує оновлення градієнту, враховуючи не тільки поточе значення градієнту, але і "передбачене" значення градієнту в майбутньому. Це допомагає алгоритму здійснювати оновлення в напрямку, що можливо більш точно вказує на глобальний мінімум функції втрат.


$$w_{нове} = w_{поточне} - β⋅v_t + LearningRate * ∇J(w_{поточне}- β⋅v_t) $$

$v_t$ -  швидкість оновлення (момент).

$β$ -  коефіцієнт моменту, який зазвичай має значення від 0 до 1.

$w_{поточне}- β⋅v_t$ - "передбачене" значення градієнту в майбутньому

In [6]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9, nesterov=True)
model.compile(optimizer=optimizer,
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Тренування моделі
model.fit(train_images, train_labels, epochs=5)

# Оцінка моделі на тестових даних
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.9746999740600586


**Переваги:**

- Швидше збіжність: Nesterov Momentum може прискорити процес навчання, оскільки враховується "передбачене" значення градієнту в майбутньому. Це дозволяє алгоритму краще орієнтуватися в напрямку оптимізації і швидше знаходити локальні мінімуми.

- Більш стабільне навчання: Використання Nesterov Momentum допомагає зменшити вплив великих градієнтів, що дозволяє більш стабільно навчати модель, особливо на великих даних або в глибоких нейронних мережах.

- Менше затримок у навчанні: За рахунок використання "передбаченого" значення градієнту в майбутньому, Nesterov Momentum може допомогти уникнути затримок у навчанні, коли градієнти мають велику дисперсію.

**Недоліки:**

- Необхідність налаштування параметрів: Як і в інших алгоритмах оптимізації, для досягнення оптимальних результатів необхідно належним чином налаштувати параметри, такі як коефіцієнт моменту і швидкість навчання.

- Підвищена обчислювальна складність: Nesterov Momentum вимагає обчислення "передбаченого" значення градієнту в майбутньому, що може призвести до додаткових обчислювальних витрат порівняно зі звичайним методом SGD з моментом.

- Підвищена чутливість до шуму: В деяких випадках Nesterov Momentum може бути більш чутливим до шуму в даних, оскільки враховує "передбачені" значення градієнту. Це може призвести до менш стійкої поведінки алгоритму на деяких наборах даних.

![alt text](https://miro.medium.com/v2/resize:fit:1027/1*6MEi74EMyPERHlAX-x2Slw.png)

https://towardsdatascience.com/learning-parameters-part-2-a190bef2d12

## Adagrad

**Adagrad (Adaptive Gradient Algorithm)** - це адаптивний алгоритм оптимізації, який адаптує швидкість навчання (learning rate) для кожного параметра ваги на основі історії градієнтів, що оновлюється. **Чим більше флуктуацій в даних тим меньше стає шаг.**.

$$ \omega_{t+1,i} = \omega_{t,i} - \frac{\text{learning_rate}}{\sqrt{G_{t,ii} + \epsilon}} \cdot g_{t,i}$$

$\omega_{t,i}$- поточне значення параметра ваги i на кроці t,

$\text{learning_rate}$ - швидкість навчання (learning rate),

$g_{t,i}$ - градієнт функції втрат відносно параметра ваги i на кроці t,

$G_{t,ii}$ - накопичений квадрат градієнтів для параметра ваги i до кроку t,

$\epsilon$ - додатковий параметр для стабілізації.

In [7]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])
#optimizer = tf.keras.optimizers.experimental.Adagrad(learning_rate=0.01)
optimizer = tf.keras.optimizers.Adagrad(learning_rate=0.01)
model.compile(optimizer=optimizer,
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Тренування моделі
model.fit(train_images, train_labels, epochs=5)

# Оцінка моделі на тестових даних
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.9520999789237976


https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/experimental/Adagrad

**Переваги:**

- Адаптивність швидкості навчання: Adagrad використовує історію градієнтів для адаптації швидкості навчання для кожного параметра ваги. Це дозволяє більш точно налаштовувати швидкість навчання для кожного параметра залежно від його історії оновлень.

- Ефективне навчання для рідкісних функцій втрат: Adagrad добре працює з рідкісними функціями втрат, оскільки великі градієнти автоматично зменшують свої швидкості навчання, тоді як малим градієнтам надається більше уваги.

- Відсутність необхідності вручну налаштовувати швидкість навчання: Оскільки швидкість навчання адаптується автоматично для кожного параметра, немає потреби вручну налаштовувати її.

**Недоліки:**

- Накопичення квадратів градієнтів: Adagrad накопичує квадрати градієнтів в знаменнику під час навчання. Це може призвести до зростання значень цього знаменника з часом, що призводить до уповільнення швидкості навчання з часом і може викликати проблему великих значень швидкості навчання, особливо для рідкісних функцій втрат.

- Потенційний розрив у навчанні: Оскільки знаменник Adagrad накопичує квадрати градієнтів, великі значення квадратів градієнтів можуть призводити до дуже малих або навіть нульових значень швидкості навчання, що може призвести до зупинки навчання.

- Неадекватна швидкість навчання для поганих градієнтів: Швидкість навчання для параметрів з великими градієнтами може стати надто мала, що призведе до повільного навчання для цих параметрів.

## Adadelta

**Adadelta** - це адаптивний алгоритм оптимізації, який є вдосконаленням Adagrad. Він вирішує деякі недоліки Adagrad, зокрема проблему накопичення квадратів градієнтів у знаменнику, що може призводити до зменшення швидкості навчання з часом. Основні ідеї Adadelta полягають у тому, щоб обмежити обсяг історії градієнтів, зберігаючи тільки обмежену кількість попередніх оновлень.

$$ \omega_{t+1,i} = \omega_{t,i} - \frac{\text{learning_rate}}{\sqrt{G_{t,ii} + \epsilon}} \cdot g_{t,i}$$

$$G_{t,ii} = ρ*G_{t-1,ii} + (1-ρ)g_{t,i}^2 $$

$ρ$ - швидкість ослаблення [0:1]

https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/experimental/Adadelta

In [8]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])
#optimizer = tf.keras.optimizers.experimental.Adadelta(learning_rate=1.0)
optimizer = tf.keras.optimizers.Adadelta(learning_rate=1.0, rho = 0.95)
model.compile(optimizer=optimizer,
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Тренування моделі
model.fit(train_images, train_labels, epochs=5)

# Оцінка моделі на тестових даних
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.975600004196167


**Переваги Adadelta:**

- Безпека швидкості навчання: Adadelta автоматично адаптує швидкість навчання для кожного параметра, що дозволяє покращити стабільність та збіжність алгоритму.

- Відсутність необхідності вручну налаштовувати гіперпараметри: Відсутність необхідності налаштовувати гіперпараметр швидкості навчання робить Adadelta менш чутливим до вибору гіперпараметрів.

- Ефективне навчання для рідкісних функцій втрат: Алгоритм Adadelta ефективний для рідкісних функцій втрат через адаптивну швидкість навчання.

**Недоліки Adadelta:**

- Потенційний розрив у навчанні: Як і Adagrad, Adadelta може стикається з проблемою зменшення швидкості навчання з часом, що може впливати на швидкість збіжності.

- Підвищена обчислювальна складність: Обчислення квадратів градієнтів та попередніх оновлень може призвести до додаткових обчислювальних витрат.

## RMSProp

**RMSProp (Root Mean Square Propagation)** - це адаптивний алгоритм оптимізації, який використовує інформацію про середньоквадратичне значення попередніх градієнтів для адаптації швидкості навчання. Він був розроблений для розв'язання проблеми зниження швидкості навчання в алгоритмі Adagrad, що виникає при великих кількостях оновлень.

$$\omega_{t+1,i} = \omega_{t,i} - \frac{\text{learning_rate}}{\sqrt{E[g^2]_t + \epsilon}} \cdot g_{t,i}$$

$$E[g^2]_t = \rho \cdot E[g^2]_{t-1} + (1 - \rho) \cdot g^2_t $$

$E[g^2]_{t}$ - середнє квадратичне значення градієнтів на кроці t,

https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/experimental/RMSprop

In [9]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])
#optimizer = tf.keras.optimizers.experimental.RMSprop(learning_rate=0.01, rho=0.95)
optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.01, rho=0.95)
model.compile(optimizer=optimizer,
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Тренування моделі
model.fit(train_images, train_labels, epochs=5)

# Оцінка моделі на тестових даних
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.9620000123977661


**Переваги RMSProp:**

- Адаптивна швидкість навчання: RMSProp використовує інформацію про середнє квадратичне значення попередніх градієнтів для адаптації швидкості навчання. Це дозволяє алгоритму більш ефективно навчати модель, особливо на великих наборах даних або в глибоких нейронних мережах.

- Відсутність проблеми зниження швидкості навчання: Використання експоненційного згладжування дозволяє RMSProp уникнути проблеми зниження швидкості навчання в алгоритмі Adagrad.

- Відносно простий алгоритм: RMSProp є відносно простим алгоритмом оптимізації, що легко імплементувати та налаштовувати.

**Недоліки RMSProp:**

- Залежність від початкових значень градієнтів: RMSProp може бути чутливим до початкових значень градієнтів, особливо якщо вони дуже великі або дуже малі.

- Підвищена обчислювальна складність: Обчислення квадратів градієнтів та їх середніх може призвести до підвищеної обчислювальної складності, особливо на великих наборах даних або в глибоких мережах.

## Adam


**Adam (Adaptive Moment Estimation)** - це адаптивний алгоритм оптимізації, який комбінує ідеї алгоритмів RMSProp та Momentum. Він використовує експоненціально згладжені оцінки градієнту та квадрату градієнту для адаптивного налаштування швидкості навчання для кожного параметра.



$$\omega_{t+1} = \omega_t - \frac{learning_rate * \hat{m}_t} {(\sqrt{\hat{v}_t} + \epsilon))}$$

$$\hat{m}_t = \frac{\beta_1*m_{t-1}+(1-\beta_1)*g_t}{1-\beta^t_1}$$
$$\hat{v}_t = \frac{\beta_2*v_{t-1}+(1-\beta_2)*g^2_t}{1-\beta^t_2}$$

$\hat{m}_t$ - виправлена оцінка першого моменту (середнє експоненціальне градієнтів),

$\hat{v}_t$ - виправлена оцінка другого моменту (середнє експоненціальне квадратів градієнтів),

$m_t$ - експоненціально згладжена оцінка градієнту,

$v_t$ - експоненціально згладжена оцінка квадрату градієнту,

$\beta_1, \beta_2$ - коефіцієнти згладжування (зазвичай 0.9 та 0.999 відповідно),

https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam

In [10]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

optimizer = tf.keras.optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-7)
model.compile(optimizer=optimizer,
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Тренування моделі
model.fit(train_images, train_labels, epochs=5)

# Оцінка моделі на тестових даних
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Точність на тестових даних:', test_acc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Точність на тестових даних: 0.977400004863739


**Переваги Adam:**

- Адаптивна швидкість навчання: Adam автоматично адаптує швидкість навчання для кожного параметра, що дозволяє ефективно навчати модель у великих масштабах або у глибоких нейронних мережах.
- Ефективність: Adam комбінує переваги алгоритмів RMSProp та Momentum, що дозволяє швидше збіжність навчання та більш ефективну оптимізацію.
- Відносно низька чутливість до вибору гіперпараметрів: Adam зазвичай працює добре з різними значеннями гіперпараметрів, що дозволяє позбутися необхідності вручну налаштовувати їх.

**Недоліки Adam:**

- Потреба у пам'яті: Adam вимагає збереження додаткових параметрів для обчислення експоненціально згладжених оцінок, що може призвести до більшого використання пам'яті, особливо при обробці великих даних або глибоких моделей.

# Сallbacks

**Callback-функції** в TensorFlow - це інструмент, який дозволяє виконувати певні дії на різних етапах навчання моделі, таких як початок чи закінчення епохи, кожна ітерація навчання тощо. Вони використовуються для моніторингу, збереження моделі, а також для визначення зупинки навчання в залежності від деяких умов.

https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/Callback

1. ModelCheckpoint: Збереження моделі під час навчання. Цей колбек дозволяє зберегти модель у файлі після кожної епохи або при кращих результатів на валідаційному наборі даних.



In [11]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
# https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/ModelCheckpoint
# Створення callback-функції ModelCheckpoint
checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(filepath='best_model.h5',
                                                          monitor='val_accuracy',
                                                          save_best_only=True,
                                                          verbose=1)

# Тренування моделі з використанням ModelCheckpoint
model.fit(train_images, train_labels, epochs=5, validation_data=(test_images, test_labels),
          callbacks=[checkpoint_callback])

Epoch 1/5
Epoch 1: val_accuracy improved from -inf to 0.95790, saving model to best_model.h5
Epoch 2/5
  42/1875 [..............................] - ETA: 6s - loss: 0.1672 - accuracy: 0.9524

  saving_api.save_model(


Epoch 2: val_accuracy improved from 0.95790 to 0.96860, saving model to best_model.h5
Epoch 3/5
Epoch 3: val_accuracy improved from 0.96860 to 0.97550, saving model to best_model.h5
Epoch 4/5
Epoch 4: val_accuracy did not improve from 0.97550
Epoch 5/5
Epoch 5: val_accuracy improved from 0.97550 to 0.97890, saving model to best_model.h5


<keras.src.callbacks.History at 0x7a521b5782b0>

2. EarlyStopping: Зупинка навчання, якщо покращення на валідаційному наборі даних не спостерігається протягом певної кількості епох.



In [12]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
# https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/EarlyStopping
early_stopping_callback = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=1)

# Тренування моделі з використанням EarlyStopping
model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels),
          callbacks=[early_stopping_callback])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10


<keras.src.callbacks.History at 0x7a521b5667a0>

3. TensorBoard: Запуск TensorBoard, щоб візуалізувати метрики навчання та структуру моделі.



In [13]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
# https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/TensorBoard
# Створення callback-функції TensorBoard
tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir='./logs', histogram_freq=1,write_graph=True, write_images=False)

# Тренування моделі з використанням TensorBoard
model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels),
          callbacks=[tensorboard_callback])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x7a5220e45030>

![alt text](https://i.stack.imgur.com/t7nhp.png)

4. LearningRateScheduler: Зміна швидкості навчання в залежності від поточного епохи.



In [None]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/LearningRateScheduler
# Функція для регулювання швидкості навчання
def lr_schedule(epoch):
    if epoch < 5:
        return 0.01
    elif epoch < 10:
        return 0.001
    else:
        return 0.0001
# Створення callback-функції LearningRateScheduler
lr_scheduler_callback = tf.keras.callbacks.LearningRateScheduler(lr_schedule)

# Тренування моделі з використанням LearningRateScheduler
model.fit(train_images, train_labels, epochs=15, validation_data=(test_images, test_labels),
          callbacks=[lr_scheduler_callback])


Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
 427/1875 [=====>........................] - ETA: 6s - loss: 0.0693 - accuracy: 0.9775

5. CSVLogger: Запис метрик навчання у CSV-файл.



In [15]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/CSVLogger
# Створення callback-функції CSVLogger
csv_logger_callback = tf.keras.callbacks.CSVLogger(filename='training_log.csv')

# Тренування моделі з використанням CSVLogger
model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels),
          callbacks=[csv_logger_callback])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x7a522108fdc0>


6. ReduceLROnPlateau: Зменшення швидкості навчання, якщо покращення на валідаційному наборі даних не спостерігається протягом певної кількості епох.

In [16]:
import tensorflow as tf

# Завантаження даних
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0

# Створення та компіляція моделі
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/ReduceLROnPlateau
# Створення callback-функції ReduceLROnPlateau
reduce_lr_callback = tf.keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=2, min_lr=0.0001)
'''
У цьому прикладі, якщо протягом 2 епох покращення на валідаційному наборі не буде спостережено,
швидкість навчання буде зменшена у 5 разів (factor=0.2).
Це допомагає у збільшенні стабільності та збіжності під час навчання моделі.
'''
# Тренування моделі з використанням ReduceLROnPlateau
model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels),
          callbacks=[reduce_lr_callback])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x7a5221101ae0>

# Практичний нотбук

https://www.kaggle.com/code/yassineghouzam/introduction-to-cnn-keras-0-997-top-6/notebook