## Нестандартные подходы
* "Навешивать" на модель дополнительные лоссы, то есть минимизировать одновременно несколько функций потерь.
* Обучать параллельно на нескольких датасетах и/или несколько моделей. Например, GAN
* Следить за тем, что происходит в процессе обучения 

https://www.tensorflow.org/guide/keras/making_new_layers_and_models_via_subclassing

In [25]:
from tensorflow.keras import Model, layers, Sequential
from tensorflow import keras
import tensorflow as tf
import numpy as np
from keras.metrics import sparse_categorical_accuracy
from itertools import permutations

In [14]:
(X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()

X_train = X_train.reshape(-1, 28*28)/255
X_test = X_test.reshape(-1, 28*28)/255

In [21]:
class CustomModel(Model):

    def __init__(self):
        super(CustomModel, self).__init__()
        self.hidden_layers = [layers.Dense(784, 'relu') for _ in range(2)]
        self.head = layers.Dense(10, 'softmax')
    
    # def call(self, input, training=None, order=None):
    #     output = input
    #     order = order or np.random.choice(range(2), 2, replace=False)
    #     for layer_idx in order:
    #         output = self.hidden_layers[layer_idx](output)
    #     return self.head(output)
    
    def call_hidden_layers_in_order(self, input, order):
        # note
        # Если мы не передаём в .compile() параметры run_eagerly=True, 
        # то метод .call() вызывается только один раз и строит статический граф вычислений. 
        # Поэтому такой метод наоборот существенно ускорит обучение и инференс сети.
        output = input
        for layers_idx in order:
            output = self.hidden_layers[layers_idx](output)
        return output
    
    def call(self, input, training=None, order=None):
        if order:
            output = self.call_hidden_layers_in_order(input, order)
        else:
            all_possible_orders = list(permutations(range(len(self.hidden_layers)))) # self.hidden_layers_count
            all_outputs_dict = {order: self.call_hidden_layers_in_order(input, order) for order in all_possible_orders}
            all_outputs = tf.stack(list(all_outputs_dict.values()))
            index = tf.random.uniform((), minval=0, maxval=len(all_outputs), dtype=tf.int32)
            output = all_outputs[index]
        return self.head(output)

In [22]:
model = CustomModel()
model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam', metrics='accuracy',
              run_eagerly=True)
model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=20, batch_size=1024)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.src.callbacks.History at 0x11aa5c16be0>

In [23]:
# сделаем два предсказания: сначала запустим скрытые слои в одном порядке, затем - в обратном

preds1 = model(X_test, order=[0, 1]).numpy()
preds2 = model(X_test, order=[1, 0]).numpy()

assert not np.array_equal(preds1, preds2)
print(np.mean(sparse_categorical_accuracy(y_test, preds1)))
print(np.mean(sparse_categorical_accuracy(y_test, preds2)))
print(np.mean(sparse_categorical_accuracy(y_test, preds1 + preds2)))

# Можно одну нейронку исользовать как ансамбль, запуская для предсказания слои в разном направлении, потом усреднив

0.9358
0.982
0.9759


## Кастомизация цикла обучения

* Получаем на вход батч данных
* Получаем предсказание модели в режиме обучения и расчиываем loss. <br>
Эти операции мы делаем в контексте объекта tf.GradientTape(), чтобы затем получить градиенты.
* У каждой модели есть параметр .trainable_variables, в котором хранится список тензоров, являющихся обучаемыми весами модели. Мы обращаемся к этому параметру.
* Получаем значения градиентов для тензоров trainable_vars из объекта tf.GradientTape()
* Передаем веса и градиенты оптимизатору, который обновляет веса, используя градиенты.
* В последних двух строках метода train_step работаем с метриками.

In [26]:
class CustomSequential(Sequential):

    def train_step(self, data):
        x, y = data
        with tf.GradientTape() as tape:
            y_pred = self(x, training=True)
            loss = self.compiled_loss(y, y_pred, regularization_losses=self.losses)
        trainable_vars = self.trainable_variables
        gradients = tape.gradient(loss, trainable_vars)
        self.optimizer.apply_gradients(zip(gradients, trainable_vars))
        self.compiled_metrics.update_state(y, y_pred)
        return {m.name: m.result() for m in self.metrics}

In [27]:
model = CustomSequential([
    layers.InputLayer((28*28),),
    layers.Dense(784, 'relu'),
    layers.Dense(784, 'relu'),
    layers.Dense(10, 'softmax')
])

In [28]:
model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam', metrics=['accuracy'])

In [30]:
model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=20, batch_size=1024)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.src.callbacks.History at 0x11ad61d4520>