# Ćwiczenia 03 - Sieci głębokie

Trenowanie sieci o większej liczbie warstw wymaga stosowania odpowiednich technik aby zapobiec wystąpieniu problemu *zanikających/eksplodujących gradientów*:

1. Dobór odpowiedniej funkcji aktywacji i strategii inicjalizacji wag:
    - Jako funkcję aktywacji można stosować ReLU i jej warianty,
    - Strategia inicjalizacji wag zależy od funkcji aktywacji. Dla ReLU odpowiednia będzie `he_normal`/`he_uniform`.
2. Batch Normalization:
    - Polega na normalizacji i skalowaniu wyjść warstwy.
    - Warstwę `BatchNormalization` można dodać bezpośrednio po normalizowanej warstwie lub przed funkcją aktywacji.

## Przykład 

In [1]:
import tensorflow as tf

model = tf.keras.Sequential()

model.add(tf.keras.Input(shape=(32, 32, 3)))
model.add(tf.keras.layers.Flatten())

model.add(tf.keras.layers.Dense(512, activation="relu", kernel_initializer="he_normal"))
model.add(tf.keras.layers.BatchNormalization())

model.add(tf.keras.layers.Dense(256,  kernel_initializer="he_normal"))
model.add(tf.keras.layers.BatchNormalization())
model.add(tf.keras.layers.Activation("relu"))

model.add(tf.keras.layers.Dense(10, activation="softmax"))

model.compile(optimizer=tf.keras.optimizers.Nadam(learning_rate=0.001),
              loss="sparse_categorical_crossentropy",
              metrics=["accuracy"])

## Zadania
Stwórz model głęboki do klasyfikacji zbioru [CIFAR-10](https://www.cs.toronto.edu/~kriz/cifar.html).
1. Stwórz sieć posiadającą 20 warstw ukrytych po 100 neuronów.
2. Ustaw w warstwach sieci parametry `activation="sigmoid"` i `kernel_initializer="random_normal"`. Nie stosuj żadnych innych metod normalizacji. Zaobserwuj problem zanikacjących gradientów.
3. Porównaj działanie sieci z zadania 2 z siecią, która stosuje `activation="relu"` i `kernel_initializer="he_normal"`.
4. Zastosuj metodę batch normalization do każdej warstwy sieci. Stwórz wykres krzywych uczenia dla danych treningowych/walidacyjnych. Porównaj szybkość uczenia i jakość modeli.
5. Porównaj krzywe uczenia i jakość modeli stworzonych przy pomocy różnych optymalizatorów (`SGD`, `Adam`, `Nadam`, ...).

In [2]:
from sklearn.model_selection import train_test_split
import tensorflow as tf

(X_train_full, y_train_full), (X_test, y_test) = tf.keras.datasets.cifar10.load_data()

X_train, X_valid, y_train, y_valid = train_test_split(
    X_train_full, y_train_full, test_size=0.1, random_state=1)

X_train, X_valid, X_test = X_train / 255., X_valid / 255., X_test / 255.