# Sieci neuronowe. Podstawy
## 1. Podstawowe pojęcia

ML – skrót pojęcia Machine Learning

DL – skrót pojęcia Deep Learning

model – sieć neuronowa używana do rozwiązania konkretnego przykładu

sieć neuronowa – inaczej zwana NN, Neural Network, podstawowy budulec algorytmów Deep Learningowych, który na bazie dostarczonych wejść, uczy się np. klasyfikować obiekty, wyznaczać, gdzie dany obiekt się znajduje itp.

warstwa wejściowa – input layer, pierwsza warstwa sieci neuronowej. To do niej docierają dane wejściowe, które są następnie propagowane dalej

warstwa wyjściowa – output layer, ostatnia warstwa sieci neuronowej, która dostarcza odpowiednie wyjście, np. wartości prawdopodobieństwa poszczególnych klas (czy dany obiekt to kot, pies czy czołg)

hidden layer – wszystkie warstwy pomiędzy warstwą wejściową oraz wyjściową sieci. To tam dzieje się cała magia sieci neuronowej

funkcja aktywacyjna – activation function – to dzięki niej nasza sieć nie jest modelem liniowym, który tylko przekazuje dane wejściowe i mnoży je przez odpowiednie współczynniki. Wprowadza nieliniowość do naszego modelu. Bez nieliniowości nie ma sieci neuronowych

optymalizator – optimizer – obiekt służący do nauki naszej sieci neuronowej poprzez odpowiednie modyfikowanie wag poszczególnych elementów sieci

ML framework – określenie na bibliotekę używaną do stworzenia/nauki sieci neuronowej

funkcja błędu – loss function, loss – funkcja mówiąca nam, jak bardzo nasze wartości są niezgodne z oczekiwanymi wartościami. Na bazie jej obliczeń odbywa się korekcja wag przez optimizer

forward propagation – przekazywanie danych od wejścia do wyjścia sieci

back propagation – propagacja wsteczna, główny mechanizm szkolenia sieci neuronowej. Na bazie wyników loss function przy pomocy odpowiednich metod matematycznych wagi naszej sieci są modyfikowane, przez co osiągany jest efekt uczenia się. Szczegóły matematyczne tej tematyki są poza zakresem tego kursu.

Gradient Descent – metoda optymalizacji sieci neuronowych używana przez optimizer.

### Podstawowe frameworki do szkolenia sieci neuronowych, ich plusy i minusy

Podstawowym językiem programowania w ML i DL jest Python, choć istnieje też wsparcie dla innych języków.

R – język stosowany głównie w przypadku statystyki, Big Data oraz Data Science (inne gałęzie ML skupiające się na analizie danych oraz wyciąganiu wniosków)

C/C++ – język, w którym większość frameworków ma napisane swoje "bebechy". Istnieje możliwość stosowania go do pisania algorytmów ML, lecz jest to uciążliwe

Julia – raczkujący język, który cieszy się zainteresowaniem. Łączy prostotę działania Pythona oraz szybkość C/C++ (Python jest bardzo wolny w porównaniu do C/C++). Ponieważ jest to język w fazie rozwoju, nie istnieje zbyt duża baza gotowych bibliotek, a zatem tworzenie bardziej zaawansowanych rzeczy wymaga dobrej znajomości matematyki oraz działania poszczególnych trybików w sieci neuronowej

Python – podstawowy język w DL, używany przez zdecydowaną większość programistów ML. Posiada bardzo rozbudowaną bazę dostępnych bibliotek oraz gotowych rozwiązań

Frameworki pozwalające na tworzenie, szkolenie oraz używanie sieci neuronowych. Na rynku obecnie są dwa dominujące produkty, obydwa są darmowe:

TensorFlow – Potocznie zwany tf, framework stworzony przez Google na potrzeby wewnętrzne. Obecnie w wersji 2.x. Przed jej wprowadzeniem było to bardzo toporne narzędzie, wymagające dokładnej wiedzy, co i jak chcemy zrobić, gdzie przesłać itp. Obecnie framework jest przyjemny w użytkowaniu, jednak przy chęci zrobienia zaawansowanych rzeczy, również trzeba mieć sporą wiedzę i umiejętności. Swój sukces zawdzięcza wchłonięciu innego frameworka – Kerasa. Jest powszechnie stosowany w industrialnych rozwiązaniach oraz poszukiwany przez pracodawców.

PyTorch – framework początkowo rozwijany jako 3rd party project, czyli niepowiązany z żadną firmą. Dopiero niedawno został wchłonięty przez Facebooka i od tego momentu jest rozwijany pod jego skrzydłami. Od kilku miesięcy rośnie jego dominacja w badaniach oraz pracach naukowych. Wiąże się to z tym, że jest bardzo prosty w obsłudze, banalnie się w nim prototypuje oraz ma mniejszy próg wejścia niż TensorFlow. Jest jednak rzadziej stosowany w industrialnych rozwiązaniach.

pozostałe frameworki to de facto nakładki na dwa powyższe np. Fastai, Darknet.

## 2. Budowa sieci neuronowej — część I

Sieć neuronowa to kalkulator wykonujący obliczenia na wielowymiarowych macierzach i wektorach.

Macierz można rozumieć jako tablicę a wektor jako listę liczb. Obliczenia na macierzach i wektorach sprowadzają się zatem do odpowiednich sekwencji obliczeń na tych liczbach i prowadzą do powstania innych macierzy i wektorów.

### Funkcje aktywacyjne

Funkcja aktywacyjna wprowadza nieliniowość do naszego modelu, przez co pasuje on do o wiele szerszej klasy problemów. Zasada działania jest następująca:

Zmodyfikuj sygnał wejściowy w zależności od jego wartości, wykonując operację matematyczną zależną od danej funkcji aktywacyjnej.

Najbardziej powszechne funkcje aktywacyjne to:
- sigmoid
- sofmtax
- relu
- tanh
- leakyrelu
- swish
- mish

## 3. Budowa sieci neuronowej — część II

Dwa sposoby używania optimizerów

Sposób 1. Każdy optimizer posiada swoją nazwę, która go w pełni identyfikuje. Aby go użyć z domyślnymi parametrami, wystarczy podczas kompilacji modelu jako optimizer wpisać tę nazwę.

In [None]:
#przykładowy optimizer z tensorflow
tf.keras.optimizers.Adam(
    learning_rate=0.001,
    beta_1=0.9,
    beta_2=0.999,
    epsilon=1e-07,
    amsgrad=False,
    name='Adam',
    **kwargs
)

# przekazujemy nazwę, która identyfikuje nasz optimizer
model.compile(optimizer='adam', ...)

Sposób 2. Jeżeli chcemy zmienić jakąkolwiek wartość (np. learning_rate), powinniśmy przekazać nowy obiekt optimizera do metody compile.

In [None]:
# tworzymy obiekt typu Adam z naszym learning rate
adam_optim = keras.optimizers.Adam(learning_rate=0.0001)

# tworzymy model
# ...

# przekazujemy obiekt zamiast nazwy
model.compile(optimizer=adam_optim, ...)

# szkolimy model
# ...

### Schedulers

In [None]:
model.fit(
    ...,
    callbacks=[
        tf.keras.callbacks.LearningRateScheduler(wlasna_funkcja)
    ]
)

Schedulers

Najprostszym sposobem, aby uzyskać zmianę learning_rate jest ustawienie parametru decay w optimizerach (jest to parametr klasy bazowej, więc trzeba go szukać tutaj).

In [None]:
adam_opt = keras.optimizers.Adam(lr=0.01, decay=1e-5)

Exponential scheduling ze stałą wartością learning_rate – zmiana wartości learning_rate wykładniczo:

def exponential_decay_fn(epoch):
    return 0.05 * 0.2**(epoch / 10)

Exponential scheduling z wartością zależną od aktualnego learning_rate:

In [None]:
def exponential_decay_fn(epoch, current_lr):
   return current_lr * 0.2**(epoch / 10)

Scheduler zależny od numeru epoki:
- dla pierwszych epok ustaw duża wartość
- dla epok do 20 ustaw mniejszą wartość
- dla pozostałych ustaw małą wartość

In [None]:
def const_scheduler(epoch):
    if epoch < 10:
        return 0.05
    elif epoch < 20:
        return 0.005
    else:
        return 0.0005

### Loss Functions – funkcje błędu

Użyta funkcja błędu

W TensorFlow są dwie bardzo podobne funkcje błędu:

- sparse_categorical_corssentropy

- categorical_crossentropy

Główna różnica pomiędzy wersjami ze 'sparse' oraz bez jest następująca: w przypadku funkcji błędów ze słówkiem 'sparse', nasze labels, czyli klasy wyjściowe, muszą być liczbą całkowitą: [1, 0, 2].

Znaczy to tyle, że:

- pierwszy obrazek jest klasy 1
- drugi obrazek jest klasy 0
- trzeci obrazek jest klasy 2

W naszym przypadku labels są w formie:

In [None]:
print(labels)

# [9 0 0 ... 3 0 5]

Zatem mamy podane za pomocą pojedynczej liczby, do jakiej klasy należy dane zdjęcie.

W przypadku funkcji błędów bez słówka 'sparse', nasze labels musiałyby być w formie tzw. one-hot encoded, czyli wektora uzupełnionego samymi zerami, z wyjątkiem naszej klasy, która miałaby wartość 1.

W przypadku naszej pierwszej próbki:

- wersja 'sparse' miałaby wartość 9
- wersja bez 'sparse' miałaby wartość [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]

Aby zamienić nasze wyjścia na formę akceptowaną przez metody bez 'sparse' możemy użyć f.keras.utils.to_categorical(), jak na poniższym przykładzie:

In [None]:
print("spase: ", labels[0])
one_hot_label = tf.keras.utils.to_categorical(labels[0])
print("one hot encoded ", one_hot_label)

Otrzymamy:

In [None]:
spase:  9
one hot encoded  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]

Jeżeli chcemy przekonwertować dane z formatu one-hot encoded do 'sparse', należy użyć np.argmax:

In [None]:
np.argmax(one_hot_label) # należy pamiętać o axis=1 jeśli konwertujemy całą listę

Stosować 'sparse', czy nie? Nie ma zbyt dużej różnicy w prostych przypadkach. Pojawia się ona, gdy chcemy używać bardziej zaawansowanych funkcji błędu plus np. metody label smoothing, ale jeśli chodzi o zakres tego kursu, nie ma to najmniejszego znaczenia.

Warto pamiętać tylko, że zasadniczym powodem stosowania one-hot encoding jest zapewnienie, że numerując, nie wprowadzamy sztucznych powiązań między kategoriami (na przykład porządku).


Dwa sposoby używania loss functions

Sposób 1. Każda funkcja posiada swoją wbudowaną nazwę, którą możemy wpisać, aby uzyskać loss function z domyślną konfiguracją np.

In [None]:
tf.keras.losses.CategoricalCrossentropy(
    from_logits=False,
    label_smoothing=0,
    reduction=losses_utils.ReductionV2.AUTO,
    name='categorical_crossentropy'
)

#przekazujemy nazwę, która identyfikuje naszą funkcję
model.compile(..., loss='categorical_crossentropy)

Sposób 2. Jeżeli chcemy zmienić jakąkolwiek wartość parametru (np. from_logits), zamiast nazwy musimy stworzyć obiekt funkcji i przekazać go do naszej metody uczącej zamiast nazwy.

In [None]:
# tworzymy obiekt CategoricalCrossEntropy
loss_fn = tf.keras.losses.CategoricalCrossentropy(from_logits=True)

# tworzymy model
# ...

# przekazujemy obiekt zamiast nazwy
model.compile(..., loss=loss_fn)

# szkolimy model
#...

Jest to sytuacja analogiczna jak w przypadku optimizerów.

## 4. Podstawowe warstwy sieci neuronowych
### Dense Layer

In [None]:
import tensorflow as tf

dense_layer = tf.keras.layers.Dense(32)

# albo bardziej dosłownie

dense_layer = tf.keras.layers.Dense(units=32)

### Flatten Layer

In [None]:
flatten = tf.keras.layers.Flatten()

### Tworzenie sieci neuronowej w TensorFlow

In [None]:
output = nasz_model(dane_wejsciowe)

input_data = tf.ones((16, 3, 3))

In [None]:
import tensorflow as tf
import tensorflow.keras.layers as layers

#stworzenie modelu

# sposób pierwszy

seq_model = tf.keras.Sequential()

# input_shape jest niewymagane, lecz pozwala powiedzieć,
# "chcę mieć taki rozmiar danych wejściowych", co pozwala
# uniknąć głupich pomyłek w stylu: przekazujemy inny rozmiar,
# bo zapomnieliśmy np. zmniejszyć obrazów wejściowych

seq_model.add(layers.Flatten(input_shape=[3, 3]))
seq_model.add(layers.Dense(16, name="input_layer"))
seq_model.add(layers.Dense(32, name="hidden_layer"))
seq_model.add(layers.Dense(4, name="output_layer"))

#sposób drugi

seq_model_2 = tf.keras.Sequential([
    layers.Flatten(),
    layers.Dense(16, name="input_layer"),
    layers.Dense(32, name="hidden_layer"),
    layers.Dense(4, name="output_layer")
])

# uruchomienie naszego modelu z wygenerowanymi danymi
output = seq_model_2(input_data)
print(output)

In [None]:
import numpy as np
import tensorflow as tf

train, test = tf.keras.datasets.fashion_mnist.load_data()

# wydobycie obrazów oraz labelek
images, labels = train

# normalizacja wartości pikseli (maks. wartość
# wynosi 255.0, czyli aby znormalizować nasze dane,
# musimy podzielić każdy piksel przez maks. wartość)
images = images/255.0

# zapisujemy dane jako int
labels = labels.astype(np.int32)

In [None]:
dataset = tf.data.Dataset.from_tensor_slices(list_pythonowa)

In [None]:
import tensorflow as tf
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = \
    train_test_split(images, labels, test_size=0.1)

# stworzenie zbioru typu Dataset z naszej listy
train_ds = tf.data.Dataset.from_tensor_slices((X_train, y_train))

# ustawienie batch_size na 32 oraz przetasowanie na bazie 1000 próbek
train_ds = train_ds.shuffle(1000).batch(32)

In [None]:
f_mnist_model = tf.keras.Sequential([
    # spłaszczanie obrazka do wektora jednowymiarowego
    layers.Flatten(),

    layers.Dense(300, activation='relu'),
    layers.Dense(150, activation='relu'),

    # ostatnia warstwa posiada tyle neuronów ile mamy klas
    layers.Dense(10, activation='softmax')
])

In [None]:
tf.keras.Sequential([
    layers.Flatten(input_shape=[24, 24]),
    ...
])

In [None]:
f_mnist_model.summary()

### Kompilacja modelu

In [None]:
f_mnist_model.compile(
    loss='sparse_categorical_crossentropy',
    optimizer='adam',
    metrics=['accuracy']
)

### Szkolenie modelu

In [None]:
train_stats = f_mnist_model.fit(train_ds, epochs=10, verbose=1)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

pd.DataFrame(train_stats.history).plot(figsize=(8, 5))
plt.grid(True)
plt.gca().set_ylim(0, 1)
plt.show()

In [None]:
y_pred = f_mnist_model.predict(X_test)
print("probs : ", y_pred[2])
print("klasa :", np.argmax(y_pred[2]))
print("rzeczywista klasa: ", y_test[2])

"""
probs :  [4.0548810e-15 1.0000000e+00 9.3477974e-17 5.3090128e-13 7.5702587e-15
 5.9295928e-25 2.1536054e-11 3.4459677e-24 2.8725664e-16 2.4974258e-22]
klasa : 1
rzeczywista klasa:  1
"""

### Functional API do stworzenia modelu w TensorFlow

In [None]:
# stworzenie wejścia

input = tf.keras.Input(shape=X_train.shape[1:])

# możemy wypisać, co ta warstwa przyjmuje - jest to rozmiar
# naszego obrazka bez batch_size (który ma wartość None)
print(input)

# spłaszczenie wejścia
input_flat = layers.Flatten(input_shape=[28,28])(input)

# nasza kolejna warstwa jest typu Dense, jak poprzednio, ale od razu
# i bezpośrednio przekazujemy jej wejście, tak jak funkcji w Pythonie:
hidden_1 =layers.Dense(320, activation='relu', name="hidden_1")(input_flat)
hidden_2 =layers.Dense(150, activation='relu', name="hidden_2")(hidden_1)

# złączamy wyniki z obu warstw za pomocą warstwy typu Concatenate
concat_layer = layers.Concatenate()([input_flat, hidden_2])
output = layers.Dense(10, activation='softmax')(concat_layer)

# tworzymy model, przekazując mu co ma być naszymi wyjściami, a co wejściami
model_res = tf.keras.Model(inputs=[input], outputs=[output])

# podsumowanie naszego modelu
model_res.summary()

In [None]:
# pamiętajmy, aby nie dodawać pierwszego wymiaru (batch_size)
text = np.array([["ala ma kota"]])

In [None]:
text = np.array([["ala ma kota"]])

input_1 = tf.keras.Input(shape=text.shape[1:])
input_2 = tf.keras.Input(shape=X_train.shape[1:])

# nasza kolejna warstwa jest typu Dense, jak poprzednio,
# ale od razu przekazujemy jej wejście, tak jak funkcji w Pythonie
hidden_1 =layers.Dense(320, activation='relu')(input_1)
hidden_2 =layers.Dense(150, activation='relu')(hidden_1)

# złączamy wyniki naszych warstw za pomocą warstwy
# typu Concatenate podając jako argumenty input_1 oraz hidden_2
concat_layer = layers.Concatenate()([input_1, hidden_2])
output = layers.Dense(10, activation='softmax')(concat_layer)

# tworzymy model, przekazując mu co ma być naszymi wyjściami, a co wejściami
model = tf.keras.Model(inputs=[input_1, input_2], outputs=[output])

# podsumowanie naszego modelu
model.summary()

In [None]:
# kompilacja
model_res.compile(
    loss='sparse_categorical_crossentropy',
    optimizer='adam',
    metrics=['accuracy']
)

#szkolenie na takich samych danych jak poprzednio
train_stats = model_res.fit(train_ds, epochs=10, verbose=1)

In [None]:
X_train, X_test, y_train, y_test = \
    train_test_split(images, labels, test_size=0.1, random_state=10, stratify=labels)