# Metoda spadku gradientu (gradient descent)

Mamy problem optymalizacyjny: szukamy parametru $\theta$, dla którego funkcja $f(\theta)$ przyjmuje wartość najmniejszą.

Algorytm:

Iteracyjnie poprawiamy wartość parametru według wzoru:

$$\theta_{new} = \theta_{old} - learning\_rate * \frac{df}{d\theta}$$

Dlaczego tak?
- gdy funkcja dla danego $\theta$ jest rosnąca, to pochodna jest dodatnia, więc przesumamy się w lewo,
- gdy funkcja dla danego $\theta$ jest malejąca, to pochodna jest ujemna, więc przesumamy się w prawo.

W skrócie: sprawdzamy w którą stronę funkcja maleje i tam się przesywamy - tym dalej im nachylenie większe.

<img src="Grafika/gradient_descent1.png" width="400">

Źródło: https://hackernoon.com/gradient-descent-aynk-7cbe95a778da


W przypadku funkcji wielu zmiennych np. dwóch - $f(x_1, x_2)$:

$$\frac{df}{dx} = grad(f) = \big[\frac{df}{dx_1}, \frac{df}{dx_2}\big].$$

<img src="Grafika/gradient_descent2.png" width="400">

Źródło: https://hackernoon.com/gradient-descent-aynk-7cbe95a778da

<img src="Grafika/gradient_descent3.png" width="400">

Źródło: https://towardsdatascience.com/gradient-descent-in-a-nutshell-eaf8c18212f0

Uczenie odbywa się w "epokach" - jedna epoka to aktualizaja wartosci parametru na podstawie całego zbioru obserwacji.

## Gradient descent:
$$ Cost(\theta) = \frac{1}{n} \sum\limits_{i=1}^n f(x_i,y_i,\theta)$$
$$\theta_k = \theta_k - learning\_rate * \frac{dCost}{d\theta_k}$$

## Stochastic gradient decsent - SGD:


$$ Cost(\theta) = \frac{1}{r} \sum\limits_{i \in \{ i_1, ..., i_r \}} f(x_i,y_i,\theta),$$ $$ \ \ \text{gdzie} \ \ \{ i_1, ..., i_r \} - \text{losowy podzbiór obserwacji}$$
$$\theta_i = \theta_i - learning\_rate * \frac{dCost}{d\theta_i}$$

w skrócie, jeśli $$\theta = \theta - learning\_rate \cdot grad(Cost),$$

gdzie "grad" oznacza gradient: $grad(f) = [\frac{df}{d\theta_1}, \frac{df}{d\theta_2}, \ldots, \frac{df}{d\theta_k}]$.


Powtarzamy to wielokrotnie tak, żeby każda obserwacja została wykorzystana jeden raz - w praktyce mieszamy losowo kolejność obserwacji i bierzemy kolejne podzbiory - np. dla "batcha" wielkości 10, uczymy kolejno na obserwacjach od 1 do 10, od 11 do 20, itd.. Przejście po całych danych to jedna *epoka*.

SGD jest fundamentalnym algorytmem uczenia sieci neuronowych wszelkiego rodzaju. (W praktyce stosowane są różne jego modyfikacje)

<img src="Grafika/stochastic_gradient_descent.png" width="400">


Żródło: Melki, Gabriella. (2016). Fast Online Training of L1 Support Vector Machines. 10.13140/RG.2.1.1944.4087. 

# Neuron

<img src="Grafika/neuron.jpg" width="500">

Źródło: https://cdn-images-1.medium.com/max/1600/0*l4ohhbrwQ5MGvmGc.jpg

<br>

## Matematyczny model neuronu


<img src="Grafika/perceptron.gif" width="400">
Źródło: http://blog.zabarauskas.com/img/perceptron.gif

$\sigma(\cdot)$ - funkcja aktywacji

## $\sigma(x) = \frac{1}{1+\exp{(-x)}}$

W praktyce popularne są trzy funkcje aktywacji:

- sigmoid
- tangens hiperboliczny
- RELU: $relu(x) = \max{(x,0)}$.

### Neuron zastosowany jako klasyfikator:  Perceptron

Dla sigmoidalnej funkcji aktywacji perceptron to po prosu regresja logistyczna, tylko uczona metodą spadku gradientu.

W sklearn: `sklearn.linear_model.SGDClassifier`

# Wielowarstwowa sieć neuronowa

(*Multilayer perceptron*, *feedforward neural network*)


<img src="Grafika/MLP.jpg" width="700">
Źródło: https://www.intechopen.com/source/html/39071/media/f2.jpg


**Uwaga:** "Input layer" pomimo tego, że ma w nazwie słowo "warstwa", to tak naprawdę to nie jest żadna warstwa sieci... To są po prostu dane wejściowe... Przyjęło się~literaturze
nazywanie tego w ten sposób, co może być mylące.


Sieci uczy się poprzez minimalizację funkcji kosztu (entropię w przypadku klasyfikacji - to samo co w regresji logistycznej; błędu średniokwadratowego w przypadku regresji; (można używać również innych funkcji)) metodą spadku gradientu (pewnymi wariantami tej metody). Uczenie wykorzystuje algorytm **propagacji wsteczej** (https://en.wikipedia.org/wiki/Backpropagation).

**Uwaga!** Sieci neuronowe absolutnie zawsze wymagają zestandaryzowanych danych! Niezależnie od tego czy wykorzystujemy regularyzację czy nie i niezależnie od typu sieci!


## Wizualizacja obszarów decyzyjnych w zależności od liczby neuronów

### (sieć jednowarstwowa)

<img src="Grafika/nn-from-scratch-hidden-layer-varying-655x1024.png" width="700">
Źródło: http://d3kbpzbmcynnmx.cloudfront.net/wp-content/uploads/2015/09/nn-from-scratch-hidden-layer-varying-655x1024.png


### Fakt matematyczny: jednowarstwową siecią możemy otrzymać dowolny kształt. 

Co z tego wynika? To, że (teoretycznie) zawsze wystarczy sieć jednowarstwowa (odpowiednio duża). W praktyce rzeczywiście z reguły wystarcza jedna warstwa, ale mimo wszystko zawsze warto sprawdzić czy 2 (lub 3) nie zadziałają przypadkiem lepiej. Przy czym jeżeli dla dwóch warstw jest gorzej, to nie ma sensu sprawdzać dla większej liczby.

In [4]:
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

## Sieć neuronowa w sklearn

In [9]:
dataset = np.loadtxt('Dane/pima-indians-diabetes.data', delimiter=",")

X = dataset[:,0:8]
Y = dataset[:,8]

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33)

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)


from sklearn.neural_network import MLPClassifier

model = MLPClassifier((20,10))
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: %.2f%%" % (accuracy * 100.0))

Accuracy: 76.77%


# Keras - biblioteka do pracy z sieciami neuronowymi

In [11]:
from keras.models import Sequential
from keras.layers import Dense

Using TensorFlow backend.


Konstrukcja sieci neuronowej mającej trzy warstwy o liczbach neuronów 100,50,10 i funkcji aktywacji sigmoid:

In [17]:
model = Sequential()
model.add(Dense(100,activation="sigmoid",input_shape=(X.shape[1],)))
model.add(Dense(50,activation="sigmoid"))
model.add(Dense(10,activation="sigmoid"))
model.add(Dense(1,activation="sigmoid"))
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_5 (Dense)              (None, 100)               900       
_________________________________________________________________
dense_6 (Dense)              (None, 50)                5050      
_________________________________________________________________
dense_7 (Dense)              (None, 10)                510       
_________________________________________________________________
dense_8 (Dense)              (None, 1)                 11        
Total params: 6,471
Trainable params: 6,471
Non-trainable params: 0
_________________________________________________________________


Kompilacja, uczenie i predykcja:

In [18]:
model.compile(loss="binary_crossentropy",optimizer="adam",metrics=["accuracy"])
model.fit(X_train,y_train,batch_size=32,epochs=3)
model.predict_classes(X_test)[:3]

Epoch 1/3
Epoch 2/3
Epoch 3/3


array([[0],
       [0],
       [0]], dtype=int32)

## Regularyzacje w sieciach neuronowych

1) Kara za wielkości wag (np. regularyzacja L2):

$$Objective = Cost + \alpha\sum w_i^2$$


2) Dropout:

<img src="Grafika/dropout.jpeg" width="500">

Źródło: http://cs231n.github.io/neural-networks-2/


W praktyce zatrzymujemy uczenie sieci przy użyciu "early stopping" - oceniamy sieć po każdej epoce i przerywamy uczenie, jeśli model już się nie poprawia.

In [21]:
from keras.regularizers import l2
from keras.layers import Dropout
from keras.callbacks import EarlyStopping, ModelCheckpoint

In [None]:
model = Sequential()
model.add(Dense(5,activation="relu",input_shape=(X_train.shape[1],),kernel_regularizer=l2(0.01)))
model.add(Dropout(0.5))
model.add(Dense(1,activation="sigmoid",kernel_regularizer=l2(0.01)))
model.add(Dropout(0.5))
model.compile(loss="binary_crossentropy",optimizer="adam",metrics=["accuracy"])

early_stopping = EarlyStopping(patience=3)

# zapiszemy model z najlepszej epoki:
save_best_model = ModelCheckpoint("wagi_best.h5py",save_best_only=True)


model.fit(X_train,y_train, 
          batch_size=32, 
          validation_split=0.3,
          epochs=100,
          callbacks=[early_stopping,save_best_model])


# wczytujemy model z najlepszej epoki:
model.load_weights("wagi_best.h5py")
model.evaluate(X_test,y_test)