# Sieci Neuronowe - Laboratorium 4. Wybór funkcji kosztu

## Regresja czy klasyfikacja?


#### Regresja - błąd średniokwadratowy
Przyjmijmy, że mamy regresję jednowymiarową (wtedy $f(X_i|\theta), Y_i \in \mathbb{R}$) lub wielowymiarową (wtedy $f(X_i|\theta), Y_i \in \mathbb{R}^m$)
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N \| f(X_i|\theta) - Y_i \|_2^2 
$$


    theanets.Regresor


#### Klasyfikacja - błąd entropii krzyżowej (błąd logistyczny)
Przyjmijmy że mamy `m` klas i `m` neuronów wyjściowych gora -> wyjscie neuronu maksymalizujemy po wszystkich wyjsciach neuronow wyjsciowych stricte klasyfikacja
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N -\log \frac{\exp(f_{Y_i}(X_i|\theta))}{\sum_{k=1}^m \exp(f_k(X_i|\theta))}
$$

    theanets.Classifer
    


#### Pytania do dyskusji:

* Dlaczego te dwie funkcje kosztu są najbardziej popularne?
* Czy patrząc na nie przychodzi wam na myśl jakaś prosta inna funkcja kosztu? Jaka? Jakie miałaby cechy?
* Jaka jest różnica pomiędzy tymi kosztami? W ogólności? A dla problemu binarnego?
    

### Zadania

Stwórz trzy architektury i przetestuj je w problemie rozpoznawania pisma:

* Model regresji z jednym neuronem wyjściowem
* Model regresji z `m` neuronami wyjściowymi (kodowanie klas one-hot-encoding)
* Model klasyfikacji  z `m` neuronami wyjściowymi (kodowanie klas one-hot-encoding)

1) dokonczyc
2) przyjrzyj sie projektowi 2 i koncowemu


## Analiza procesu uczenia

Przy użyciu `theanets` oraz naszego zbioru danych (możesz zredukować go do mniejszej liczby przykładów żeby zwiększyć szybkość działania) przeprowadź eksperyment, w którym po każdej iteracji procesu uczenia sieci neuronowej sprawdzasz jaki wynik osiąga ona na zbiorze uczącym oraz jaki na zbiorze testującym. Zaprezentuj wynik tego eksperymentu w postaci wykresów (zależności czasu od accuracy). Najlepiej twórz wykres co określoną liczbę iteracji żeby powstawał on na bieżąco.

In [53]:
from sklearn.metrics import accuracy_score
import theanets
from scipy.io import loadmat
import numpy as np
from sklearn.cross_validation import train_test_split
import matplotlib.pyplot as plt


D = loadmat('data/ex3data1.mat')
X, y = D['X'], D['y']


#y=y.ravel() # y musi być wektorem, a nie macierzą (5000, 1)
#y = y.reshape(y.shape[0],1)
y[y == 10] = 0
print X.shape, y.shape

a_train, a_test, b_train, b_test = train_test_split(X, y, test_size=0.5)

x = X[0]
#b = b_train.ravel()
#print a_train.shape[1]
exp = theanets.Experiment(
#    theanets.recurrent.Regressor,
#     layers=(a_train.shape[1], 
#             10, 
#             10)
#     )
theanets.feedforward.Regressor,
                    layers=(400,10,1),
                    optimize='sgd',
                    activation='tanh')

d = []
for iters, (train, valid) in enumerate(exp.itertrain((a_train, b_train), optimize='sgd', 
                                                    learning_rate=0.1, momentum=0.1,
                                                    patience=1)):
        print iters
        tr = 1.0 - accuracy_score(b_train, exp.network.predict(a_train).astype(int), normalize=True)
        te = 1.0 - accuracy_score(b_test, exp.network.predict(a_test).astype(int), normalize=True)
        print iters, "error on training set: %7.4f" % tr
        print iters, "error on testing set: %7.4f" % te
        plt.figure()
        d.append(tr)
        plt.plot(d)
        plt.savefig('wyk.png')

(5000, 400) (5000, 1)
0
0 error on training set:  0.6696
0 error on testing set:  0.6752
1
1 error on training set:  0.6880
1 error on testing set:  0.6772
2
2 error on training set:  0.6204
2 error on testing set:  0.6020
3
3 error on training set:  0.6020
3 error on testing set:  0.6252
4
4 error on training set:  0.6152
4 error on testing set:  0.5944
5
5 error on training set:  0.6008
5 error on testing set:  0.5928
6
6 error on training set:  0.7524
6 error on testing set:  0.7332
7
7 error on training set:  0.4956
7 error on testing set:  0.5120
8
8 error on training set:  0.4804
8 error on testing set:  0.4908
9
9 error on training set:  0.4716
9 error on testing set:  0.4892
10
10 error on training set:  0.4664
10 error on testing set:  0.4920
11
11 error on training set:  0.8208
11 error on testing set:  0.8092
12
12 error on training set:  0.5052
12 error on testing set:  0.5244
13
13 error on training set:  0.7844
13 error on testing set:  0.7744
14
14 error on training set:

#### Pytania analityczne / do dyskusji

* Co się dzieje gdy zmienisz wielkość warstwy ukrytej na np. `10`? A jeśli na `2000`? 
* Jak wyglądają te wykresy dla modeli regresji i klasyfikacji? 
* Skąd takie zależności? 
* Czy potrafisz wydzielić jakieś sekcje w obserwowanych wykresach?

In [None]:
216 error on training set:  0.0312
216 error on testing set:  0.0940 neurony 10 w warstwie ukrytej
warstwa 200, strasznie dlugo liczy i jakby szybciej zbiega przy 60 iteracji mam juz 0.08 i  0.10 i na trenujacym wiekszy
blad, ale mniejsza roznica wzgledem testujacego:
216 error on training set:  0.0312
216 error on testing set:  0.0896


### Przykładowe rezultaty


#### Regresja 10 neuronów

<img src="files/SN4_img/10reg.png" width="600">

#### Klasyfikacja 10 neuronów

<img src="files/SN4_img/10cla.png" width="600">

#### Regresja 100 neuronów

<img src="files/SN4_img/100reg.png" width="600">

#### Klasyfikacja 100 neuronów

<img src="files/SN4_img/100cla.png" width="600">

#### Regresja 1000 neuronów

<img src="files/SN4_img/1000reg.png" width="600">

#### Klasyfikacja 1000 neuronów

<img src="files/SN4_img/1000cla.png" width="600">