# Sieci Neuronowe - Laboratorium 5. Regularyzacja

## Regularyzacja


#### Regresja - błąd średniokwadratowy
Przyjmijmy, że mamy regresję jednowymiarową (wtedy $f(X_i|\theta), Y_i \in \mathbb{R}$) lub wielowymiarową (wtedy $f(X_i), Y_i \in \mathbb{R}^m$)
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N \| f(X_i|\theta) - Y_i \|_2^2 + \Omega(\theta)
$$


    theanets.Regresor

##### Regularyzacja L$^2$
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N \| f(X_i|\theta) - Y_i \|_2^2 + \tfrac{\alpha}{2}\|\theta\|_2^2
$$

##### Regularyzacja L$^1$
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N \| f(X_i|\theta) - Y_i \|_2^2 + \alpha\|\theta\|_1
$$

    theanets.Regressor, weight_l2=..., weight_l1=...

#### Klasyfikacja - błąd entropii krzyżowej (błąd logistyczny)
Przyjmijmy że mamy `m` klas i `m` neuronów wyjściowych
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N -\log \frac{\exp(f_{Y_i}(X_i|\theta))}{\sum_{k=1}^m \exp(f_k(X_i|\theta))} + \Omega(\theta)
$$

    theanets.Classifer

##### Regularyzacja L$^2$
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N -\log \frac{\exp(f_{Y_i}(X_i|\theta))}{\sum_{k=1}^m \exp(f_k(X_i|\theta))} + \tfrac{\alpha}{2}\|\theta\|_2^2
$$

##### Regularyzacja L$^1$
$$
\mathcal{L}(\theta| X, Y) = \tfrac{1}{N} \sum_{i=1}^N -\log \frac{\exp(f_{Y_i}(X_i|\theta))}{\sum_{k=1}^m \exp(f_k(X_i|\theta))} + \alpha\|\theta\|_1
$$    

    theanets.Classifier, weight_l2=..., weight_l1=...

#### Pytania do dyskusji:

* Dlaczego te dwie funkcje regularyzacji są najbardziej popularne?
* Czy patrząc na nie przychodzi wam na myśl jakaś prosta inna funkcja regularyzacji? Jaka? Jakie miałaby cechy?
* Jaka jest różnica pomiędzy tymi regularyzacjami?
    

### Zadania

Załaduj zbiór z projektu 1, podziel go w proporcjach 3:1 na zbiór trenujący i testujący. Zbuduj sieć neuronową z jedną warstwą ukrytą (np. 1000 neuronów) i spróbuj ją nauczyć.

* Czy sieć się rozsądnie uczy? Dlaczego? Jak sobie z tym poradzić?
* Poeksperymentuj z różnymi wartościami funkcji regularyzacji, czy potrafisz osiągnąć wynik ~79%?


In [77]:
from sklearn.datasets import load_svmlight_file
from sklearn.linear_model import Perceptron
from sklearn.preprocessing import normalize
from matplotlib import pyplot as plt
import numpy as np
import warnings
import pickle

warnings.filterwarnings('ignore')

X, y = load_svmlight_file('data/task1.train')
X = normalize(X)
X = X.toarray()
y = y.reshape(y.shape[0],1)

In [78]:
from sklearn.cross_validation import train_test_split
a_train, a_test, b_train, b_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [79]:
print a_train.shape, a_test.shape, b_train.shape, b_test.shape
print X.shape, y.shape

(647, 1850) (319, 1850) (647, 1) (319, 1)
(966, 1850) (966, 1)


In [80]:
print type(X[0][0])


<type 'numpy.float64'>


In [86]:
import theanets
from sklearn.metrics import accuracy_score

exp = theanets.Experiment(theanets.feedforward.Regressor,
                    layers=(a_train.shape[1],1000,1),
                    optimize='sgd',
                    activation='tanh')

d = []
for iters, (train, valid) in enumerate(exp.itertrain((a_train, b_train), optimize='sgd', 
                                                    learning_rate=0.1, momentum=0.1,hidden_l2=0.5,
                                                    patience=1)):
        print iters
        tr = 1.0 - accuracy_score(b_train, exp.network.predict(a_train).astype(int), normalize=True)
        te = 1.0 - accuracy_score(b_test, exp.network.predict(a_test).astype(int), normalize=True)
        print iters, "error on training set: %7.4f" % tr
        print iters, "error on testing set: %7.4f" % te

0
0 error on training set:  1.0000
0 error on testing set:  1.0000
1
1 error on training set:  1.0000
1 error on testing set:  1.0000
2
2 error on training set:  1.0000
2 error on testing set:  1.0000
3
3 error on training set:  1.0000
3 error on testing set:  1.0000
4
4 error on training set:  1.0000
4 error on testing set:  1.0000
5
5 error on training set:  1.0000
5 error on testing set:  1.0000


In [None]:
1000 w ukrytej
135 error on training set:  0.5966
135 error on testing set:  0.6176
136
136 error on training set:  0.5920
136 error on testing set:  0.6082
137
137 error on training set:  0.8068
137 error on testing set:  0.8088
138
138 error on training set:  0.5750
138 error on testing set:  0.6332
139
139 error on training set:  0.7311
139 error on testing set:  0.7524



In [None]:
przy regularyzacji 
hidden_l1=0.1, patience=1)):
WTF???
0 error on training set:  1.0000
0 error on testing set:  1.0000
1
1 error on training set:  1.0000
1 error on testing set:  1.0000
2
2 error on training set:  1.0000
2 error on testing set:  1.0000
3
3 error on training set:  1.0000
3 error on testing set:  1.0000
4
4 error on training set:  1.0000
4 error on testing set:  1.0000

In [None]:
hidden_l1=0.1,hidden_l2=0.5,
 error on training set:  1.0000
0 error on testing set:  1.0000
1
1 error on training set:  1.0000
1 error on testing set:  1.0000
2
2 error on training set:  1.0000
2 error on testing set:  1.0000

In [None]:
hidden_l2=0.5,
0
0 error on training set:  1.0000
0 error on testing set:  1.0000
1
1 error on training set:  1.0000
1 error on testing set:  1.0000
2
2 error on training set:  1.0000
2 error on testing set:  1.0000
3
3 error on training set:  1.0000
3 error on testing set:  1.0000
4
4 error on training set:  1.0000
4 error on testing set:  1.0000
5
5 error on training set:  1.0000
5 error on testing set:  1.0000