# Wprowadzenie do Uczenia Maszynowego

W tym ćwiczeniu poznamy podstawowe metody używane do regresji i klasyfikacji. Zwykle korzystamy z metod wysokiego poziomu do wykonywania tych obliczeń, ale co tak naprawdę one robią w tle?

Do wykonywania tych obliczeń warto używać sensownej bibliteki matematycznej wydajnie implementującą obliczenia takie jak mnożenie i sumowanie macierzy. My w tym celu użyjemy biblioteki Tensorflow, która została stworzona przede wszystkim po to żeby usprawnić proces projektowania głębokich sieci neuronowych.

Zacznijmy od zaimportowania numpy i Tensorflow:

In [2]:
%pylab inline
import tensorflow as tf
import random

Populating the interactive namespace from numpy and matplotlib


## Tajna funkcja

Do tego ćwiczenia wymyślimy sobie jakąś prostą funkcję liniową:

\begin{equation}
y = x \cdot 10 - 7
\end{equation}

Nikomu nie powiemy co to jest za funkcja, ale wyliczmy na jej podstawie  przykładowe wartości.

Zaimplementuj powyższą funkcję w pythonie:

In [3]:
def func(x):
  return x*10 - 7

Teraz stwórz jednowymiarową macierz 100 rzeczywistych liczb losowych i zapisz ją pod nazwą `data_X`. Potem użyj tych wartości do wyliczenia odpowiadających im wartości powyższej funkcji i zapisz w zmiennej `data_y`.

In [4]:
data_x = [random.random() for x in range(0,100)]
data_y = [func(x) for x in data_x]
data_y

[-3.8327809055912034,
 -5.781911257142275,
 -1.1779235666671628,
 -4.780633167719378,
 -1.7817033334843293,
 -2.1689424427672677,
 0.12952938390742919,
 -0.8843464532594174,
 -6.941997866272988,
 -6.265718385584244,
 -5.042063955730211,
 0.6396747305243551,
 0.11148494146942589,
 0.6496188096304083,
 -4.766018514121135,
 -6.575567742751064,
 1.91578530455757,
 -0.1912207870737479,
 -4.724223686473403,
 2.485138150027952,
 -0.6862206916935234,
 -0.5512606006515304,
 1.3791809475854109,
 -6.545948259684054,
 2.205803059815139,
 -4.54087742211013,
 -1.3482976622193092,
 -3.597716070611115,
 -4.7640557327826984,
 0.7721638338883592,
 -3.4251806656291444,
 -6.546487832572401,
 2.580457780644638,
 -3.481014721351527,
 -5.529572062844508,
 1.9069359887214077,
 -4.540674064400262,
 -4.8646379658415055,
 -4.378916105984529,
 -3.971917773407167,
 -5.409738100242866,
 -5.819214374928276,
 1.0189315439073194,
 -3.481116052050454,
 1.0715857090710266,
 0.9895952379944806,
 -2.688415159672875,
 -6.0

Celem całego ćwiczenia będzie odtworzenie tej funkcji na podstawie przykładowych danych jakie wygenerowaliśmy. Do tego użyjemy "modelu", który będzie odpowiednio odzwierciedlał tą funkcję:

\begin{equation}
y = a \cdot x + b
\end{equation}

Czyli naszym zadaniem będzie odgadnięcie parametrów `a` i `b` z powyższego wzoru, które minimalizują błąd na przykładowych danych. Można to zrobić "strzlając" losowo aż nam się nie uda, ale dużo efektywniej będzie stosowanie jakiegoś algorytmu optymalizującego, np SGD.

## Pierwsze obliczenia w TF

Jeśli chcemy wyliczyć tą samą funkcję co wyżej, ale używając Tensorflow, musimy "opakować" zmienne w objekty typu `tf.Tensor`. Do stworzenia tych objektów używamy typów `tf.constant` i `tf.Variable`. Dla naszych ćwiczeń, dane wygenerowane wyżej będziemy traktować jako stałe, a parametry które chcemy wyliczyć (czyli wartości `a` i `b` tajnego wzoru) będziemy traktować jako zmienne.

Stwórz stałą dla macierzy `data_X` i nazwij ją `X`, a potem stwórz również zmienne `a` i `b` i zainicjuj je jakimiś losowymi wartościami rzeczywistymi. Napisz wzór na wyliczenie naszej funkcji:
```
y = a*X + b
```

i wypisz wynik na ekran: `print(y.numpy())`

In [5]:
X = tf.constant(data_x)
a = tf.Variable(random.random())
b = tf.Variable(random.random())
y = a*X + b
print(y.numpy())

[0.5578047  0.5141595  0.6172526  0.53658026 0.60373265 0.59506154
 0.6465292  0.6238264  0.4881827  0.50332606 0.53072625 0.6579525
 0.6461252  0.6581751  0.5369075  0.49638784 0.6865273  0.63934696
 0.5378434  0.6992763  0.6282629  0.6312849  0.6745116  0.4970511
 0.6930214  0.5419489  0.61343753 0.5630683  0.5369515  0.6609192
 0.5669317  0.49703902 0.7014108  0.56568146 0.5198099  0.6863291
 0.54195344 0.5346992  0.54557556 0.5546891  0.52249324 0.5133242
 0.66644484 0.5656792  0.6676239  0.66578794 0.58342946 0.50828075
 0.54143614 0.62117976 0.49600777 0.49056336 0.5992824  0.51137376
 0.6958323  0.53303164 0.67684156 0.597772   0.48928088 0.5202861
 0.68223536 0.5035575  0.49207428 0.4963978  0.5554757  0.50598276
 0.6815103  0.5522028  0.5849094  0.52146083 0.5964552  0.6506166
 0.66534543 0.50346243 0.58025324 0.59017974 0.53730917 0.5657598
 0.6779757  0.5908585  0.59959257 0.5421175  0.69454503 0.529799
 0.60854614 0.61045504 0.5763793  0.53143704 0.67168623 0.63375354
 0.67

## Wyliczenie błędu

Powyższe wyniki są oczywiście inne niż te, które mamy wyliczone za pomocą naszej tajnej funkcji. Możemy to oszacować wyliczając różnice między tym co nasz model wyliczył, a tym co powinien wyliczyć:

In [6]:
error = y - data_y
error

<tf.Tensor: shape=(100,), dtype=float32, numpy=
array([ 4.3905854 ,  6.296071  ,  1.7951761 ,  5.317213  ,  2.385436  ,
        2.764004  ,  0.51699984,  1.5081728 ,  7.4301805 ,  6.7690444 ,
        5.5727906 ,  0.01827776,  0.53464025,  0.00855631,  5.302926  ,
        7.0719557 , -1.2292581 ,  0.8305677 ,  5.262067  , -1.7858618 ,
        1.3144836 ,  1.1825454 , -0.7046693 ,  7.0429993 , -1.5127817 ,
        5.082826  ,  1.9617352 ,  4.1607842 ,  5.3010073 , -0.11124462,
        3.9921124 ,  7.0435266 , -1.8790469 ,  4.046696  ,  6.0493817 ,
       -1.2206068 ,  5.082628  ,  5.399337  ,  4.924492  ,  4.526607  ,
        5.9322314 ,  6.3325386 , -0.35248667,  4.0467954 , -0.40396178,
       -0.3238073 ,  3.2718444 ,  6.5527296 ,  5.105213  ,  1.6237214 ,
        7.088549  ,  7.326245  ,  2.579729  ,  6.417691  , -1.6355019 ,
        5.472141  , -0.8063924 ,  2.6456685 ,  7.3822355 ,  6.0285935 ,
       -1.0418789 ,  6.7589397 ,  7.2602797 ,  7.0715218 ,  4.4922657 ,
        6.653056

Pytanie jest czy to jest najlepsza metoda na wyliczenie błędu? Otóż jedną z najbardziej podstawowych i popularnych funkcji do tego zasotosowania jest tzw. błąd średnio-kwadratowy, albo po angielsku Mean Square Error (MSE). Powód dla którego stosujemy kwadrat błędu jest (m.in.) bardzo wygodna pochodna tej funkcji (o czym się przekonamy za chwilę), ale na wstępie spróbujmy wyliczyć tą liczbę używając TF.

Zacznijmy od dodania stałej dla macierzy `data_y` o nazwie `y_true`. Potem w jednej linii wylicz różnicę między powyższym `y` i nowym `y_true`, wynik podnieś do kwadratu (w Pythonie się używa składni `x**2`) i wylicz średnią z całości metodą `tf.reduce_mean`:

In [7]:
y_true = tf.constant(data_y)
MSE = tf.reduce_mean((y - y_true)**2)
MSE

<tf.Tensor: shape=(), dtype=float32, numpy=18.271381>

## Liczenie gradientu

Zależy nam na minimializacji tej funkcji błędu do wartości bardzo bliskiej zera. W tym celu użyjemy wartości pochodnej (tzw. gradientu) tej funkcji względem poszczególnych zmiennych (parametrów `a` i `b`) żeby ją odjąć od wartości tych parametrów (czyli iść w kierunku odwrotnym od gradientu) co nas doprowadzi do minimum tej funkcji.

Na tym etapie moglibyśmy po prostu wyliczyć wzór do pochodnej funkcji kosztu na kartce papieru i zaimplementować go tak jak to zrobiliśmy wyżej, ale ta metoda jest możliwa tylko dla najprostszych modeli i funkcji błędu. Na szczęście, okazuje się, że liczenie gradientu można robić całkowicie automatycznie i algorytmicznie. Jeśli możemy zdefiniować wzór gradientu dla każdego komponentu naszego grafu obliczeń, gradient całej funkcji można łatwo zdefiniować dzięki regule łańcuchowej (ang. chain rule).

W TF jest to realizowane na różne sposoby, w zależności od metody programowania jakiej używamy, ale na tym ćwiczeniu zasotsujemy coś co się nazywa `tf.GradientTape`. Jest to pewien objekt kontekstowy, który "rejestruje" wszystkie obliczenia i pozwala w dowolnym momemncie wyliczyć pochodną danej funkcji.

Dla przykładu zróbmy mały test na funkcji $y=x^2$:

1. stwórz kontekst gradientu poleceniem: `with tf.GradientTape() as g:`
2. w bloku ze wcięciem zacznij od stworzenia stałej `x` z wartością `3.0` (funkcje z gradientem w TF muszą być liczbami rzeczywistymi)
3. użyj gradientu żeby zarejestrować tą stałą poleceniem: `g.watch(x)`
4. wylicz wartość funkcji y: `y=x**2`
5. wypisz wartość `y` na ekran
6. wylicz gradient funkcji `y` w punkcie `x` poleceniem: `d=g.gradient(y,x)`
7. wpisz graident na ekran

Wartość wypisana na podstawie pkt 5 będzie 9.0 (czyli $3^2$), a wartość z pkt 7 będzie 6.0 (czyli $2\cdot3$, ponieważ pochodna funkcji $x^2$ jest $2x$):

In [8]:
with tf.GradientTape() as g:
  x = tf.constant(3.0)
  g.watch(x)
  y=x**2
  print(y)
  d=g.gradient(y,x)
  print(d)

tf.Tensor(9.0, shape=(), dtype=float32)
tf.Tensor(6.0, shape=(), dtype=float32)


## Łaczenie wszystkiego w całość

Zacznijmy od przekopiowania komponentów wyżej do jednego bloku. Skopiuj definicję stałych `X` i `y_true` oraz zmiennych `a` i `b`.

Zdefiniuj też wartość `alpha` równą 0.1, która będzie naszym współczynnikiem uczenia.

W nowym kontekście `tf.GradientTape`:
1. wylicz funkcję `y` na podstawie jej wzoru, tak jak wyżej
2. wylicz funkcję błędu MSE, też tak jak wyżej
3. wypisz wartość funkcji błędu na ekran
4. wylicz gradient funkcji błędu względem zmiennych `a` i `b` - zmienne te możesz podać razem w liście, w wyniku otrzymasz taką samą listę wartości gradientu
5. od poszczególnych zmiennych odejmij odpowiednie wartości gradientu pomnożone przez współczynnik uczenia `alpha`

Do wykonania ostatniego kroku użyj funkcji składowej `assign_sub`, czyli przykładowo: `a.assign_sub(grad[0]*alpha)`. 

Wypisz wartości zmiennych `a` i `b` przed i po modyfikacji gradientu oraz wylicz jeszcze raz funkcję błędu (w tym celu trzeba ponownie wyliczyć zarówno funkcję `y` jak i samą funkcję błędu). Czy zmalała?

In [9]:
X = tf.constant(data_x)
y_true = tf.constant(data_y)

a = tf.Variable(random.random())
b = tf.Variable(random.random())
alpha = tf.constant(0.1)

with tf.GradientTape() as g:
  y = a*X + b
  MSE = tf.reduce_mean((y - y_true)**2)
  print(MSE.numpy())
  MSE_g = g.gradient(MSE, [a,b])
  print(MSE_g)
  a.assign_sub(MSE_g[0]*alpha)
  b.assign_sub(MSE_g[1]*alpha)
  print(a,b)

y = a*X + b
MSE = tf.reduce_mean((y - y_true)**2)
print(MSE.numpy())

18.463955
[<tf.Tensor: shape=(), dtype=float32, numpy=1.2436714>, <tf.Tensor: shape=(), dtype=float32, numpy=6.5285125>]
<tf.Variable 'Variable:0' shape=() dtype=float32, numpy=0.36031905> <tf.Variable 'Variable:0' shape=() dtype=float32, numpy=-0.18379337>
14.549464


## Pętla trenująca

Teraz skopiuj cały ten kod do bloku poniżej, ale usuń z niego ponowne wyliczanie błędu i wypisywanie parametrów `a` i `b`.

Zamiast tego umieść cały kontekst gradientowy w pętli `for` odliczającej numery epok od 0 do 1000. W każdej iteracji pętli wypisz numer epoki, wypisz obecną wartość parametrów `a` i `b` oraz wartość funkcji błędu.

Po uruchomieniu pętli, powinieneś zauważyć, że wartość błędu maleje do 0, a wartośći `a` i `b` zbiegają do tych z samego początku tego ćwiczenia:

In [10]:
X = tf.constant(data_x)
y_true = tf.constant(data_y)
a = tf.Variable(random.random())
b = tf.Variable(random.random())
alpha = tf.constant(0.1)


for i in range(1000):
  with tf.GradientTape() as g:
    y = a*X + b
    MSE = tf.reduce_mean((y - y_true)**2)
    MSE_g = g.gradient(MSE, [a,b])
    a.assign_sub(MSE_g[0]*alpha)
    b.assign_sub(MSE_g[1]*alpha)
  print('Epoch {} MSE: {}, a: {}, b: {}'.format(i, MSE.numpy(), a.numpy(), b.numpy()))



Epoch 0 MSE: 21.258134841918945, a: 0.5924472808837891, b: 0.06450128555297852
Epoch 1 MSE: 16.085227966308594, a: 0.4977673888206482, b: -0.516962468624115
Epoch 2 MSE: 13.003863334655762, a: 0.4598079025745392, b: -0.9737657308578491
Epoch 3 MSE: 11.12716293334961, a: 0.46435779333114624, b: -1.3358534574508667
Epoch 4 MSE: 9.945537567138672, a: 0.5006526708602905, b: -1.6259257793426514
Epoch 5 MSE: 9.166152954101562, a: 0.5605405569076538, b: -1.8611913919448853
Epoch 6 MSE: 8.620694160461426, a: 0.6378492116928101, b: -2.054696798324585
Epoch 7 MSE: 8.212390899658203, a: 0.7279070615768433, b: -2.2163336277008057
Epoch 8 MSE: 7.8855671882629395, a: 0.8271797895431519, b: -2.353602409362793
Epoch 9 MSE: 7.6081624031066895, a: 0.9329948425292969, b: -2.472191095352173
Epoch 10 MSE: 7.361687183380127, a: 1.0433329343795776, b: -2.576413869857788
Epoch 11 MSE: 7.135443687438965, a: 1.1566698551177979, b: -2.669543743133545
Epoch 12 MSE: 6.923220634460449, a: 1.2718563079833984, b: -2.

## Bardziej ambitne zadanie - klasyfikacja wieloklasowa

Zamiast się bawić w proste funkcje i kilka parametrów, weźmy konkretny przykład. Z modułu `sklearn.datasets` użyj funkcji `load_wine()` i zapisz do zmiennej `data`.

Zaimportuj również metody `label_binarize` oraz `scale` z modułu `sklearn.preprocessing`:

In [11]:
import sklearn.datasets
from sklearn.preprocessing import scale, label_binarize

data = sklearn.datasets.load_wine()

Do zmiennej `data_X` wczytaj macierz `data['data']`, ale dodatkowo ją zamień na typ `float32` używając funkcji składowej `.astype()` i całość znormalizuj przepuszczając przez funkcję `scale()`.

Do zmiennej `data_y_lab` skopiuj tabelę `data['target']`, a potem dodatkowo do innej zmiennej `data_y` zapisz tą samą tabelę przetworzoną funkcją `label_binarize`. Jako drugi parametr tej funkcji podaj argument `classes=[0,1,2]`:

In [12]:
data_X = scale(data['data'].astype('float32'))
data_y_lab = data['target']
data_y = label_binarize(data['target'], classes=[0,1,2])

  "Numerical issues were encountered "
  "Numerical issues were encountered "


Skopiuj pętle trenującą wyżej i wprowadź do niej następujące zmiany:

Zamiast parametru `a` utwórz macierz dwuwymiarową `W` zincjowaną losowymi wartościami o rozmiarze równym ilości próbek z `data_X` (czyli `data_X.shape[1]`) w jednej osi, a wartością 3 (czyli ilością klas wyjściowych) na drugiej osi. Pamiętaj o konwersji tej macierzy liczb losowych na typ `float32` metoda `.astype()`.

Teraz zauważ jak wyliczymy iloczyn `X` o rozmiarze $178\times13$ i `W` o rozmiarze $13\times3$, w wyniku otrzymamy tabelkę o rozmiarze $178\times3$, czyli wartość każdej klasy wyjściowej dla każdej próbki.

Usuń liczenie funkcji `y` i zamiast tego wylicz coś co nazwiemy `logits`. Wzór na liczenie tego użyje funkcji `tf.matmul` czyli: `logits=tf.matmul(X,W)+b`

Teraz wyliczmy funkcję decyzyjną (nazwijmy ją `y_pred`) dla naszego klasyfikatora. W tym celu (w jednej linii) przepuścimy nasze `logits` przez funkcję `tf.nn.softmax()`, a potem przez `tf.argmax`, podając do tej funkcji argument `axis=1` na drugim miejscu.

Żeby wyliczyć accuracy musimy najpierw porównać do siebie `y_pred.numpy()` i `data_y_lab` operatorem `==`, a potem zsumować wynikową liste wartości true/false (zwykłą funkcją `sum`) i podzielić sumę przez ilość próbek (czyli `data_y_lab.size`). Wypisz accuracy na ekran w każdej epoce.

Do wyliczenia funkcji błędu użyjemy czegoś bardziej adekwatnego niż MSE (które sie stosuje częściej do regresji zamiast klasyfikacji), czyli entropii krzyżowej. Nie musimy jej implementować "ręcznie" tylko użyjemy funkcji `tf.softmax_cross_entropy_with_logits` podając jej jako argumenty stałą `y_true` oraz wynik wyliczenia funkcji `logits`. Dodatkowo zsumujemy wynik tej funkcji używając `tf.reduce_sum`.

Liczenie gradientu jest takie same - trzeba tylko pamiętać o zmianie parametru `a` na `W`, zarówno w liczeniu gradientu, jak i modyfikacji tego parametru później.

Jak się wszystko się udało, model ten powinien osiągać 100% accuracy w około 20-30 epok.

In [13]:
import numpy

X = tf.constant(data_X)
W = tf.Variable(numpy.random.random((data_X.shape[1], 3)).astype('float32'))
b = tf.Variable(random.random())
alpha = tf.constant(0.1)

for i in range(1000):
  with tf.GradientTape() as g:
    logits=tf.matmul(data_X,W)+b
    y_pred = tf.argmax(tf.nn.softmax(logits), axis=1)
    y_pred = tf.cast(y_pred, tf.float32)
    acc = (sum(y_pred.numpy() == data_y_lab)/data_y_lab.size)*100
    logits_err = tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(data_y, logits))
    MSE_g = g.gradient(logits_err, [W,b])
    W.assign_sub(MSE_g[0]*alpha)
    b.assign_sub(MSE_g[1]*alpha)
  print('Epoch {} Err: {}, Accuracy: {}, W: {} b: {}'.format(i, logits_err.numpy(), acc, tf.reduce_sum(W), b.numpy()))


Epoch 0 Err: 115.0923080444336, Accuracy: 74.71910112359551, W: 22.440393447875977 b: 0.3223768472671509
Epoch 1 Err: 131.0992431640625, Accuracy: 90.4494382022472, W: 22.440391540527344 b: 0.3223767876625061
Epoch 2 Err: 22.239227294921875, Accuracy: 97.19101123595506, W: 22.440393447875977 b: 0.3223768174648285
Epoch 3 Err: 15.117521286010742, Accuracy: 99.43820224719101, W: 22.440391540527344 b: 0.3223767876625061
Epoch 4 Err: 12.54450511932373, Accuracy: 99.43820224719101, W: 22.44038963317871 b: 0.3223768174648285
Epoch 5 Err: 10.443944931030273, Accuracy: 99.43820224719101, W: 22.44038963317871 b: 0.3223768174648285
Epoch 6 Err: 8.491755485534668, Accuracy: 99.43820224719101, W: 22.44038963317871 b: 0.3223767876625061
Epoch 7 Err: 6.62861442565918, Accuracy: 99.43820224719101, W: 22.44038963317871 b: 0.3223767578601837
Epoch 8 Err: 4.871104717254639, Accuracy: 99.43820224719101, W: 22.440393447875977 b: 0.3223767876625061
Epoch 9 Err: 3.310370445251465, Accuracy: 99.4382022471910

# Praca domowa - MLP

Jeśli to nie jest oczywiste, powyższy kod jest wstępem do zrobienia MLP. Na pracę domową rzoszerz powyższy model o dodatkową wartstwę ukrytą perceptrona wielowarstwowego.

W tym celu dodaj kolejną zmienną (podobną do `W`) o nazwie `H` (jako hidden) o rozmiarze $178\times10$ (gdzie 10 to ilość jednostek ukrytych - to można zmienić na dowolną wartość) i bias warstwy ukrytej o nazwie `hb`. Zmień też rozmiar zmiennej W na $10\times3$ żeby odzwierciedlić rozmiar nowej warstwy ukrytej.

Przed wyliczeniem `logits` wylicz napierw do zmiennej `hidact` iloczyn `X` i `H` (z biasem `hb`), a potem je przepuszcz przez funkcję aktywacji, np. `tf.sigmoid`. Wtedy w liczeniu `logits` użyj `hidact` zamiast `X`.

Pamiętaj o rozszezrzeniu gradientu o nowe zmienne.

Nowy model niekoniecznie będzie zbiegał szybciej do 100%, ale powinien osiągnąć 100% w te same 30 epok. Można eksperymentować z różnymi ustawieniami żeby osiągnąć lepszy efekt.

In [24]:
H = tf.Variable(numpy.random.random((178, 10)).astype('float32'))
W = tf.Variable(numpy.random.random((10, 3)).astype('float32'))
hb = tf.Variable(random.random())
b = tf.Variable(random.random())
alpha = tf.constant(0.005)
X1 = tf.constant(data_X)
y_true = tf.constant(data_y)

for i in range(1000):
  with tf.GradientTape() as g:
    hidact = tf.sigmoid(tf.matmul(tf.transpose(X),H)+hb)
    logits=tf.matmul(hidact,W)+b
    y_pred = tf.argmax(tf.matmul(X,tf.nn.softmax(logits)), axis=1)
    acc = sum(y_pred.numpy()==data_y_lab)/data_y_lab.size
    logits_err = tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(y_true, tf.matmul(X,logits)))
    MSE_g = g.gradient(logits_err, [H,hb,W,b])
    H.assign_sub(MSE_g[0]*alpha)
    hb.assign_sub(MSE_g[1]*alpha)
    W.assign_sub(MSE_g[2]*alpha)
    b.assign_sub(MSE_g[3]*alpha)
  print('Epoch {} Err: {}, Accuracy: {}, W: {} b: {}'.format(i, logits_err.numpy(), acc, tf.reduce_sum(W), b.numpy()))

Epoch 0 Err: 336.5701599121094, Accuracy: 0.15730337078651685, W: 16.47801399230957 b: 0.38341856002807617
Epoch 1 Err: 301.54620361328125, Accuracy: 0.8146067415730337, W: 16.47801399230957 b: 0.38341858983039856
Epoch 2 Err: 295.4903564453125, Accuracy: 0.7191011235955056, W: 16.47801399230957 b: 0.38341856002807617
Epoch 3 Err: 340.45166015625, Accuracy: 0.7078651685393258, W: 16.47801399230957 b: 0.3834185004234314
Epoch 4 Err: 326.0783996582031, Accuracy: 0.7584269662921348, W: 16.47801399230957 b: 0.3834185302257538
Epoch 5 Err: 144.5232391357422, Accuracy: 0.8426966292134831, W: 16.47801399230957 b: 0.3834185302257538
Epoch 6 Err: 69.26172637939453, Accuracy: 0.8595505617977528, W: 16.47801399230957 b: 0.3834185004234314
Epoch 7 Err: 34.36402893066406, Accuracy: 0.8595505617977528, W: 16.47801399230957 b: 0.3834185302257538
Epoch 8 Err: 19.15599822998047, Accuracy: 0.8707865168539326, W: 16.47801399230957 b: 0.3834185302257538
Epoch 9 Err: 16.52983283996582, Accuracy: 0.91011235