# Wprowadzenie do Uczenia Maszynowego

W tym ćwiczeniu poznamy podstawowe metody do regresji i klasyfikacji używane w bibliotekach do DL. Zwykle korzystamy z metod wysokiego poziomu do wykonywania tych obliczeń, ale co tak naprawdę one robią w tle?

Do wykonywania tych obliczeń warto używać sensownej bibliteki matematycznej wydajnie implementującą obliczenia takie jak mnożenie i sumowanie macierzy. My w tym celu użyjemy biblioteki Tensorflow, która została stworzona przede wszystkim po to żeby usprawnić proces projektowania głębokich sieci neuronowych.

Zacznijmy od zaimportowania numpy i Tensorflow:

In [35]:
%pylab inline
import tensorflow as tf

Populating the interactive namespace from numpy and matplotlib


## Tajna funkcja

Do tego ćwiczenia wymyślimy sobie jakąś prostą funkcję liniową:

\begin{equation}
y = x \cdot 10 - 7
\end{equation}

Nikomu nie powiemy co to jest za funkcja, ale wyliczmy na jej podstawie mnóstwo przykładowych wartości.

Zaimplementuj powyższą funkcję w pythonie:

In [36]:
def y(x):
   return 10*x - 7

Teraz stwórz jednowymiarową macierz 100 rzeczywistych liczb losowych i zapisz pod nazwą `data_X`. Potem użyj tych wartości do wyliczenia odpowiadającyh im wartości powyższej funkcji i zapisz w zmiennej `data_y`.

In [38]:
import numpy as np
data_X = np.random.rand(100)
data_Y = y(data_X)
#data_X
data_Y
#data_X = np.random.randint(0, 5, size=(100))

array([-4.61429908, -4.9642228 , -1.16961692, -4.71560573, -0.12608628,
       -2.81880182,  2.15012936, -5.75128427, -0.88422932,  2.92879389,
       -1.27935662,  0.30948635,  0.14146865, -2.57855408, -4.32715725,
        2.8324606 ,  2.9781245 , -3.64976927, -3.54263244, -6.92254088,
       -6.9242349 , -6.42096593, -6.92394073,  2.14161843, -3.7061971 ,
        1.83909686,  1.26666779, -6.22077656,  0.45403735,  0.73720584,
       -4.86727501,  1.24104103,  2.16893905, -3.64518365, -3.59422702,
       -1.17565073, -3.50764255, -4.54021987, -4.64936109,  0.10745606,
       -0.39591568,  2.20721254,  2.46509621, -3.37518094, -3.97044498,
       -2.53629867,  2.81689905, -3.81510903, -6.84819169, -1.04960421,
       -3.82421832,  2.91210798, -4.71287434, -5.99322804, -6.05054183,
       -0.53746912, -1.41013899,  2.96764312, -3.44130297,  0.87020389,
       -3.01776642, -2.06804473,  0.64465547, -2.18843129, -3.2680196 ,
       -1.27996423, -1.02254819, -4.28527681, -3.64560113,  2.73

Celem całego ćwiczenia będzie odtworzenie tej funkcji na podstawie przykładowych danych jakie wygenerowaliśmy. Do tego użyjemy "modelu", który będzie odpowiednio odzwierciedlał tą funkcję:

\begin{equation}
y = a \cdot x + b
\end{equation}

Czyli naszym zadaniem będzie odgadnięcie parametrów `a` i `b` z powyższego wzoru, które minimalizują błąd na przykładowych danych. Można to zrobić "strzlając" losowo aż nam się nie uda, ale dużo efektywniej będzie stosowanie jakiegoś algorytmu optymalizującego, np SGD.

## Pierwsze obliczenia w TF

Jeśli chcemy wyliczyć tą samą funkcję co wyżej, ale używając Tensorflow, musimy "opakować" zmienne w objekty typu `tf.Tensor`. Do stworzenia tych objektów używamy typów `tf.constant` i `tf.Variable`. Dla naszych ćwiczeń, dane wygenerowane wyżej będziemy traktować jako stałe, a parametry które chcemy wyliczyć (czyli wartości `a` i `b` tajnego wzoru) będziemy traktować jako zmienne.

Stwórz stałą dla macierzy `data_X` i nazwij ją `X`, a potem stwórz również zmienne `a` i `b` i zainicjuj je jakimiś losowymi wartościami rzeczywistymi. Napisz wzór na wyliczenie naszej funkcji:
```
y = a*X + b
```

i wypisz wynik na ekran: `print(y.numpy())`

In [40]:
X = tf.constant(data_X)
a = tf.Variable(np.random.rand(1))
b = tf.Variable(np.random.rand(1))
y = a*X + b
print(y.numpy())

[0.94004803 0.91392601 1.19719566 0.93248542 1.27509586 1.074083
 1.44501675 0.85517139 1.21850002 1.50314454 1.18900352 1.30761162
 1.295069   1.09201764 0.96148334 1.4959532  1.5068271  1.01205077
 1.0200486  0.76773636 0.7676099  0.80517924 0.76763186 1.44438141
 1.0078384  1.42179799 1.37906581 0.8201235  1.31840245 1.33954115
 0.92116322 1.37715275 1.44642091 1.01239309 1.01619703 1.19674523
 1.02266061 0.94557808 0.93743063 1.29252994 1.25495293 1.44927805
 1.46852922 1.03254896 0.98811213 1.09517203 1.49479152 0.99970805
 0.77328658 1.20615468 0.99902804 1.50189892 0.93268932 0.83711014
 0.83283163 1.24438588 1.17924054 1.50604466 1.0276129  1.34946953
 1.05923017 1.13012747 1.3326322  1.12114054 1.04054861 1.18895817
 1.20817443 0.96460974 1.01236192 1.48901475 1.25433247 1.44855131
 1.15135423 0.85550331 0.95768845 1.00076998 1.328182   1.41173765
 0.83965623 1.43089616 1.28365418 1.29342789 1.3321036  1.12230535
 0.77400458 1.01483899 0.98374824 1.32177953 1.37390231 1.365263

## Wyliczenie błędu

Powyższe wyniki są oczywiście inne niż te, które mamy wyliczone za pomocą naszej tajemnej funkcji. Możemy to oszacować wyliczając różnice między tym co nasz model wyliczył, a tym co powinien wyliczyć:

In [41]:
(data_Y - y).numpy()

array([-5.5543471 , -5.8781488 , -2.36681258, -5.64809115, -1.40118214,
       -3.89288482,  0.70511261, -6.60645566, -2.10272934,  1.42564935,
       -2.46836015, -0.99812528, -1.15360035, -3.67057172, -5.28864059,
        1.3365074 ,  1.47129741, -4.66182004, -4.56268104, -7.69027724,
       -7.69184481, -7.22614517, -7.69157259,  0.69723702, -4.71403549,
        0.41729888, -0.11239802, -7.04090006, -0.86436509, -0.60233531,
       -5.78843823, -0.13611172,  0.72251814, -4.65757674, -4.61042405,
       -2.37239596, -4.53030317, -5.48579796, -5.58679172, -1.18507388,
       -1.65086861,  0.75793449,  0.99656699, -4.40772989, -4.95855711,
       -3.6314707 ,  1.32210754, -4.81481708, -7.62147826, -2.25575889,
       -4.82324635,  1.41020906, -5.64556366, -6.83033817, -6.88337345,
       -1.781855  , -2.58937953,  1.46159847, -4.46891588, -0.47926564,
       -4.07699659, -3.1981722 , -0.68797674, -3.30957183, -4.30856821,
       -2.4689224 , -2.23072262, -5.24988655, -4.65796305,  1.25

Pytanie jest czy to jest najlepsza metoda na wyliczenie błędu? Otóż jedną z najbardziej podstawowych i popularnych funkcji do tego zasotosowania jest tzw. błąd średnio-kwadratowy, albo po angielsku Mean Square Error (MSE). Powód dla którego stosujemy kwadrat błędu jest (m.in.) bardzo wygodna pochodna tej funkcji (o czym się przekonamy za chwilę), ale na wstępie spróbujmy wyliczyć tą liczbę używając TF.

Zacznijmy od dodania stałej dla macierzy `data_y` o nazwie `y_true`. Potem w jednej linii wylicz różnicę między powyższym `y` i nowym `y_true`, wynik podnieś do kwadratu (w Pythonie się używa składni `x**2`) i wylicz średnią z całości metodą `tf.reduce_mean`:

In [42]:
y_true = tf.constant(data_Y)
#data_Y
tf.reduce_mean((y-y_true)**2)

<tf.Tensor: shape=(), dtype=float64, numpy=16.332534440080806>

## Liczenie gradientu

Tak jak wspomnęliśmy, zależy nam na minimializacji tej funkcji błędu do wartości bardzo bliskiej zera. W tym celu użyjemy wartości pochodnej (tzw. gradientu) tej funkcji względem poszczególnych zmiennych (parametrów `a` i `b`) żeby ją odjąć od wartości tych parametrów (czyli iść w kierunku odwrotnym od gradientu) co nas doprowadzi do minimum tej funkcji.

Na tym etapie moglibyśmy po prostu wyliczyć wzór do pochodnej funkcji kosztu na kartce papieru i zaimplementować go tak jak to zrobiliśmy wyżej, ale ta metoda jest możliwa tylko dla najprostszych modeli i funkcji błędu. Na szczęście, okazuje się, że liczenie gradientu można robić całkowicie automatycznie i algorytmicznie. Jeśli możemy zdefiniować wzór gradientu dla każdego komponentu naszego grafu obliczeń, gradient całej funkcji można łatwo zdefiniować dzięki regule łańcuchowej (ang. chain rule).

W TF jest to realizowane na różne sposoby, w zależności od metody programowania jakiej używamy, ale na tym ćwiczeniu zasotsujemy coś co się nazywa `tf.GradientTape`. Jest to pewien objekt kontekstowy, który "rejestruje" wszystkie obliczenia i pozwala w dowolnym momemncie wyliczyć pochodną danej funkcji.

Dla przykładu zróbmy mały test na funkcji $y=x^2$:

1. stwórz kontekst gradientu poleceniem: `with tf.GradientTape() as g:`
2. w bloku ze wcięciem zacznij od stworzenia stałej `x` z wartością `3.0` (funkcje z gradientem w TF muszą być liczbami rzeczywistymi)
3. użyj gradientu żeby zarejestrować tą stałą poleceniem: `g.watch(x)`
4. wylicz wartość funkcji y: `y=x**2`
5. wypisz wartość `y` na ekran
6. wylicz gradient funkcji `y` w punkcie `x` poleceniem: `d=g.gradient(y,x)`
7. wpisz graident na ekran

Wartość wypisana na podstawie pkt 5 będzie 9.0 (czyli $3^2$), a wartość z pkt 7 będzie 6.0 (czyli $2\cdot3$, ponieważ pochodna funkcji $x^2$ jest $2x$):

In [43]:
with tf.GradientTape() as g:
  x = tf.constant(3.0)
  g.watch(x)
  y = x**2
  print(y)
  d = g.gradient(y,x)
  print(d)

tf.Tensor(9.0, shape=(), dtype=float32)
tf.Tensor(6.0, shape=(), dtype=float32)


## Łaczenie wszystkiego w całość

Zacznijmy od przekopiowania komponentów wyżej do jednego bloku. Skopiuj definicję stałych `X` i `y_true` oraz zmiennych `a` i `b`.

Zdefiniuj też wartość `alpha` równą 0.1, która będzie naszym współczynnikiem uczenia.

W nowym kontekście `tf.GradientTape`:
1. wylicz funkcję `y` na podstawie jej wzoru, tak jak wyżej
2. wylicz funkcję błędu MSE, też tak jak wyżej
3. wypisz wartość funkcji błędu na ekran
4. wylicz gradient funkcji błędu względem zmiennych `a` i `b` - zmienne te możesz podać razem w liście, w wyniku otrzymasz taką samą listę wartości gradientu
5. od poszczególnych zmiennych odejmij odpowiednie wartości gradientu pomnożone przez współczynnik uczenia `alpha`

Do wykonania ostatniego kroku użyj funkcji składowej `assign_sub`, czyli przykładowo: `a.assign_sub(grad[0]*alpha)`. 

Wypisz wartości zmiennych `a` i `b` przed i po modyfikacji gradientu oraz wylicz jeszcze raz funkcję błędu (w tym celu trzeba ponownie wyliczyć zarówno funkcję `y` jak i samą funkcję błędu). Czy zmalała?

In [48]:
X = tf.constant(data_X)
a = tf.Variable(np.random.rand(1))
b = tf.Variable(np.random.rand(1))
y_true = tf.constant(data_Y)
alpha = 0.1
with tf.GradientTape() as g:
  y = a*X + b
  print(y)
  mse = tf.reduce_mean((y-y_true)**2)
  print("Loss before:",mse)
  d=g.gradient(mse,[a,b])
  print(d)

  print([a,b])
  a.assign_sub(d[0]*alpha)
  b.assign_sub(d[1]*alpha)
  print([a,b])
  #print([dif_a,dif_b])
  y_g = a*X + b
  mse_g = tf.reduce_mean((y_g-y_true)**2)
  print("Loss after:",mse_g)

tf.Tensor(
[0.34421978 0.34266067 0.35956781 0.3437684  0.36421734 0.35221975
 0.37435918 0.33915386 0.36083938 0.37782858 0.35907886 0.36615806
 0.36540945 0.35329019 0.34549916 0.37739936 0.37804837 0.34851731
 0.34899467 0.33393524 0.33392769 0.33617004 0.333929   0.37432126
 0.34826589 0.37297335 0.37042285 0.337062   0.36680212 0.3680638
 0.34309263 0.37030867 0.37444299 0.34853774 0.34876478 0.35954093
 0.34915057 0.34454985 0.34406356 0.3652579  0.36301509 0.37461352
 0.37576254 0.34974076 0.34708852 0.35347846 0.37733002 0.34778063
 0.33426651 0.36010254 0.34774004 0.37775423 0.34378057 0.33807586
 0.3378205  0.36238439 0.35849615 0.37800167 0.34944615 0.36865638
 0.35133325 0.3555648  0.36765143 0.35502841 0.35021823 0.35907615
 0.36022309 0.34568576 0.34853588 0.37698523 0.36297806 0.37457014
 0.35683173 0.33917367 0.34527266 0.34784401 0.36738582 0.3723729
 0.33822783 0.37351638 0.36472815 0.3653115  0.36761988 0.35509793
 0.33430936 0.34868373 0.34682806 0.36700368 0.370114

## Pętla trenująca

Teraz skopiuj cały ten kod do bloku poniżej, ale usuń z niego ponowne wyliczanie błędu i wypisywanie parametrów `a` i `b`.

Zamiast tego umieść cały kontekst gradientowy w pętli `for` odliczającej numery epok od 0 do 1000. W każdej iteracji pętli wypisz numer epoki, wypisz obecną wartość parametrów `a` i `b` oraz wartość funkcji błędu.

Po uruchomieniu pętli, powinieneś zauważyć, że wartość błędu maleje do 0, a wartośći `a` i `b` zbiegają do tych z samego początku tego ćwiczenia:

In [50]:
X = tf.constant(data_X)
a = tf.Variable(np.random.rand(1))
b = tf.Variable(np.random.rand(1))
y_true = tf.constant(data_Y)
alpha = 0.1
for epoch in range(1000):
  with tf.GradientTape() as g:
    y = a*X + b
    #print(y)
    mse = tf.reduce_mean((y-y_true)**2)
    
    d=g.gradient(mse,[a,b])
    #print(d)

    a.assign_sub(d[0]*alpha)
    b.assign_sub(d[1]*alpha)
    #print([a,b])
    #print([dif_a,dif_b])
    #y_g = a*X + b
    #mse_g = tf.reduce_mean((y_g-y_true)**2)
    print(f'epochs : {epoch} ; a : {a.numpy()} ; b : {b.numpy()} ;  loss: {mse}')

epochs : 0 ; a : [-0.07147783] ; b : [0.30967101] ;  loss: 15.905920698022278
epochs : 1 ; a : [-0.10672861] ; b : [-0.10396868] ;  loss: 13.342712930874287
epochs : 2 ; a : [-0.09638593] ; b : [-0.43121133] ;  loss: 11.806031082483882
epochs : 3 ; a : [-0.05272717] ; b : [-0.69408198] ;  loss: 10.83768726663186
epochs : 4 ; a : [0.0151473] ; b : [-0.90892274] ;  loss: 10.185458719559794
epochs : 5 ; a : [0.10049369] ; b : [-1.08786009] ;  loss: 9.710461849997678
epochs : 6 ; a : [0.19831624] ; b : [-1.2398933] ;  loss: 9.336182831614678
epochs : 7 ; a : [0.30491581] ; b : [-1.37170176] ;  loss: 9.02043056728545
epochs : 8 ; a : [0.41755497] ; b : [-1.48824401] ;  loss: 8.739903162159585
epochs : 9 ; a : [0.53420962] ; b : [-1.5932019] ;  loss: 8.48169524143455
epochs : 10 ; a : [0.65338471] ; b : [-1.68931027] ;  loss: 8.238624612606658
epochs : 11 ; a : [0.77397754] ; b : [-1.77860136] ;  loss: 8.006660602404983
epochs : 12 ; a : [0.89517641] ; b : [-1.86258619] ;  loss: 7.7835088852

## Bardziej ambitne zadanie - klasyfikacja wieloklasowa

Zamiast się bawić w proste funkcje i kilka parametrów, weźmy konkretny przykład. Z modułu `sklearn.datasets` użyj funkcji `load_wine()` i zapisz do zmiennej `data`.

Zaimportuj również metody `label_binarize` oraz `scale` z modułu `sklearn.preprocessing`:

In [51]:
from sklearn.datasets import load_wine
from sklearn.preprocessing import label_binarize, scale
data = load_wine()

Do zmiennej `data_X` wczytaj macierz `data['data']`, ale dodatkowo ją zamień na typ `float32` używając funkcji składowej `.astype()` i całość znormalizuj przepuszczając przez funkcję `scale()`.

Do zmiennej `data_y_lab` skopiuj tabelę `data['target']`, a potem dodatkowo do innej zmiennej `data_y` zapisz tą samą tabelę przetworzoną funkcją `label_binarize`. Jako drugi parametr tej funkcji podaj argument `classes=[0,1,2]`:

In [52]:
data_X = scale(data['data'].astype(float32))
data_y_lab = data['target']
data_y = label_binarize(data['target'],classes=[0,1,2])

  "Numerical issues were encountered "
  "Numerical issues were encountered "


Skopiuj pętle trenującą wyżej i wprowadź do niej następujące zmiany:

Zamiast parametru `a` utwórz macierz dwuwymiarową `W` zincjowaną losowymi wartościami o rozmiarze równym ilości próbek z `data_X` (czyli `data_X.shape[1]`) w jednej osi, a wartością 3 (czyli ilością klas wyjściowych) na drugiej osi. Pamiętaj o konwersji tej macierzy liczb losowych na typ `float32` metoda `.astype()`.

Teraz zauważ jak wyliczymy iloczyn `X` o rozmiarze $178\times13$ i `W` o rozmiarze $13\times3$, w wyniku otrzymamy tabelkę o rozmiarze $178\times3$, czyli wartość każdej klasy wyjściowej dla każdej próbki.

Usuń liczenie funkcji `y` i zamiast tego wylicz coś co nazwiemy `logits`. Wzór na liczenie tego użyje funkcji `tf.matmul` czyli: `logits=tf.matmul(X,W)+b`

Teraz wyliczmy funkcję decyzyjną (nazwijmy ją `y_pred`) dla naszego klasyfikatora. W tym celu (w jednej linii) przepuścimy nasze `logits` przez funkcję `tf.nn.softmax()`, a potem przez `tf.argmax`, podając do tej funkcji argument `axis=1` na drugim miejscu.

Żeby wyliczyć accuracy musimy najpierw porównać do siebie `y_pred.numpy()` i `data_y_lab` operatorem `==`, a potem zsumować wynikową liste wartości true/false (zwykłą funkcją `sum`) i podzielić sumę przez ilość próbek (czyli `data_y_lab.size`). Wypisz accuracy na ekran w każdej epoce.

Do wyliczenia funkcji błędu użyjemy czegoś bardziej adekwatnego niż MSE (które sie stosuje częściej do regresji zamiast klasyfikacji), czyli entropii krzyżowej. Nie musimy jej implementować "ręcznie" tylko użyjemy funkcji `tf.softmax_cross_entropy_with_logits` podając jej jako argumenty stałą `y_true` oraz wynik wyliczenia funkcji `logits`. Dodatkowo zsumujemy wynik tej funkcji używając `tf.reduce_sum`.

Liczenie gradientu jest takie same - trzeba tylko pamiętać o zmianie parametru `a` na `W`, zarówno w liczeniu gradientu, jak i modyfikacji tego parametru później.

Jak się wszystko dobrze udało, model ten powinien osiągać 100% accuracy w około 20-30 epok.

In [53]:
import numpy as np
X = tf.constant(data_X)
W = tf.Variable(np.random.random((data_X.shape[1],3)).astype(float32))
b = tf.Variable(1.0)
y_true = tf.constant(data_y)
alpha = 0.01
for epoch in range(50):
  with tf.GradientTape() as g:
    logits = tf.matmul(X,W) + b
    y_pred = tf.argmax(tf.nn.softmax(logits),axis = 1)
    accuracy = sum(y_pred == data_y_lab)/data_y_lab.size
    error =  tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(y_true, logits))
    d = g.gradient(error,[W,b])
    #print(d)

    W.assign_sub(d[0]*alpha)
    b.assign_sub(d[1]*alpha)
    #print([a,b])
    #print([dif_a,dif_b])
    #y_g = W*X + b
    #mse_g = tf.reduce_mean((y_g-y_true)**2)
    print(f'epochs : {epoch} ; W : {W.numpy()} ; b : {b.numpy()} ;  loss: {error.numpy()}; accuracy : {accuracy}')

epochs : 0 ; W : [[ 1.2731082   0.15701354  0.9656302 ]
 [ 0.17270304  0.08740759  0.9365654 ]
 [ 0.48809817  0.38065597  0.2747066 ]
 [ 0.16856766  0.71088964  1.0522804 ]
 [ 1.1124264   0.19295874  0.47358698]
 [ 1.0904044   0.23375452  0.17656243]
 [ 1.0579617   0.69476503 -0.45671153]
 [ 0.6935678   0.14080341  0.9028758 ]
 [ 0.8069222   0.6792395   0.50362647]
 [ 0.71503675 -0.1823073   1.1340494 ]
 [ 0.6676568   0.7820028   0.06608763]
 [ 0.7916501   0.8405973   0.03239703]
 [ 1.153929    0.43432668  0.62054354]] ; b : 1.0 ;  loss: 250.65667724609375; accuracy : 0.29213483146067415
epochs : 1 ; W : [[ 1.3469332   0.02814429  1.0206743 ]
 [ 0.22248968  0.06189753  0.9122888 ]
 [ 0.52370006  0.30626512  0.31349555]
 [ 0.11849625  0.7793016   1.0339398 ]
 [ 1.0250456   0.22296412  0.53096235]
 [ 1.0719017   0.19446747  0.23435214]
 [ 1.053361    0.6712611  -0.4286069 ]
 [ 0.6771003   0.24553213  0.8146146 ]
 [ 0.7545871   0.68468964  0.5505114 ]
 [ 0.74645996 -0.2901719   1.2104907 

# Praca domowa - MLP

Jeśli to nie jest oczywiste, powyższy kod jest wstępem do zrobienia MLP. Na pracę domową rzoszerz powyższy model o dodatkową wartstwę ukrytą perceptrona wielowarstwowego.

W tym celu dodaj kolejną zmienną (podobną do `W`) o nazwie `H` (jako hidden) o rozmiarze $178\times10$ (gdzie 10 to ilość jednostek ukrytych - to można zmienić na dowolną wartość) i bias warstwy ukrytej o nazwie `hb`. Zmień też rozmiar zmiennej W na $10\times3$ żeby odzwierciedlić rozmiar nowej warstwy ukrytej.

Przed wyliczeniem `logits` wylicz napierw do zmiennej `hidact` iloczyn `X` i `H` (z biasem `hb`), a potem je przepuszcz przez funkcję aktywacji, np. `tf.sigmoid`. Wtedy w liczeniu `logits` użyj `hidact` zamiast `X`.

Pamiętaj o rozszezrzeniu gradientu o nowe zmienne.

Nowy model niekoniecznie będzie zbiegał szybciej do 100%, ale powinien osiągnąć 100% w te same 30 epok. Można eksperymentować z różnymi ustawieniami żeby osiągnąć lepszy efekt.

In [34]:
import numpy as np
X = tf.constant(data_X)
H = tf.Variable(np.random.random((data_X.shape[1],10)).astype(float32))
hb = tf.Variable(1.0)
W = tf.Variable(np.random.random((10,3)).astype(float32))
b = tf.Variable(1.0)
y_true = tf.constant(data_y)
alpha = 0.01
for epoch in range(100):
  with tf.GradientTape() as g:
    hidact = tf.sigmoid(tf.matmul(X,H) + hb)
    logits = tf.matmul(hidact,W) + b
    y_pred = tf.argmax(tf.nn.softmax(logits),axis = 1)
    accuracy = sum(y_pred == data_y_lab)/data_y_lab.size
    error =  tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(y_true, logits))
    d = g.gradient(error,[W,H,b,hb])
    #print(d)

    W.assign_sub(d[0]*alpha)
    H.assign_sub(d[1]*alpha)
    b.assign_sub(d[2]*alpha)
    hb.assign_sub(d[3]*alpha)
    #print([a,b])
    #print([dif_a,dif_b])
    #y_g = W*X + b
    #mse_g = tf.reduce_mean((y_g-y_true)**2)
    print(f'epochs : {epoch} ; W : {W.numpy()} ; H : {H.numpy()} ;  loss: {error.numpy()}; accuracy : {accuracy}')

epochs : 0 ; W : [[ 0.2974022   0.46660262  0.12713246]
 [ 0.35343626  0.51456904  0.1083034 ]
 [ 0.7036556   0.13955386  0.5188508 ]
 [ 0.53060645  0.820917    0.1668737 ]
 [ 0.28450835  0.3498397   0.7265587 ]
 [-0.2033723   0.3712894   0.26327688]
 [ 0.5866547   0.9792097   0.5688306 ]
 [ 0.3604126   0.68511677  0.5931841 ]
 [ 0.46650118  0.30115902  0.92960405]
 [ 0.18290219  0.6948632   0.2174089 ]] ; H : [[0.09203426 0.16029055 1.0203987  0.84475315 0.26956213 0.8245505
  0.07121463 0.3776303  0.6494794  0.16639023]
 [0.3658775  0.6925334  0.90167046 0.899953   0.66308326 0.239333
  0.12424801 0.0485841  0.4849973  0.46780297]
 [0.41887388 0.17474534 0.8902066  0.4411519  0.37235948 0.35346666
  0.36306477 0.77294534 0.86039114 0.521169  ]
 [0.8768036  0.03873436 0.75225353 0.58379567 0.77395177 0.34979194
  0.36366522 0.17667083 0.92140746 0.5838627 ]
 [0.5018352  0.04023792 0.29208553 0.9823046  0.53996295 0.5760319
  0.13316418 0.06368762 0.7828295  0.7854806 ]
 [0.9516986  0.