<a href="https://colab.research.google.com/github/jakubtwalczak/dsbootcampudemy/blob/main/7_Uczenie_g%C5%82%C4%99bokie/2_Keras.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Wstęp.

W tym notebooku zobaczymy bardziej szczegółowo działanie biblioteki Keras. Na początku załadujmy biblioteki niezbędne do dalszej pracy.

In [1]:
import tensorflow as tf
import numpy as np
import pandas as pd
import plotly.express as px

W pakiecie Keras mamy do wyboru dwa sposoby budowania modeli sieci neuronowych: Sequential i Functional. Ten drugi jest sposobem dla wysoko zaawansowanych.

# Model Sequential.

Jest to liniowy stos warstw. Importujemy jego klasę z biblioteki Keras i tworzymy instancję, która na razie nie zostaje rozbudowana.

In [2]:
from tensorflow.keras.models import Sequential

model = Sequential()
model

<Sequential name=sequential, built=False>

Podstawowym elementem składowym modelu są warstwy. Aby dodać warstwę do modelu należy użyć metody **.add()**. Na początku jednak tworzymy obiekt **Input**, któremu podajemy parametr shape, określający kształt danych, jakie model będzie przetwarzać.

In [3]:
from tensorflow.keras import Input

model.add(Input(shape=(10,)))

Aby dodać najbardziej standardową warstwę - warstwę gęsto połączoną należy użyć warstwy **Dense**. Parametrem units określamy liczbę neuronów w warstwie.

In [4]:
from tensorflow.keras.layers import Dense

model.add(Dense(units=10))

Metodą **summary** możemy w każdym momencie wyświetlić informację o modelu.

In [5]:
model.summary()

Dodajemy kolejną warstwę Dense - tym razem z pięcioma neuronami - i znowu sprawdzamy informacje o naszym modelu.

In [6]:
model.add(Dense(units=5))
model.summary()

# Funkcje aktywacji.

Istotnym elemenem sieci neuronowych jest dobór odpowiednich funkcji aktywacji.
Funkcje aktywacji, jak sama nazwa wskazuje, są odpowiedzialne za aktywowanie odpowiednich neuronów podczas procesu uczenia. Pozwalają one wrzucić element nieliniowości do modelu sieci głębokiej.

Jeżeli nie określimy podczas dodawania warstwy funkcji aktywacji, domyślnie stosowana jest tożsamościowa funkcja aktywacji, tzn. $a(x)=x$

Warstwa z liniową funkcją aktywacji może uczyć się tylko liniowych przekształceń danych wejściowych. Dlatego stosuje się różne funkcje aktywacji aby rozwiazywać problemy nieliniowe.

## Funkcja liniowa.

Domyślna funkcja - jeżeli nie wskażemy żadnej funkcji aktywacji dla warstwy, implementowana jest właśnie funkcja liniowa tożsamościowa.

Generujemy dane: 500 próbek z przedziału od -5 do 5, na której będziemy sprawdzać działanie funkcji i ją wizualizować.

In [7]:
from tensorflow.keras.activations import linear

random_data = np.linspace(start=-5, stop=5, num=500)
data = pd.DataFrame({'data': random_data, 'linear': linear(random_data)})
data

Unnamed: 0,data,linear
0,-5.00000,-5.00000
1,-4.97996,-4.97996
2,-4.95992,-4.95992
3,-4.93988,-4.93988
4,-4.91984,-4.91984
...,...,...
495,4.91984,4.91984
496,4.93988,4.93988
497,4.95992,4.95992
498,4.97996,4.97996


Funkcja ta zwraca nam to, co jej przekazaliśmy.

In [8]:
px.line(data, x='data', y='linear', width=800, height=600, range_y=[-5.5, 5.5], range_x=[-5.5, 5.5])

## Funkcja sigmoidalna.

Bardzo popularna funkcja, o której szerzej mowa była przy omawianiu regresji logistycznej.

In [9]:
from tensorflow.keras.activations import sigmoid

data = pd.DataFrame({'data': random_data, 'sigmoid': sigmoid(random_data)})
data

Unnamed: 0,data,sigmoid
0,-5.00000,0.006693
1,-4.97996,0.006827
2,-4.95992,0.006965
3,-4.93988,0.007105
4,-4.91984,0.007247
...,...,...
495,4.91984,0.992753
496,4.93988,0.992895
497,4.95992,0.993035
498,4.97996,0.993173


Funkcja ta przyjmuje wartości z przedziału od 0 do 1. Często jest ona stosowana w ostatnich warstwach w klasyfikacji binarnej, gdy trzeba przekształcić wynik równań dokonywanych przez neurony przekształcić na prawdopodobieństwo przynależności do klasy pozytywnej.

In [10]:
px.line(data, x='data', y='sigmoid', width=800, height=600, range_y=[-0.5, 1.5], range_x=[-5.5, 5.5])

## Funkcja ReLU.

Funkcja ta jest liniowa dla wartości większych od 0, zaś wartościom ujemnym przypisuje wartość 0.

In [11]:
from tensorflow.keras.activations import relu

data = pd.DataFrame({'data': random_data, 'relu': relu(random_data)})
data

Unnamed: 0,data,relu
0,-5.00000,0.00000
1,-4.97996,0.00000
2,-4.95992,0.00000
3,-4.93988,0.00000
4,-4.91984,0.00000
...,...,...
495,4.91984,4.91984
496,4.93988,4.93988
497,4.95992,4.95992
498,4.97996,4.97996


In [12]:
px.line(data, x='data', y='relu', width=800, height=600, range_y=[-0.5, 5.5], range_x=[-5.5, 5.5])

## Funkcja Leaky ReLU.

Odmiana ReLU, która polega na tym, że wartości ujemne mogą być mnożone przez współczynnik nachylenia (domyślnie 0,2, można go regulować parametrem negative_slope).

In [13]:
from tensorflow.keras.activations import leaky_relu

data = pd.DataFrame({'data': random_data, 'leaky_relu': leaky_relu(random_data, negative_slope=0.2)})
data

Unnamed: 0,data,leaky_relu
0,-5.00000,-1.000000
1,-4.97996,-0.995992
2,-4.95992,-0.991984
3,-4.93988,-0.987976
4,-4.91984,-0.983968
...,...,...
495,4.91984,4.919840
496,4.93988,4.939880
497,4.95992,4.959920
498,4.97996,4.979960


In [14]:
px.line(data, x='data', y='leaky_relu', width=800, height=600, range_y=[-1.5, 5.5], range_x=[-5.5, 5.5])

## Funkcja tangensu hiperbolicznego (TanH).

Wzór:

$$tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$

Funkcja ta normalizuje wartości do przedziału od -1 do 1. Obecnie stosowana przeważnie jako alternatywa do funkcji sigmoid i ReLU, gdy te sobie nie radzą z danymi.

In [15]:
from tensorflow.keras.activations import tanh

data = pd.DataFrame({'data': random_data, 'tanh': tanh(random_data)})
data

Unnamed: 0,data,tanh
0,-5.00000,-0.999909
1,-4.97996,-0.999905
2,-4.95992,-0.999902
3,-4.93988,-0.999898
4,-4.91984,-0.999893
...,...,...
495,4.91984,0.999893
496,4.93988,0.999898
497,4.95992,0.999902
498,4.97996,0.999905


In [16]:
px.line(data, x='data', y='tanh', width=800, height=600, range_y=[-1.5, 1.5], range_x=[-5.5, 5.5])

# Budowa modelu.

Zbudujmy teraz kompletny model sekwencyjny z funkcjami aktywacji i kompletnymi warstwami.

In [17]:
model = Sequential()
model.add(Input(shape=(10,)))
model.add(Dense(units=10, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))
model.summary()

Do przetrenowania mamy 121 wag. Teraz pora na kompilację modelu. W tym kroku określamy:
* rodzaj optymalizatora ([Keras - Optymalizatory](https://keras.io/optimizers/))
* funkcję straty ([Keras - Funkcje Straty](https://keras.io/losses/))
* metryki, które będziemy obserwować podczas trenowania sieci ([Keras - Metryki](https://keras.io/metrics/)).

Poniżej 3 przykłady kompilacji. Zastosowane optymalizatory, funkcje straty i metryki powinny odpowiadać zadaniu, które mamy do wykonania. W przypadku regresji funkcja straty jest jednocześnie metryką, więc nie trzeba podawać metryki osobno.

In [18]:
# klasyfikacja binarna
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# klasyfikacja wieloklasowa
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# regresja
model.compile(optimizer='rmsprop',
              loss='mse')

# Trening modelu.

Za dane wejściowe do modelu należy przekazać tablice Numpy. Poniżej najistotniejsze parametry do treningu:
* **epochs** - krotność przejścia danych przez sieć w procesie uczenia,
* **batch_size** - rozmiar wsadu, po którym następuje aktualizacja wag (domyślnie po 32 próbkach),
* **validation_split** - część danych treningowych, które zostaną wykorzystane jako zbiór walidacyjny; dobrą praktyką jest jego wydzielenie, jeżeli nie było to uczynione na wcześniejszym etapie,
* **validation_data** - (x_val, y_val) - dane wykorzystywane do walidacji modelu; przyjmuje on już krotkę danych, na których walidujemy model, jeżeli takie dane są utworzone wcześniej (w przeciwnym wypadku powinno się zastosować poprzednio wymieniony parametr validation_split).

# Przykład - klasyfikacja binarna.

Nie będziemy się w tej części skupiać na danych, a raczej na samej technice budowania modelu. Dane wygenerujemy z rozkładu normalnego o średniej 0 i odchyleniu standardowym 1; będzie to 20000 próbek o 150 cechach oraz wektor 20000 etykiet o wartości 0 lub 1.

In [19]:
data = np.random.randn(20000, 150)
labels = np.random.randint(2, size=(20000, 1))

print(data.shape)
print(labels.shape)

(20000, 150)
(20000, 1)


Wyświetlimy też 3 pierwsze rekordy i 10 pierwszych etykiet.

In [20]:
data[:3]

array([[-1.85830082e+00,  1.39600421e+00,  8.54673578e-01,
         5.85065989e-01,  7.21258955e-01, -1.06127596e+00,
        -3.28325137e-01, -1.47436836e+00,  7.51256683e-01,
         8.88603476e-01,  4.21911411e-01,  4.23181544e-01,
         1.42786985e-02, -1.31160148e+00,  4.61397229e-01,
        -2.44554325e-01,  6.32516259e-01,  1.57239293e+00,
         9.49193136e-01,  1.00841518e+00,  6.58139090e-01,
        -5.25870085e-01, -1.72496236e-01,  1.25458782e-01,
        -1.35432470e-02, -1.47971836e+00,  1.60355054e+00,
        -5.16555406e-01, -1.44831840e+00,  1.59955123e-01,
         4.61851098e-01,  6.32353428e-01,  2.12580012e-01,
         1.19624258e+00, -2.99941867e-01,  1.59919896e+00,
         4.76052483e-01, -6.45402319e-01, -7.79961630e-01,
         1.07108726e+00,  1.70843496e+00,  7.10613297e-01,
         2.82070738e-01, -1.42394932e+00,  1.12148030e+00,
        -1.70880640e+00, -1.66235408e+00, -1.56004915e+00,
        -7.83844278e-01, -2.10682176e+00,  1.17343516e+0

In [21]:
labels[:10]

array([[1],
       [0],
       [0],
       [1],
       [0],
       [1],
       [0],
       [1],
       [0],
       [1]])

Tworzymy instancję modelu, pamiętając o wszystkich koniecznych elementach, kompilujemy go i dopasowujemy. Ponieważ sieć jest modelem klasyfikacji binarnej, na wyjściu znajduje się jeden neuron z cechą aktywacji sigmoid.

In [22]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, epochs=20)

Epoch 1/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.4978 - loss: 0.7758
Epoch 2/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5397 - loss: 0.6922
Epoch 3/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5663 - loss: 0.6798
Epoch 4/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5918 - loss: 0.6679
Epoch 5/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.6126 - loss: 0.6588
Epoch 6/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.6245 - loss: 0.6464
Epoch 7/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.6437 - loss: 0.6361
Epoch 8/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.6493 - loss: 0.6267
Epoch 9/20
[1m625/625[0m [32m━━━━━━━━

<keras.src.callbacks.history.History at 0x79754ca6bbb0>

Informacje, które wyświetlane są podczas treningu:
* aktualna epoka,
* postęp w przetwarzaniu wsadu (batcha; jest to liczba odzwierciedlająca, ile razy pojedynczy wsad mieści się w całym zbiorze treningowym),
* czas trwania epoki i przetwarzania pojedynczego batcha,
* dokładność,
* wartość funkcji straty.

Zaktualizujmy batch_size - niech będzie to 50 próbek, po których następuje aktualizacja wag. Model uczy się teraz szybciej, epoki są krótsze. Architektura modelu jest jednak identyczna.

In [23]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, epochs=20, batch_size=50)

Epoch 1/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.4999 - loss: 0.7625
Epoch 2/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5340 - loss: 0.6960
Epoch 3/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5569 - loss: 0.6815
Epoch 4/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5803 - loss: 0.6742
Epoch 5/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5971 - loss: 0.6633
Epoch 6/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.6147 - loss: 0.6562
Epoch 7/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.6243 - loss: 0.6471
Epoch 8/20
[1m400/400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.6474 - loss: 0.6362
Epoch 9/20
[1m400/400[0m [32m━━━━━━━━

<keras.src.callbacks.history.History at 0x79753d7a4a00>

Teraz dodajemy parametr validation_split, aby dodatkowo walidować nasz model na zbiorze wydzielonym ze zbioru treningowego.

In [24]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, epochs=20, batch_size=32, validation_split=0.2)

Epoch 1/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.5011 - loss: 0.7562 - val_accuracy: 0.4988 - val_loss: 0.7166
Epoch 2/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.5399 - loss: 0.6909 - val_accuracy: 0.4920 - val_loss: 0.7110
Epoch 3/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5718 - loss: 0.6759 - val_accuracy: 0.4952 - val_loss: 0.7115
Epoch 4/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.6023 - loss: 0.6663 - val_accuracy: 0.4978 - val_loss: 0.7162
Epoch 5/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.6201 - loss: 0.6516 - val_accuracy: 0.4900 - val_loss: 0.7201
Epoch 6/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.6343 - loss: 0.6425 - val_accuracy: 0.4992 - val_loss: 0.7274
Epoch 7/20
[1m500/500[0m 

<keras.src.callbacks.history.History at 0x79754c881930>

Do informacji, które wyświetlały się wcześniej podczas uczenia, doszła dokładność i wartość funkcji straty na zbiorze walidacyjnym, i to te informacje powinny być dla nas kluczowe.

Aby model trenował się bez informacji o postępie, przekazujemy 0 jako wartość parametru verbose. Te informacje zapiszemy sobie w zmiennej **history**, co pozwoli na jego łatwiejszą wizualizację.

In [25]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

history = model.fit(data, labels, epochs=20, batch_size=32, validation_split=0.2, verbose=0)

Możemy np. utworzyć na podstawie atrybutu history obiekt typu dataframe celem wglądu w przebieg treningu z epoki na epokę.

In [26]:
metrics = pd.DataFrame(history.history)
metrics

Unnamed: 0,accuracy,loss,val_accuracy,val_loss
0,0.498688,0.757174,0.5105,0.71815
1,0.540688,0.697499,0.509,0.713955
2,0.568812,0.678346,0.50025,0.714408
3,0.591875,0.666957,0.509,0.716395
4,0.615188,0.655496,0.50075,0.721304
5,0.631063,0.645,0.5065,0.726199
6,0.645187,0.633439,0.51075,0.736652
7,0.653063,0.62279,0.51,0.745277
8,0.667063,0.613283,0.50425,0.755323
9,0.673625,0.602675,0.50775,0.766934


Stworzymy model jeszcze raz, ale tym razem z parametrem verbose = 1.

In [27]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

history = model.fit(data, labels, epochs=20, batch_size=32, validation_split=0.2, verbose=1)

Epoch 1/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.4961 - loss: 0.7543 - val_accuracy: 0.5008 - val_loss: 0.7131
Epoch 2/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.5453 - loss: 0.6901 - val_accuracy: 0.4938 - val_loss: 0.7121
Epoch 3/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.5683 - loss: 0.6770 - val_accuracy: 0.4978 - val_loss: 0.7104
Epoch 4/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.5971 - loss: 0.6689 - val_accuracy: 0.4882 - val_loss: 0.7149
Epoch 5/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.6088 - loss: 0.6579 - val_accuracy: 0.4965 - val_loss: 0.7203
Epoch 6/20
[1m500/500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.6358 - loss: 0.6425 - val_accuracy: 0.4870 - val_loss: 0.7282
Epoch 7/20
[1m500/500[0m 

# Ocena modelu.

Stwórzmy sztuczne zbiory cech i etykiet testowych.

In [28]:
test_data = np.random.randn(20, 150)
test_labels = np.random.randint(2, size=(20, 1))

Metoda **predict** zwraca nam prawdopodobieństwa przynależności do klasy pozytywnej. Obecnie wycofana została metoda predict_proba.

In [29]:
model.predict(test_data)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 49ms/step


array([[0.3039397 ],
       [0.91466403],
       [0.11954517],
       [0.7847758 ],
       [0.17406641],
       [0.5823844 ],
       [0.6502741 ],
       [0.6292742 ],
       [0.24034145],
       [0.7922523 ],
       [0.7772249 ],
       [0.6839517 ],
       [0.64713985],
       [0.73062783],
       [0.6713169 ],
       [0.41151288],
       [0.95817757],
       [0.7640421 ],
       [0.60818434],
       [0.22537062]], dtype=float32)

Wycofana jest też metoda predict_classes, aby wyświetlić klasy, stosujemy po prostu zaokrąglenie naszych zwróconych prawdopodobieństw.

In [30]:
np.round(model.predict(test_data))

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 22ms/step


array([[0.],
       [1.],
       [0.],
       [1.],
       [0.],
       [1.],
       [1.],
       [1.],
       [0.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [0.],
       [1.],
       [1.],
       [1.],
       [0.]], dtype=float32)

# Klasyfikacja wieloklasowa.

Tym razem tworzymy dane zawierające 10 klas (0-9).

In [31]:
data = np.random.random((10000, 150))
labels = np.random.randint(10, size=(10000, 1))
print(data.shape)
print(labels.shape)

(10000, 150)
(10000, 1)


In [32]:
labels[:10]

array([[5],
       [0],
       [3],
       [0],
       [7],
       [4],
       [7],
       [0],
       [5],
       [2]])

Do problemu musimy podejść w inny sposób. Funkcja **to_categorical** pozwoli nam przekonwertować klasy do większych tablic NumPy. Funkcja ta z każdej klasy tworzy wektor 10-elementowy, który zawiera jedynkę pod indeksem odpowiadającym numerowi klasy.

In [33]:
from tensorflow.keras.utils import to_categorical
labels = to_categorical(labels, num_classes=10)
labels

array([[0., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

Ponownie tworzymy instancję modelu. Tym razem jednak w ostatniej warstwie znajdzie się tyle neuronów, ile klas, oraz funkcja aktywacji **Softmax**, która zwraca dla każdego rekordu prawdopodobieństwo przynależenia do konkretnej klasy. Zmieni się również funkcja straty - będzie to **Categorical Crossentropy**.

In [34]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(10, activation='softmax'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

history = model.fit(data, labels, epochs=30, batch_size=40, validation_split=0.2, verbose=1)

Epoch 1/30
[1m200/200[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.0944 - loss: 2.3415 - val_accuracy: 0.0990 - val_loss: 2.3042
Epoch 2/30
[1m200/200[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.1155 - loss: 2.3024 - val_accuracy: 0.1000 - val_loss: 2.3035
Epoch 3/30
[1m200/200[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.1113 - loss: 2.3002 - val_accuracy: 0.0865 - val_loss: 2.3079
Epoch 4/30
[1m200/200[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.1138 - loss: 2.2981 - val_accuracy: 0.0980 - val_loss: 2.3067
Epoch 5/30
[1m200/200[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.1107 - loss: 2.2979 - val_accuracy: 0.0990 - val_loss: 2.3087
Epoch 6/30
[1m200/200[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.1166 - loss: 2.2947 - val_accuracy: 0.0995 - val_loss: 2.3209
Epoch 7/30
[1m200/200[0m 

Nasz model ma skuteczność modelu losowego, jego dokładność na zbiorze walidacyjnym oscyluje w granicach 0,1.

Wygenerujmy losową próbkę 20 danych testowych i zastosujmy metodę predict celem wskazania prawdopodobieństwa przynależności do każdej klasy.

In [35]:
test_data = np.random.random((20, 150))
test_labels = np.random.randint(10, size=(20, 1))
test_labels = to_categorical(test_labels, num_classes=10)
model.predict(test_data)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 45ms/step


array([[0.09618448, 0.12081896, 0.15489803, 0.09473681, 0.04273397,
        0.09404721, 0.13295525, 0.09135089, 0.08122893, 0.09104553],
       [0.11747966, 0.06458537, 0.11844525, 0.12012959, 0.07834333,
        0.06280463, 0.10582625, 0.11600386, 0.07090472, 0.14547737],
       [0.11246498, 0.05646667, 0.13932382, 0.14100161, 0.10835544,
        0.0657481 , 0.11632632, 0.07758337, 0.10387605, 0.07885361],
       [0.06687666, 0.08656632, 0.12017642, 0.09570079, 0.0991626 ,
        0.13493259, 0.06690802, 0.09456154, 0.07562466, 0.15949026],
       [0.11042428, 0.10868645, 0.10785808, 0.10766565, 0.09314869,
        0.13254553, 0.06823288, 0.10614813, 0.09381396, 0.07147641],
       [0.0984216 , 0.07580837, 0.15243952, 0.11064579, 0.05392055,
        0.07059751, 0.09997771, 0.06969928, 0.14564717, 0.12284243],
       [0.06306291, 0.118629  , 0.14650455, 0.10786164, 0.04224772,
        0.08938832, 0.08903207, 0.07124881, 0.06008261, 0.21194242],
       [0.05172611, 0.05074708, 0.1222407

Na koniec przewidzimy konkretną klasę z każdego rekordu.

In [36]:
np.argmax(model.predict(test_data), axis=1)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 22ms/step


array([2, 9, 3, 9, 5, 2, 9, 4, 2, 0, 4, 8, 0, 0, 6, 8, 8, 8, 3, 9])

# Regresja.

Ponownie wygenerujmy losowe dane. Naszą etykietą będą tym razem wartości ciągłe.

In [37]:
data = np.random.random((10000, 150))
labels = 50 * np.random.random(10000)

Model dla zadania regresji będzie mieć 32 neurony ukryte z funkcją aktywacji ReLU, zaś neuron w warstwie wyjściowej - ponieważ będzie przewidywać ciągłą wartość - nie będzie zawierał żadnej funkcji aktywacji. Nie musimy dodawać też metryki do kompilatora, ponieważ "konsumuje" ją funkcja straty.

In [38]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(units=1))

model.compile(optimizer='rmsprop',
              loss='mse')

model.fit(data, labels, epochs=30, batch_size=32, validation_split=0.2)

Epoch 1/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 377.0442 - val_loss: 205.1523
Epoch 2/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 210.8074 - val_loss: 206.1077
Epoch 3/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - loss: 208.6218 - val_loss: 205.6682
Epoch 4/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 208.9245 - val_loss: 206.0039
Epoch 5/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 206.4724 - val_loss: 205.5842
Epoch 6/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 207.9452 - val_loss: 205.5127
Epoch 7/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 204.3458 - val_loss: 205.6812
Epoch 8/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 206.5458 - val_loss: 205.6044
Epoch 9/

<keras.src.callbacks.history.History at 0x79754c21de70>

Można jednak osobno użyć innej metryki niż funkcji straty w kompilatorze. Niech funkcją straty będzie MAE, a metryką MSE.

In [39]:
model = Sequential()
model.add(Input(shape=(150,)))
model.add(Dense(units=32, activation='relu'))
model.add(Dense(units=1))

model.compile(optimizer='rmsprop',
              loss='mae',
              metrics=['mse'])

model.fit(data, labels, epochs=30, batch_size=32, validation_split=0.2)

Epoch 1/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - loss: 15.0068 - mse: 335.2628 - val_loss: 12.3497 - val_mse: 205.7254
Epoch 2/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 12.3520 - mse: 205.1115 - val_loss: 12.3330 - val_mse: 205.2990
Epoch 3/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 12.3358 - mse: 206.0667 - val_loss: 12.3425 - val_mse: 205.6632
Epoch 4/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 12.4233 - mse: 208.9384 - val_loss: 12.3734 - val_mse: 206.5358
Epoch 5/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 12.4347 - mse: 208.2756 - val_loss: 12.3556 - val_mse: 205.9049
Epoch 6/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 12.3200 - mse: 205.3916 - val_loss: 12.5465 - val_mse: 215.0910
Epoch 7/30
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━

<keras.src.callbacks.history.History at 0x79754c13d3c0>

I na koniec tego notatnika - wykonajmy kilka predykcji na losowo wygenerowanym zbiorze testowym.

In [40]:
test_data = np.random.random((10, 150))

model.predict(test_data)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 44ms/step


array([[22.545307],
       [29.236633],
       [21.232128],
       [27.943848],
       [28.408766],
       [20.006187],
       [29.987762],
       [26.031694],
       [28.906063],
       [22.950155]], dtype=float32)