<a href="https://colab.research.google.com/github/lukaszplust/data-science-learn/blob/main/Keras.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Keras

In [2]:
import tensorflow as tf
import numpy as np
import pandas as pd
import plotly.express as px
tf.__version__

'2.8.2'

In [3]:
# utworzenie instancji klasy Sequential
from tensorflow.keras.models import Sequential

model = Sequential()
print(model)

<keras.engine.sequential.Sequential object at 0x7fe6ce7efb90>


In [5]:
#dodanie warstwy -> warstwa gęsto połączona = Dense
#liczba neuronów -> units
#input_shape -> zmienne opisujące zmienną opisową
from tensorflow.keras.layers import Dense

model.add(Dense(units=4, input_shape=(10,)))

In [6]:
#wyświetlenie podsumowania modelu
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 4)                 44        
                                                                 
 dense_1 (Dense)             (None, 4)                 20        
                                                                 
Total params: 64
Trainable params: 64
Non-trainable params: 0
_________________________________________________________________


In [7]:
model.add(Dense(units=2))
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 4)                 44        
                                                                 
 dense_1 (Dense)             (None, 4)                 20        
                                                                 
 dense_2 (Dense)             (None, 2)                 10        
                                                                 
Total params: 74
Trainable params: 74
Non-trainable params: 0
_________________________________________________________________


### <a name='a1'></a>Funkcje aktywacji
Istotnym elemenem sieci neuronowych jest dobór odpowiednich funkcji aktywacji. Funkcje aktywacji jak sama nazwa wskazuje są odpowiedzialne za aktywowanie odpowiednich neuronów podczas procesu uczenia.

Jeżeli nie określimy podczas dodawania warstwy funkcji aktywacji, domyślnie stosowana jest liniowa funkcja aktywacji, tzn. $a(x)=x$

Warstwa z liniową funkcją aktywacji może uczyć się tylko liniowych przekształceń danych wejściowych. Dlatego stosuje się różne funkcje aktywacji aby rozwiazywać problemy nieliniowe.

[Keras: Funkcje aktywacji](https://keras.io/activations/)

In [9]:
#liniowa funkcja aktywacji
from tensorflow.keras.activations import linear

random_data = np.linspace(start=-3, stop=3, num=300)
data = pd.DataFrame({'data': random_data, 'linear': linear(random_data)})
data.head()

Unnamed: 0,data,linear
0,-3.0,-3.0
1,-2.979933,-2.979933
2,-2.959866,-2.959866
3,-2.939799,-2.939799
4,-2.919732,-2.919732


In [10]:
px.line(data, x='data', y='linear', width=500, height=400, range_y=[-3,3])

In [12]:
from tensorflow.keras.activations import sigmoid

data = pd.DataFrame({'data': random_data, 'sigmoid': sigmoid(random_data)})
data.head()

Unnamed: 0,data,sigmoid
0,-3.0,0.047426
1,-2.979933,0.048341
2,-2.959866,0.049272
3,-2.939799,0.050221
4,-2.919732,0.051187


In [14]:
#przyjmuje wartości od 0 do 1. Mozemy to utożsamiać z prawdopodobieństwem
px.line(data, x='data', y='sigmoid', width=500, height=400, range_y=[-0.5,1.5])

In [15]:
#relu zeruje wartości ujemne
from tensorflow.keras.activations import relu

data = pd.DataFrame({'data': random_data, 'relu': relu(random_data)})
data.head()

px.line(data, x='data', y='relu', width=500, height=400, range_y=[-0.5,1.5])

In [16]:
#tangens hiperboliczny -> przyjmuje wartości od -1 do 1
from tensorflow.keras.activations import tanh

data = pd.DataFrame({'data': random_data, 'tanh': tanh(random_data)})
data.head()

px.line(data, x='data', y='tanh', width=500, height=400, range_y=[-1.5,1.5])

In [20]:
#tworzenie modelu z funkcjami aktwyacji
model = Sequential()
model.add(Dense(units=8, activation='relu', input_shape=(10,)))
model.add(Dense(units=1, activation='sigmoid'))
model.summary()

Model: "sequential_4"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_7 (Dense)             (None, 8)                 88        
                                                                 
 dense_8 (Dense)             (None, 1)                 9         
                                                                 
Total params: 97
Trainable params: 97
Non-trainable params: 0
_________________________________________________________________


### <a name='a2'></a>Kompilacja modelu
Przed rozpoczęciem trenowania sieci należy odpowiednio skonfigurować proces uczenia. W tym kroku określamy:
* rodzaj optymalizatora ([Keras - Optymalizatory](https://keras.io/optimizers/)) 
* funkcję straty ([Keras - Funkcje Straty](https://keras.io/losses/))
* metryki, które będziemy obserwować podczas trenowania sieci ([Keras - Metryki](https://keras.io/metrics/))

In [21]:
# klasyfikacja binarna

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [22]:
#klasyfikacja wieloklasowa

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

In [23]:
#regresja
model.compile(optimizer='rmsprop',
              loss='mse')

### <a name='a3'></a>Trenowanie modelu
Za dane wejściowe do modelu należy przekazać Numpy arrays:
* **epochs** - krotność przejścia danych przez sieć w procesie uczenia
* **batch_size** - rozmiar wsadu po którym następuje aktualizacja wag
* **validation_split** - część danych treningowych, które zostaną wykorzystane jako zbiór walidacyjny
* **validation_data** - (x_val, y_val) - dane wykorzystane do walidacji modelu

In [24]:
# model.fit(data, labels, epochs=10, batch_size=32)
# model.fit(data, labels, epochs=10, batch_size=32, validation_split=0.2)
# model.fit(data, labels, epochs=10, batch_size=32, validation_data=(x_val, y_val))

Klasyfikacja binarna

In [26]:
#150 zmiennych niezależnych, 10000 próbek
data = np.random.randn(10000, 150)
labels = np.random.randint(2, size=(10000, 1))

print(data.shape)
print(labels.shape)

(10000, 150)
(10000, 1)


In [27]:
data[:3]

array([[-1.54348844, -0.99103396, -1.63907011, -0.68836986,  1.2738829 ,
         0.65018199, -2.26928613,  0.02096773, -1.76282441,  0.57462853,
        -0.41991657,  0.37005955, -0.26067128,  1.85834939,  2.27014792,
        -0.15192205, -1.39136833,  0.30911627,  2.18830186,  0.44755983,
         0.91074927, -0.90293989, -1.62459608, -1.2907718 , -1.14075206,
         0.20474833, -0.31862916, -0.11054735,  0.17657092, -1.08341939,
        -1.02901888, -0.08763487, -0.55606857, -0.367695  ,  0.21741686,
         0.32119353, -1.1152323 , -0.18450655, -1.40737587,  0.79373437,
        -0.0387341 , -0.55514461, -0.72669208,  0.49347218, -0.50064528,
        -1.19234232,  1.14959235,  0.12921334,  1.55760651, -0.90704485,
         0.24950841, -0.46082959,  0.0703023 ,  0.61333572,  0.38207218,
         0.45597608,  0.27867522,  0.07660768, -0.35595426, -0.55908769,
         1.02468791, -0.97321901, -0.58494488,  0.73597787, -0.18536847,
         0.41085184,  1.86848912,  0.32844759,  1.6

In [29]:
labels[:10]

array([[0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0]])

In [31]:
# budujemy instancje klasy => model = Sequential()
# dodajemy pierwszą warstwę Dense, dodajemy 32 neurony w warstwie,funkcja aktywacji relu, liczba cech/danych input shape -> 150
# => model.add(Dense(units=32, activation='relu', input_shape=(150,)))
# Ponieważ model jest modelem klasyfikacji binarnej w ostatniej warstwie musi być 1 neuron, funckja aktwyacji sigmoid zwórci prawdopodobieństwa poszczególnych klas

In [30]:
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x7fe6c56a9310>

Jeśli stworzymy jak niżej nową instancje zaczynamy trenować od 0 !!!
Architekruta modelu wyżej jest taka sama jak modelu poniżej !

In [32]:
#można ustalić liczbe wsadów ręcznie batch_size np.64
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, epochs=20, batch_size=64)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x7fe6c62fcd50>

In [33]:
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, epochs=20, batch_size=32, validation_split=0.2)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x7fe6c4efc6d0>

In [36]:
#verbose -> stłumi tekst, który jest generowany podczas trenowania i wyświetla finalny obiekt zawierający dane modelu
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

history = model.fit(data, labels, epochs=20, batch_size=32, validation_split=0.2, verbose=0)

In [37]:
metrics = history.history
metrics.keys()

dict_keys(['loss', 'accuracy', 'val_loss', 'val_accuracy'])

In [38]:
#verbose = 1
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

history = model.fit(data, labels, epochs=20, batch_size=32, validation_split=0.2, verbose=1)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


Dokonywanie predykcji na podstawie modelu

In [39]:
test_data = np.random.randn(5, 150)
test_labels = np.random.randint(2, size=(5, 1))

In [40]:
model.predict(test_data) 

array([[0.8742674 ],
       [0.4335923 ],
       [0.97337043],
       [0.43479443],
       [0.3814228 ]], dtype=float32)

In [49]:
# otrzmujemy prawdopodobieństwo danej klasy np.87, 43,97 itp.. granica to 50 jesli mniejsze to nie zachodzi czyli -> 0, jesli wieksze to 1(zachodzi):)
#pokazałem to na dole

In [48]:
predictions = (model.predict(test_data) > 0.5).astype("int32")
predictions

array([[1],
       [0],
       [1],
       [0],
       [0]], dtype=int32)

Klasyfikacja wieloklasowa

In [50]:
data = np.random.random((10000, 150))
labels = np.random.randint(10, size=(10000, 1))

In [51]:
print(data.shape)
print(labels.shape)

(10000, 150)
(10000, 1)


In [52]:
labels[:10]

array([[6],
       [7],
       [3],
       [2],
       [1],
       [3],
       [4],
       [7],
       [0],
       [4]])

In [53]:
#konwertowanie klasy do wiekszej tablicy np.array tworzy nam do każdej klasy odpowiednio kolumnę przypisujemy 1 w miejscu gdzie mamy opisaną klasę
from tensorflow.keras.utils import to_categorical
labels = to_categorical(labels, num_classes=10)
labels

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

In [55]:
#zobaczmy na tym przykładzie dla labels[1] -> jest to 7
# czyli jedynka jest na 7 miejscu licząc od 0 oczywiscie :)))
labels[1]

array([0., 0., 0., 0., 0., 0., 0., 1., 0., 0.], dtype=float32)

In [57]:
#units to warstwa ukryta przypomnienie :)
#dodajemy tyle neuronów ile mamy klas czyli 10, softmax zwróci nam pradopodobieństwa poszczególnej klasy
#w kompilacji przekazujemy w funkcji straty => loss='categorical_crossentropy'
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(units=10, activation='softmax'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, batch_size=32, epochs=30, validation_split=0.2)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x7fe6c4ab9a10>

In [58]:
#budujemy 10 prawdopodobieństw w każdym wierszu
test_data = np.random.random((10,150))
model.predict(test_data)

array([[0.2687442 , 0.02817074, 0.08191414, 0.06543407, 0.02403182,
        0.10235462, 0.09303702, 0.10089137, 0.05703573, 0.17838633],
       [0.06756473, 0.11236531, 0.03668765, 0.14644769, 0.11901867,
        0.25323194, 0.03788115, 0.05156165, 0.06390286, 0.11133836],
       [0.06661356, 0.16316846, 0.05674942, 0.11561005, 0.09912047,
        0.07592561, 0.16317602, 0.10976964, 0.09015416, 0.05971263],
       [0.19982521, 0.07354883, 0.03477362, 0.10206483, 0.02995691,
        0.1510937 , 0.11804489, 0.09440848, 0.11298578, 0.08329771],
       [0.147739  , 0.08217952, 0.15358135, 0.17232068, 0.05194953,
        0.04348642, 0.06964104, 0.1019676 , 0.1142169 , 0.06291793],
       [0.11987469, 0.09824593, 0.1453839 , 0.15973777, 0.04820471,
        0.05239016, 0.08792447, 0.08434881, 0.15827262, 0.04561689],
       [0.10765715, 0.11227222, 0.13387363, 0.12527709, 0.06310627,
        0.11041287, 0.05743494, 0.09288396, 0.17549278, 0.02158913],
       [0.1000754 , 0.09715566, 0.0347309

In [63]:
#np.argmax(model.predict(test_data),axis=1) będzie szukał z wiersza największą wartość i przekaże jej indeks
np.argmax(model.predict(test_data),axis=1)

array([0, 5, 6, 0, 3, 3, 8, 3, 4, 9])

Różnice między binarną, a wieloklasową to:
- liczba neuronów w ostatniej warstwie musi zgadzać się z liczbą naszych klas
- musimy odpowiednio dobrać funkcje aktywacji
- sigmoid dla binarnej
- softmax w klasyfikacji wieloklasowej
- funkcja straty podczas kompilacji modelu dla binarnej to loss='binary_crossentropy

- funkcja straty podczas kompilacji modelu dla wieloklasowej to loss='categorical_crossentropy'

Regresja

In [64]:
data = np.random.random((10000, 150))
labels = 50 * np.random.random(10000)

In [65]:
labels[:10]

array([ 8.96007493, 40.69764894, 38.36752056, 23.80487622, 29.38971308,
       47.16232967, 10.34485039,  1.7276963 , 46.01614719, 48.47149918])

In [67]:
#model zawiera 2 warstwy
#pierwsza 32 warstwy ukryte,aktywacja relu, kształt 150 x 150
#ostatnia warstwa to 1 neuron,przewidujemy ciągła wartość
#jeżeli nie ma funkcji aktywacji oznacza to, że jest ona liniowa !!!!
#funkcja straty to mse -> średni błąd kwadratowy
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(units=1))

model.compile(optimizer='rmsprop',
              loss='mse')

model.fit(data, labels, epochs=30, batch_size=32, validation_split=0.2)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x7fe6bd652810>

In [68]:
#funkcja straty średniego błędu absolutnego -> mae
model = Sequential()
model.add(Dense(units=32, activation='relu', input_shape=(150,)))
model.add(Dense(units=1))

model.compile(optimizer='rmsprop',
              loss='mae',
              metrics=['mse'])

model.fit(data, labels, epochs=10, batch_size=32, validation_split=0.2)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7fe6bd5d2910>

In [69]:
#predykcja na podstawiwe modelu
test_data = np.random.random((10, 150))
model.predict(test_data)

array([[24.346582],
       [26.323666],
       [28.11551 ],
       [22.365183],
       [25.289476],
       [27.081617],
       [26.186632],
       [25.69502 ],
       [24.563719],
       [25.30305 ]], dtype=float32)