In [None]:
import keras
keras.__version__

# Rekurencyjne sieci neuronowe


## Warstwa rekurencyjna w pakiecie Keras


In [None]:
from keras import Sequential
from keras.layers import SimpleRNN, Dense, Embedding, GRU, Bidirectional
import numpy as np

Powyższa warstwa przyjmuje obiekty wejściowe o kształcie (rozmiar_wsadu, kroki_czasu, cechy_wejściowe).

Warstwa SimpleRNN, podobnie jak wszystkie rekurencyjne warstwy pakietu Keras, może być uruchomiona w dwóch trybach: może zwracać pełne sekwencje kolejnych obiektów wyjściowych dla każdego kroku czasu (trójwymiarowe tensory o kształcie (rozmiar_wsadu, kroki_czasu, cechy_wyjściowe)) lub tylko ostatnie obiekty wyjściowe poszczególnych sekwencji wejściowych (dwuwymiarowe tensory o kształcie (rozmiar_wsadu, cechy_wyjściowe)). Wybór trybu pracy jest dokonywany za pomocą argumentu return_sequences.

Teraz użyjmy modelu RNN w celu rozwiązania problemu klasyfikacji recenzji filmów. Zacznijmy od wstępnej obróbki danych:

In [None]:
from keras.datasets import imdb
from keras.preprocessing.sequence import pad_sequences

max_features = 10000  # Liczba słów traktowanych jako cechy.
maxlen = 500  # Ucina recenzje po tej liczbie słów.
batch_size = 128 # wielkość batcha
rnn_units = 32 # Liczba neuronów jaką będziemy wykorzystywać
max_samples = 25000 # Liczba danych treningowych *można podać mniej niż 25 000 aby sieć uczyła się szybciej

print('Ładowanie danych...')
(input_train_org, y_train), (input_test_org, y_test) = imdb.load_data(num_words=max_features)
print(len(input_train_org), 'sekwencje treningowe')
print(len(input_test_org), 'sekwencje testowe')


In [None]:
#histogram długości sekwencji
import matplotlib.pyplot as plt
plt.hist([len(x) for x in input_train_org])

In [None]:
print('Sekwencje (próbki x czas)')
input_train_org = input_train_org[:max_samples]
input_test_org = input_test_org[:max_samples]
input_train = pad_sequences(input_train_org, maxlen=maxlen)
input_test = pad_sequences(input_test_org, maxlen=maxlen)
print('Kształt obiektu input_train:', input_train.shape)
print('Kształt obiektu input_test:', input_test.shape)
y_train = y_train[:max_samples]
y_test = y_test[:max_samples]

Przeprowadźmy proces trenowania prostej rekurencyjnej sieci przy użyciu warstwy Embedding i warstwy SimpleRNN.

In [None]:


model = Sequential()
# proszę dodać następujące warstwy:
# - warstwa Embedding z odpowiednią licznością wejścia (dla ilu słów musimy wyznaczyć reprezentację wektorową?)
# i rnn_units jako wielkość wektora
# - warstwa SimpleRNN z rnn_units jako liczbą neuronów
# - gęstą warstwę z odpowiednią liczbą neuronów (patrz wyjście) oraz funkcją aktywacji sigmoid


model.summary()

In [None]:
# proszę skompilować model z oprimizerem RMSprop, odpowiednią funkcją kosztu oraz dokładnością jako metrykę do monitorowania

# proszę wytrenować model, liczba epok 10, użyć zmiennej batch_size, ustawić validation_split na 0.2, można też spróbować 
# ustawić liczbę instacji do obliczania (workers)
history = None

Teraz możemy wyświetlić wykresy dokładności i straty w procesach trenowania i walidacji:

In [None]:
import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, 'bo', label='Dokladnosc trenowania')
plt.plot(epochs, val_acc, 'b', label='Dokladnosc walidacji')
plt.title('Dokladnosc trenowania i walidacji')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Strata trenowania')
plt.plot(epochs, val_loss, 'b', label='Strata walidacji')
plt.title('Strata trenowania i walidacji')
plt.legend()

plt.show()

[...]

## Przykład warstwy LSTM zaimplementowanej w pakiecie Keras

Czas przyjrzeć się praktycznemu przykładowi zastosowania warstwy LSTM. Skonfigurujemy model, w którym znajdzie się taka warstwa, i wytrenujemy go na zbiorze danych IMDB. Przypomina on zaprezentowany wcześniej model z warstwą SimpleRNN. Określimy tylko liczbę wymiarów obiektu wyjściowego warstwy LSTM. Pozostałe argumenty tej warstwy (jest ich wiele) pozostawimy przy wartościach domyślnych. Ustawienia domyślne pakietu Keras są przemyślane i zwykle „po prostu działają” bez konieczności poświęcania dużej ilości czasu na ręczne dostrajanie parametrów.

In [None]:
from keras.layers import LSTM

model = Sequential()
# proszę dodać następujące warstwy:
# - warstwa Embedding z odpowiednią licznością wejścia (dla ilu słów musimy wyznaczyć reprezentację wektorową?)
# i rnn_units jako wielkość wektora
# - warstwa LSTM z rnn_units jako liczbą neuronów
# - gęstą warstwę z odpowiednią liczbą neuronów (patrz wyjście) oraz funkcją aktywacji sigmoid


model.summary()

In [None]:
# proszę skompilować model z oprimizerem RMSprop, odpowiednią funkcją kosztu oraz dokładnością jako metrykę do monitorowania

# proszę wytrenować model, liczba epok 10, użyć zmiennej batch_size, ustawić validation_split na 0.2, można też spróbować 
# ustawić liczbę instacji do obliczania (workers)
history = None

In [None]:
acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, 'bo', label='Dokladnosc trenowania')
plt.plot(epochs, val_acc, 'b', label='Dokladnosc walidacji')
plt.title('Dokladnosc trenowania i walidacji')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Strata trenowania')
plt.plot(epochs, val_loss, 'b', label='Strata walidacji')
plt.title('Strata trenowania i walidacji')
plt.legend()

plt.show()

## Korzystanie z dwukierunkowych rekurencyjnych sieci neuronowych


Ostatnim rozwiązaniem, które chciałbym wprowadzić w tym podrozdziale, są dwukierunkowe rekurencyjne sieci neuronowe. Są to popularne wersje sieci rekurencyjnych, które w przypadku niektórych zadań charakteryzują się bardzo dobrą wydajnością. Stosuje się je często w przetwarzaniu języka naturalnego. Można określić je mianem uniwersalnego wytrychu sprawdzającego się podczas pracy nad problemami związanymi z przetwarzaniem języka naturalnego.

Rekurencyjne sieci neuronowe przetwarzają zależności wynikające z kolejności lub upływu czasu — przetwarzają one sekwencje w sposób uporządkowany. Zmiana kolejności obserwacji lub jej odwrócenie może całkowicie zmienić reprezentacje tworzone przez tego typu sieci. To właśnie z tego powodu sieci te sprawdzają się dobrze podczas rozwiązywania problemów, w których kolejność ma znaczenie (przykładem takiego problemu jest prognozowanie temperatury). Dwukierunkowe rekurencyjne sieci neuronowe korzystają z tej własności sieci rekurencyjnych. Składają się one z dwóch standardowych sieci rekurencyjnych (np. warstw GRU lub LSTM). Każda z tych sieci składowych przetwarza sekwencję wejściową w innym kierunku (chronologicznym lub przeciwnym do chronologicznego). Utworzone przez nie reprezentacje są następnie łączone. Dwukierunkowa sieć rekurencyjna, przetwarzając sekwencję w obu kierunkach, może wyłapać zależności, które nie są dostrzegane przez jednokierunkową sieć rekurencyjną.

Oczywiście chronologiczne przetwarzanie sekwencji przez zaprezentowane dotychczas warstwy sieci rekurencyjnych jest naszym nieświadomym wyborem (na razie nie mieliśmy okazji, aby podważyć jego sensowność). Czy sieci rekurencyjne działałyby wystarczająco dobrze, gdyby przetwarzały sekwencje wejściowe w kierunku odwrotnym do kolejności chronologicznej? Sprawdźmy to w praktyce, Wystarczy utworzyć generator, który odwraca sekwencję wejściową według wymiaru będącego osią czasu (musimy zastąpić ostatnią linię kodu następującym rozwiązaniem: yield samples[:, ::-1, :], targets). Po wytrenowaniu tej samej sieci z jedną warstwą GRU (z warstwy tej korzystaliśmy w pierwszym eksperymencie) uzyskamy następujące wyniki:

In [None]:
# odwrócenie naszej sekwencji
input_train_rev = np.array([x[::-1] for x in input_train_org])
input_test_rev = np.array([x[::-1] for x in input_test_org])

input_train_rev = pad_sequences(input_train_rev, maxlen=maxlen)
input_test_rev = pad_sequences(input_test_rev, maxlen=maxlen)

model = Sequential()
# proszę dodać następujące warstwy:
# - warstwa Embedding z odpowiednią licznością wejścia (dla ilu słów musimy wyznaczyć reprezentację wektorową?)
# i rnn_units jako wielkość wektora
# - warstwa LSTM z rnn_units jako liczbą neuronów
# - gęstą warstwę z odpowiednią liczbą neuronów (patrz wyjście) oraz funkcją aktywacji sigmoid

# proszę skompilować model z oprimizerem RMSprop, odpowiednią funkcją kosztu oraz dokładnością jako metrykę do monitorowania

# proszę wytrenować model, liczba epok 10, użyć zmiennej batch_size, ustawić validation_split na 0.2, można też spróbować 
# ustawić liczbę instacji do obliczania (workers)
history = None

In [None]:
import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, 'bo', label='Dokladnosc trenowania')
plt.plot(epochs, val_acc, 'b', label='Dokladnosc walidacji')
plt.title('Dokladnosc trenowania i walidacji')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Strata trenowania')
plt.plot(epochs, val_loss, 'b', label='Strata walidacji')
plt.title('Strata trenowania i walidacji')
plt.legend()

plt.show()

W celu utworzenia instancji dwukierunkowej sieci rekurencyjnej należy skorzystać z warstwy Bidirectional zaimplementowanej w pakiecie Keras, która jako swój pierwszy argument przyjmuje instancję warstwy rekurencyjnej. Funkcja Bidirectional tworzy drugą oddzielną instancję tej warstwy. Jedna instancja jest używana do przetwarzania sekwencji wejściowej w kierunku chronologicznym, a druga instancja jest używana do przetwarzania odwróconej sekwencji wejściowej. Wypróbujmy działanie tego rozwiązania w celu rozwiązania problemu analizy sentymentu recenzji filmów wchodzących w skład zbioru IMDB.

In [None]:
model = Sequential()
# proszę dodać następujące warstwy:
# - warstwa Embedding z odpowiednią licznością wejścia (dla ilu słów musimy wyznaczyć reprezentację wektorową?)
# i rnn_units jako wielkość wektora
# - warstwa Bidirectional LSTM z rnn_units jako liczbą neuronów
# - gęstą warstwę z odpowiednią liczbą neuronów (patrz wyjście) oraz funkcją aktywacji sigmoid

model.summary()

In [None]:
# proszę skompilować model z oprimizerem RMSprop, odpowiednią funkcją kosztu oraz dokładnością jako metrykę do monitorowania

# proszę wytrenować model, liczba epok 10, użyć zmiennej batch_size, ustawić validation_split na 0.2, można też spróbować 
# ustawić liczbę instacji do obliczania (workers)
history = None

In [None]:
import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, 'bo', label='Dokladnosc trenowania')
plt.plot(epochs, val_acc, 'b', label='Dokladnosc walidacji')
plt.title('Dokladnosc trenowania i walidacji')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Strata trenowania')
plt.plot(epochs, val_loss, 'b', label='Strata walidacji')
plt.title('Strata trenowania i walidacji')
plt.legend()

plt.show()

# Dropout

In [None]:
model = Sequential()
# proszę dodać następujące warstwy:
# - warstwa Embedding z odpowiednią licznością wejścia (dla ilu słów musimy wyznaczyć reprezentację wektorową?)
# i rnn_units jako wielkość wektora
# - warstwa GRU z rnn_units jako liczbą neuronów oraz dropoutem 0.2 i recurent dropout 0.2
# - gęstą warstwę z odpowiednią liczbą neuronów (patrz wyjście) oraz funkcją aktywacji sigmoid
model.summary()

In [None]:
# proszę skompilować model z oprimizerem RMSprop, odpowiednią funkcją kosztu oraz dokładnością jako metrykę do monitorowania

# proszę wytrenować model, liczba epok 10, użyć zmiennej batch_size, ustawić validation_split na 0.2, można też spróbować 
# ustawić liczbę instacji do obliczania (workers)
history = None

In [None]:
import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, 'bo', label='Dokladnosc trenowania')
plt.plot(epochs, val_acc, 'b', label='Dokladnosc walidacji')
plt.title('Dokladnosc trenowania i walidacji')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Strata trenowania')
plt.plot(epochs, val_loss, 'b', label='Strata walidacji')
plt.title('Strata trenowania i walidacji')
plt.legend()

plt.show()

# Tworzenie stosów warstw rekurencyjnych

In [None]:
model = Sequential()
# proszę dodać następujące warstwy:
# - warstwa Embedding z odpowiednią licznością wejścia (dla ilu słów musimy wyznaczyć reprezentację wektorową?)
# i rnn_units jako wielkość wektora
# - warstwa GRU z rnn_units jako liczbą neuronów, przekazywaniem w głąb sieci sekwencji
# oraz dropoutem 0.1 i recurent dropout 0.5
# - warstwa GRU z rnn_units jako liczbą neuronów oraz dropoutem 0.2 i recurent dropout 0.4
# - gęstą warstwę z odpowiednią liczbą neuronów (patrz wyjście) oraz funkcją aktywacji sigmoid

model.summary()

In [None]:
# proszę skompilować model z oprimizerem RMSprop, odpowiednią funkcją kosztu oraz dokładnością jako metrykę do monitorowania

# proszę wytrenować model, liczba epok 10, użyć zmiennej batch_size, ustawić validation_split na 0.2, można też spróbować 
# ustawić liczbę instacji do obliczania (workers)
history = None

In [None]:
import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, 'bo', label='Dokladnosc trenowania')
plt.plot(epochs, val_acc, 'b', label='Dokladnosc walidacji')
plt.title('Dokladnosc trenowania i walidacji')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Strata trenowania')
plt.plot(epochs, val_loss, 'b', label='Strata walidacji')
plt.title('Strata trenowania i walidacji')
plt.legend()

plt.show()