# Radial Basics Functions a Recurrent Neural Network 

Minule jsme si ukazovali a zkoušeli si naprogramovat jednoduché neuronové sítě. Dneska už se podíváme na složitější a zajímavější struktury -- Radial Basics Functions a Rekurentní Neuronové sítě.

## Radial Basics Functions (RBF)

Základní myšlenkou RBF je, že prostor příznaků je rozdělený neurony jakožto lokálními jednotkami. Každý neuron generuje signál odpovídající vstupnímu vektoru a jeho síla závisí právě na vzdálenosti neuronu od vstupního vektoru.

RBF je tedy neuronová síť s právě třemi vrstvami. Vstupní vrstva odpovídá vstupům do sítě, na skryté vrstvě se ale místo klasického skalárního součinu vstupů a vah počítají vzdálenosti vstupů od středů neuronů. Jakožto aktivační funkce se používají právě radial basics funkce. Často používanou funkcí je například Gaussova. Výstupní vrstva je normální vrstva neuronů, která počítá výstup sítě jako lineární kombinaci výstupů skryté vrstvy a příslušných vah.

Trénování sítě má dvě fáze. Nejprve se pomocí algoritmu kmeans najdou středy (neboli váhy mezi vstupní a skrytou vrstvou). Poté se natrénují váhy na výstupu, na což nám stačí obyčejná lineární regrese, protože se jedná pouze o lineární kombinaci vektorů.

In [419]:
import tensorflow as tf
from sklearn import datasets
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder 
from sklearn.model_selection import train_test_split
import numpy as np
import random
import sys
import math

Naimplementujeme si nyní vlastní RBF síť. K tomu nám stačí naimplementovat třídu ```RBFNetwork```, která bude mít tři metody. Metoda ```init``` nainicializuje zadané parametry sítě,  metoda ```fit``` bude sloužit k nalezení středů a trénování vah a metoda ```predict``` pak bude predikovat pro dané vstupy jejich nejpravděpodobnější výstupy. Pomůžou nám ještě dvě pomocné funkce ```activation_fcn``` a ```calculate_activation```, kdy první z nich nám vrátí hodnotu aktivační (neboli Gaussovské) funkce pro dané středy a vstupní data a druhá nám pak s pomocí první spočítá hodnoty neuronů na skryté vrstvě. Ty se pak jen lineárně zkombinují s váhami a vrátí se jako výstup sítě.

In [423]:
class RBFNetwork():
    def __init__(self, input_dim, num_centers, output_dim):
        self.input_dim = input_dim
        self.output_dim = output_dim
        self.num_centers = num_centers
        # self.centers = [np.random.uniform(-1, 1, input_dim) for i in range(num_centers)]
        self.beta = 1
        self.weights = None
        np.random.seed = 69
        
    def calculate_activation(self, data):
        hidden_layer_values = np.zeros((data.shape[0], self.num_centers), float)
        for c_idx, c in enumerate(self.centers):
            for x_idx, x in enumerate(data):
                hidden_layer_values[x_idx,c_idx] = self.activation_fcn(c, x)
        return hidden_layer_values
    
    def activation_fcn(self, centers, data):
        return np.exp(-self.beta * np.linalg.norm(centers-data)**2)
    
    def kmeans(self, data, iterations=100):
        # random initialization of centers
        random_idx = np.random.permutation(data.shape[0])[:self.num_centers]
        self.centers = [data[i,:] for i in random_idx]

        for _ in range(iterations):
            labels = np.ndarray((data.shape[0]))
            for i, x in enumerate(data):
                labels[i] = np.argmin([np.linalg.norm(x-c) for c in self.centers])
            
            new_centers = []
            for i in range(self.num_centers):
                new_centers.append(np.mean(data[labels == i], axis=0))
                self.centers = new_centers
    
    def fit(self, data, labels):
        # zvol nahodne hodnoty pocatecnich centroidu
        # random_idx = np.random.permutation(data.shape[0])[:self.num_centers]
        # self.centers = [data[i,:] for i in random_idx]

        self.kmeans(data, iterations=100)
         
        # spocitame aktivaci mezi vstupem a skrytou vrstvou
        hidden_layer_values = self.calculate_activation(data)
         
        # porovname skutecne a predikovane vystupy a aktualizujem vahy 
        # pomoci pseudoinverzni matice, coze je vlastne vzorecek pro LR pro train vah
        self.weights = np.dot(np.linalg.pinv(hidden_layer_values), labels)
          
    def predict(self, data):
        hidden_layer_values = self.calculate_activation(data)
        labels = np.dot(hidden_layer_values, self.weights)
        return labels


Zkusíme si výše napsanou RBF síť pustit na našem oblíbeném datasetu Iris. Načteme si data a labely, do které třídy data patří. Protože budeme dělat klasifikaci, je vhodné si labely převést na one-hot-encoding. Následně data rozdělíme na trénovací a testovací množinu, abychom mohli zvlášť data trénovat a zvlášť data testovat.

In [424]:
iris = datasets.load_iris()
x, y = iris.data, iris.target
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=69)

onehotencoder = OneHotEncoder() 
y_train_onehot = onehotencoder.fit_transform(y_train.reshape(-1, 1)).toarray() 
y_test_onehot = onehotencoder.fit_transform(y_test.reshape(-1, 1)).toarray() 

Nyní už jen nainicializujeme síť a necháme ji, aby se trénovala.

In [425]:
rbf = RBFNetwork(4, 10, 3)
rbf.fit(x_train, y_train_onehot)
predicted = rbf.predict(x_test)
y_pred = np.argmax(predicted, axis=1)
accuracy = np.mean(y_pred == y_test)
print('Accuracy: ' + str(accuracy))

Accuracy: 1.0


Vidíme, že accuracy je v každém běhu dosti různá, což je způsobeno tím, že centroidy a betu zde nastavujeme náhodně, přestože jsme si říkali, že pozice centroidů se dá trénovat pomocí algoritmu k-means.

### Úkol na cvičení

Algoritmus kmeans je jednou z metod učení bez učitele. V závislosti na vzájemné vzdálenosti dat je rozdělí do předem určeného počtu skupin neboli klastrů. Každý klastr je určen svým středem a body ze vstupních dat, které mejí tento střed jako svůj nejbližší. 

Algoritmus funguje následovně. Na začátku si zvolíme počet klastrů $k$ a vybereme náhodné body jako středy klastrů. Potom se pro každý bod z dat najde nejbližší střed. Následně se podle bodů, které byly danému středu přiřazeny přepočítají nové hodnoty středů. Algoritmus se iterativně opakuje, dokud se pozice středů mění. 

Zkuste si naimplementovat algoritmus k-means pro inicializaci středů vstupních neuronů a zlepšit tím výstup sítě výše.

## Rekurentní neuronové sítě

Rekurentní neuronová síť je síť, která navíc ke svému vstupu ještě bere jako další vstup svůj výstup z předchozího kroku. Proto výstupy z předchozí vrstvy mohou ovlivňovat vrstvu následující, což se může hodit například u generování časových řad nebo textu. 

Nejprve se podíváme, jak přesně by vypadala implementace jednoduché RNN, kdybychom si ji psali celou sami. 

Vytvoříme si nejprve jednoduché věty jako trénovací a testovací dataset a budeme chtít, aby nám naše sít uměla predikovat, zda je daná věta pozitivní nebo negativní. 

In [5]:
train_data = {
  'good': True,
  'bad': False,
  'happy': True,
  'sad': False,
  'not good': False,
  'not bad': True,
  'not happy': False,
  'not sad': True,
  'very good': True,
  'very bad': False,
  'very happy': True,
  'very sad': False,
  'i am happy': True,
  'this is good': True,
  'i am bad': False,
  'this is bad': False,
  'i am sad': False,
  'this is sad': False,
  'i am not happy': False,
  'this is not good': False,
  'i am not bad': True,
  'this is not sad': True,
  'i am very happy': True,
  'this is very good': True,
  'i am very bad': False,
  'this is very sad': False,
  'this is very happy': True,
  'i am good not bad': True,
  'this is good not bad': True,
  'i am bad not good': False,
  'i am good and happy': True,
  'this is not good and not happy': False,
  'i am not at all good': False,
  'i am not at all bad': True,
  'i am not at all happy': False,
  'this is not at all sad': True,
  'this is not at all happy': False,
  'i am good right now': True,
  'i am bad right now': False,
  'this is bad right now': False,
  'i am sad right now': False,
  'i was good earlier': True,
  'i was happy earlier': True,
  'i was bad earlier': False,
  'i was sad earlier': False,
  'i am very bad right now': False,
  'this is very good right now': True,
  'this is very sad right now': False,
  'this was bad earlier': False,
  'this was very good earlier': True,
  'this was very bad earlier': False,
  'this was very happy earlier': True,
  'this was very sad earlier': False,
  'i was good and not bad earlier': True,
  'i was not good and not happy earlier': False,
  'i am not at all bad or sad right now': True,
  'i am not at all good or happy right now': False,
  'this was not happy and not good earlier': False,
}

test_data = {
  'this is happy': True,
  'i am good': True,
  'this is not happy': False,
  'i am not good': False,
  'this is not bad': True,
  'i am not sad': True,
  'i am very good': True,
  'this is very bad': False,
  'i am very sad': False,
  'this is bad not good': False,
  'this is good and happy': True,
  'i am not good and not happy': False,
  'i am not at all sad': True,
  'this is not at all good': False,
  'this is not at all bad': True,
  'this is good right now': True,
  'this is sad right now': False,
  'this is very bad right now': False,
  'this was good earlier': True,
  'i was not happy and not good earlier': False,
}

Nejprve je potřeba udělat nějaký preprocessing vět. Tím se myslí převést text do číselné reprezentace. To uděláme tak, že najdeme všechna unikátní slova, očíslujeme je, a každé slovo pak nahradíme jeho číslem. Následně uděláme one-hot-encoding každého slova (a to potom bude mít shape ```(vocab_size, 1)```). 

In [6]:
# vytvorime si slovnik veskerych slov z dat
vocab = list(set([w for text in train_data.keys() for w in text.split(' ')]))
vocab_size = len(vocab)

# kazde slovo nahradime jeho indexem
word_to_idx = { w: i for i, w in enumerate(vocab) }
idx_to_word = { i: w for i, w in enumerate(vocab) }

# prevedeme jeste slova do one hot reprezentace 
def create_inputs(text):
    inputs = []
    for w in text.split(' '):
        v = np.zeros((vocab_size, 1))
        v[word_to_idx[w]] = 1
        inputs.append(v)
    return inputs

Můžeme se pro zajímavost podívat na náš slovník a na to, které slovo je na určitém indexu. 

In [7]:
print(vocab)
print('Unique words: ' + str(vocab_size))
print(f'happy has index: {word_to_idx["happy"]}') 
print(f'On index 0 is a word: {idx_to_word[0]}') 

['am', 'is', 'this', 'at', 'all', 'now', 'good', 'sad', 'was', 'i', 'earlier', 'and', 'very', 'right', 'bad', 'happy', 'or', 'not']
Unique words: 18
happy has index: 15
On index 0 is a word: am


Nyní si napíšeme samotnou RNN. Informace z předchozího kroku se ukládá v RNN buňce do speciální proměnné -- tzv. skrytého stavu, který nám pak bude ovlivňovat další výstupy a bude se s každým novým vstupem v každém kroku aktualizovat. Aktuální skrytý stav se počítá podle předchozího skrytého stavu a aktuálního vstupu. Výstup je spočítán pomocí aktuálního skrytého stavu. Pro každý krok se používají stejné 3 váhové matice: 
- pro spoje z aktuálních vstupů do aktuálních skrytých, 
- pro spoje z předchozích skrytých do aktuálních skrytých
- pro spoje z aktuálních skrytých do vystupů. 

Zároveň potřebujeme jeden bias pro spočtení skrytého stavu a další pro spočtení výstupu. Pomocí aktivační funkce $tanh$ a dosazení hodnot do rovnice umíme vypočítat výstup a update skrytých stavů.

In [8]:
class RNN:
    def __init__(self, input_size, output_size, hidden_size=64):
        # vahy, deleni je kvuli snizeni variance 
        self.Whh = np.random.randn(hidden_size, hidden_size)/1000
        self.Wxh = np.random.randn(hidden_size, input_size)/1000
        self.Why = np.random.randn(output_size, hidden_size)/1000

        # biasy
        self.bh = np.zeros((hidden_size, 1))
        self.by = np.zeros((output_size, 1))
        
    def forward(self, inputs):
        # zapamatovani si hodnoty predchoziho skryteho stavu
        h = np.zeros((self.Whh.shape[0], 1))

        # postupny update skrytého stavu
        for i, x in enumerate(inputs):
            h = np.tanh(np.dot(self.Wxh, x) + np.dot(self.Whh, h) + self.bh)

        # vypocet vystupniho vektoru
        y = np.dot(self.Why, h) + self.by
        return y, h

Ještě si definujeme funkci softmax na namapování hodnot do intervalu [0,1].

In [9]:
def softmax(x):
    return np.exp(x) / sum(np.exp(x))

A teď už můžeme inicializovat síť a zkusit si ji pustit na nějakém vstupu.

In [10]:
inputs = create_inputs('i am very good')
rnn = RNN(vocab_size, 2)
y, h = rnn.forward(inputs)
probs = softmax(y)
print(probs)

[[0.49999703]
 [0.50000297]]


Vidíme, že síť nám sice nějak funguje, ale není moc užitečná. Problém je, že nijak netrénujeme váhy. K tomu je potřeba si definovat ztrátovou funkci, použijeme cross-entropy loss, která se spočítá jako mínus logaritmus počtu správně predikovaných tříd. Zároveň je potřeba dopsat zpětnou propagaci chyby, aby se síť mohla učit ze svých chyb a updatovat si váhy a skryté stavy. To je v podstatě jen derivace $tanh$, dosazení do vzorečků a použití řetízkového pravidla.

In [11]:
class RNN:
    def __init__(self, input_size, output_size, hidden_size=64):
        # vahy, deleni je kvuli snizeni variance 
        self.Whh = np.random.randn(hidden_size, hidden_size)/1000
        self.Wxh = np.random.randn(hidden_size, input_size)/1000
        self.Why = np.random.randn(output_size, hidden_size)/1000

        # biasy
        self.bh = np.zeros((hidden_size, 1))
        self.by = np.zeros((output_size, 1))
        
    def forward(self, inputs):
        # zapamatovani si hodnoty predchoziho skryteho stavu
        h = np.zeros((self.Whh.shape[0], 1))

        self.last_inputs = inputs
        self.last_hs = { 0: h }

        # postupny update skrytého stavu
        for i, x in enumerate(inputs):
            h = np.tanh(np.dot(self.Wxh, x) + np.dot(self.Whh, h) + self.bh)
            self.last_hs[i + 1] = h

        # vypocet vystupniho vektoru
        y = np.dot(self.Why, h) + self.by

        return y, h
    
    def backprop(self, probs, target, learn_rate=2e-2):
        # spocitame derivaci na vystupu podle chyby dL/dy
        d_y = probs
        d_y[target] -= 1
        n = len(self.last_inputs)

        # spocitame derivaci na vystupu z chyby pro vahy dL/dWhy a bias dL/dby 
        d_Why = np.dot(d_y, self.last_hs[n].T)
        d_by = d_y

        # inicializujeme si nulove dL/dWhh, dL/dWxh, a dL/dbh, budeme si do nich pocitat chybu 
        d_Whh = np.zeros(self.Whh.shape)
        d_Wxh = np.zeros(self.Wxh.shape)
        d_bh = np.zeros(self.bh.shape)

        # spocteme dL/dh for pro posledni vystup h
        d_h = np.dot(self.Why.T, d_y)

        # backpropagujeme chybu zpet v case pomoci dosazovani do rovnic
        for t in reversed(range(n)):
            # pomocna hodnota: dL/dh * (1 - h^2)
            temp = ((1 - self.last_hs[t + 1] ** 2) * d_h)

            # dL/db = dL/dh * (1 - h^2)
            d_bh += temp

            # dL/dWhh = dL/dh * (1 - h^2) * h_{t-1}
            d_Whh += np.dot(temp, self.last_hs[t].T)

            # dL/dWxh = dL/dh * (1 - h^2) * x
            d_Wxh += np.dot(temp, self.last_inputs[t].T)

            # dL/dh = dL/dh * (1 - h^2) * Whh
            d_h = np.dot(self.Whh, temp)

        # abychom zabranili pirlis velkym gradientum, omezime hodnoty do intervalu [-1,1]
        for d in [d_Wxh, d_Whh, d_Why, d_bh, d_by]:
                  np.clip(d, -1, 1, out=d)

        # update vah a biasu pomoci gradient descent
        self.Whh -= learn_rate * d_Whh
        self.Wxh -= learn_rate * d_Wxh
        self.Why -= learn_rate * d_Why
        self.bh -= learn_rate * d_bh
        self.by -= learn_rate * d_by

Ještě si definujeme funkci pro spuštění modelu, tedy jeho trénování a predikci.

In [12]:
def run_model(data, train):
    items = list(data.items())
    random.shuffle(items)

    loss = 0
    correct_answers = 0

    for x, y in items:
        inputs = create_inputs(x)
        target = int(y)

        # dopredny pruchod
        out, _ = rnn.forward(inputs)
        probs = softmax(out)

        # spocitani loss/accuracy
        loss -= np.log(probs[target])
        correct_answers += int(np.argmax(probs) == target)

        if train==True:
            # zpetny pruchod
            rnn.backprop(probs, target)

    return loss/len(data), correct_answers/len(data)

Nyní už by naší RNN nemelo nic chybět a měli bychom být schopni ji pustit, natrénovat a dostat nějaké zajímavější výsledky.

In [13]:
rnn = RNN(vocab_size, 2)

for epoch in range(1001):
    train_loss, train_accuracy = run_model(train_data, train=True)
    if epoch % 100 == 0:
        print('--- Epoch %d' % (epoch))
        print('Train:\tLoss %.3f | Accuracy: %.3f' % (train_loss, train_accuracy))

        test_loss, test_accuracy = run_model(test_data, train=False)
        print('Test:\tLoss %.3f | Accuracy: %.3f' % (test_loss, test_accuracy))

--- Epoch 0
Train:	Loss 0.696 | Accuracy: 0.500
Test:	Loss 0.694 | Accuracy: 0.500
--- Epoch 100
Train:	Loss 0.688 | Accuracy: 0.552
Test:	Loss 0.696 | Accuracy: 0.500
--- Epoch 200
Train:	Loss 0.667 | Accuracy: 0.603
Test:	Loss 0.711 | Accuracy: 0.450
--- Epoch 300
Train:	Loss 0.565 | Accuracy: 0.741
Test:	Loss 0.645 | Accuracy: 0.650
--- Epoch 400
Train:	Loss 0.392 | Accuracy: 0.810
Test:	Loss 0.682 | Accuracy: 0.650
--- Epoch 500
Train:	Loss 0.362 | Accuracy: 0.845
Test:	Loss 0.814 | Accuracy: 0.550
--- Epoch 600
Train:	Loss 0.089 | Accuracy: 0.966
Test:	Loss 0.451 | Accuracy: 0.850
--- Epoch 700
Train:	Loss 0.007 | Accuracy: 1.000
Test:	Loss 0.482 | Accuracy: 0.900
--- Epoch 800
Train:	Loss 0.004 | Accuracy: 1.000
Test:	Loss 0.431 | Accuracy: 0.900
--- Epoch 900
Train:	Loss 0.002 | Accuracy: 1.000
Test:	Loss 0.455 | Accuracy: 0.900
--- Epoch 1000
Train:	Loss 0.002 | Accuracy: 1.000
Test:	Loss 0.479 | Accuracy: 0.900


##  Sekvenční klasifikace pomocí LSTM

Nyní, když chápeme, jak taková základní RNN funguje, se zkusíme podívat na složitější druh RNN -- LSTM sítě. Tyto sítě mají navíc uvnitř sebe paměťovou buňku a mechanizmus, který řídí, jakou informaci si buňka pamatuje a jakou zapomíná, protože pamatovat si celou historii by bylo příliš paměťově náročné. Zkusíme se na ni lépe podívat v následujícím příkladu sekvenční klasifikace. 

Sekvenční klasifikace je prediktivní modelovací problém, kdy máme na vstupu nějakou sekvenci v prostoru nebo čase a cílem je předpovědět kategorii této sekvence. Složitost tohoto problému spočívá v tom, že jednotlivé sekvence mohou mít různou délku nebo mohou být složeny z rozsáhlého slovníku vstupních hodnot a mohou vyžadovat, aby se model naučil nějaké dlouhodobé závislosti nebo kontext mezi vstupními sekvencemi.

Zkusíme se tedy podívat na příklad sekvenční klasifikace pomocí LSTM na IMDB datasetu, což je dataset, který obsahuje slovní popis recenzí 50K filmů a následně klasifikaci, jestli byla recenze pozitivní nebo negativní v poměru 1:1. 

In [14]:
import numpy
from keras.datasets import imdb
from keras.models import Sequential
from keras.layers import Dense, LSTM, Dropout, Embedding
from keras.utils import pad_sequences

# zafixujem random seed pro reprodukovatelnost
numpy.random.seed(7)

Problém je, že slovní popis je nějak potřeba převést na číselnou reprezentaci. Naštěstí funkce ```imdb.load_data``` umí načíst data tak, že rovnou slova nahradí čísly a rozdělí je na train a test množiny v poměru 1:1. Navíc data načteme tak, že necháme jen prvních ```top_words``` nejčastějších slova  zbytek nahradíme 0. Dále je potřeba zkrátit nebo doplnit vstupní sekvence pro modelování tak, aby byly všechny stejně dlouhé, délku nastavíme na ```max_len```.

In [15]:
top_words = 5000
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=top_words)

max_length = 500
x_train = pad_sequences(x_train, maxlen=max_length)
x_test = pad_sequences(x_test, maxlen=max_length)

Nyní máme připravená data a můžeme si definovat a natrénovat model.
 - První vrstva je ```Embedding```, která používá vektory délky 32 pro každé slovo. 
 - Další vrstva je ```LSTM``` vrstva, která obsahuje 100 paměťových jednotek (neuronů). 
 - Na závěr použijeme ```Dense``` výstupní vrstvu s jedním neuronem a aktivační funkcí sigmoid k vytvoření predikcí 0 nebo 1, protože se jedná o klasifikační úlohu.

Problém modelu je, že se velice snadno overfittuje na na daná trénovací data. Proto se se používají ještě vrstvy ```Dropout```, které spočívají v tom, že během trénování se náhodně vynechávají některé vstupy do další vrstvy. Tím se simuluje velký počet sítí s odlišnou strukturou a uzly jsou pak robustnější a omezuje se tím pádem overfitting.

In [16]:
# create the model
embedding_vector_length = 32
model = Sequential()
model.add(Embedding(top_words, embedding_vector_length, input_length=max_length))
model.add(Dropout(0.2))
model.add(LSTM(100))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())
model.fit(x_train, y_train, epochs=3, batch_size=64)

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 500, 32)           160000    
                                                                 
 dropout (Dropout)           (None, 500, 32)           0         
                                                                 
 lstm (LSTM)                 (None, 100)               53200     
                                                                 
 dropout_1 (Dropout)         (None, 100)               0         
                                                                 
 dense (Dense)               (None, 1)                 101       
                                                                 
Total params: 213,301
Trainable params: 213,301
Non-trainable params: 0
_________________________________________________________________
None
Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.History at 0x2821d50a1d0>

Na závěr zkusíme predikovat výstupy na testovacích datech a podívat se, jak je model dobrý. Můžete si třeba zkusit pustit trénování modelu s droupoutem a bez něj a podívat se, jak se budou lišit výsledné accuracies.

In [17]:
scores = model.evaluate(x_test, y_test, verbose=0)
print("Accuracy: %.2f%%" % (scores[1]*100))

Accuracy: 87.03%


## Generování textu znak po znaku 

Nyní se podíváme na jiný druh problému -- budeme generovat text znak po znaku, neboli natrénujeme jazykový model tak, že když mu pak dáme sekvenci znaků, tak nám model bude schopný předpovědět další znak. Jako trénovací množinu použijeme texty Nietzscheho.

In [None]:
'''
    Example script to generate text from Nietzsche's writings.
    At least 20 epochs are required before the generated text
    starts sounding coherent.
    It is recommended to run this script on GPU, as recurrent
    networks are quite computationally intensive.
    If you try this script on new data, make sure your corpus
    has at least ~100k characters. ~1M is better.
'''

# nacteme si vstupni data
path = tf.keras.utils.get_file('nietzsche.txt', origin="https://s3.amazonaws.com/text-datasets/nietzsche.txt")
text = open(path).read().lower()
print('corpus length:', len(text))

chars = set(text)
print('total chars:', len(chars))
char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))

# rozdelime text na castecne zavisle sekvence znaku delky maxlen
maxlen = 20
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
    next_chars.append(text[i + maxlen])
print('nb sequences:', len(sentences))

# prevedeme text na ciselne vektory
print('Vectorization...')
X = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        X[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1
    
# vytvorime si model    
print('Build model...')
model = Sequential()
model.add(LSTM(512, return_sequences=True, input_shape=(maxlen, len(chars))))
model.add(Dropout(0.2))
model.add(LSTM(512, return_sequences=False))
model.add(Dropout(0.2))
model.add(Dense(len(chars), activation=tf.nn.softmax))

model.compile(loss='categorical_crossentropy', optimizer='rmsprop')

# pomocna funkce k ziskani indexu z pravdepodobnostniho pole
def sample(a, temperature=1.0):  
    a = np.log(a) / temperature
    a = np.exp(a) / np.sum(np.exp(a))
    a = a/np.sum(a)
    return np.argmax(np.random.multinomial(1, a, 1))

# natrenujeme model a po kazde iterace generujeme vystup
for iteration in range(1, 60):
    print()
    print('-' * 50)
    print('Iteration', iteration)
    model.fit(X, y, batch_size=128, epochs=1)

    start_index = random.randint(0, len(text) - maxlen - 1)

    for diversity in [0.2, 0.5, 1.0, 1.2]:
        print()
        print('----- diversity:', diversity)

        generated = ''
        sentence = text[start_index: start_index + maxlen]
        generated += sentence
        print('----- Generating with seed: "' + sentence + '"')
        sys.stdout.write(generated)

        for _ in range(400):
            x = np.zeros((1, maxlen, len(chars)))
            for t, char in enumerate(sentence):
                x[0, t, char_indices[char]] = 1.

            preds = model.predict(x, verbose=0)[0]
            next_index = sample(preds, diversity)
            next_char = indices_char[next_index]

            generated += next_char
            sentence = sentence[1:] + next_char

            sys.stdout.write(next_char)
            sys.stdout.flush()
        print()

Skript si samozřejmě můžete pustit, ale trénování poběží neskutečně dlouho. Proto jsme skript pustili na Google Colab a na výsledky se můžete podívat [zde](https://colab.research.google.com/drive/1B7zys275xmpPqahPwNvuYMPLmgvlV3l5) nebo v souboru [*results.txt*](/notebooks/07_rbf_rnn/results.txt).