# Sieci rekurencyjne (RNN) + Keras

Klasyczne sieci neuronowe mają dwie zasadnicze wady, które sprawiają, że przetwarzanie języka naturalnego z ich udziałem jest problematyczne:
<ul>
    <li>Wyuczone wagi powiązane są z konkretnymi pozycjami cechy w wektorze cech</li>
    <li>Ciężko uwzględnić relacje między cechami (n-gramy pomagają tylko trochę)</li>
</ul>

Kiedy rozważamy problemy przetwarzania języka - cechami są słowa w zdaniach, bądź jakieś statystyki powiązane ze słowami. Gramatyka większości języków (w szczególności fleksyjnych, takich jak nasz) pozwala jednak na pojawienie się istotnych wyrażeń w różnych miejscach w zdaniu. Kiedy chcielibyśmy wykonać zadanie wykrywania nazw firm w zdaniach - pozycja słowa w zdaniu dostarcza niewielu informacji o tym czy dane słowo jest rzeczywiście firmą czy nie.

**Apple** jest najlepszą firmą.

Najlepszą firmą jest **Apple**.

Najlepsza firma - to **Apple**.

Firma **Apple** jest najlepsza.

Co więcej - często wcześniejsze słowa mają wpływ na kolejne. Wyobraźmy sobie zadanie uzupełniania luki w zdaniu. 
Mamy dwa zdania:


W pracy zawodowej piszą bardzo dużo kodu, jestem [   ].

W pracy zawodowej często pomagam ludziom, jestem [   ].

Słowa poprzedzające luki pozwalają nam z dużo większym prawdopodobieństwem oszacować, że w pierwszym przypadku powinniśmy umieścić zawód programisty lub podobny, a w drugim - pielęgniarki lub podobny. Zatem poprzednie elementy sekwencji, mają wpływ na kolejne.

Pomóc w takich problemach mogą sieci rekurencyjne.

Dzisiejsze laboratoria pokażą jak zaimplementować sieć rekurencyjną od zera i jak nauczyć ją dodawania do siebie dwóch liczb reprezentowanych w postaci stringów (w formacie binarnym - jako ciągi zer i jedynek). (Np. 7="111", 5="101"). 


Dlaczego taki problem? Dodawanie dwóch reprezentacji binarnych jest bardzo prostym zadaniem, w którym sekwencja znaków jest istotna. Kiedy dodajemy dwie liczby binarne, często mamy do czynienia z potrzebą uwzględnienia bitu przeniesienia z aktualnego do kolejnego kroku (kiedy dodajemy do siebie 1 + 1) - nasza sieć neuronowa nauczy się uwzględniać informację o tym, ucząc się wykorzystania pamięci znajdującej się w warstwie ukrytej.

![unfolded_rnn.png](attachment:unfolded_rnn.png)

Powyższy obrazek pokazuje sieć rekurencyjną. Widzimy, że zawiera ona w sobie klasyczną sieć feedforward składającą się z 1 warstwy ukrytej (hidden layer) oraz następującej po niej warstwie wyjściowej (output layer). Aby przetworzyć sekwencję, ta sama sieć jest zwielokrotniona (w poziomie) i przetwarza po kolei każdy element z sekwencji. Na powyższym obrazku sieć feedforward (na czarno) ma 3 kopie - przetwarza więc sekwencję 3-elementową (np. 3 następujące po sobie słowa).

Przekazywanie informacji o poprzednich elementach sekwencji (np. słowach) do kolejnych następuje poprzez połączenie warstwy ukrytej w kolejnych krokach czasowych (czerwone połączenia) Warstwa ukryta powinna modelować pamięć, która może być użyta do podejmowania przyszłych decyzji. 

Literki U, V, W symbolizują macierze wag pomiędzy warstwami. U łączy warstwę wejściową z ukrytą (każdy z każdym), V - łączy ukrytą z wyjściową (każdy z każdym), a W łączy warstwę ukrytą z poprzedniego punktu w czasie z kolejnym (również każdy z każdym).

Warto zauważyć, że do przetworzenia każdego kroku sekwencji używamy dokładnie tych samych wag. Wagi U, V, W są użyte przy każdej "kopii" sieci rekurencyjnej (jak na obrazku). 

---

![layers.jpg](attachment:layers.jpg)

Sieci rekurencyjne stwarzają nam kilka możliwości tworzenia architektur. Powyżej zwizualizowanych jest kilka modeli z jedną warstwą ukrytą.

Dane w sekwencji następują po sobie jeden po drugim (słowa tworzą uporządkowany ciąg), każdy z elementów ciągu nadchodzi później, reprezentuje więc późniejszy punkt w czasie. Oś pozioma (od lewej do prawej) na powyższym obrazku symbolizuje upływ czasu - kolejne kroki wynikające z przyjmowania/generowania kolejnych elementów sekwencji.

Różowy prostokąt - wektor cech warstwy wejściowej, dla aktualnego punktu w czasie

Zielony prostokąt - wektor warstwy ukrytej dla aktualnego punktu w czasie

Niebieski prostokąt - wektor warstwy wyjściowej dla aktualnego punktu w czasie


<ol>
<li>one to one - klasyczna sieć feedforward, wektor cech transformowany jest do warstwy ukrytej, ta zaś transformowana jest do warstwy wyjśiowej - brak rekurencji, brak sekwencji</li>
<li>one to many - tworzenie sekwencji z pojedynczego wektora cech. Np. tworzenie opisu obrazków mając zadany 1 obrazek (opis - sekwencja wielu wyrazów, wejście 1 obrazek)</li>
<li>many to one - tworzenie pojedynczego wyjścia dla sekwencji wielu wejść. Np. Wykrywanie sentymentu w recenzji tekstowej. Z sekwencji wielu wejść (wiele słów recenzji) generujemy pojedynczą decyzję (sentyment powiązany z recenzją).</li>
<li>many to many - Z sekwencji N wejść, tworzymy sekwencję M wyjść. Np. tłumaczenie maszynowe - na wejściu sekwencja słów w jednym języku, na wyjściu zaś przetłumaczona sekwencja słów (potencjalnie o innej długości!)</li>
<li>many to many (synchronizowane) - generowanie sekwencji o długości takiej jak sekwencja wejściowa. Np. klasyfikacja kolejnych klatek wideo.</li>
</ol>

## Materiały online:
**Ponieważ, podobnie jak w przypadku poprzednich laboratoriów, najłatwiej byłoby pokazać działanie sieci rekurencyjnych przy tablicy, a trochę ciężej zrobić to za pomocą statycznych obrazków, polecam poniższy materiał na YouTube, który w intuicyjny sposób przedstawia ideę sieci rekurencyjnych i problemy z ich wykorzystaniem (https://www.youtube.com/watch?v=LHXXI4-IEns - długość ok. 10 minut)**

## Zadanie1 (0.5 pkt): Inicjalizacja wag sieci

Wagi na połączeniach między warstwami powinny być początkowo niewielkimi losowymi odchyleniami od wartości 0. W procesie uczenia wartości te modyfikować się będą tak, aby jak najdokładniej przewidywać oczekiwane wyjście.

**Wykorzystując numpy, napisz funkcję, która wygeneruje losową macierz zadanych rozmiarów (rows - liczba wierszy, cols - liczba kolumn), której wartości będą zawarte w przedziale -1 do 1.**

In [1]:
import numpy as np
np.random.seed(0)
def generate_random_matrix(rows, cols):
    return np.random.uniform(-1,1,(rows,cols))

print(generate_random_matrix(4, 3))

[[ 0.09762701  0.43037873  0.20552675]
 [ 0.08976637 -0.1526904   0.29178823]
 [-0.12482558  0.783546    0.92732552]
 [-0.23311696  0.58345008  0.05778984]]


## Zadanie 2 (1 pkt): Wyznaczenie aktywacji warstwy ukrytej (pamięci) i wyjściowej

W przypadku sieci rekurencyjnych, w przeciwieństwie do klasycznych feedforward - pojawia się połączenie rekursywne z historycznymi danymi. 
Jeśli stworzymy prostą rekurencyjną sieć neuronową z jedną warstwą ukrytą, to obliczenia w tej sieci wyglądać będą następująco:

$\vec{a_{h1(t)}} = sigmoid(U\vec{x} + W\vec{a_{h1(t-1)}} + \vec{b_1})$ - aktywacja f. sigmoid jest tylko przykładem,  można użyć innej aktywacji (tanh, relu, etc)

$\vec{a_{o(t)}} = softmax(V\vec{a_{h1(t)}} + \vec{b_2})$ - softmax jest przykładem f. aktywacji, ma sens w problemie klasyfikacji przy > 2 etykietach, można również użyć np. sigmoid (jeśli jeden neuron na wyjściu)

<br/>

gdzie $\vec{a_{h1(t)}}$ to wartość wektora reprezentującego aktywację warstwy ukrytej w aktualnym kroku,

$\vec{a_{h1(t-1)}}$ to wartość aktywacji warstwy ukrytej w poprzednim kroku,

$\vec{a_{o(t)}}$ to rezultat wygenerowany przez całą sieć neuronową (aktywacja na warstwie "output")

<br/>
Poprzez uwzględnienie wartości warstwy ukrytej z poprzedniego kroku - sieć może nauczyć się w jaki sposób poprzednie dane z sekwencji wpływają na aktualną decyzję.

**Zadanie2: Mając zadane wartości macierzy wag: U, V, W a także wartości warstwy ukrytej z poprzedniego kroku oraz wektor cech - zaimplementuj dwie funkcje**:
<ol>
    <li>get_hidden_state - funkcja obliczająca aktualną wartość wektora w warstwie ukrytej (pamięć o sekwencji).</li>
    <li>get_network_output - funkcja obliczająca wyjście sieci dla aktualnie obliczonych wartości w warstwie ukrytej</li>
</ol>
Dla prostoty późniejszych obliczeń - pomińmy wektor biasów, gdyż nie jest on niezbędny do rozwiązania naszego problemu, wzór na aktywację warstwy ukrytej bez biasów: $\vec{a_{h1(t)}} = sigmoid(U\vec{x} + W\vec{a_{h1(t-1)}})$

In [2]:
# policz sigmoidę po wektorze lub skalarze
def sigmoid(x): 
    output = 1 / (1 + np.exp(-x))
    return output

# policz softmax po wektorze lub skalarze
def softmax(x):
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum()

U = np.array([[-3., 2., ], [4., 2., ], [1., -5.,]])
W = np.array([[1.25, 1.3, 1.5], [2.01, 3.4, -2.4], [1.08, -.3, 0.1]])
V = np.array([[-0.2,0.81, -0.2], [0.12, 0.42, 0.21], [0.1, 0.32, 0.01]])

x = np.array([0.5, 0.21])
prev_hidden = np.array([0.1, 0.32, 0.01])

def get_hidden_state_activation(U, W, x, prev_hidden):
    return sigmoid(np.dot(U,x)+np.dot(W,prev_hidden))

def get_network_output(V, current_hidden):
    return softmax(np.dot(V,current_hidden))


hidden_state = get_hidden_state_activation(U, W, x, prev_hidden)
print(hidden_state)
print(get_network_output(V, hidden_state))


[0.37191738 0.97551727 0.36888573]
[0.37811473 0.33866203 0.28322324]


Expected output: 

0.37191738 0.97551727 0.36888573

0.37811473 0.33866203 0.28322324

## Zadanie 3 (0.5 pkt)- ilość parametrów

Mając zadaną sieć rekurencyjną o jednej warstwie ukrytej, z połączeniem rekurencyjnym w warstwie ukrytej **ile parametrów zostanie optymalizowanych podczas nauki?** Przyjmijmy, że sieć neuronowa ma 20 wejść, warstwa ukryta ma rozmiar 10 neuronów, a wyjściowa - 5 neuronów.

a) Nie wliczając biasów (jak w zadaniu 2)

b) Uwzględniając biasy na każdym neuronie

Odpowiedzi zawrzyj w komentarzach poniżej

In [None]:
# Odp 3a: 20*10+10*5+10*10 = 200+50+100=350
# Odp 3b: 350 + 10 + 5 = 365

---


# Zaawansowane sieci neuronowe w detekcji sentymentu

W tej części skupimy się na wykorzystaniu zaawansowanych architektur sieci neuronowych do problemu wykrywania sentymentu (emocji: pozytywnych i negatywnych), które zawarte są w tekstach.

Ponieważ implementacja sieci LSTM i GRU jest dość trudna/czasochłonna - wykorzystamy gotowy framework, który pozwoli nam na zdefiniowanie i wyuczenie sieci neuronowej na wysokim poziomie - **Keras**.

Ocenę sentymentu przeprowadzimy na gotowym zbiorze recenzji z portalu IMDB, który jest już odpowiednio przeprocesowany i posiada zdefiniowany oczekiwany sentyment dla każdego tekstu (a więc dla którego bez wysiłku możemy uruchomić algorytmy klasyfikacji i je ocenić). Zaczynajmy!

## Dane do uczenia

Poniższy fragment kodu pobiera dane do uczenia. Funkcja imdb.load_data() ładuje zarówno zbiór uczący (wektory cech, oraz etykiety), jak i analogiczny zbiór testowy. 

Poniżej wyświetlony na ekranie jest jeden z przykładów uczących oraz przypisana do niego etykieta.

Widzimy, że tekst reprezentowany jest sekwencją liczb. Co one oznaczają?
Każda liczba reprezentuje słowo (jest identyfikatorem słowa), identyfikatory posortowane są względem częstości występowania słów, zatem słowo o identyfikatorze 10 występuje w korpusie częśćiej niż słowo o identyfikatorze 11.
Dodatkowo wprowadzone są specjalne znaczniki BOS - początek zdania i EOS - koniec zdania. Oba równiez reprezentowane są w formie liczbowej.

Pamiętamy z jednych z pierwszych laboratoriów, że duża wielkość słownika jest problematyczna. Dobrym pomysłem jest często odrzucenie najrzadziej wystepujących słów, ponieważ one nie mają wielkiego znaczenia (Kiedy uczymy się nowego języka - często nie rozumiemy pojedynczych słów, ale znajomość pozostałych sprawia, że jesteśmy w stanie zrozumieć sens tekstu). Aby ograniczyć rozmiar słownika, w funkcji load_data() możemy zadać parametr num_words o określonej wartości. Wartość ta, mówi nam ile najczęściej występujących słów bierzemy pod uwagę. Wszystkie rzadsze słowa - reprezentowane są zbiorczo taką samą wartością liczbową oznaczającą nieznany token (Unknown token).

Inną ważną kwestią jest długość recenzji - każda z nich może składać się z innej liczby słów. O ile sieci rekurencyjne są teoretycznie w stanie poradzić sobie z sekwencjami o różnej długości, to w praktyce optymalizacje wymagają, aby sekwencje były reprezentowane poprzez taką samą długość wektora cech. Aby wyrównać liczbę cech na wejściu stosuje się tzw. padding do określonej długości. Jeśli wektor cech recenzji jest dłuższy niż zadany padding - zostaje on ucięty, jeśli zaś jest krótszy - dodawane są cechy o wartości 0, aby dopełnić długości.

**Zadanie 4 (1 punkt)**: Poniższy kod pobiera dane z IMDB ograniczając liczbę słów w słowniku do 10000. 
Chcielibyśmy przyjrzeć się danym oraz zastosować na nich padding. Aby to zrobić - wykonajmy następujące kroki:
<ol>
    <li>Sprawdźmy i wyświetlmy średnią długość wektora w x_train - pozwoli nam to sprawdzić ile średnio słów jest w recenzji</li>
    <li>Sprawdźmy i wyświetlmy odchylenie standardowe wektora x_train - pozwoli nam to określić jak wygląda rozrzut wartości od średniej</li>
    <li>Stosując funkcję pad_sequences z kerasa (zaimportowana w pierwszej linijce) - nadpiszmy zbiory x_train i x_test tak, aby każdy wektor miał długość 500 (https://keras.io/preprocessing/sequence/). Wybrana długość wynika z analizy z poprzednich podpunktów (średnia i odch. std.). Jak teraz wygląda średnia długość i odchylenie std?</li>
    <li>Nasz model będziemy weryfikować na zbiorze testowym z użyciem miary accuracy (jaki % podjętych przez klasyfikator decyzji jest poprawnych). Warto sprawdzić jak wygląda rozkład etykiet w zbiorze testowym. Sprawdź: jaki procent zbioru testowego stanowią etykiety o wartości 1? jaki procent zbioru testowego stanowią etykiety o wartości 0?
</ol>

In [12]:
# jeśli nie ma kerasa odkomentuj linijkę poniżej
#import keras
from keras_preprocessing.sequence import pad_sequences
from keras.datasets import imdb


import numpy as np

(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

print(x_train[0]) # pokaż wektor cech dla pierwszej recenzji
print(y_train[0]) # pokaż etykietę (1 = sentyment pozytywny; 0 = sentyment negatywny)
#print(x_train.size())

x_train_sizes=np.array([len(row) for row in x_train])
average_x_len =np.mean(x_train_sizes) # todo: oblicz średnią liczbę cech w wektorach x_train (możesz wykorzystać numpy)
stddev_x_len = np.std(x_train_sizes) # todo: oblicz odchylenie standardowe po x_train (możesz wykorzystać numpy)


x_train = pad_sequences(x_train,500) # TODO: zastosuj padding do 500 tokenów (wskazówka: zobacz na listę importowanych funkcji)
x_test = pad_sequences(x_test,500)   # TODO: zastosuj padding do 500 tokenów
padded_sizes=np.array([len(row) for row in x_train])

padded_average_x_len = np.mean(padded_sizes) # TODO: oblicz średnią liczbę cech w wektorach x_train po paddingu
padded_stddev_x_len = np.std(padded_sizes) # TODO: oblicz odchylenie standardowe po x_train po paddingu

count_positive = np.count_nonzero(y_test)  # TODO: ile elementów testowych ma przypisany sentyment pozytywny
count_negative = y_test.size-count_positive  # TODO: ile elementów testowych ma przypisany sentyment negatywny

print("Przed paddingiem. Średnia długość wektora: {ave_len}; odchylenie std: {std_dev}".format(
    ave_len=average_x_len, std_dev=stddev_x_len))

print("Po paddingu. Średnia długość wektora: {ave_len}; odchylenie std: {std_dev}".format(
    ave_len=padded_average_x_len, std_dev=padded_stddev_x_len))

print("W zbiorze testowym jest {pos} elementów o pozytywnym sentymencie i {neg} elementów o negatywnym. Sentyment pozytywny stanowi {percentage}% zbioru.".format(
pos=count_positive, neg=count_negative, percentage = 100.0*(count_positive)/(count_positive + count_negative)))

[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 2, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 2, 336, 385, 39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 18, 2, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 16, 82, 2, 8, 4, 107, 117, 5952, 15, 256, 4, 2, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 400, 317, 46, 7, 4, 2, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]
1
Przed paddingiem. Średnia długość wektora: 238.71364; odch

## Przykładowa prosta sieć w Keras.
Poniżej znajdziecie przykład kodu, którzy tworzy sieć dwuwarstwową o:
<ol>
<li>100 wejściach</li>
<li>warstwie ukrytej z 64 neuronami o aktywacji ReLU</li>
<li>warstwie wyjściowej z 1 neuronem o aktywacji sigmoidalnej</li>
</ol>
Ten kod będzie szablonem dla kolejnych zdań. Uruchom go i sprawdź jak prosta sieć działa 

$ReLU(x) = max(0, x)$, 

In [15]:
import numpy as np
np.random.seed(1337) # for reproducibility

from keras.models import Sequential
from keras.layers import Dense, Flatten, Embedding, LSTM, GRU, Conv1D, MaxPooling1D


model = Sequential() # sequential = sieć jako lista warstw, dodajemy warstwy metodą .add() (jak w standardowej liście)
model.add(Dense(units=64, input_dim=500, activation='relu')) # dodajemy warstwę Dense (gęstą). Dense oznacza, że wszystkie wejścia (w tym przypadku 100) połączone są z neuronami warstwy w sposób każdy z każdym (każdy neuron z poprzedniej warstwy połączony z każdym neuronem warstwy następnej, tak jak to robiliśmy na poprzednich laboratoriach)
model.add(Dense(units=1, activation='sigmoid')) # rozmiar wejścia zdefiniować musimy tylko w pierwszej warstwie (definiujemy ile jest cech na wejściu). Ponieważ model wie jakie są rozmiary poprzednich warstw - może w sposób automatyczny odkryć, że opprzednia warstwa generuje 64 wyjścia

model.compile(loss='binary_crossentropy', # budujemy model! ustawiamy funkcję kosztu - mamy klasyfikację z dwiema etykietami, więc stosujemy 'binary_crossentropy'
              optimizer='adam',  # wybieramy w jaki sposób sieć ma się uczyć
              metrics=['accuracy']) # i wybieramy jaka miara oceny nas interesuje


model.fit(x_train, y_train, epochs=5, validation_data=(x_test, y_test)) # uczymy model na zbiorze treningowym, weryfikujemy na testowym, epochs - oznacza ile przejść po wszystkich przykładachw zbiorze uczącym powinno się wykonać.

loss, accuracy = model.evaluate(x_test, y_test, batch_size=128) # ostateczna ewaluacja wyuczonego modelu
print("Trafność klasyfikacji to: {acc}%".format(acc=accuracy*100)) 

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Trafność klasyfikacji to: 50.199997425079346%


Jak widzimy, sieć generuje trafność na poziomie 50%. Ponieważ zarówno etykieta "1", jak i "0" w zbiorze testowym stanowią połowę - wiemy, że ten klasyfikator nie jest najlepszy (Taką samą trafność będą miały klasyfikatory: zwracające zawsze etykietę 0, zwracajace zawsze etykietę 1 oraz zwracające decyzje losowe).

Czy jesteśmy w stanie coś z tym zrobić? 
Tak. Nasza poprzednia sieć próbowała uczyć się z listy identyfikatorów słów, to stosunkowo kiepska reprezentacja, ale pamiętamy, że całkiem nieźle sprawowały się tzw. Embeddingi. Szczęśliwie - keras udostępnia warstwy uczące się embeddingów z reprezentacji takiej, którą dotychczas podawaliśmy na wejściu.



**Zadanie 5 (1 punkt) - Wykorzystanie embeddingów w sieci feed forward**
Widząc w jaki sposób dodawane są kolejne warstwy w Kerasie (model.add(...)), przerób architekturę istniejącej sieci w następujący sposób:

<ol>
    <li>Pierwsza warstwa: Warstwa Embedding (https://keras.io/layers/embeddings/), ustaw długość generowanego wektora na 32, długość wejścia - taka jak wynika to z paddingu - 500, a także rozmiar słownika zgodny z tym co wybraliśmy przy pobieraniu danych (10000)</li>
    <li>Druga warstwa: Flatten (https://keras.io/layers/core/); Zauważmy, że warstwa ucząca embeddingi - Embedding - zamienia nam każdy indentyfikator z wektora wejściowego na wektor o zadanej liczbie wymiarów. Każde słowo reprezentowane jest teraz nie pojedynczą liczbą a pojedynczym wektorem. Kiedy złożymy embeddingi wszystkich słów otrzymamy macierz wielkości: liczba słów x rozmiar embeddingu. Warstwa Flatten nie robi nic poza tym, że bierze taką macierz i zamienia znów na wektor poprzez połączenie ze sobą wszystkich wektorów embeddingów w jeden wielki wektor (ustawiając je w jednym wymiarze jeden za drugim) </li>
    <li>Trzecia warstwa: klasyczna warstwa Dense (https://keras.io/layers/core/) np. z 64 neuronami i aktywacją relu
    <li>Czwarta warstwa (wyjściowa): klasyczna warstwa Dense z 1 neuronem (generującym prawdopodobieństwo pozytywnego sentymentu) i aktywacją sigmoidalną (sigmoid)
</ol>
Parametry kompilacji, sposób uczenia i ewaluacji możesz pozostawić bez zmian. Czy trafność klasyfikacji wzrosła?

In [14]:
model = Sequential()
model.add(Embedding(input_dim=10000,output_dim=32,input_length=500))
model.add(Flatten())
model.add(Dense(units=64, input_dim=500, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(x_train, y_train, validation_data=(x_test, y_test), epochs=2, batch_size=128)
loss, accuracy = model.evaluate(x_test, y_test)
print("Trafność klasyfikacji to: {acc}%".format(acc=accuracy*100)) 

Epoch 1/2
Epoch 2/2
Trafność klasyfikacji to: 87.59199976921082%


## Architektury rekurencyjne

Aby zamodelować sieć rekurencyjną LSTM bądź GRU - możemy użyć dedykowanych warstw przygotowanych przez autorów Kerasa.


**Zadanie 6 (1 punkt): Sieć rekurencyjna GRU i LSTM**
Aby stworzyć taką sieć utwórz model z następującymi warstwami:

<ol>
    <li>Warstwa Embedding, analogicznie do poprzednich zadań. Rozmiar wektora embeddingów ustawmy na 32</li>
    <li>Warstwa LSTM (https://keras.io/layers/recurrent/) - Warstwa sieci rekurencyjnej - nie potrzebuje wcześniejszego spłaszczenia warstwą Flatten. Ustawmy rozmiar tej warstwy na 32. Ponadto ustawmy parametry dropout i recurrent_dropout na 0.2 (parametr regularyzacyjny zabezpieczający przet przeuczeniem)</li>
    <li>Warstwa Dense (wyjściowa) - Warstwa o aktywacji sigmoidalnej z 1 neuronem</li>
</ol>

Po uruchomieniu sieci wykorzystującej LSTM - zamień warstwę LSTM na GRU (https://keras.io/layers/recurrent/) z takimi samymi parametrami - czy sieć uczy się lepiej? Co z czasem uczenia?

In [17]:
import time

model = Sequential()
model.add(Embedding(10000, 32, input_length=500))
model.add(GRU(32, dropout = 0.2, recurrent_dropout = 0.2))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
start_time = time.time()
model.fit(x_train, y_train, validation_data=(x_test, y_test), epochs=2, batch_size=128)
end_time = time.time()
loss, accuracy = model.evaluate(x_test, y_test)
print("Trafność klasyfikacji to: {acc}%".format(acc=accuracy*100)) 
print("Czas treningu: {t}".format(t=end_time - start_time))

###LSTM:
#Trafność klasyfikacji to: 87.32399940490723%
#Czas treningu: 307.7930860519409

#Gru:
#Trafność klasyfikacji to: 87.48000264167786%
#Czas treningu: 272.3530580997467

#Gru wypadł zdecydowanie lepiej 


Epoch 1/2
Epoch 2/2
Trafność klasyfikacji to: 87.48000264167786%
Czas treningu: 272.3530580997467


Jak widzimy siec rekurencyjna daje niższe rezultaty niż sieć feedforward. Dlaczego? 
Sieci rekurencyjne (LSTM i GRU) dają w wielu zadaniach wyniki, które są najlepsze możliwe. Jednakże trening takiej sieci trwa bardzo długo. Gdybyśmy odpowiednio dobrali liczbę warstw i parametry sieci - prawdopodobnie otrzymalibyśmy najlepsze rezultaty ze wsystkich porównywanych architektur - niestety za cenę czasu, który na laboratoriach jest ograniczony.

Ponieważ obliczenia w niektórych architekturach są bardzo intensywne, bardzo popularnym jest wykonywanie tych obliczeń nie na procesorze, a na karcie graficznej. W przypadku posiadania dobrej karty graficznej, szybkość przetwarzania będzie dużo większa.



# Bonus: implementacja sieci rekurencyjnej używając tylko NumPy (niepunktowane)

Poniżej znajduje się przykładowa implementacja kodu, który tworzy sieć neuronową, będącą w stanie dodawać do siebie dwie sekwencje binarnych reprezentacji liczb (dwie liczby w formacie binarnym). Tworzona sieć to sieć rekurencyjna, typu many-to-many (synchronizowana)*.

(*) Jak wiemy, dodawanie dwóch liczb binarnych może dać na wyjściu liczbę, której reprezentacja binarna będzie dłuższa niż dwie liczby wejściowe, np. "111 + 001 = 1000" - nasz problem nie zawiera takich danych - wszystkie dane treningowe dobrane są tak, że długość wyniku nigdy nie będzie dłuższa niż długość wejść. Upraszcza to implementację. Ponadto zaimplementowana sieć nie uwzględnia biasów (nie są wymagane aby rozwiązać problem, a ich pominięcie sprawia, że kod jest bardziej "kompaktowy").

**Uruchom poniższy kod, sprawdź jak uczy się sieć i przeanalizuj ten fragment kodu. Zadanie nie jest oceniane, ma tylko pokazać jak taka sieć może zostać zaimplementowana**

!!! Uwaga: poniższy kod korzysta z Twoich implementacji funkcji **generate_random_matrix** oraz **get_hidden_state_activation** z pierwszej części notebooka. Przed uruchomieniem tego kodu upewnij się, że poprawnie zaimplementował(e/a)ś obie funkcje!!!

In [None]:
import copy
import numpy as np
np.random.seed(0)

# policz sigmoidę o wektorze lub skalarze
def sigmoid(x): 
    output = 1 / (1 + np.exp(-x))
    return output

# policz pochodną z sigmoidy
def sigmoid_output_to_derivative(output):
    return output * (1 - output)

# wczytaj dane wejściowe
# w formacie liczba1_binarnie,liczba2_binarnie,ich_suma_binarnie
# np. 0000111,0000001,0001000
def load_dataset(path):
    X = []  # w tej liście będziemy zapisywać pary składników
    Y = []  # w tej liście będziemy zapisywać sumy składników
    with open(path, 'r') as f:
        for line in f:
            if len(line.strip()) == 0:
                continue
            input1_bin, input2_bin, sum_bin = line.strip().split(",")
            
            #wczytane dane to stringi, przekształć na wektory liczb
            input1_bin = np.array([int(i) for i in input1_bin])
            input2_bin = np.array([int(i) for i in input2_bin])
            sum_bin = np.array([int(i) for i in sum_bin])
            
            X.append((input1_bin, input2_bin)) # zapisz pary składników jako wejścia
            Y.append(sum_bin)                  # zapisz sumę jako oczekiwany rezultat
    return X, Y


train_X, train_Y = load_dataset('dataset.csv')

alpha = 0.1      # stała uczenia (learning_rate) - jak duże zmiany robić w uczeniu
input_dim = 2    # ile cech (liczb) na wejściu sieci
hidden_dim = 16  # rozmiar warstwy ukrytej (rozmiar wektora z pamięcią)
output_dim = 1   # ile wartości na wyjściu 


# initialize neural network weights
U = generate_random_matrix(input_dim, hidden_dim)   # inicjalizacja macierzy między wejściem a warstwą ukrytą
V = generate_random_matrix(hidden_dim, output_dim)  # inicjalizacja macierzy między warstwą ukrytą a wyjściową
W = generate_random_matrix(hidden_dim, hidden_dim)  # inicjalizacja macierzy między poprzednim stanem warstwy ukrytej a aktualnym

U_update = np.zeros_like(U) # macierz poprawek, które aplikowane są w procesie uczenia, aby wyznaczyć coraz lepsze wartości wag
V_update = np.zeros_like(V) # macierz poprawek, które aplikowane są w procesie uczenia, aby wyznaczyć coraz lepsze wartości wag
W_update = np.zeros_like(W) # macierz poprawek, które aplikowane są w procesie uczenia, aby wyznaczyć coraz lepsze wartości wag

for j in range(len(train_Y)):    # iterujemy po wszystkich przykładach uczących
    added_one_seq = train_X[j][0]   # pierwszy składnik do sumowania w postaci binarnej, np. 00001
    added_two_seq = train_X[j][1]   # drugi składnik do sumowania w postaci binarnej, np. 00010
    expected_sum_seq = train_Y[j]   # oczekiwany wynik sumowania obu składników (dla przykładu wyżej: 00011)

    predicted_sum_seq = np.zeros_like(expected_sum_seq) # tworzymy pusty wektor, który wypełniać będziemy wartościami 0 lub 1 tworząc naszą predykcję

    overallError = 0                # tutaj będziemy zapisywać jak bardzo nasze przewidywania różnią się od oczekiwań  

    output_l_deltas = list()
    hidden_l_values = list() # wartości aktywacji warstwy ukrytej, zapisywane aby
    hidden_l_values.append(np.zeros(hidden_dim))

    # iterujemy po postaci binarnej bit po bicie, od najmniej znaczącego (od prawej do lewej)
    for position in range(len(added_one_seq) - 1, -1, -1):

        # jako wejście sieci w aktualnym kroku - bierzemy parę bitów na pozycji [position] (2 liczby)
        X = np.array([
            [added_one_seq[position], added_two_seq[position]]
        ])
        # jako oczekiwane wyjście sieci w aktualnym kroku - bierzemy bit na pozycji [position] (budujemy odpowiedź jako sekwencję, znak po znaku!)
        y = np.array([[expected_sum_seq[position]]]).T

        # Obliczamy wartość warstwy ukrytej
        # uwaga, mały hack; w zależności od przygotowania parametrów U, V, W i danych wejściowych (ich orientacji wiersze - kolumny) x
        # czasami zdarza się, że odwracamy kolejność operacji na macierzach, tak, aby rozmiary po przekształceniach
        # 'pasowały do siebie', mnożenie Ux, może zamienić się na xU. W analizowanym przypadku jest podobnie.
        # Dlatego też zamieniłem miejscami kolejność parametrów, podając X za U a hidden_values za W
        # w ten sposób odwracamy kolejność mnożenia otrzymując XU + hidden_l_values[-1]V
        # więcej informacji pod: https://medium.com/@vivek.yadav/wx-b-vs-xw-b-why-different-formulas-for-deep-neural-networks-in-theory-and-implementation-a5ae6995c4ef
        hidden_l = get_hidden_state_activation(X, hidden_l_values[-1], U, W)
        
        # pobieramy wygenerowane wyjście sieci neuronowej (sigmoida, a nie softmax, gdyż mamy tylko jedno wyjście binarne)
        predicted_char = sigmoid(np.dot(hidden_l, V))

        # i sprawdzamy jak bardzo nasze przewidywanie się myli w stosunku do oczekiwanego znaku
        output_l_error = predicted_char - y

        output_l_deltas.append(
            (output_l_error) * sigmoid_output_to_derivative(predicted_char)   # loss * grad out
        )
        overallError += np.abs(output_l_error[0]) # zwiększamy całościowy błąd o błąd z aktualnego kroku, bierzemy wartość bezwzględną, bo znak błędu (nadmiar/niedomiar) nie jest istotny.

        predicted_sum_seq[position] = np.round(predicted_char[0][0]) # zapisujemy nasze przewidywanie na odpowiedniej pozycji, zaokrąglając (predicted_char to wartość rzeczywista między 0 a 1, zawiera prawdopodobieństwo tego, że liczba powinna być 1-nką) 

        hidden_l_values.append(copy.deepcopy(hidden_l)) # zapisz wartość aktywacji warstwy ukrytej, aby można było ją użyć w kolejnym kroku

    future_hidden_l_delta = np.zeros(hidden_dim)        
    
    # propagacja wsteczna 
    for position in range(len(added_one_seq)):              
        X = np.array([
            [added_one_seq[position], added_two_seq[position]]
        ])  # weź parę liczb od lewej do prawej
        hidden_l = hidden_l_values[-position - 1] 
        prev_hidden_l = hidden_l_values[-position - 2]

        # błąd na warstwie wyjściowej
        output_l_delta = output_l_deltas[-position - 1]
        # błąd na warstwie ukrytej
        hidden_l_delta = (future_hidden_l_delta.dot(W.T) + output_l_delta.dot(V.T)) * sigmoid_output_to_derivative(hidden_l)

        # zaktualizujmy macierze poprawek względem błędu w aktualnym kroku (na aktualnej pozycji w sekwencji)
        V_update += np.atleast_2d(hidden_l).T.dot(output_l_delta)
        W_update += np.atleast_2d(prev_hidden_l).T.dot(hidden_l_delta)
        U_update += X.T.dot(hidden_l_delta)

        future_hidden_l_delta = hidden_l_delta

    U -= U_update * alpha  # spadek wag między wejściem a w. ukrytą
    V -= V_update * alpha  # spadek wag między w. ukrytą a wyjściem
    W -= W_update * alpha  # spadek wag między poprzednią a teraźniejszą w. ukrytą

    U_update *= 0  # zeruj macierz jak profesjonalista
    V_update *= 0  # zeruj macierz jak profesjonalista
    W_update *= 0  # zeruj macierz jak profesjonalista

    if(j % 5000 == 0):
        print("Błąd przykładu:" + str(overallError))
        print("Przewidziana sekwencja:" + str(predicted_sum_seq))
        print("Oczekiwana sekwencja:  " + str(expected_sum_seq))
        print("------------")