### Przed spotkaniem

In [None]:
!pip install tensorflow_hub
!pip install tensorflow_datasets

In [None]:
# upewnij się że poniższa komórka Ci się uruchamia przed spotkaniem
import tensorflow_datasets as tfds

dataset, info = tfds.load('imdb_reviews', with_info=True,
                          as_supervised=True)
import tensorflow_hub as hub
elmo = hub.load("https://tfhub.dev/google/elmo/3").signatures["default"]

# NLP 2 - Modele Sekwencyjne i ich zastosowania
Modelem sekwencyjnym nazwiemy model, który jako wejście otrzymuje sekwencję, ale nie musi zwracać sekwencji.

## Sieci rekurencyjne
Zasadą działania sieci rekurencyjnej jest przechowywanie wyjścia poprzedniego elementu i wykorzystania go w kolejnym kroku.

Dlaczego po prostu do sekwencji nie wykorzystać zwykłych gęstych sieci neuronowych?
* Nie są w stanie przetwarzać sekwencji o różnych długościach
* Biorą pod uwagę tylko aktualne dane wejściowe
* Nie zapamiętują informacji o poprzednich danych wejściowych

Modele sekwencyjne można podzielić na kilka przykładów
* One-to-many, wejście o długości jednostkowej, wyjście o długości > 1. Przykład: generacja tekstu
   
![](https://stanford.edu/~shervine/teaching/cs-230/illustrations/rnn-one-to-many-ltr.png?d246c2f0d1e0f43a21a8bd95f579cb3b)

* Many-to-one, przykład klasyfikacja sentymentu

![](https://stanford.edu/~shervine/teaching/cs-230/illustrations/rnn-many-to-one-ltr.png?c8a442b3ea9f4cb81f929c089b910c9d)

* Many-to-many (tyle samo wejść co wyjść), przykład: NER(named entity recognition)
![](https://stanford.edu/~shervine/teaching/cs-230/illustrations/rnn-many-to-many-same-ltr.png?2790431b32050b34b80011afead1f232)

* Many-to-many, przykład tłumaczenie maszynowe

![](https://stanford.edu/~shervine/teaching/cs-230/illustrations/rnn-many-to-many-different-ltr.png?8ca8bafd1eeac4e8c961d9293858407b)

### RNN
Podstawową wersją sieci rekurencyjnej jest RNN(recurrent Neural Network)
![](https://stanford.edu/~shervine/teaching/cs-230/illustrations/architecture-rnn-ltr.png?9ea4417fc145b9346a3e288801dbdfdc)
\begin{align*}
    &a^{<t>}=g_1(W_{aa}a^{<t-1>}+W_{ax}x^{<t>}+b_a)\\
    &y^{<t>}=g_2(W_{ya}a^{<t>}+b_y)
\end{align*}
Gdzie $W_{ax},W_{aa},W_{ya},b_a,b_y$ to wagi naszej sieci, a $g_1,g_2$ to funkcje aktywacji.

![](https://stanford.edu/~shervine/teaching/cs-230/illustrations/description-block-rnn-ltr.png?74e25518f882f8758439bcb3637715e5)

W klasycznym RNN $y^{<t>}=a^{<t>}$.

Zalety:
* Możliwość przetwarzania sekwencji o dowolnej długości
* Rozmiar modelu nie rośnie razem z długością sekwencji
* Bierze pod uwagę poprzednie stany

Wady:
* Wolne obliczenia
* Problem wykorzystywania bardzo odległych stanów
* Nie może brać pod uwagę przyszłych stanów

### Eksplodujący/Zanikający gradient
Problem ten często spotyka się podczas korzystania z RNN. Wynika to z tego, że podczas wyliczania gradientu przemnażamy przez siebie wielokrotnie gradienty dla danych chwil czasowych w związku z tym może on zacząć zanikać(jak przemnażamy małe wartości), albo "wybuchnąć"(jak przemnażamy duże wartości).

Jak sobie poradzić z tym problem?

### LSTM
Aby poradzić sobie z problemem zależności od bardzo odległych wyjść wprowadzono LSTM.

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-chain.png)
![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM2-notation.png)

Gdzie $\sigma$ to aktywacja sigmoid.

Zatem jak można zauważyć LSTM posiada dwie "ścieżki" pamięci. Pierwszą jest tak zwany "cell state"
![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-C-line.png)
Ze względu na to, że ma on tylko liniowe interakcje łatwo jest o przepływ informacji tą scieżką. LSTM ma możliwość usuwania i dodawania informacji do tej ścieżki, co jest decydowanie przez tak zwane bramki(gates). Decydują one o tym czy dana informacją powinna dalej przejść

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-gate.png)

Ponieważ sigmoida zwraca wartości między 0 a 1 decyduje jak "dużo" informacji powinno przepłynąć dalej.

#### LSTM krok po kroku
W pierwszym kroku decydujemy jak wiele aktualnej informacji powinno zostać w cell state.

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-focus-f.png)

Następnie decydujemy jak wiele nowej informacji powinniśmy dodać do cell state

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-focus-i.png)

Dokonujemy aktualizacji cell state

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-focus-C.png)

Na koniec wybieramy interesujące nas informacje z zakutalizowanego cell state, które zostaną zwrócone przez LSTM

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-focus-o.png)

Istnieją jeszcze inne warianty LSTM np. wykorzystujące cell state do bramek

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-var-peepholes.png)

i takie, które wykorzystują jedną bramkę do zapominania/dodawania informacji do cell state

![](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-var-tied.png)


### GRU a LSTM
GRU jest kolejną siecią rekurencyjną, której celem jest rozwiązanie odległych relacji między momentami czasu

![](https://miro.medium.com/max/1400/1*yBXV9o5q7L_CvY7quJt3WQ.png)

### Bidirectional RNN
Czasem może nas interesować nie tylko infromacja z lewej do prawej ale także w drugą stronę, np. podczas klasyfikacji tekstu, w związku z tym aby otrzymać Biderctional RNN łączymy wyniki z dwóch sieci RNN, jedna "czyta" od lewej do prawej, a druga w drugą stronę.

In [None]:
import tensorflow as tf

In [None]:
example_input = tf.ones((16, 25, 512))

In [None]:
rnn_layer = tf.keras.layers.SimpleRNN(
    units=512,
    activation="tanh",
    use_bias=True,
    kernel_initializer="glorot_uniform",
    recurrent_initializer="orthogonal",
    bias_initializer="zeros",
    kernel_regularizer=None,
    recurrent_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    recurrent_constraint=None,
    bias_constraint=None,
    dropout=0.0,
    recurrent_dropout=0.0,
    return_sequences=False,
    return_state=False,
    go_backwards=False,
    stateful=False,
    unroll=False,
)
rnn_layer(example_input).shape

In [None]:
rnn_layer = tf.keras.layers.SimpleRNN(
    units=512,
    activation="tanh",
    use_bias=True,
    kernel_initializer="glorot_uniform",
    recurrent_initializer="orthogonal",
    bias_initializer="zeros",
    kernel_regularizer=None,
    recurrent_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    recurrent_constraint=None,
    bias_constraint=None,
    dropout=0.0,
    recurrent_dropout=0.0,
    return_sequences=True,
    return_state=False,
    go_backwards=False,
    stateful=False,
    unroll=False,
)
rnn_layer(example_input).shape

In [None]:
rnn_layer = tf.keras.layers.SimpleRNN(
    units=512,
    activation="tanh",
    use_bias=True,
    kernel_initializer="glorot_uniform",
    recurrent_initializer="orthogonal",
    bias_initializer="zeros",
    kernel_regularizer=None,
    recurrent_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    recurrent_constraint=None,
    bias_constraint=None,
    dropout=0.0,
    recurrent_dropout=0.0,
    return_sequences=True,
    return_state=True,
    go_backwards=False,
    stateful=False,
    unroll=False,
)
output =  rnn_layer(example_input)
print(type(output))
print(output[0].shape, output[1].shape)

#### Klasyfikacja tekstu przy użyciu RNN

In [None]:
import numpy as np

import tensorflow_datasets as tfds

tfds.disable_progress_bar()

In [None]:
import matplotlib.pyplot as plt


def plot_graphs(history, metric):
  plt.plot(history.history[metric])
  plt.plot(history.history['val_'+metric], '')
  plt.xlabel("Epochs")
  plt.ylabel(metric)
  plt.legend([metric, 'val_'+metric])

In [None]:
dataset, info = tfds.load('imdb_reviews', with_info=True,
                          as_supervised=True)
train_dataset, test_dataset = dataset['train'], dataset['test']

train_dataset.element_spec

In [None]:
BUFFER_SIZE = 10000
BATCH_SIZE = 64
train_dataset = train_dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE).prefetch(tf.data.AUTOTUNE)
test_dataset = test_dataset.batch(BATCH_SIZE).prefetch(tf.data.AUTOTUNE)
for example, label in train_dataset.take(1):
    print('texts: ', example.numpy()[:3])
    print()
    print('labels: ', label.numpy()[:3])

In [None]:
VOCAB_SIZE = 1000
encoder = tf.keras.layers.TextVectorization(
    max_tokens=VOCAB_SIZE)
encoder.adapt(train_dataset.map(lambda text, label: text))
vocab = np.array(encoder.get_vocabulary())
vocab[:20]

##### Zadanie
mając gotowe dane i tokenizer przetrenować sieć rekurencyjną do klasyfikacji

In [None]:
# warstwe z embedingiem w tensorflow tworzymy następująco 
embedding_layer = tf.keras.layers.Embedding(
        input_dim=len(encoder.get_vocabulary()),
        output_dim=64,
        mask_zero=True)
# mask_zero powoduje, że wejścia które mają wartość 0 są pomijane w dalszych warstwach, tylko te warstwy muszą wspierwać maskowanie


In [None]:
# Aby stworzyć sieć RNN bidirectional wystarczy użyć
tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64))

In [None]:
model = tf.keras.Sequential([
    encoder,
    # tutaj wpisz swoje embeddingi i sieci RNN
    tf.keras.layers.Dense(1)
])

In [None]:
# kompilacja modelu modelu
model.compile(...)

In [None]:
history = model.fit(...)

### CNN a tekst

Mając sekwencję możemy zamiast wykorzystywać RNN skorzystać z jednowymiarowej konwolucji. W tym przypadku rozmiar kernela(jądra) decyduje o tym na ile chwil czasowych jednocześnie patrzy CNN. 

#### Zadanie
korzystając z warstwy `tf.keras.layers.Conv1D` i jakiejś warstwy poolingowej zastąpić w poprzednim modelu RNN siecią CNN.
Argumenty są takie same jak dla konwolucji 2D tylko `kernel_size` i `strides` mogą być tylko liczbami całkowitymi.

In [None]:
# rozwiązanie
model = tf.keras.Sequential([
    encoder,
    tf.keras.layers.Embedding(
        input_dim=len(encoder.get_vocabulary()),
        output_dim=64,
        # Tutaj dodaj CNN
        mask_zero=False),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)
])

In [None]:
model.compile(...)

In [None]:
history = model.fit(...)

#### Contextual embeddings
Przy użyciu sieci rekurencyjnych można tworzyć embeddingi, które uwzględniają kontekst w jakim użyte jest dane słowo. Istnieje wiele słów, które jak są wykorzystane bez kontekstu nie można jednoznacznie określić ich znaczenia(np. zamek jako budowla i jako zapięcie kurtki). W związku z tym wykorzystuje się modele sekwencyjne, które modelują słowo w zależności od jego "otoczenia"
##### ELMo
Model ELMo wykorzsytuje sieci Bidirectional RNN do reprezentacji kontekstu

![](https://jalammar.github.io/images/Bert-language-modeling.png)

Działanie ELMo

![](https://jalammar.github.io/images/elmo-forward-backward-language-model-embedding.png)

![](https://jalammar.github.io/images/elmo-embedding.png)

In [None]:
import tensorflow_hub as hub

In [None]:
elmo = hub.load("https://tfhub.dev/google/elmo/3").signatures["default"]

In [None]:
x = ["ELMo lives on sesame street."]

# Extract ELMo features 
embeddings = elmo(tf.constant(x))["elmo"]

embeddings.shape

### Seq2Seq
Modele Seq2Seq składają się z dwóch modeli sekwencyjnych, zazwyczaj pierwszy nazywa się `encoder` a drugi `decoder`. Zazwyczaj sekwencje wejściowe i wyjściowe mogą być różnej długości.
Przykłady zastosowań
* Machine translation
* Table summarization
* Image captioning
* Document Summarization
* Question Answering(np. chatboty)
* Speech recognition

![](https://blog.keras.io/img/seq2seq/seq2seq-teacher-forcing.png)

### Mechanizm atencji

W modelach Seq2Seq wykorzystuje się też często mechanizm atencji, który na podstawie stanu ukrytego ustala "istotność" danego wyjścia z encodera

![](https://www.tensorflow.org/images/seq2seq/attention_mechanism.jpg)

Istnieje wiele sposbów obliczania "ważności" danego wyjścia z encodera

![](bahdanau_att.png)

`Context vector` jest tworzony jako suma ważona na podstawie $a_t$, czyli $c_t=h_{enc}\cdot a_t$. $v_a$ jest parametrem.

#### Zadanie
Zaimplementuj w tensorflow encoder, decoder oraz mechanizm atencji.
Encoder ma zwracać wszystkie stany ukryte oraz ostatni, który potem jest pierwszy stanem ukrytym w dekoderze. `Context vector` ma być konkatenowany z wyjściami z decodera.

* W atencji można wykorzystać warstwę `tf.keras.layers.AdditiveAttention`, która ma następujące wejścia
  * inputs: List of the following tensors:
    * query: Query Tensor of shape [batch_size, Tq, dim].
    * value: Value Tensor of shape [batch_size, Tv, dim].
    * key: Optional key Tensor of shape [batch_size, Tv, dim]. If not given, will use value for both key and value, which is the most common case.
  * mask: List of the following tensors:
    * query_mask: A boolean mask Tensor of shape [batch_size, Tq]. If given, the output will be zero at the positions where mask==False.
    * value_mask: A boolean mask Tensor of shape [batch_size, Tv]. If given, will apply the mask such that values at positions where mask==False do not contribute to the result.
  * training: Python boolean indicating whether the layer should behave in training mode (adding dropout) or in inference mode (no dropout).
  * return_attention_scores: bool, it True, returns the attention scores (after masking and softmax) as an additional output argument.

In [None]:
class Encoder(tf.keras.layers.Layer):
    def __init__(self, input_vocab_size, embedding_dim, enc_units):
        super(Encoder, self).__init__()
        ...

    def call(self, input_sequence):
        ...

class BahdanauAttention(tf.keras.layers.Layer):
    def __init__(self, units):
        super().__init__()
        ...
    
    def call(self, encoder_output, decoder_hidden_states):
        ...

class Decoder(tf.keras.layers.Layer):
    def __init__(self, output_vocab_size, embedding_dim, dec_units):
        super(Decoder, self).__init__()
        ...

    def call(self, hidden_states, context_vector):
        ...



#### Transformers
Transformery wywołały ogromny przełom w NLP, są one w stanie modelować relacje między dowolnie odległymi chwilami czasu i są szybsze ponieważ nie wymagają pętli(wystarcza tylko mnożenie wektorów i macierzy)

![](https://deepfrench.gitlab.io/deep-learning-project/resources/transformer.png)

Czym jest `Positional Encoding`? Istnieją dwie szkoły tworzenia
* Uczymy embeddingi pozycji razem z modelem, czyli `Positional Encoding` jest parameterem modelu o ustalonej długości
* Wykorzystujemy z góry zdefiniowaną funkcję np.
\begin{align*}
  p_{i,j}=
  \begin{cases}
    \sin\left(\frac{i}{10000^{j/d}}\right)\\
    \cos\left(\frac{i}{10000^{(j-1)/d}}\right)
  \end{cases}
\end{align*}
gdzie $i$-chwila czasu, $j$-j'ty wymiar w wektorze positional encodingu, $d$-wymiar positional encodingu.

Positional Encoding jest potrzebny, żeby model był w stanie modelować dane wejściowe jako sekwencje, w przeciwnym wypadku, pozycja w której umieścimy token/wartość w chwili czasu nie ma żadnego znaczenia.

Nakładamy maskę, żeby wyliczać atencję tylko na podstawie tokenów/chwil czasu, które chcemy, żeby model brał pod uwagę. Np. podczas uczenia generatora tekstu, będziemy maskowali wszystkie następne tokeny, ponieważ nie chcemy, żeby model genrował token na podstawie przyszłych tokenów, natomiast w przypadku klasyfikacji tekstu już taka maska nie jest potrzebna. Podczas trenowania nakłada też się zawsze maskę na tokeny odpowiadające paddingowi.
  

In [None]:
mha = tf.keras.layers.MultiHeadAttention(
    num_heads=8,
    key_dim=512,
    value_dim=None,
    dropout=0.0,
    use_bias=True,
    output_shape=None,
    attention_axes=None,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
)

query = tf.ones((16, 25, 512))
key = tf.ones((16, 35, 512))

In [None]:
out, att = mha(query=query, value=key, key=key, attention_mask=None, return_attention_scores=True, training=False)
out.shape, att.shape

#### Zadanie
Wykorzystując warstwę MultiHeadAttention zaimplementować blok encodera i decodera przedstawionego wcześniej na rysunku.

In [None]:
class TransformerEncoder(tf.keras.layers.Layer):
    def __init__(self, embed_dim, dense_dim, num_heads, **kwargs):
        super(TransformerEncoder, self).__init__(**kwargs)
        self.embed_dim = embed_dim
        self.dense_dim = dense_dim
        self.num_heads = num_heads
        ...

    def call(self, inputs, mask=None):
        ...


class PositionalEmbedding(tf.keras.layers.Layer):
    def __init__(self, sequence_length, vocab_size, embed_dim, **kwargs):
        super(PositionalEmbedding, self).__init__(**kwargs)
        self.token_embeddings = tf.keras.layers.Embedding(
            input_dim=vocab_size, output_dim=embed_dim
        )
        self.position_embeddings = tf.keras.layers.Embedding(
            input_dim=sequence_length, output_dim=embed_dim
        )
        self.sequence_length = sequence_length
        self.vocab_size = vocab_size
        self.embed_dim = embed_dim

    def call(self, inputs):
        length = tf.shape(inputs)[-1]
        positions = tf.range(start=0, limit=length, delta=1)
        embedded_tokens = self.token_embeddings(inputs)
        embedded_positions = self.position_embeddings(positions)
        return embedded_tokens + embedded_positions

    def compute_mask(self, inputs, mask=None):
        return tf.math.not_equal(inputs, 0)


class TransformerDecoder(tf.keras.layers.Layer):
    def __init__(self, embed_dim, latent_dim, num_heads, **kwargs):
        super(TransformerDecoder, self).__init__(**kwargs)
        self.embed_dim = embed_dim
        self.latent_dim = latent_dim
        self.num_heads = num_heads
        ...

    def call(self, inputs, encoder_outputs, mask=None):
        ...

#### BERT
BERT jest modelem językowym, który tworzy reprezentacje tekstu podanego mu na wejście. Jest on trenowany wykonując jednocześnie dwa zadania
* Niektóre tokeny w zdaniach są zastępowane specjlanym tokenem `[MASK]` i jego zadaniem jest przewidzieć brakujące tokeny.

![](https://miro.medium.com/max/1400/0*ViwaI3Vvbnd-CJSQ.png)

* Na wejściu otrzymuje dwa zdania oddzielone specjalnym tokenem `[SEP]` i ma przewidzieć czy zdania do siebie pasują. Na początku jest dodawany specjlany token `[CLS]`, z którego dokonywana jest ta predykcja. Pary pozytywne są tworzone przez branie zdań, które w zbiorze występują po sobie a negatywne przez złączenie dwóch losowych zdań w korpusie.

![](https://miro.medium.com/max/1400/0*m_kXt3uqZH9e7H4w.png)

Ze względu na specyfikę zdania, jakie on wykonuje, wykorzystuje on tylko wartstwy `encoder` z wcześniej przedstawionego modelu Transformer.

In [None]:
from transformers import BertTokenizer, TFBertModel


tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = TFBertModel.from_pretrained("bert-base-uncased")

inputs = tokenizer("Studying in PW is COOL", return_tensors="tf")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state
last_hidden_states

### Bibliografia
#### Sieci rekurencyjne
* [RNN i LSTM](https://colah.github.io/posts/2015-08-Understanding-LSTMs/)
* [ELMo-Embeddingi z kontekstem](https://arxiv.org/abs/1802.05365v2)
* [BERT ELMo zilustrowane](https://jalammar.github.io/illustrated-bert/)
* [Bahdanau Attention](https://arxiv.org/abs/1508.04025)
#### Transformery
* [Artykuł wprowadzający transformery](https://arxiv.org/abs/1706.03762)
* [Wizualizacje działania transformerów](https://jalammar.github.io/illustrated-transformer/)
* [BERT](https://arxiv.org/abs/1810.04805)