# Zaawansowane Przetwarzanie Języka Naturalnego
## Laboratorium 3: Neuronowe modele predykcji sekwencji

Celem zadania jest zaimplementowanie neuronowego modelu do predykcji sekwencji i zastosowanie go do zadania płytkiej analizy frazowej. Zaimplementowany model będzie oparty o dwukierunkowe sieci rekurencyjne oraz zakończony będzie warstwą CRF. Celem ćwiczenia nie jest stworzenie wydajnej implementacji odpowiedniej do pracy z dużymi zbiorami treningowymi, ale pogłębienie zrozumienia działania metod modelowania predykcji poprzez ich implementację.

## Zadanie 1
Pracując w środowisku PyTorch nie jest konieczne samodzielne implementowanie neuronów rekurencyjnych, gdyż biblioteka `torch.nn` zawiera ich gotowe implementacje. Klasyczny neuron rekurencyjny z funkcją aktywacji tangens hiperboliczny jest zaimplementowany w klasie `RNN` i od razu pozwala na przetworzenie od razu całej sekwencji elementów. Konstruktor obiektu wymaga wyspecyfikowania liczby cech którymi opisany jest każdy element sekwencji, liczby neuronów w warstwie rekurenycjnej oraz liczbę warstw rekurencyjnych. 

Istotnym parametrem modelu jest opcjonalny przełącznik `batch_first = True` który określa format wejściowej sekwencji. Domyślnie modele rekurencyjne spodziewają się wejścia o wymiarach `(długość sekwencji, rozmiar batcha, liczba cech)` czyli w kolumnach tensora mamy kolejne sekwencje (przykłady uczące), w wierszach kolejne elementy tych sekwencji, a w głębokości tensora umieszone są kolejne cechy każdego z elementów sekwencji. Zwróć uwagę, że jest to format inny od często stosowanego formatu danych niesekwencyjnych gdzie w wierszach umieszcza się kolejne przykłady uczące, a w kolumnach kolejne cechy (tutaj jest na odwrót: przykład uczący-sekwencja umieszcona jest w kolumnie, a nie w wierszu). Jeśli jednak ustawisz przełącznik `batch_first = True` to sieć rekurencyjna będzie się spodziewała wejścia jako `(rozmiar batcha, długość sekwencji, liczba cech)` czyli kolejne sekwencje będą w kolejnych wierszach tensora.

Dalej, warto zauważyć, że w przypadku np. warstwy liniowej do obliczenia wyniku wystarczyło podanie samych danych ( `linear(dane)`), jednak wejściem sieci rekurencyjnej są nie tylko dane ale i poprzednie stany ukryte $h_{t-1}$ ( `rnn(dane, h0)`).

In [22]:
import torch
import torch.nn as nn

N_FEATURES = 2
N_LAYERS = 1
HIDDEN_SIZE = 3

data = torch.FloatTensor([[1,1], [2,2], [3,3], [4,4]]).view(1, 4, 2)
# Proste przykładowe dane: jedna 4 elementowa sekwencja gdzie każdy jej element jest opisany dwoma cechami
# Zwróć uwagę na wymiary tensora (rozmiar batcha, długość sekwencji, liczba cech elementów) 
#     - konieczne batch_first=True

rnn = nn.RNN(N_FEATURES, HIDDEN_SIZE, N_LAYERS, batch_first = True) 

h0 = torch.randn(N_LAYERS, 1, HIDDEN_SIZE)
# Początkowy stan ukryty h0. Każda warstwa sieci rekurencyjnej zaczyna przetwarzanie od swojego h0
# W sytuacji gdy przetwarzamy kilka sekwencji na raz (sieć jest uruchamiana równolegle na kilku sekwencjach)
# również potrzebujemy dla każdej przetwarzanej sekwencji jej stan początkowy h0
# Porównaj powyższy opis z wymiarowością zmiennej h0

out, h_t = rnn(data, h0)
print("Wyjście warstwy: ", out)
print("Ostatni stan ukryty: ",h_t)


Wyjście warstwy:  tensor([[[-0.5453, -0.0902, -0.1623],
         [ 0.5219,  0.0907, -0.6033],
         [ 0.7300, -0.3544, -0.8328],
         [ 0.9199, -0.3138, -0.8865]]], grad_fn=<TransposeBackward1>)
Ostatni stan ukryty:  tensor([[[ 0.9199, -0.3138, -0.8865]]], grad_fn=<StackBackward0>)


Zwróć uwagę na otrzymane wyjście: ponieważ na wejście sieci podaliśmy sekwencję elementów to dla każdego przetwarzanego elementu sekwencji sieć zwróciła uzyskaną reprezentację ukrytą (skoro mamy 3 neurony w warstwie to taka reprezentacja jest 3-wymiarowa). Dodatkowo zwrócony został ostatni stan ukryty, który moglibyśmy przetwarzać np. kolejnej sieci rekurencyjnej.

Sprawdź poprawność uzyskanego powyżej wyniku poprzez uruchomienie sieci rekurencyjnej element po elemencie (wejściem do sieci jest zawsze tylko jeden element sekwencji lub inaczej: sekwencje 1-elementowe). Wypisz na wyjście kolejne otrzymywane wyniki sieci i jej stany ukryte. Uzyskane wyniki powinny być takie same jak te z komórki wyżej.

In [23]:
h1 = h0
print("Wyjście warstwy: ", end="")
for i in range(1,5):
    x_i = torch.FloatTensor([[i,i]]).view(1,1,2)
    y_i, h1 = rnn(x_i, h1)
    print(y_i)
    
print("Ostatni stran ukryty: ", h1)

Wyjście warstwy: tensor([[[-0.5453, -0.0902, -0.1623]]], grad_fn=<TransposeBackward1>)
tensor([[[ 0.5219,  0.0907, -0.6033]]], grad_fn=<TransposeBackward1>)
tensor([[[ 0.7300, -0.3544, -0.8328]]], grad_fn=<TransposeBackward1>)
tensor([[[ 0.9199, -0.3138, -0.8865]]], grad_fn=<TransposeBackward1>)
Ostatni stran ukryty:  tensor([[[ 0.9199, -0.3138, -0.8865]]], grad_fn=<StackBackward0>)


W prosty sposób można również rozszerzyć naszą warstwę rekurencyjną do sieci dwukierunkowej. W konstruktorze wystarczy ustawić `bidirectional = True`. Jak mówiliśmy na wykładzie taka sieć składa się w rzeczywistości z dwóch sieci - jednej przetwarzającej wyniki od lewej do prawej i drugiej przetwarzającej wyniki od prawej do lewej. W związku z tym należy dla obydwu tych sieci przygotować ich stany początkowe $h_0$, a wymiarowość wyjścia zwiększy się dwukrotnie.

In [24]:
rnn = nn.RNN(N_FEATURES, HIDDEN_SIZE, N_LAYERS, batch_first = True, bidirectional = True) 

h0 = torch.randn(N_LAYERS*2, 1, HIDDEN_SIZE)
out, h_t = rnn(data, h0)
print("Wyjście warstwy: ", out)
print("Ostatni stan ukryty: ",h_t)


Wyjście warstwy:  tensor([[[ 0.8274,  0.8483, -0.7429, -0.2173,  0.8970, -0.6323],
         [ 0.8918,  0.7341, -0.9284,  0.2556,  0.9385, -0.8922],
         [ 0.9476,  0.8515, -0.9845,  0.5546,  0.9332, -0.9807],
         [ 0.9771,  0.9218, -0.9966,  0.5397,  0.6040, -0.9987]]],
       grad_fn=<TransposeBackward1>)
Ostatni stan ukryty:  tensor([[[ 0.9771,  0.9218, -0.9966]],

        [[-0.2173,  0.8970, -0.6323]]], grad_fn=<StackBackward0>)


Analogicznie jak poprzednio uzyskaj wynik z poprzedniej komórki zakładając że na wejściu obiektu `rnn` możesz umieścić jedynie sekwencje jednoelementowe (możesz go jednak wywoływać dowolnie wiele razy).

In [25]:
h_f = h0
h_b = h0

tensors = [[None, None], [None, None], [None, None], [None, None]]

for i in range(1,5):
    x_i_f = torch.FloatTensor([[i,i]]).view(1,1,2)
    x_i_b = torch.FloatTensor([[5-i,5-i]]).view(1,1,2)
    
    y_i_f, h_f = rnn(x_i_f, h_f)
    y_i_b, h_b = rnn(x_i_b, h_b)

    tensors[i - 1][0] = (y_i_f.data[0, 0, :3])
    tensors[5 - i - 1][1] = (y_i_b.data[0, 0, 3:])
    
print("Wyjście warstwy: ", end="")

for i in tensors:
    concatenated_tensor = torch.cat((i[0], i[1]), dim=0)
    print(concatenated_tensor)

print("Ostatni stan ukryty: ", torch.cat((tensors[3][0], tensors[0][1]), dim=0))

Wyjście warstwy: tensor([ 0.8274,  0.8483, -0.7429, -0.2173,  0.8970, -0.6323])
tensor([ 0.8918,  0.7341, -0.9284,  0.2556,  0.9385, -0.8922])
tensor([ 0.9476,  0.8515, -0.9845,  0.5546,  0.9332, -0.9807])
tensor([ 0.9771,  0.9218, -0.9966,  0.5397,  0.6040, -0.9987])
Ostatni stan ukryty:  tensor([ 0.9771,  0.9218, -0.9966, -0.2173,  0.8970, -0.6323])


Na koniec warto też zauważyć, że samodzielna inicjalizacja stanu wejściowego do sieci rekurencyjnej `h0` nie jest obowiązkowa i na wejście warstwy rekurencyjnej można podać samą sekwencję wejściową. W takim wypadku element `h0` zostanie zainicjalizowany domyślnie wektorem zer.

In [26]:
out, h_t = rnn(data)
print("Wyjście warstwy: ", out)
print("Ostatni stan ukryty: ",h_t)


Wyjście warstwy:  tensor([[[ 0.7423,  0.7095, -0.7156, -0.2134,  0.8983, -0.6299],
         [ 0.8884,  0.7461, -0.9296,  0.2690,  0.9417, -0.8889],
         [ 0.9479,  0.8516, -0.9846,  0.6018,  0.9505, -0.9766],
         [ 0.9771,  0.9218, -0.9966,  0.7457,  0.7404, -0.9974]]],
       grad_fn=<TransposeBackward1>)
Ostatni stan ukryty:  tensor([[[ 0.9771,  0.9218, -0.9966]],

        [[-0.2134,  0.8983, -0.6299]]], grad_fn=<StackBackward0>)


**Ćwiczenia**
- Jakich zmian w kodzie musiałbyś dokonać by uzyskać 3-warstwową sieć rekurencyjną? Jak zmieniłaby się wtedy wymiarowośc `h0` oraz wyjścia sieci neuronowej `h1` i `out`?
- W przypadku neuronu rekurencyjnego RNN wejściem do modelu jest sekwencja oraz początkowy/poprzedni stan ukryty `h0`. Korzystając z gotowej implemetancji neuronu LSTM jakiego wejścia się spodziewasz?

Odpowiedzi nie musisz zapisywać.

## Zadanie 2
W ostatnim zadaniu domowym poznawałeś usprawnienia implementacji modeli uczących się w PyTorch poprzez wykorzystanie gotowych elementów z modułu `torch.nn`. Jednak ostatecznie uzyskany przez nas kod nadal przetwarzał pojedyncze instancje tj. nieobsługiwał mini-batchy. Można oczywiście ręcznie zaimplementować indeksowanie, które pozwoli nam na iterowanie po paczkach danych, jednak PyTorch pozwala oczywiście na automatyzację tego procesu.

Na początek wczytajmy dane uczące z których będziemy korzystać w tym zadaniu. (Może być konieczna instalacja biblioteki `torchtext`).

In [2]:
from torchtext.datasets import CoNLL2000Chunking
train_iter = CoNLL2000Chunking(split='train')
seq_texts = []
seq_tags = []
for i in train_iter:
    seq_texts.append(i[0])
    seq_tags.append(i[2])
print(seq_texts[0])
print(seq_tags[0])

['Confidence', 'in', 'the', 'pound', 'is', 'widely', 'expected', 'to', 'take', 'another', 'sharp', 'dive', 'if', 'trade', 'figures', 'for', 'September', ',', 'due', 'for', 'release', 'tomorrow', ',', 'fail', 'to', 'show', 'a', 'substantial', 'improvement', 'from', 'July', 'and', 'August', "'s", 'near-record', 'deficits', '.']
['B-NP', 'B-PP', 'B-NP', 'I-NP', 'B-VP', 'I-VP', 'I-VP', 'I-VP', 'I-VP', 'B-NP', 'I-NP', 'I-NP', 'B-SBAR', 'B-NP', 'I-NP', 'B-PP', 'B-NP', 'O', 'B-ADJP', 'B-PP', 'B-NP', 'B-NP', 'O', 'B-VP', 'I-VP', 'I-VP', 'B-NP', 'I-NP', 'I-NP', 'B-PP', 'B-NP', 'I-NP', 'I-NP', 'B-NP', 'I-NP', 'I-NP', 'O']


Są to dane z popularnego zbioru CoNLL2000 dotyczące zadania płytkiej analizy frazowej. W liście `seq_texts` umieszczono kolejne zdania, a na liście `seq_tags` umieszczono odpowiadające im zestawy tagów. Zwróć uwagę, że zastosowano tutaj tagowanie BIO np. frazą czasownikową `VP` jest "is widely expected to take".

Pierwszym krokiem przetwarzania jest zamiana słów na ich identyfikatory oraz obsłużenie tokenu `OOV`. W poprzednich zadaniach domowych robiliśmy to ręcznie jednak dzięki bibliotece `torchtext` ten proces równiez możemy zautomatyzować dzięki obiektowi `Vocab` i funkcji `build_vocab_from_iterator`.

In [3]:
from torchtext.vocab import build_vocab_from_iterator
vocab = build_vocab_from_iterator(seq_texts, specials=["<unk>"], min_freq=5)
len(vocab)

4403

Funkcja ta na wejście przyjmuje iterator z tekstami, a także opcjonalnie próg `min_freq` pomijający słowa występujące z niewystarczającą częstotliowścią oraz `specials` pozwalający na umieszczenie w słowniku dodatkowych tokenów. Tokeny specjalne domyślnie są umieszczane na początku słownika.

Obiekt `Vocab` w prosty sposób zamienia sekwencję tokenów na sekwencję ich indeksów.

In [3]:
vocab(["if","could", "in", "<unk>"])

[107, 80, 8, 0]

oraz na inne proste konwersje:

In [4]:
print(vocab.lookup_token(107))
print(vocab.lookup_indices(["<unk>"]))

if
[0]


Domyślnie jednak słownik nie obsługuje słów spoza słownika. Dla przykładu "Confidence" występuje w rozważanym korpusie mniej niż 2 razy.

In [5]:
vocab(["Confidence"])

RuntimeError: Token Confidence not found and default index is not set

Można jednak ustawić domyślny indeks słownika na token `UNK`, który automatycznie zamienia nieznane słowa na indeks tego tokenu.

In [4]:
vocab.set_default_index(0)
vocab(["if","could", "in", "<unk>","Confidence"])

[107, 80, 8, 0, 0]

Następny krokiem jest implementacja własnej klasy zbioru danych, dziedziczącej po klasie `torch.utils.data.Dataset`, która zapewni kompatybilność reprezentacji naszych danych z procedurami m.in. automatycznie tworzącymi batche.

Zbiór danych powinien implementować co najmniej 3 funkcje: konstruktor, funkcję zwracającą liczbę elementów w zbiorze `__len__` oraz funckję pozwalającą na dostęp do wybranego elementu zbioru `__getitem__`.

Wykorzystując funkcję `build_vocab_from_iterator` uzupełnij implementację poniższej klasy, tak aby funkcja `__getitem__` zwracała elementy zbioru składające się z sekwencji indeksów słów oraz z sekwencji indeksów klas. Należy obsłużyć słowa spoza słownika zamieniająć na token `UNK` słowa występujące jednokrotnie w zbiorze danych. Dodatkowo słownik powinien uwzględniać token specjalny `<PAD>`, najlepiej umieszczony pod indeksem 0, który będzie potrzebny w dalszej części ćwiczenia.

In [10]:
from torch.utils.data import Dataset, DataLoader

class CoNLLDataset(Dataset):
    def __init__(self, seq_texts, seq_tags):
        self.texts = seq_texts
        self.labels = seq_tags
        self.vocab_text = build_vocab_from_iterator(seq_texts, specials=["<PAD>", "UNK"], min_freq=2)
        self.vocab_labels = build_vocab_from_iterator(seq_tags, specials=["<PAD>", "UNK"])
        self.vocab_text.set_default_index(1)
        
    def __len__(self):
        return len(self.labels)
    
    def __getitem__(self, item):
        return {'text': self.vocab_text.lookup_indices(self.texts[item]), 'label': self.vocab_labels.lookup_indices(self.labels[item])}
    
    def get_vocab_size(self):
        return len(self.vocab_text)

    def get_tagset_size(self):
        return len(self.vocab_labels)

In [11]:
dataset = CoNLLDataset(seq_texts, seq_tags)
for i in dataset:
    print(i)
    break
    

{'text': [1, 9, 3, 1775, 17, 1164, 177, 6, 212, 317, 1216, 6116, 108, 650, 597, 11, 457, 2, 249, 11, 2626, 2963, 2, 4920, 6, 602, 7, 1401, 1752, 21, 732, 8, 543, 10, 8902, 1, 4], 'label': [3, 6, 3, 2, 5, 7, 7, 7, 7, 3, 2, 2, 9, 3, 2, 6, 3, 4, 10, 6, 3, 3, 4, 5, 7, 7, 3, 2, 2, 6, 3, 2, 2, 3, 2, 2, 4]}


Mając zaimplementowany zbiór danych jako obiekt typu `Dataset`, podzielenie go na paczki instancji nie jest trudne. Wystarczy wykorzystać obiekt `DataLoader` i wyspecyfikować w nim rozmiar paczki danych `batch_size`.

In [21]:
dataloader = DataLoader(dataset, batch_size=4)
print("Ile utworzono paczek?", len(dataloader))

Ile utworzono paczek? 2234


Niemniej jednak praca z tekstami nie jest niestety taka prosta spróbuj przeiterować pod kolejnych paczkach twojego zbioru:

In [22]:
for i in dataloader:
    print(i)
    break

{'text': ['<PAD>', 'UNK', ',', 'the'], 'label': ['<PAD>', 'UNK', 'I-NP', 'B-NP']}


Obiekt `DataLoader` próbuje automatycznie podzielić nasze dane na paczki, jednak nie jest to takie proste. Nasze dane składają się z sekwencji o różnych długościach, ciężko jest więc utworzyć z nich eleganckie tensory które mają stałe wymiarowości. Naturalnym rozwiązaniem problemu jest wyznaczenie długości najdłuższej sekwencji i uzupełnienie wszystkich pozostałych sekwencji do tej długości specjlanymi tokenami `<PAD>`. Taka operacja może niestety znacznie zwiększyć wymagania pamięciowe potrzebne do reprezentacji zbioru. Pojawienie się jednej bardzo długiej sekwencji w zbiorze znacznie zwiększa czas przetwarzania dla wszystkich jego elementów. 

Zauważ, że wymaganiem technicznym nie jest posiadanie całego zbioru danych w postaci jednego dużego tensora, ale stworzenie takiego tensora dla wszystkich sekwnencji w ramach jednej paczki danych. Zwykle długość najdłużej sekwencji w paczce jest dużo mniejsza niż długość najdłuszej sekwencji w całym zbiorze, co pozwoliłoby nam na nie tylko znaczne lepsze wykorzystanie pamięci operacyjnej, ale także na ograniczenie czasu przetwarzania. Z tego powodu w tym zadaniu będziemy dynamicznie tworzyć reprezentację paczki danych -- każda paczka będzie zawierała tyle samo sekwencji, jednak będą one uzupełniane do różnych długości, pod tym względem paczki danych *nie* będą równe.  

Do uzupełnienia sekwencji do równych długości przydatna będzie funkcja `pad_sequence`, która również posiada parametr `batch_first` przygotowując dane o odpowiednich wymiarach.

In [27]:
from torch.nn.utils.rnn import pad_sequence
import torch

data = [torch.tensor([1,2,3]), torch.tensor([1,2])]
pad_data = pad_sequence(data, padding_value=0)
print(pad_data)

pad_data = pad_sequence(data, padding_value=0, batch_first=True)
print(pad_data)

tensor([[1, 1],
        [2, 2],
        [3, 0]])
tensor([[1, 2, 3],
        [1, 2, 0]])


Warto zwrócić uwagę, że zrównoleglanie przetwarzania sieci rekurencyjnej nie jest proste, gdyż wyniki przetwarzania zależą od poprzednich wyników. Nie można więc, tak jak w przypadku sieci splotowej, równocześnie obliczyć wyników filtra na wszystkich słowach w tekście, znakomicie zrównoleglając przetwarzanie. Należy najpierw zastosować "filtr" na pierwszym słowie, poczekać na wynik, potem na kolejnym itd. W związku z tym najlepszą możliwością zrównoleglenia przetwarzania sieci rekurencyjnych jest obsługa wielu przykładów uczących na raz. Sieć rekurencyjna, inicjalizowana potencjalnie różnymi `h0` dla różnych przykładów uczących, na raz przetwarza pierwsze elementy każdej sekwencji. Następnie przetwarza wszystkie drugie elementy, wszystkie trzecie elementy itd. Przetwarzanie odbywać się będzie po kolei w ramach kolejnych wierszy domyślnej repezentacji `batch_first=False` tj. równocześnie przetwarzane będą wszystkie sekwencje w batchu.

Implementacja dynamicznego tworzenia paczek danych (wraz z uzupełnianiem `<PAD>`) jest możliwa dzięki przekazaniu do konstruktora `DataLoader` funkcji `collate_fn`. Funkcja ta na wejście otrzymuje kolekcję danych (w takiej postaci w jakiej zostały one zwrócone z `DataSet` a na wyjście powinna zwrócić tensory reprezentujące paczkę danych. Nasza funkcja `collate_fn` powinna zwrócić 3 tensory. Pierwszy tensor powinien zawierać przykłady uczące (o równej długości), drugi odpowiednio uzupełnione sekwencje tagów oraz trzeci tensor jednowymiarowy (wektor) zawierający długości kolejnych sekwencji w batchu.

*UWAGA*: Konwencją umożliwiającą potem efektywniejsze przetwarzanie jest to, że sekwencje w batchu są posortowane ich długościami. Pierwsza sekwencja powinna być najdłuższa, a ostatnia najkrótsza.

In [17]:
def collate_fn(batch):
    sorted_batch = sorted(batch, key=lambda x: len(x['text']), reverse=True)
    sequences = [torch.tensor(x['text']) for x in sorted_batch]
    labels = [torch.tensor(x['label']) for x in sorted_batch]
    sizes = torch.tensor([len(x) for x in sequences])

    return pad_sequence(sequences, padding_value=0, batch_first=True), pad_sequence(labels, padding_value=0, batch_first=True), sizes


In [19]:
dataloader = DataLoader(dataset, batch_size=4, collate_fn=collate_fn)
for i in dataloader:
    print(i)
    break

(tensor([[   1,    9,    3, 1775,   17, 1164,  177,    6,  212,  317, 1216, 6116,
          108,  650,  597,   11,  457,    2,  249,   11, 2626, 2963,    2, 4920,
            6,  602,    7, 1401, 1752,   21,  732,    8,  543,   10, 8902,    1,
            4],
        [ 253,   36,  229,    3,  496,    5,    3,  118,  214, 1190,    6,  197,
          977,  172,    6, 1117,   19,   21,   49,  312,  224,   19,  417,    6,
         4096,    3, 1775,    2, 1143,    8,  384,  339,   56,  246,  138,    4,
            0],
        [  55,  246,    1, 2085,  477,   11, 2950,   36,   63, 6154,   25,    3,
         5984,   10, 1048,    6, 2788,  113,   69,  260, 2043,    9,   64, 4593,
          225, 3267,   88,  817,    4,    0,    0,    0,    0,    0,    0,    0,
            0],
        [2263,    5,    3, 4530, 4614, 1704,   10, 4293, 2543,    6,    7,  228,
         1314,  260,   36,  794,    6, 1916,    7,    1,    9, 2950,   96,    3,
          230,  126,    4,    0,    0,    0,    0,    0,    

Uzupełnienie sekwencji tokenami `<PAD>` do pełnej długości wydaje sie być dobrym pomysłem i pozwala na operowanie na tensorach które łatwo przesłać na kartę graficzną czy wykonać równoległe obliczenia na wszystkich jego elementach. Niemniej jednak fakt, że nasze sekwencje nie są równiej długości jest nadal niezwykle istotny przy wielu różnych obliczeniach. W szczególności jest on istotny przy przetwarzaniu sekwencji przez sieć rekurencyjną. W przypadku sieci rekurencyjnej przetwarzającej sekwencję uzupełnioną do końca zerami, sieć nie zwróci reprezentacji dla każdego słowa ale dla wszystkich elementów sekwencji czyli także dla końcowych elementów-zer. Ewidentnie sieć wykonała wiele niepotrzebnych operacji obliczeniowych tracąc czas (a przecież sieci rekurencyjne do najszybszych nie należą) jednakże prawidłowy wynik nadal jest do odzyskania. Możemy przecież post-factum wziąć pod uwagę tylko (długość sekwencji)-pierwszych elementów wyniku, uzyskując taki sam wynik jak przy przetwarzaniu sekwencji bez uzupełnienia.

Tak się jednak nie dzieje, gdy rozważamy dwukierunkową sieć rekurencyjną. Sieć iterująca w tył rozpoczęła przetwarzanie od początkowego stanu ukrytego, a następnie akutalizowała go za kolejne wejścia uważając sekwencję tokenów `<PAD>`! Wynik obliczeń tej sieci jest więc różny niż dla sekwencji nieuzupełnionej i co więcej nie jest on do odzyskania. Uzupełniając sekwnecję np. zerami nie tylko wykonujemy nadmiarowe obliczenia, ale także zaburzamy wyniki.

Na szczęście sieci rekurencyjne zaimplementowane w PyTorch obsługją także specjalny format danych tzw. `PackedSequence`, który przechowuje informację o długościach sekwencji zapewniając oszczędność obliczeń i takie same wyniki jak dla sekwencji bez uzupełniania. Przed wykonaniem obliczeń siecią rekurencyjną możemy dane zapakować do tego formatu, a następnie przetworzony wynik możemy z powrotem odpakować do postaci uzupełnionego do pełnej długości tensora. Pomocne są w tym dwie funkcje: `pack_padded_sequence` pakująca dane do tego formatu oraz funkcja odpakowująca `pad_packed_sequence`.

In [20]:
from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence

data = torch.tensor([[1,2,3,4,5],[-1,-2,-3,0,0], [10,20,0,0,0]])
lengths = torch.tensor([5,3,2])

packed_data = pack_padded_sequence(data, lengths, batch_first=True)
print(packed_data)

PackedSequence(data=tensor([ 1, -1, 10,  2, -2, 20,  3, -3,  4,  5]), batch_sizes=tensor([3, 3, 2, 1, 1]), sorted_indices=None, unsorted_indices=None)


Zapakowaliśmy 3 sekwencje, które uzupełnione były do długości 5. Ponieważ kolejne sekwencje są umieszczone w kolejnych wierszach tensora należy wyspecyfikować argument `batch_first=True`. Format `PackedSequence` przechowuje tensor `data` oraz tensor `batch_sizes`. Tak jak opisywaliśmy, sieć rekurencyjna zrównolegla swoje działania poprzez jednoczene przetwarzanie wszystkich sekwencji na raz, iterując po ich kolejnych elementach. Z tego powodu `batch_sizes` opisują wielkość przetwarzanej paczki danych (tj. liczba przetwarzanych sekwencji) w każdej iteracji. Na początku przetwarzamy 3 sekwencje, potem znowu 3, a następnie tylko dwie, gdyż ostatnia sekwencja miała tylko 2 elementy. Prześledź, że właśnie w taki sposób zostały ułożone dane w `data`.

Porównajmy działanie neuronu rekurencyjnego dla danych uzupełnionych tokenami `<PAD>` oraz dla danych spakowanych do `PackedSequence`.

In [28]:
N_FEATURES = 1
N_LAYERS = 1
HIDDEN_SIZE = 1

data = torch.FloatTensor([[1,2,3,4,5],[-1,-2,-3,0,0], [10,20,0,0,0]]).view(3,5,1)
lengths = torch.tensor([5,3,2])

rnn = nn.RNN(N_FEATURES, HIDDEN_SIZE, N_LAYERS, batch_first = True) 
out, _ = rnn(data)
print("Wyjście sieci dla danych o stałej długości: ", out)

packed_data = pack_padded_sequence(data, lengths, batch_first=True)
out_packed, _ = rnn(packed_data)
print("Wyjście sieci dla danych spakowanych: ",out_packed)
out, out_len = pad_packed_sequence(out_packed, batch_first=True)
print("Wyjście sieci po rozpakowaniu: ", out)


Wyjście sieci dla danych o stałej długości:  tensor([[[-0.6375],
         [-0.6813],
         [-0.9006],
         [-0.9605],
         [-0.9886]],

        [[ 0.5493],
         [ 0.6522],
         [ 0.8779],
         [-0.7191],
         [ 0.5495]],

        [[-1.0000],
         [-1.0000],
         [ 0.7092],
         [-0.6320],
         [ 0.4889]]], grad_fn=<TransposeBackward1>)
Wyjście sieci dla danych spakowanych:  PackedSequence(data=tensor([[-0.6375],
        [ 0.5493],
        [-1.0000],
        [-0.6813],
        [ 0.6522],
        [-1.0000],
        [-0.9006],
        [ 0.8779],
        [-0.9605],
        [-0.9886]], grad_fn=<CatBackward0>), batch_sizes=tensor([3, 3, 2, 1, 1]), sorted_indices=None, unsorted_indices=None)
Wyjście sieci po rozpakowaniu:  tensor([[[-0.6375],
         [-0.6813],
         [-0.9006],
         [-0.9605],
         [-0.9886]],

        [[ 0.5493],
         [ 0.6522],
         [ 0.8779],
         [ 0.0000],
         [ 0.0000]],

        [[-1.0000],
       

Zwróć uwagę jak ułożone są spakowane wyniki sieci.

Stworzyliśmy zbiór danych, mamy także zaimplementowany mechanizm dynamicznych paczek danych, a także wiemy jak efektywnie wykorzystywać je do obliczeń siecami rekurencyjnymi. Połóżmy więc wisienkę na torcie i stwórzmy model do tagowania tych danych. Model powinien składać się z warstwy zanurzeń słów, która jest wejściem do jednowarstwowego, dwukierunkowego LSTM. Ostatecznie predykcja jest wykonywana przez warstwę liniową (softmax).

In [30]:
WORD_EMBEDDING = 20

class TaggerNet(nn.Module):
    def __init__(self, vocab_size, hidden_size, n_tags):
        """ Argumentami konstruktora jest rozmiar słownika, 
            liczba neuronów w warstwie rekurencyjnej 
            oraz liczba klas/tagów
        """
        super(TaggerNet, self).__init__()
        self.embedding = nn.Embedding(vocab_size, WORD_EMBEDDING)
        self.lstm = nn.LSTM(WORD_EMBEDDING, hidden_size, batch_first=True, bidirectional=True)
        self.linear = nn.Linear(hidden_size*2, n_tags)
        
    def forward(self, sentence, seq_lengths):
        """ Wejściem jest paczka zdań (słowa reprezentowane przez indeksy)
            oraz tensor ich długości 
        """
        embedded_words = self.embedding(sentence)   
        packed_words = pack_padded_sequence(embedded_words, seq_lengths, batch_first=True)
        out, _ = self.lstm(packed_words)
        out, _ = pad_packed_sequence(out, batch_first=True)
        out = self.linear(out)
        return out


Zaimplemetuj finalną pętlę uczącą model. 
- Powinieneś wykorzystać błąd entropii krzyżowej jako funkcję straty policzoną dla każdego przewidzianego taga. 
- Zwróć uwagę, że wyniki sieci są w postaci rozpakowanej tj. uzupełnionej zerami do pełnej długości. Błąd nie powinien być liczony dla tych predykcji! Możesz to osiągnąć np. sprytnie wykorzystując parametr `ignore_index` klasy `nn.CrossEntropyLoss`. 
- Jako algorytm optymalizacyjny wykorzystaj `torch.optim.Adam`.
- Jedną z technik stabilizujących trening sieci jest przycinanie gradientu. W PyTorch możesz to uzyskać wywołując pomiędzy obliczeniem gradientu a wywołaniem kroku optymalizatora funkcji `nn.utils.clip_grad_norm_(model.parameters(), TRESHOLD)`. Zwróć uwagę, że nazwa funkcji zakończona jest `_` to znaczy, że operacja jest wykonywana in-place i wyniku funkcji nie trzeba podstawiać do żadnej zmiennej.
- Celem ćwiczenia nie jest wybór hiperparametrów, ani uzyskiwanie wysokich trafności.

In [40]:
model = TaggerNet(dataset.get_vocab_size(), 10, dataset.get_tagset_size())
dataloader = DataLoader(dataset, batch_size=20, collate_fn=collate_fn)

loss_function = nn.CrossEntropyLoss(ignore_index=0)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)

for epoch in range(5):  
    loss_sum = torch.tensor(0.)
    for sentences, tags, lengths in dataloader:
        optimizer.zero_grad()
        output = model(sentences, lengths)
        loss = loss_function(output.view(-1, dataset.get_tagset_size()), tags.view(-1))
        loss.backward()
        nn.utils.clip_grad_norm_(model.parameters(), 1)
        optimizer.step()

        with torch.no_grad():
            loss_sum += loss

    print("Epoch: ", epoch + 1, " Loss: ", loss_sum/len(dataloader))



Epoch:  1  Loss:  tensor(0.7716)
Epoch:  2  Loss:  tensor(0.3329)
Epoch:  3  Loss:  tensor(0.2500)
Epoch:  4  Loss:  tensor(0.2063)
Epoch:  5  Loss:  tensor(0.1779)


**Ćwiczenia**
- W tym zadaniu zaimplementowaliśmy dynamiczne tworzenie paczek danych, w ramach których uzupełnialiśmy sekwencje do takiej samej długości. Czasami stosowaną techniką jest posortowanie zbioru danych, tak aby sekwencje były ułożone od najdłuższej do najkrótszej, a następnie dynamicznie tworzy się kolejne paczeki danych iterując po tak ułożonym zbiorze. Jakie są wady i zalety takiego rozwiązania?
- Student podczas treningu sieci neuronowej zauważył, że wyniki funkcji celu w czasie optymalizacji modelu nie są stabilne. Spodziewa się, że zwiększenie rozmiaru paczki danych przyczyni się do bardziej stabilnego treningu sieci i poprawi wyniki. Jednakże, dalsze zwiększenie paczki danych nie jest możliwe gdyż nie mieści się ona w pamięci na karcie GPU. Sama implementacja sieci i reprezentacji zbioru danych jest wg. studenta optymalna, inna karta GPU o większej pamięci nie jest dostępna. Jak rozwiązac ten problem? Podaj zarys implementacji. 


Odpowiedź na ostatnią kropkę umieść poniżej.


Dobrą metodą w przypadku kiedy nie mamy wystarczająco pamięci na karcie GPU, wydaje się być `gradient accumulation` (akumulacja gradientu). Jej głównym założeniem jest obliczanie gradientów w mniejszych odstępach, zamiast robienia tego raz dla całego batcha. Następne kroki modelu są wykonywane dopiero po zakumulowaniu odpowiedniej liczby gradientów.

Jednak w momencie kiedy posiadamy odpowiednią ilość pamięci aby wytrenować model, to nie powinniśmy skorzystać z gradient accumulation, ponieważ może to znacznie spowolnić nasz trening.

Zarys rozwiązania:
```python
mini_batches = 4
batch_size = 128
for epoch in range(num_epochs):
    loss_sum = torch.tensor(0.)
    for i, data in enumerate(loader, 0):
        output, labels = model(data)
        loss = loss_function(output, labels)

        loss.backward()

        if (i + 1) % (batch_size // mini_batches) === 0:
            optimizer.step()
            optimizer.zero_grad()

        loss_sum += loss 
```

## Zadanie 3
Celem ostatniego ćwiczenia jest rozszerzenie modelu o warstwę CRF (nie można korzystać z gotowców). Implementacja:
- powinna operować tylko na jednej sekwencji (brak obsługi paczek danych w programowaniu dynamicznym)
- powinna być stabilna numerycznie tj. operować na logarytmach prawdopodobieństw (patrz rozdział "Uwaga implementacyjna" w wykładzie o CRF)
- warstwa CRF powinna być zaimplementowana wg. schematu "rozbicie funkcji oceny na ocenę emisji i tranzycji" 
$$\Psi_i (y_i, y_{i-1}, \vec{x}) = \exp\left({W}_{y_i}h_i\right) \exp\left( \vec{b}_{y_i, y_{i-1}} \right)$$
 gdzie ${W}_{y_i}h_i$ to ocena kompatybilności emisji, a $\vec{b}_{y_i, y_{i-1}}$ to kompatybilność tranzycji. Reprezentacja $h_i$ jest obliczana poprzez sieć rekurenycjną LSTM. Zwróć więc uwagę, że ${W}_{y_i}h_i$ to wynik warstwy liniowej mającej tyle neuronów wyjściowych ile tagów, za wejście przyjmując stan ukryty sieci rekurencyjnej. Z kolei $\vec{b}_{y_i, y_{i-1}}$ to jedna waga reprezentująca ocenę tranzycji, która jest dodatkowym parametrem warstwy CRF. Potrzebujemy więc macierz takich wag o wymiarach $C\times C$ gdzie C to liczba tagów. 
- Model powinien uwzględniać też reprezentacje tagów `START` i `STOP`. W rezultacie więc wygodnie zaimplementować macierz parametrów oceniających tranzycję jako macierz o wymiarach $C+2\times C+2$.
 
W czasie treningu modelu powinieneś maksymalizować logarytmiczną funkcję wiarygodności, co przy paczce danych o wielkości 1 sprowadza się do maksymalizacji logarytmu prawdopodobieństwa prawidłowej sekwencji. 
$$\max \log P({y} | {x}) = \log \frac{\prod_{i=1}^n \Psi_i (y_i, y_{i-1}, {x})}{Z({x})}  = \sum_{i=1}^n  \log \Psi_i (y_i, y_{i-1}, {x}) - \log Z({x})  $$
W PyTorch algorytmy optymalizacyjne minimalizują funkcje celu, więc wynik przed policzeniem gradientów musisz pomnożyć przez $-1$.

Do dyspozycji masz funkcję `log_sum_exp`:

In [116]:
def log_sum_exp(vec):
    max_score = torch.max(vec)
    return max_score + torch.log(torch.sum(torch.exp(vec - max_score)))

Uzupełnij klasę `TaggerCRFNet` takby aby implementowała powyższą architekturę.

In [135]:
class TaggerCRFNet(nn.Module):
    def __init__(self, vocab_size, hidden_size, n_tags):
        super(TaggerCRFNet, self).__init__()
        self.embedding = nn.Embedding(vocab_size, WORD_EMBEDDING)
        self.lstm = nn.LSTM(WORD_EMBEDDING, hidden_size, bidirectional = True)
        self.fc = nn.Linear(hidden_size * 2, n_tags)
        self.n_tags = n_tags
        self.START_TAG = self.n_tags 
        self.STOP_TAG = self.n_tags + 1
        self.transitions = nn.Parameter(torch.zeros(self.n_tags + 2, self.n_tags + 2))

    def _get_features(self, sentence, seq_lengths):
        """
        Funkcja ekstrakcji cech przez sieć rekurencyjną LSTM.
        Wyjście sieci zwraca od razu ocenę emisji każdego taga W_{y_i}*h_i
        
        Zwróć uwagę na wywołanie .view() na wyniku funkcji. Wynik ma 
        wymiarowość długość sekwencji x liczba tagów (brak obsługi kilku sekwencji na raz)
        """
        embedded_words = self.embedding(sentence)   
        packed_words = pack_padded_sequence(embedded_words, seq_lengths)
        out, _ = self.lstm(packed_words)                 
        unpacked, unpacked_len = pad_packed_sequence(out)
        out = self.fc(unpacked)         
        return out.view(-1, self.n_tags)  
    
    def _get_numerator(self, features, tags):
        """
        Funkcja przyjmuje na wejście features zwracane przez _get_features
        oraz sekwencję tagów. Obliczany jest (zlogarytmowany) licznik prawdopodobieństwa 
        podanej sekwencji. (Pierwszy term podanej wyżej funkcji celu)
        
        Zwróć uwagę w jaki sposób jest wykorzystywana macierz transitions.
        Pierwszym indeksem jest *kolejny* tag
        """
        score = torch.zeros(1)
        # Funkcje kompatybilności emisji
        for i, tag in enumerate(tags):
            score = score + features[i,tag]
        # Funkcje kompatybilności tranzycji
        score = score + self.transitions[tags[0], self.START_TAG]
        for i in range(len(tags)-1):
            score = score + self.transitions[tags[i+1], tags[i]]
        score = score + self.transitions[self.STOP_TAG,tags[-1]]
        return score
    
    def _forward_alg(self, features, seq_lengths):
            """
            Funkcja zwracająca logarytm sumy statystycznej (drugi term funkcji celu)
            """
            transitions = self.transitions[:self.n_tags , :self.n_tags]
            start = self.transitions[:self.n_tags , self.START_TAG].view(-1)
            stop = self.transitions[self.STOP_TAG , :self.n_tags]   
            forward_v = None

            for i, W in enumerate(features):
                if i == 0:
                    forward_v = W + start
                                                         
                obj_f = W.unsqueeze(1) + forward_v + transitions
                max_score, _ = torch.max(obj_f, dim=1)
                forward_v = max_score + torch.logsumexp(obj_f - max_score.unsqueeze(1), dim=1)

            forward_v = forward_v + stop
                            
            return log_sum_exp(forward_v)

    def seq_log_probability(self, sentence, tags, seq_lengths):
        """
        Funkcja zwracająca logarytm prawdopodobieństwa podanej sekwencji
        """
        features = self._get_features(sentence, seq_lengths)
        numerator = self._get_numerator(features, tags)
        partition_function = self._forward_alg(features,seq_lengths)
        return numerator - partition_function

    def forward(self, sentence, seq_lengths):
        """
        Funkcja zwracająca najbardziej prawdopodobną sekwencję tagów dla podanego wejścia.
        
        Porada: zaimplementuj ją w drugiej kolejności, jak seq_log_probability będzie prawidłowo działać
        """
        features = self._get_features(sentence, seq_lengths)
        # pass

    def score_seq(self, sentence, tags, seq_lengths):
        """
        Funkcja dla testów implementacji.
        Wyznacz ocenę sekwencji (zlogarytmowany licznik). 
        """
        features = self._get_features(sentence, seq_lengths)
        numerator = self._get_numerator(features, tags)
        return numerator 
    
    def partition_function(self, sentence, tags, seq_lengths):
        """
        Funkcja dla testów implementacji.
        Wyznacz sumę statystyczną (zlogarytmowany mianownik). 
        """
        features = self._get_features(sentence, seq_lengths)
        gold_score = self._forward_alg(features, seq_lengths)
        return  gold_score 
    


Poprawność algorytmu "w przód i w tył" mozna prosto sprawdzić, porównując wynik z wynikiem algorytmu zachłannego (tj. iterującym po wszystkich sekwencjach), dla krótkiej sekwencji z małą liczbą możliwych tagów.

In [136]:
import itertools

data = torch.tensor([1, 2, 5, 10, 11, 3]).view(6,1)
tags = torch.tensor([1, 2, 0, 1, 1, 1]).view(6,1)
length = torch.tensor([6])

model = TaggerCRFNet(vocab_size=12, hidden_size=3, n_tags=3)
sum_forward_alg = model.partition_function(data,tags, length)
print('Programowanie dynamiczne',sum_forward_alg)
sum_score= []
for i in itertools.product(range(3),repeat=6):
    new_tags = torch.tensor(i).view(6,1)
    sum_score.append(model.score_seq(data, new_tags, length))
print("Algorytm zachłanny",log_sum_exp(torch.tensor(sum_score)))

Programowanie dynamiczne tensor(6.3764, grad_fn=<AddBackward0>)
Algorytm zachłanny tensor(5.4959)


Ostatecznie zaimplementuj trening modelu.

In [None]:
CLIP_TRESHOLD = 5. 

model = TaggerCRFNet(dataset.get_vocab_size(), 10, dataset.get_tagset_size())
dataloader = DataLoader(dataset, batch_size=1, collate_fn=collate_fn )
optimizer = torch.optim.Adam(model.parameters())

for epoch in range(1):  # dla testów wystarczy jedna epoka, możesz przerwać obliczenia w jej trakcie
    loss_sum = torch.tensor([0.])
    for i, (sentences, tags, lengths) in enumerate(dataloader):
        #loss =...
        # TWÓJ KOD TUTAJ
        loss.backward()
        nn.utils.clip_grad_norm_(model.parameters(), CLIP_TRESHOLD)
        optimizer.step()
        optimizer.zero_grad()
        with torch.no_grad():
            loss_sum += loss
            if i% 10 == 9:
                print("Loss function: ",loss_sum/10)
                # Wyniki nadal będą niestabilne, ale ogólna tendencja liczb powinna być malejąca
                loss_sum = 0

