# Zadatak 1. Učitavanje podataka (25% bodova)

In [1]:
import prvi
import torch

Sve metode potrebne za prvi zadatak nalaze se u datoteci prvi.py. U sljedećem isječku koda računamo frekvencije pojavljivanja riječi, stvaramo vokabulare i učitavamo dataset.

In [2]:
freq_data, freq_label = prvi.get_frequencies('data/sst_train_raw.csv')
text_vocab = prvi.Vocab(freq_data, max_size=-1, min_freq=1)
label_vocab = prvi.Vocab(freq_label, use_extra=False)
train_dataset = prvi.NLPDataset('data/sst_train_raw.csv', text_vocab, label_vocab)

## Razred Vocab

Vaša implementacija razreda Vocab mora implementirati funkcionalnost pretvorbe niza tokena (ili jednog tokena) u brojeve. Ovu funkciju možete nazvati encode. Primjer ove pretvorbe za četvrtu instancu train skupa:

In [3]:
instance_text, instance_label = train_dataset.instances[3]
print(f"Text: {instance_text}")
print(f"Label: {instance_label}")
print(f"Numericalized text: {text_vocab.encode(instance_text)}")
print(f"Numericalized label: {label_vocab.encode(instance_label)}")

Text: ['yet', 'the', 'act', 'is', 'still', 'charming', 'here']
Label: positive
Numericalized text: tensor([189,   2, 674,   7, 129, 348, 143])
Numericalized label: tensor([0])


Također, vaša implementacija razreda Vocab mora primati iduće parametre:

max_size: maksimalni broj tokena koji se sprema u vokabular (uključuje i posebne znakove). -1 označava da se spremaju svi tokeni.
min_freq: minimalna frekvencija koju token mora imati da bi ga se spremilo u vokabular (\ge). Posebni znakovi ne prolaze ovu provjeru.
Primjer izgradnje vokabulara sa svim tokenima (duljina uključuje i posebne znakove):

In [3]:
text_vocab = prvi.Vocab(freq_data, max_size=-1, min_freq=0)
print(len(text_vocab.itos))

14806


## Učitavanje vektorskih reprezentacija

Vaš zadatak je implementirati funkciju koja će za zadani vokabular (iterable stringova) generirati embedding matricu. Vaša funkcija treba podržavati dva načina genriranja embedding matrice: nasumična inicijalizacija iz standardne normalne razdiobe (N(0,1)) i učitavanjem iz datoteke. Pri učitavanju iz datoteke, ako ne pronađete vektorsku reprezentaciju za neku riječ, inicijalizirajte ju normalno. Vektorsku reprezentaciju za znak punjenja (na indeksu 0) morate inicijalizirati na vektor nula. Jednostavan način na koji možete implementirati ovo učitavanje je da inicijalirate matricu iz standardne normalne razdiobe, a potom prebrišete inicijalnu reprezentaciju u retku za svaku riječ koju učitate. Bitno: Pripazite da redoslijed vektorskih reprezentacija u matrici odgovara redoslijedu riječi u vokabularu! Npr., na indeksu 0 mora biti reprezentacija za posebni znak punjenja.

In [4]:
embedding_matrix = prvi.get_embedding_matrix(text_vocab, 300, 'data/sst_glove_6b_300d.txt')
print(embedding_matrix.shape)

torch.Size([14806, 300])


Jednom kad ste uspješno učitali vašu V×d embedding matricu, iskoristite torch.nn.Embedding.from_pretrained() kako bi vašu matricu spremili u optimizirani omotač za vektorske reprezentacije. Postavite parametar funkcije padding_idx na 0 (indeks znaka punjenja u vašoj embedding matrici), a parametar funkcije freeze ostavite na True ako koristite predtrenirane reprezentacije, a postavite na False inače.

## Nadjačavanje metoda torch.utils.data.Dataset

Da bi naša implementacija razreda NLPDataset bila potpuna, potrebno je nadjačati __getitem__ metodu koja omogućava indeksiranje razreda. Za potrebe vježbe, ta metoda treba vraćati numerikalizirani text i labelu referencirane instance. Također, dovoljno je napraviti da se numerikalizacija radi “on-the-fly”, i nije ju nužno cachirati.

Primjer numerikalizacije s nadjačavanjem:

In [5]:
instance_text, instance_label = train_dataset.instances[3]
print(f"Text: {instance_text}")
print(f"Label: {instance_label}")
numericalized_text, numericalized_label = train_dataset[3]
print(f"Numericalized text: {numericalized_text}")
print(f"Numericalized label: {numericalized_label}")

Text: ['yet', 'the', 'act', 'is', 'still', 'charming', 'here']
Label: positive
Numericalized text: tensor([189,   2, 674,   7, 129, 348, 143])
Numericalized label: tensor([0])


# Implementacija batchiranja podataka: collate funkcija

Zadatak naše collate funkcije biti će nadopuniti duljine instanci znakom punjenja do duljine najdulje instance u batchu. Za ovo, pogledajte funkciju from torch.nn.utils.rnn.pad_sequence. Primjetite da vaša implementacija collate funkcije mora znati koji se indeks koristi kao znak punjenja.

Jednom kad smo implementirali sve navedeno, naše učitavanje podataka bi moglo izgledati ovako:

In [6]:
batch_size = 2 # Only for demonstrative purposes
shuffle = False # Only for demonstrative purposes
train_data_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, 
                              shuffle=shuffle, collate_fn=prvi.pad_collate_fn)
texts, labels, lengths = next(iter(train_data_loader))
print(f"Texts: {texts}")
print(f"Labels: {labels}")
print(f"Lengths: {lengths}")

Texts: tensor([[   2,  554,    7, 2872,    6,   22,    2, 2873, 1236,    8,   96, 4800,
            4,   10,   72,    8,  242,    6,   75,    3, 3576,   56, 3577,   34,
         2022, 2874, 7123, 3578, 7124,   42,  779, 7125,    0,    0],
        [   2, 2875, 2023, 4801,    5,    2, 3579,    5,    2, 2876, 4802,    7,
           40,  829,   10,    3, 4803,    5,  627,   62,   27, 2877, 2024, 4804,
          962,  715,    8, 7126,  555,    5, 7127, 4805,    8, 7128]])
Labels: tensor([0, 0])
Lengths: tensor([32, 34])


# Zadatak 2. Implementacija baseline modela (25% bodova)

Prvi korak kod svakog zadatka strojnog učenja bi trebao biti implementacija baseline modela. Baseline model nam služi za procjenu performansi koje naš stvarni, uobičajeno skuplji model mora moći preći kao plitak potok. Također, baseline modeli će nam pokazati kolika je stvarno cijena izvođenja naprednijih modela.

Vaš zadatak u laboratorijskoj vježbi je implementirati model koji će koristiti sažimanje usrednjavanjem (eng. mean pooling) kako bi eliminirao problematičnu varijabilnu dimenziju. Pri primjeni sažimanja usrednjavanjem odmah eliminirajte cijelu vremensku dimenziju (tzv. okno je veličine T).

Osnovni model koji implementirate mora izgledati ovako:

    avg_pool() -> fc(300, 150) -> ReLU() -> fc(150, 150) -> ReLU() -> fc(150,1)
    
Kao gubitak predlažemo da koristite BCEWithLogitsLoss, u kojem slučaju ne morate primjeniti sigmoidu na izlaznim logitima. Alternativno, možete staviti da vam je izlazna dimenzionalnost broj klasa te koristiti gubitak unakrsne entropije. Oba pristupa su korištena u praksi ovisno o osobnim preferencama.

Kao algoritam optimizacije koristite Adam.

Implementirajte metrike praćenja performansi modela. Osim gubitka na skupu podataka, zanimaju nas preciznost (eng. accuracy), f1 mjera i matrica zabune (eng. confusion matrix). Nakon svake epohe ispišite performanse modela po svim metrikama na skupu za validaciju, a nakon zadnje epohe ispišite performanse modela na skupu za testiranje.

In [13]:
import drugi
import numpy as np

freq_data, freq_label = prvi.get_frequencies('data/sst_train_raw.csv')
text_vocab = prvi.Vocab(freq_data, max_size=-1, min_freq=1)
label_vocab = prvi.Vocab(freq_label, use_extra=False)
train_dataset = prvi.NLPDataset('data/sst_train_raw.csv', text_vocab, label_vocab)
embedding_matrix = prvi.get_embedding_matrix(text_vocab, 300, 'data/sst_glove_6b_300d.txt')

seed=7052020
torch.manual_seed(seed)
np.random.seed(seed)

model = drugi.BaselineModel(embedding_matrix)
model.train_model(epochs=5, dataset=train_dataset, optimizer=torch.optim.Adam(model.get_params(), lr=1e-4), batch_size=10, text_vocab=text_vocab, label_vocab=label_vocab, verbose=True)

Epoch 1 results on validation dataset:
Accuracy: 0.6068094453596925
Precision: 0.5947775628626693
F1 score: 0.6320657759506682
Loss: 27.152376
Confusion matrix:
 [[490 419]
 [297 615]]

Epoch 2 results on validation dataset:
Accuracy: 0.6370126304228446
Precision: 0.6071733561058924
F1 score: 0.6826692270763323
Loss: 24.920431
Confusion matrix:
 [[449 460]
 [201 711]]

Epoch 3 results on validation dataset:
Accuracy: 0.6523887973640856
Precision: 0.6197424892703862
F1 score: 0.6952335098700047
Loss: 23.32166
Confusion matrix:
 [[466 443]
 [190 722]]

Epoch 4 results on validation dataset:
Accuracy: 0.6633717737506865
Precision: 0.6287683031869078
F1 score: 0.7042932947419199
Loss: 22.161985
Confusion matrix:
 [[478 431]
 [182 730]]

Epoch 5 results on validation dataset:
Accuracy: 0.671609006040637
Precision: 0.6297520661157024
F1 score: 0.7181903864278982
Loss: 22.034103
Confusion matrix:
 [[461 448]
 [150 762]]

Results on test dataset:
Accuracy: 0.6548165137614679
Precision: 0.61441

# Zadatak 3. Implementacija povratne neuronske mreže (25% bodova)

Nakon što ste uspješno implementirali vaš baseline model, vrijeme je da isprobamo neki model baziran na povratnim neuronskim mrežama. Vaš zadatak je implementirati osnovni model povratne neuronske meže po izboru. Na izboru su vam iduće ćelije: [“Vanilla” RNN, GRU, LSTM].

Za odabrani model, detaljno pročitajte njegovu dokumentaciju. U nastavku ćemo vam samo skrenuti pozornost na nekoliko bitnih detalja:

- Svaka RNN mreža kao izlaz svoje forward metode vraća (1) niz skrivenih stanja posljednjeg sloja i (2) skriveno stanje (tj., skrivena stanja u slučaju LSTMa) za sve slojeve zadnjeg vremenskog koraka. Kao ulaz u dekoder obično želite staviti skriveno stanje iz zadnjeg sloja u zadnjem vremenskom koraku. Kod LSTMa, to je h komponenta dualnog (h, c) skrivenog stanja.

- Radi brzine, RNN mreže preferiraju inpute u time-first formatu (budući da je brže iterirati po prvoj dimenziji tenzora). Transponirajte ulaze prije nego ih šaljete RNN ćeliji.

- Tenzori koji su ulaz u RNN ćelije se često “pakiraju”. Pakiranje je zapis tenzora kojemu su pridružene stvarne duljine svakog elementa u batchu. Ako koristite pakiranje, RNN mreža se neće odmatati za vremenske korake koji sadrže padding u elementima batcha. Ovdje osim efikasnosti možete dobiti i na preciznosti, ali ovaj dio nije nužan dio vaše implementacije.

- Implementirajte gradient clipping prije optimizacijskog koraka Osnovni model vaše odabrane RNN ćelije treba izgledati ovako:

        rnn(150) -> rnn(150) -> fc(150, 150) -> ReLU() -> fc(150,1)
    
Vaš osnovni model RNN ćelije bi trebao biti jednosmjeran i imati dva sloja. Za višeslojni RNN iskoristite argument num_layers pri konstrukciji RNN mreže.

In [9]:
import treci

freq_data, freq_label = prvi.get_frequencies('data/sst_train_raw.csv')
text_vocab = prvi.Vocab(freq_data, max_size=-1, min_freq=1)
label_vocab = prvi.Vocab(freq_label, use_extra=False)
train_dataset = prvi.NLPDataset('data/sst_train_raw.csv', text_vocab, label_vocab)
valid_dataset = prvi.NLPDataset('data/sst_valid_raw.csv', text_vocab, label_vocab)
test_dataset = prvi.NLPDataset('data/sst_test_raw.csv', text_vocab, label_vocab)
embedding_matrix = prvi.get_embedding_matrix(text_vocab, 'data/sst_glove_6b_300d.txt', 300)

model = treci.MyModel(embedding_matrix, text_vocab, label_vocab)
model.train_model(epochs=5, train_dataset=train_dataset, valid_dataset=valid_dataset, test_dataset=test_dataset, optimizer=torch.optim.Adam(model.params, lr=1e-4), batch_size=10, grad_clip=0.25, verbose=True)

Epoch 1 results on validation dataset:
Accuracy: 0.7243272926963207
Precision: 0.6749146757679181
F1 score: 0.7591170825335892
Loss: 0.65754557
Confusion matrix:
 [[528 381]
 [121 791]]

Epoch 2 results on validation dataset:
Accuracy: 0.7237781438769907
Precision: 0.6691480562448304
F1 score: 0.7628477133427629
Loss: 0.66014284
Confusion matrix:
 [[509 400]
 [103 809]]

Epoch 3 results on validation dataset:
Accuracy: 0.6968698517298187
Precision: 0.6325478645066274
F1 score: 0.756828193832599
Loss: 0.6834572
Confusion matrix:
 [[410 499]
 [ 53 859]]

Epoch 4 results on validation dataset:
Accuracy: 0.7380560131795717
Precision: 0.6772616136919315
F1 score: 0.7769985974754559
Loss: 0.6542361
Confusion matrix:
 [[513 396]
 [ 81 831]]

Epoch 5 results on validation dataset:
Accuracy: 0.7556287753981329
Precision: 0.7097933513027853
F1 score: 0.7802469135802469
Loss: 0.637965
Confusion matrix:
 [[586 323]
 [122 790]]

Results on test dataset:
Accuracy: 0.7557339449541285
Precision: 0.697

# Zadatak 4. Usporedba modela i pretraga hiperparametara (25% bodova)

Usporedba RNN ćelija
Neovisno o tome koju RNN ćeliju ste odabrali u trećem zadatku, proširite vaš kod na način da vrsta RNN ćelije bude argument. Pokrenite vaš kod za preostale vrste RNN ćelija i zapišite rezultate. Je li neka ćelija očiti pobjednik? Je li neka ćelija očiti gubitnik?

In [7]:
import cetvrti

freq_data, freq_label = prvi.get_frequencies('data/sst_train_raw.csv')
text_vocab = prvi.Vocab(freq_data, max_size=-1, min_freq=1)
label_vocab = prvi.Vocab(freq_label, use_extra=False)
train_dataset = prvi.NLPDataset('data/sst_train_raw.csv', text_vocab, label_vocab)
valid_dataset = prvi.NLPDataset('data/sst_valid_raw.csv', text_vocab, label_vocab)
test_dataset = prvi.NLPDataset('data/sst_test_raw.csv', text_vocab, label_vocab)
embedding_matrix = prvi.get_embedding_matrix(text_vocab, 300, 'data/sst_glove_6b_300d.txt')

In [26]:
net_types = ['RNN', 'GRU', 'LSTM']

for net_type in net_types:
    accs = list()
    for i in range(5):
        model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type=net_type)
        model.cuda()
        acc = model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = 0.25, verbose=False)
        if acc > 0.55:
            accs.append(acc)
        else:
            i -= 1
    print('Test accuracy za ' + net_type + ':' + str(torch.mean(torch.tensor(accs)).item() ) )

Test accuracy za RNN:0.7291284403669726
Test accuracy za GRU:0.7344036697247707
Test accuracy za LSTM:0.7589449541284404


#### Komentar: 
Mreže u nekim slučajevima zapnu u lokalnom minimumu koji klasificira sve ulaze u istu klasu. U tim slučajevima vjerojatno samo nemamo sreće s inicijalizacijom težina. Accuracy je obično ispod 0.5 u toj situaciji pa te slučajeve nećemo uzeti u obzir kod računanja prosječnog accuracy-a.

Vidimo da je prosječni accuracy LSTM-a bolji od ostalih vrsta RNNova.

Ponovite ovu usporedbu uz izmjenu hiperparametara povratnih neuronskih mreža. Idući hiperparametri povratnih neuronskih mreža su nam interesantni:

    hidden_size
    num_layers
    dropout: primjenjen između uzastopnih slojeva RNNa (funkcionira samo za 2+ slojeva)
    bidirectional: dimenzionalnost izlaza dvosmjerne rnn ćelije je dvostruka
    
Isprobajte barem 3 različite vrijednosti za svaki hiperparametar (osim bidirectional, koji ima samo dvije vrijednosti). Način na koji ćete kombinirati te vrijednosti je potpuno na vama (iscrpna rešetkasta pretraga je vremenski previše zahtjevna). Pokrenite svaku vrstu ćelije za svaku kombinaciju hiperparametara i zapišite rezultate (relevantne metrike). Nemojte se bojati raditi agresivne izmjene u vrijednostima hiperparametara (male izmjene vam neće dati puno informacija). Primjećujete li da neki hiperparametar bitno utječe na performanse ćelija? Koji?

Zapamtite / zapišite set hiperparametara koji vam daje najbolje rezultate. Za njega pokrenite učenje barem 5 puta s različitim seedovima i zapišite dobivene metrike.

In [11]:
hidden_sizes = [100, 150, 200]
num_layers = [2, 3, 4]
bidirectionals = [False, True]
dropouts = [0.2, 0.5, 0.8]

for bidirectional in bidirectionals:
    for num_layer in num_layers:
        for hidden_size in hidden_sizes:
            for dropout in dropouts:
                accs = list()
                for i in range(5):
                    model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type='LSTM', hidden_size=hidden_size, num_layers=num_layer, dropout=dropout, bidirectional=bidirectional)
                    model.cuda()
                    acc = model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = 0.25, verbose=False)
                if acc > 0.55:
                    accs.append(acc)
                else:
                    i -= 1
                print('Test accuracy za bidirectional=' + str(bidirectional) + ', num_layers=' + str(num_layer) + ', hidden_size=' + str(hidden_size) + ', dropout=' + str(dropout) + ':' + str(torch.mean(torch.tensor(accs)).item()))

Test accuracy za bidirectional=False, num_layers=2, hidden_size=100, dropout=0.2:0.7293577981651376
Test accuracy za bidirectional=False, num_layers=2, hidden_size=100, dropout=0.5:0.7465596330275229
Test accuracy za bidirectional=False, num_layers=2, hidden_size=100, dropout=0.8:0.7155963302752294
Test accuracy za bidirectional=False, num_layers=2, hidden_size=150, dropout=0.2:0.7201834862385321
Test accuracy za bidirectional=False, num_layers=2, hidden_size=150, dropout=0.5:0.7488532110091743
Test accuracy za bidirectional=False, num_layers=2, hidden_size=150, dropout=0.8:0.7626146788990825
Test accuracy za bidirectional=False, num_layers=2, hidden_size=200, dropout=0.2:0.7362385321100917
Test accuracy za bidirectional=False, num_layers=2, hidden_size=200, dropout=0.5:0.7614678899082569
Test accuracy za bidirectional=False, num_layers=2, hidden_size=200, dropout=0.8:0.7729357798165137
Test accuracy za bidirectional=False, num_layers=3, hidden_size=100, dropout=0.2:0.7614678899082569


#### Komentar:
Najbolji postignuti test accuracy je za model: bidirectional=True, num_layers=3, hidden_size=100, dropout=0.8.
Međutim, rezultati su dosta stohastički, i teško je reći da je baš taj skup hiperparametara najbolji. Performanse modela dosta (možda previše) ovise o inicijalizaciji težina. 

Generalno, moguće je primijetiti da dvosmjerni modeli postižu bolje rezultate od jednosmjernih, što nije iznenađujuće. Veličina skrivenih slojeva ne igra preveliku ulogu, a dropout je generalno najbolji na 0.5 ili 0.8, dok je 0.2 premalo. Konačno, modeli s više slojeva unutar RNN ćelija postižu bolje rezultate.

## Optimizacija hiperparametara

Probajte pokrenuti povratne neuronske mreže za najbolji set hiperparametara bez da koristite prednaučene vektorske reprezentacije. Probajte isto za vaš baseline model. Koji model više “pati” od gubitka prednaučenih reprezentacija?

In [14]:
embedding_matrix = prvi.get_embedding_matrix(text_vocab, 300)

model = drugi.BaselineModel(embedding_matrix)
model.train_model(epochs=5, dataset=train_dataset, optimizer=torch.optim.Adam(model.get_params(), lr=1e-4), batch_size=10, text_vocab=text_vocab, label_vocab=label_vocab, verbose=True)

Epoch 1 results on validation dataset:
Accuracy: 0.5096101043382757
Precision: 0.5119196988707654
F1 score: 0.4774722059684026
Loss: 84.01261
Confusion matrix:
 [[520 389]
 [504 408]]

Epoch 2 results on validation dataset:
Accuracy: 0.5260845689181768
Precision: 0.5316946959896507
F1 score: 0.4878338278931751
Loss: 69.05018
Confusion matrix:
 [[547 362]
 [501 411]]

Epoch 3 results on validation dataset:
Accuracy: 0.5447556287753982
Precision: 0.5499398315282792
F1 score: 0.5243832472748134
Loss: 59.757473
Confusion matrix:
 [[535 374]
 [455 457]]

Epoch 4 results on validation dataset:
Accuracy: 0.5557386051619989
Precision: 0.5609467455621302
F1 score: 0.539556061468412
Loss: 53.77381
Confusion matrix:
 [[538 371]
 [438 474]]

Epoch 5 results on validation dataset:
Accuracy: 0.5617792421746294
Precision: 0.5705445544554455
F1 score: 0.536046511627907
Loss: 50.29901
Confusion matrix:
 [[562 347]
 [451 461]]

Results on test dataset:
Accuracy: 0.5619266055045872
Precision: 0.5575
F1 s

Vidimo da je korištenje nasumičnih vektorskih reprezentacija dosta narušilo performanse Baseline modela.

In [21]:
model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type='LSTM', hidden_size=100, num_layers=3, dropout=0.8, bidirectional=True)
model.cuda()
model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = 0.25, verbose=True)

Epoch 3 results on validation dataset:
Accuracy: 0.6408566721581549
Precision: 0.65
F1 score: 0.6309255079006773
Loss: tensor(0.6787)
Confusion matrix:
 [[608 301]
 [353 559]]

Epoch 4 results on validation dataset:
Accuracy: 0.6611751784733663
Precision: 0.648539778449144
F1 score: 0.6761154855643045
Loss: tensor(0.6773)
Confusion matrix:
 [[560 349]
 [268 644]]

Epoch 5 results on validation dataset:
Accuracy: 0.6919275123558485
Precision: 0.6641721234798877
F1 score: 0.7168096920747098
Loss: tensor(0.6669)
Confusion matrix:
 [[550 359]
 [202 710]]

Results on test dataset:
Accuracy: 0.6777522935779816
Precision: 0.6421663442940039
F1 score: 0.7026455026455026
Loss: tensor(0.6728)
Confusion matrix:
 [[259 185]
 [ 96 332]]



0.6777522935779816

#### Komentar:
Accuracy Baseline modela pao je sa 0.65 na 0.56. To je pogoršanje od 13.8%
Accuracy RNN modela pao je sa 0.79 na 0.68. To je pogoršanje od 13.9%
Pogoršanje je podjednako u oba modela. 


Ulazne vektorske reprezentacije su jedan jako bitan hiperparametar, za koji u okviru laboratorijske vježbe imamo samo dvije vrijednosti – koristimo li ih ili ne. U analizi teksta su ulazne vektorske reprezentacije veoma velik dio uspješnosti algoritma. U ovom dijelu laboratorijske vježbe trebate odabrati barem 5 od idućih hiperparametara te provjeriti kako modeli funkcioniraju za njihove izmjene. Ako hiperparametar utječe i na baseline model, kao i povratnu neuronsku mrežu, pokrenite eksperimente na oba modela. Za ćeliju povratne neuronske mreže odaberite onu koja ostvaruje (po vama) bolje rezultate na prošlom dijelu vježbe.

Za hiperparametre označene s nekim brojem zvjezdica (*), odaberite samo jedan od onih s istim brojem zvjezdica.

Hiperparametri:

    (*) Veličina vokabulara V
    (*) Minimalna frekvencija riječi min_freq
    (**) Stopa učenja
    (**) Veličina batcha
    Dropout
    Broj slojeva
    Dimenzionalnost skrivenih slojeva
    Optimizacijski algoritam (probajte nešto osim Adama)
    Funkcija nelinearnosti (u potpuno povezanim slojevima)
    Iznos na koji se podrezuju vrijednosti gradijenata
    Vrsta sažimanja (Baseline)
    Zamrzavanje ulaznih vektorskih reprezentacije (argument freeze funkcije from_pretrained)
    
Za svaki od odabranih hiperparametara isprobajte barem tri njegove različite vrijednosti (osim ako je binaran). Rezultate eksperimenata zapisujte. Pokrenite baseline i povratni model s najboljim hiperparametrima barem 5 puta i zapišite prosjek i devijaciju svih praćenih metrika. Čini li vam se neki parametar kao najutjecajniji za uspjeh? Nemojte se bojati raditi agresivne izmjene u vrijednostima hiperparametara jer će vas one lakše dovesti do zaključaka.

In [10]:
# model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = 0.25, verbose=True)

# uzet ćemo najbolji model do sad
# bidirectional=True, num_layers=3, hidden_size=100, dropout=0.8
velicine_vokabulara = [300, 500, 800]
batch_sizes = [8, 32, 128]
hidden_sizes = [20, 100, 300]
grad_clips = [-0.5, 0.5, 5]
dropouts = [0.5, 0.7, 0.9]

for velicina in velicine_vokabulara:
    freq_data, freq_label = prvi.get_frequencies('data/sst_train_raw.csv')
    text_vocab = prvi.Vocab(freq_data, max_size=velicina, min_freq=1)
    label_vocab = prvi.Vocab(freq_label, use_extra=False)
    train_dataset = prvi.NLPDataset('data/sst_train_raw.csv', text_vocab, label_vocab)
    valid_dataset = prvi.NLPDataset('data/sst_valid_raw.csv', text_vocab, label_vocab)
    test_dataset = prvi.NLPDataset('data/sst_test_raw.csv', text_vocab, label_vocab)
    embedding_matrix = prvi.get_embedding_matrix(text_vocab, 300, 'data/sst_glove_6b_300d.txt')
    model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type='LSTM', hidden_size=100, num_layers=3, dropout=0.8, bidirectional=True)
    model.cuda()
    acc = model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = 0.25, verbose=False)
    print('Accuracy za max_size=' + str(velicina) + ': ' + str(acc))
    
freq_data, freq_label = prvi.get_frequencies('data/sst_train_raw.csv')
text_vocab = prvi.Vocab(freq_data, max_size=-1, min_freq=1)
label_vocab = prvi.Vocab(freq_label, use_extra=False)
train_dataset = prvi.NLPDataset('data/sst_train_raw.csv', text_vocab, label_vocab)
valid_dataset = prvi.NLPDataset('data/sst_valid_raw.csv', text_vocab, label_vocab)
test_dataset = prvi.NLPDataset('data/sst_test_raw.csv', text_vocab, label_vocab)
embedding_matrix = prvi.get_embedding_matrix(text_vocab, 300, 'data/sst_glove_6b_300d.txt')

for batch_size in batch_sizes:
    model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type='LSTM', hidden_size=100, num_layers=3, dropout=0.8, bidirectional=True)
    model.cuda()
    acc = model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = batch_size, grad_clip = 0.25, verbose=False)
    print('Accuracy za batch_size=' + str(batch_size) + ': ' + str(acc))
    
for hidden_size in hidden_sizes:
    model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type='LSTM', hidden_size=hidden_size, num_layers=3, dropout=0.8, bidirectional=True)
    model.cuda()
    acc = model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = 0.25, verbose=False)
    print('Accuracy za hidden_size=' + str(hidden_size) + ': ' + str(acc))
    
for grad_clip in grad_clips:
    model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type='LSTM', hidden_size=100, num_layers=3, dropout=0.8, bidirectional=True)
    model.cuda()
    acc = model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = grad_clip, verbose=False)
    print('Accuracy za grad_clip=' + str(grad_clip) + ': ' + str(acc))
    
for dropout in dropouts:
    model = cetvrti.CustomRNNModel(embedding_matrix, text_vocab, label_vocab, net_type='LSTM', hidden_size=100, num_layers=3, dropout=dropout, bidirectional=True)
    model.cuda()
    acc = model.train_model(5, train_dataset, valid_dataset, test_dataset, optimizer = torch.optim.Adam(model.params, lr=1e-4), batch_size = 10, grad_clip = 0.25, verbose=False)
    print('Accuracy za dropout=' + str(dropout) + ': ' + str(acc))

Accuracy za max_size=300: 0
Accuracy za max_size=500: 0.6857798165137615
Accuracy za max_size=800: 0.7006880733944955
Accuracy za batch_size=8: 0.7362385321100917
Accuracy za batch_size=32: 0.7396788990825688
Accuracy za batch_size=128: 0
Accuracy za hidden_size=20: 0
Accuracy za hidden_size=100: 0.7580275229357798
Accuracy za hidden_size=300: 0.7534403669724771
Accuracy za grad_clip=-0.5: 0.4908256880733945
Accuracy za grad_clip=0.5: 0.7339449541284404
Accuracy za grad_clip=5: 0.7213302752293578
Accuracy za dropout=0.5: 0.7465596330275229
Accuracy za dropout=0.7: 0.7637614678899083
Accuracy za dropout=0.9: 0.7247706422018348
