# Глубинное обучение для текстовых данных, ФКН ВШЭ

## Домашнее задание 2: Токенизация и классификация рекуррентными нейронными сетями

### Оценивание и штрафы

Максимально допустимая оценка за работу — 13 баллов. Сдавать задание после указанного срока сдачи нельзя.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Весь код должен быть написан самостоятельно. Чужим кодом для пользоваться запрещается даже с указанием ссылки на источник. В разумных рамках, конечно. Взять пару очевидных строчек кода для реализации какого-то небольшого функционала можно.

Неэффективная реализация кода может негативно отразиться на оценке. Также оценка может быть снижена за плохо читаемый код и плохо оформленные графики. Все ответы должны сопровождаться кодом или комментариями о том, как они были получены.

### О задании

Это задание посвящено решению задачи классификации тональности текста с помощью рекуррентных нейронных сетей (и сверточных). В отличие от предыдущей домашки, в этом задании не будет шаблонов кода, вам придется написать все самостоятельно, поэтому постарайтесь хорошо организовать код. Мы крайне рекомендуем реализовывать все модели и вспомогательные функции в отдельных файлах, а затем их импортировать. Иначе вы рискуете превратить ноутбук в кашу.

Обучение не должно занимать много времени, однако для ускорения мы советуем использовать различные приемы, такие как mixed-precision ([ссылка](https://huggingface.co/docs/accelerate/package_reference/accelerator) и [ссылка](https://pytorch.org/docs/stable/amp.html)) и torch.compile (для torch >= 2.0, [ссылка](https://pytorch.org/tutorials/intermediate/torch_compile_tutorial.html)). Так же мы настоятельно рекомендуем логировать все графики обучения с помощью платформы [wandb](https://docs.wandb.ai/quickstart).

Все модели нужно будет реализовывать на pytorch (считать градиенты руками не надо). При обучении разных моделей используйте одинаковые параметры оптимизатора, базмер батча, а так же учите либо одинаковое число эпох, либо до сходимости. В общем, постарайтесь, чтобы сравнение всегда было максимально честным.


__Мягкий дедлайн: 03.11.23 23:59__

__Жесткий дедлайн: 07.11.23 23:59__

### Данные и токенизация

Мы будем обучать модель на задачу классификации тональности текста. Данные взяты с платформы IMDb и содержат положительные и отрицательные отзывы о фильмах, примерно по 5к текстов каждого класса. Вы можете найти их в папке `datasets/IMDb`.

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import torch
device = 'cuda' if torch.cuda.is_available() else 'gpu'
device

'cuda'

__Задание 1 (2 балла)__
Как всегда, для работы с текстом нам нужно как-то его токенизировать. В этом задании вам предстоит заняться этим. Выберите один из трех методов токенизации, разобранных на лекции: __BPE__, __WordPiece__, __Unigram__. Реализуйте его самостоятельно без использования специализированных библиотек (например, huggingface). Ваш токенизатор должен иметь интерфейс токенизатора из huggingface. То есть он должен иметь метод `encode`, возвращающий словарь с полями `input_ids` и `attention_mask`, а так же метод `decode`, принимающий последовательности токенов и возвращающий соответствующие им тексты. Ограничьте размер словаря 30000 токенами. Ваш токенизатор не обязан добавлять токены начала и конца последовательности, потому что они не обязательны в задаче классификации. Однако при желании вы можете их добавить. Все тонкости реализации, такие как прочие аргументы функций, типы переменных и так далее остаются на ваше усмотрение.

In [None]:
from BPETokenizer import BPETokenizer

tokenizer = BPETokenizer()
files = [f"datasets/IMDb/{split}/{kind}" for split in ["train"] for kind in ["negative", "positive"]]
allLines = []

for fileName in files:
    with open(fileName, 'r') as file:
        allLines += [str.lower().replace('\n', '').replace('<br /><br />', '') for str in file.readlines()]

tokenizer.fit(allLines)

In [None]:
import pickle

In [None]:
# Сохранение tokenizer в файл
with open('tokenizer.pkl', 'wb') as file:
    pickle.dump(tokenizer, file)

In [None]:
# Загрузка tokenizer из файла
with open('tokenizer.pkl', 'rb') as file:
    tokenizer = pickle.load(file)

In [None]:
tokenizer.ids2tokens[20000:20010]

['reatl',
 'rease',
 'rcy',
 'razi',
 'ranci',
 'rainy',
 'radua',
 'radu',
 'quisi',
 'polo']

In [None]:
print(allLines[0])
encoded = tokenizer.encode([allLines[0]])['input_ids'][0]
print(encoded)
decoded = tokenizer.decode(encoded)
print(decoded)
print([tokenizer.ids2tokens[id] for id in encoded])

__Задание 1 (0 баллов)__
Прочитайте датасет и сложите все в `DataLoader`. Вы можете предобрабатывать тексты дополнительно как вам хочется.

In [None]:
import torch
from torch.utils.data import Dataset, DataLoader

class RecommendationsDataset(Dataset):
    def __init__(self, data, labels):
        self.data = torch.LongTensor(data)
        self.labels = torch.FloatTensor(labels)

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        text = self.data[index]
        label = self.labels[index]
        return text, label

In [None]:
dim_size = 32

with open("datasets/IMDb/train/negative", 'r') as file:
    trainNegativeLines = [str.lower().replace('\n', '').replace('<br /><br />', '') for str in file.readlines()]
    for line in trainNegativeLines:
        while '  ' in line:
            line = line.replace('  ', ' ')
with open("datasets/IMDb/train/positive", 'r') as file:
    trainPositiveLines = [str.lower().replace('\n', '').replace('<br /><br />', '') for str in file.readlines()]
    for line in trainPositiveLines:
        while '  ' in line:
            line = line.replace('  ', ' ')

with open("datasets/IMDb/test/negative", 'r') as file:
    testNegativeLines = [str.lower().replace('\n', '').replace('<br /><br />', '') for str in file.readlines()]
    for line in testNegativeLines:
        while '  ' in line:
            line = line.replace('  ', ' ')
with open("datasets/IMDb/test/positive", 'r') as file:
    testPositiveLines = [str.lower().replace('\n', '').replace('<br /><br />', '') for str in file.readlines()]
    for line in testPositiveLines:
        while '  ' in line:
            line = line.replace('  ', ' ')

trainLen = len(trainNegativeLines) + len(trainPositiveLines)
tokenizedLines = tokenizer.encode(trainNegativeLines + trainPositiveLines + testNegativeLines + testPositiveLines)['input_ids']
trainLabels = [0] * len(trainNegativeLines) + [1] * len(trainPositiveLines)
trainDataset = RecommendationsDataset(tokenizedLines[:trainLen], trainLabels)
trainDataloader = DataLoader(trainDataset, batch_size=64, shuffle=True)

testLabels = [0] * len(testNegativeLines) + [1] * len(testPositiveLines)
testDataset = RecommendationsDataset(tokenizedLines[trainLen:], testLabels)
testDataloader = DataLoader(testDataset, batch_size=64, shuffle=False)

In [None]:
print(len(trainDataset))
print(len(testDataset))
print(len(tokenizedLines[0]))

9788
9763
493


In [None]:
from tqdm import tqdm

def accuracy_score(y_pred, y_true):
    predictions = (y_pred >= 0.5) * 1
    return sum(predictions == y_true) / len(predictions)

def train(model, trainDataloader, testDataloader, optim, epochs=30, criterion=torch.nn.BCELoss()):
    for i in range(epochs):
        trainLosses = []
        trainAccs = []
        allLen = 0
        for X_batch, Y_batch in tqdm(trainDataloader):
            optim.zero_grad()
            y_predict = model.forward(X_batch.to(device)).squeeze()
            loss = criterion(y_predict, Y_batch.to(device))
            loss.backward()
            optim.step()
            # statistics
            trainLosses.append(loss.item() * len(X_batch))
            trainAccs.append(accuracy_score(y_predict, Y_batch.to(device)) * len(X_batch))
            allLen += len(X_batch)
        print(f'Epoch {i}: TrainLoss = {sum(trainLosses)/allLen}')
        print(f'TrainAcc = {sum(trainAccs)/allLen}')
        testLoss, testAcc = evaluate(model, testDataloader, criterion)
        print(f'TestLoss = {testLoss}')
        print(f'TestAcc = {testAcc}')

def evaluate(model, testDataloader, criterion):
    testLosses = []
    testAccs = []
    allLen = 0
    with torch.no_grad():
        for X_batch, Y_batch in tqdm(testDataloader):
            y_predict = model.forward(X_batch.to(device)).squeeze()
            loss = criterion(y_predict,Y_batch.to(device))
            testLosses.append(loss.item() * len(X_batch))
            testAccs.append(accuracy_score(y_predict, Y_batch.to(device)) * len(X_batch))
            allLen += len(X_batch)
    meanLoss = sum(testLosses)/allLen
    meanAcc = sum(testAccs)/allLen
    return meanLoss, meanAcc

## Сверточные нейронные сети

![image.png](attachment:a19099b8-00da-4f48-ae06-5a72c7d3b5a5.png)

__Задание 3 (2 балла)__ В качестве бейзлайна для решения задачи реализуйте и обучите сверточную нейронную сеть с одномерными свертками (`torch.nn.Conv1d`). Число сверточных слоев можете выбрать по своему усмотрению, однако не делайте сеть слишком большой. Это задание требуется для установки бейзлайна, поэтому лучше не тратить много времени на обучение и подгонку параметров. У вас должна получиться точность классификации на тестовой выборке около 80% (больше тоже хорошо).

In [None]:
from models import ConvNN

convModel = ConvNN(words_count=493,dim_hidden=dim_size).to(device)
convOptim = torch.optim.Adam(convModel.parameters(), lr=3e-4)
train(convModel, trainDataloader, testDataloader, convOptim, n_epochs=30)

100%|██████████| 153/153 [00:07<00:00, 20.16it/s]


Epoch 0: TrainLoss = 0.6935907584285074
TrainAcc = 0.4978545308113098


100%|██████████| 153/153 [00:00<00:00, 521.56it/s]


TestLoss = 0.6933564984150064
TestAcc = 0.5058895945549011


100%|██████████| 153/153 [00:00<00:00, 193.24it/s]


Epoch 1: TrainLoss = 0.6921663202458028
TrainAcc = 0.5221700072288513


100%|██████████| 153/153 [00:00<00:00, 357.09it/s]


TestLoss = 0.6926451698869
TestAcc = 0.5058895945549011


100%|██████████| 153/153 [00:00<00:00, 194.95it/s]


Epoch 2: TrainLoss = 0.6902510779314154
TrainAcc = 0.536575436592102


100%|██████████| 153/153 [00:00<00:00, 416.95it/s]


TestLoss = 0.6920885878374595
TestAcc = 0.515620231628418


100%|██████████| 153/153 [00:00<00:00, 258.84it/s]


Epoch 3: TrainLoss = 0.6874403446413422
TrainAcc = 0.5567020773887634


100%|██████████| 153/153 [00:00<00:00, 558.80it/s]


TestLoss = 0.6914507389422703
TestAcc = 0.5224828720092773


100%|██████████| 153/153 [00:00<00:00, 261.35it/s]


Epoch 4: TrainLoss = 0.6816696485159687
TrainAcc = 0.568144679069519


100%|██████████| 153/153 [00:00<00:00, 560.33it/s]


TestLoss = 0.6914701749711182
TestAcc = 0.5381542444229126


100%|██████████| 153/153 [00:00<00:00, 267.23it/s]


Epoch 5: TrainLoss = 0.6681256694943748
TrainAcc = 0.5948100090026855


100%|██████████| 153/153 [00:00<00:00, 549.02it/s]


TestLoss = 0.6827255980006058
TestAcc = 0.5618150234222412


100%|██████████| 153/153 [00:00<00:00, 263.69it/s]


Epoch 6: TrainLoss = 0.6398537070545607
TrainAcc = 0.6309767365455627


100%|██████████| 153/153 [00:00<00:00, 557.72it/s]


TestLoss = 0.6574293442721446
TestAcc = 0.6115947961807251


100%|██████████| 153/153 [00:00<00:00, 265.55it/s]


Epoch 7: TrainLoss = 0.5941873008638778
TrainAcc = 0.6811401844024658


100%|██████████| 153/153 [00:00<00:00, 541.33it/s]


TestLoss = 0.6348136719848537
TestAcc = 0.6494929790496826


100%|██████████| 153/153 [00:00<00:00, 270.68it/s]


Epoch 8: TrainLoss = 0.5437777657921966
TrainAcc = 0.7210870385169983


100%|██████████| 153/153 [00:00<00:00, 514.07it/s]


TestLoss = 0.5915267478610164
TestAcc = 0.6869814395904541


100%|██████████| 153/153 [00:00<00:00, 270.08it/s]


Epoch 9: TrainLoss = 0.4929227970866315
TrainAcc = 0.7582754492759705


100%|██████████| 153/153 [00:00<00:00, 538.70it/s]


TestLoss = 0.5661059371469989
TestAcc = 0.717095136642456


100%|██████████| 153/153 [00:00<00:00, 265.84it/s]


Epoch 10: TrainLoss = 0.44435632612493803
TrainAcc = 0.7948508262634277


100%|██████████| 153/153 [00:00<00:00, 528.43it/s]


TestLoss = 0.5469943008058495
TestAcc = 0.7339956760406494


100%|██████████| 153/153 [00:00<00:00, 265.92it/s]


Epoch 11: TrainLoss = 0.40949707694768805
TrainAcc = 0.816816508769989


100%|██████████| 153/153 [00:00<00:00, 519.71it/s]


TestLoss = 0.5358945378438623
TestAcc = 0.7463894486427307


100%|██████████| 153/153 [00:00<00:00, 264.59it/s]


Epoch 12: TrainLoss = 0.37901324533081365
TrainAcc = 0.8315284252166748


100%|██████████| 153/153 [00:00<00:00, 554.90it/s]


TestLoss = 0.5150416361788654
TestAcc = 0.7611389756202698


100%|██████████| 153/153 [00:00<00:00, 264.76it/s]


Epoch 13: TrainLoss = 0.34814147422836905
TrainAcc = 0.8485901355743408


100%|██████████| 153/153 [00:00<00:00, 556.71it/s]


TestLoss = 0.5167034131806856
TestAcc = 0.767694354057312


100%|██████████| 153/153 [00:00<00:00, 210.46it/s]


Epoch 14: TrainLoss = 0.32051030304366634
TrainAcc = 0.8621782064437866


100%|██████████| 153/153 [00:00<00:00, 365.13it/s]


TestLoss = 0.49714431003335924
TestAcc = 0.7802929282188416


100%|██████████| 153/153 [00:00<00:00, 202.59it/s]


Epoch 15: TrainLoss = 0.30053604180758275
TrainAcc = 0.8729056119918823


100%|██████████| 153/153 [00:00<00:00, 413.13it/s]


TestLoss = 0.49352808467166953
TestAcc = 0.7841851711273193


100%|██████████| 153/153 [00:00<00:00, 263.12it/s]


Epoch 16: TrainLoss = 0.2764369352622864
TrainAcc = 0.8843482136726379


100%|██████████| 153/153 [00:00<00:00, 567.52it/s]


TestLoss = 0.5048877171692051
TestAcc = 0.7872580289840698


100%|██████████| 153/153 [00:00<00:00, 265.16it/s]


Epoch 17: TrainLoss = 0.2597494491044482
TrainAcc = 0.8934409618377686


100%|██████████| 153/153 [00:00<00:00, 541.61it/s]


TestLoss = 0.5046700307437171
TestAcc = 0.7924818396568298


100%|██████████| 153/153 [00:00<00:00, 263.63it/s]


Epoch 18: TrainLoss = 0.23847579143706954
TrainAcc = 0.9046792387962341


100%|██████████| 153/153 [00:00<00:00, 549.15it/s]


TestLoss = 0.5139810247071073
TestAcc = 0.792789101600647


100%|██████████| 153/153 [00:00<00:00, 262.18it/s]


Epoch 19: TrainLoss = 0.22356296961873612
TrainAcc = 0.9112178087234497


100%|██████████| 153/153 [00:00<00:00, 555.66it/s]


TestLoss = 0.5020928596370865
TestAcc = 0.8003687262535095


100%|██████████| 153/153 [00:00<00:00, 271.55it/s]


Epoch 20: TrainLoss = 0.20811413561001962
TrainAcc = 0.9168369770050049


100%|██████████| 153/153 [00:00<00:00, 531.26it/s]


TestLoss = 0.512002637679858
TestAcc = 0.8042609691619873


100%|██████████| 153/153 [00:00<00:00, 264.36it/s]


Epoch 21: TrainLoss = 0.19305613548062897
TrainAcc = 0.9229668974876404


100%|██████████| 153/153 [00:00<00:00, 538.98it/s]


TestLoss = 0.5301845271262822
TestAcc = 0.8075386881828308


100%|██████████| 153/153 [00:00<00:00, 269.07it/s]


Epoch 22: TrainLoss = 0.18123560045926873
TrainAcc = 0.9270535707473755


100%|██████████| 153/153 [00:00<00:00, 519.80it/s]


TestLoss = 0.5400370719808176
TestAcc = 0.8094847798347473


100%|██████████| 153/153 [00:00<00:00, 262.98it/s]


Epoch 23: TrainLoss = 0.16838753715760377
TrainAcc = 0.935431182384491


100%|██████████| 153/153 [00:00<00:00, 533.85it/s]


TestLoss = 0.5520928753920539
TestAcc = 0.8073338270187378


100%|██████████| 153/153 [00:00<00:00, 264.42it/s]


Epoch 24: TrainLoss = 0.15038273375120562
TrainAcc = 0.9458521008491516


100%|██████████| 153/153 [00:00<00:00, 547.65it/s]


TestLoss = 0.5694530864456913
TestAcc = 0.8103042244911194


100%|██████████| 153/153 [00:00<00:00, 266.00it/s]


Epoch 25: TrainLoss = 0.14118955012153594
TrainAcc = 0.9478954076766968


100%|██████████| 153/153 [00:00<00:00, 526.57it/s]


TestLoss = 0.5916835489263792
TestAcc = 0.8094847798347473


100%|██████████| 153/153 [00:00<00:00, 263.13it/s]


Epoch 26: TrainLoss = 0.12770032572122705
TrainAcc = 0.9544340372085571


100%|██████████| 153/153 [00:00<00:00, 551.19it/s]


TestLoss = 0.6035770459411013
TestAcc = 0.8127624988555908


100%|██████████| 153/153 [00:00<00:00, 220.29it/s]


Epoch 27: TrainLoss = 0.11755912486672353
TrainAcc = 0.9597466588020325


100%|██████████| 153/153 [00:00<00:00, 389.68it/s]


TestLoss = 0.6219745513040683
TestAcc = 0.813069760799408


100%|██████████| 153/153 [00:00<00:00, 205.72it/s]


Epoch 28: TrainLoss = 0.10645703840155868
TrainAcc = 0.9625051021575928


100%|██████████| 153/153 [00:00<00:00, 349.67it/s]


TestLoss = 0.6515915741518019
TestAcc = 0.8150159120559692


100%|██████████| 153/153 [00:00<00:00, 243.49it/s]


Epoch 29: TrainLoss = 0.09746299805077768
TrainAcc = 0.967409074306488


100%|██████████| 153/153 [00:00<00:00, 553.83it/s]

TestLoss = 0.6774696500089146
TestAcc = 0.8160401582717896





## Рекуррентные нейронные сети

![image.png](attachment:e0b5ba38-0b1d-4d2a-a685-f1a003e05324.png)

В этой секции вам предстоит реализовать два вида рекуррентных нейронных сетей: RNN, LSTM. Вот они с слева направо. Начнем с RNN.

__Задание 4 (1.5 балла)__ Реализуйте классическую рекуррентную нейронную сеть с одним слоем. Как вы знаете из лекции, такая сеть плохо выучивает долгосточные зависимости в данных, поэтому работают плохо с длинными текстами. Обучите реализованную RNN и проверьте, так ли это, замерив точность на тестовой выборке.

In [None]:
from models import RNN

rnnModel = RNN(dim_embedding=dim_size, dim_hidden=64, device=device).to(device)
rnnOptim = torch.optim.Adam(rnnModel.parameters(), lr=3e-4)
train(rnnModel, trainDataloader, testDataloader, rnnOptim, epochs=20)

100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


Epoch 0: TrainLoss = 0.6942532409635621
TrainAcc = 0.49969351291656494


100%|██████████| 153/153 [00:21<00:00,  7.15it/s]


TestLoss = 0.6943739070812235
TestAcc = 0.49400800466537476


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 1: TrainLoss = 0.6923507496099546
TrainAcc = 0.5139967203140259


100%|██████████| 153/153 [00:21<00:00,  6.97it/s]


TestLoss = 0.692051176005036
TestAcc = 0.5164396166801453


100%|██████████| 153/153 [01:16<00:00,  1.99it/s]


Epoch 2: TrainLoss = 0.6916241982931208
TrainAcc = 0.5139967203140259


100%|██████████| 153/153 [00:21<00:00,  7.01it/s]


TestLoss = 0.6914723925166573
TestAcc = 0.5168493390083313


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 3: TrainLoss = 0.6901460335748655
TrainAcc = 0.531364917755127


100%|██████████| 153/153 [00:21<00:00,  6.97it/s]


TestLoss = 0.6913192546490969
TestAcc = 0.510601282119751


100%|██████████| 153/153 [01:15<00:00,  2.02it/s]


Epoch 4: TrainLoss = 0.6887370690697302
TrainAcc = 0.5312627553939819


100%|██████████| 153/153 [00:21<00:00,  6.99it/s]


TestLoss = 0.6905481396585438
TestAcc = 0.5115231275558472


100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


Epoch 5: TrainLoss = 0.6870048433895446
TrainAcc = 0.5416836738586426


100%|██████████| 153/153 [00:22<00:00,  6.82it/s]


TestLoss = 0.6889987986900762
TestAcc = 0.5364130139350891


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 6: TrainLoss = 0.6847283268978414
TrainAcc = 0.5577237606048584


100%|██████████| 153/153 [00:21<00:00,  7.05it/s]


TestLoss = 0.6881562952354014
TestAcc = 0.5315989255905151


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 7: TrainLoss = 0.6823989419144029
TrainAcc = 0.5602778792381287


100%|██████████| 153/153 [00:21<00:00,  7.04it/s]


TestLoss = 0.6875092475113658
TestAcc = 0.5359008312225342


100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


Epoch 8: TrainLoss = 0.6789798181447683
TrainAcc = 0.5708010196685791


100%|██████████| 153/153 [00:21<00:00,  6.97it/s]


TestLoss = 0.6864848572260579
TestAcc = 0.5378469824790955


100%|██████████| 153/153 [01:16<00:00,  1.99it/s]


Epoch 9: TrainLoss = 0.6759404788028965
TrainAcc = 0.5737637877464294


100%|██████████| 153/153 [00:21<00:00,  6.99it/s]


TestLoss = 0.6850330779985437
TestAcc = 0.5436853766441345


100%|██████████| 153/153 [01:17<00:00,  1.99it/s]


Epoch 10: TrainLoss = 0.6718817505000512
TrainAcc = 0.5787699222564697


100%|██████████| 153/153 [00:21<00:00,  7.14it/s]


TestLoss = 0.6846191431732924
TestAcc = 0.5478848814964294


100%|██████████| 153/153 [01:16<00:00,  1.99it/s]


Epoch 11: TrainLoss = 0.6676088290454224
TrainAcc = 0.5872496962547302


100%|██████████| 153/153 [00:21<00:00,  7.02it/s]


TestLoss = 0.6838850284054987
TestAcc = 0.5444023609161377


100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


Epoch 12: TrainLoss = 0.6614691208078269
TrainAcc = 0.598181426525116


100%|██████████| 153/153 [00:22<00:00,  6.75it/s]


TestLoss = 0.6831434646078178
TestAcc = 0.5494213104248047


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 13: TrainLoss = 0.6534737185112642
TrainAcc = 0.6143236756324768


100%|██████████| 153/153 [00:21<00:00,  6.99it/s]


TestLoss = 0.681929531778015
TestAcc = 0.5572057962417603


100%|██████████| 153/153 [01:15<00:00,  2.01it/s]


Epoch 14: TrainLoss = 0.6426881522269068
TrainAcc = 0.6371066570281982


100%|██████████| 153/153 [00:21<00:00,  6.96it/s]


TestLoss = 0.6810599399567823
TestAcc = 0.5687800645828247


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 15: TrainLoss = 0.6286966040468626
TrainAcc = 0.6499795913696289


100%|██████████| 153/153 [00:21<00:00,  7.24it/s]


TestLoss = 0.6795365476136959
TestAcc = 0.580559253692627


100%|██████████| 153/153 [01:17<00:00,  1.97it/s]


Epoch 16: TrainLoss = 0.6128934349242063
TrainAcc = 0.6644871234893799


100%|██████████| 153/153 [00:21<00:00,  7.03it/s]


TestLoss = 0.6751651215550841
TestAcc = 0.5888558626174927


100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


Epoch 17: TrainLoss = 0.5940301471405435
TrainAcc = 0.6838986873626709


100%|██████████| 153/153 [00:21<00:00,  7.00it/s]


TestLoss = 0.6695617432783804
TestAcc = 0.6041175723075867


100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


Epoch 18: TrainLoss = 0.5748377957780555
TrainAcc = 0.701164722442627


100%|██████████| 153/153 [00:21<00:00,  7.01it/s]


TestLoss = 0.662799018731948
TestAcc = 0.6207108497619629


100%|██████████| 153/153 [01:15<00:00,  2.01it/s]


Epoch 19: TrainLoss = 0.5557696955468053
TrainAcc = 0.7205762267112732


100%|██████████| 153/153 [00:22<00:00,  6.70it/s]

TestLoss = 0.6723909830993333
TestAcc = 0.6303390264511108





Дообучим модель

In [None]:
train(rnnModel, trainDataloader, testDataloader, rnnOptim, epochs=10)

100%|██████████| 153/153 [01:15<00:00,  2.02it/s]


Epoch 0: TrainLoss = 0.5382784831314414
TrainAcc = 0.7347772717475891


100%|██████████| 153/153 [00:21<00:00,  7.04it/s]


TestLoss = 0.6500459776529826
TestAcc = 0.6484687328338623


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 1: TrainLoss = 0.5185619271624853
TrainAcc = 0.7505108714103699


100%|██████████| 153/153 [00:21<00:00,  7.06it/s]


TestLoss = 0.6482003004772184
TestAcc = 0.6531803607940674


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 2: TrainLoss = 0.5005347250576744
TrainAcc = 0.7647119164466858


100%|██████████| 153/153 [00:21<00:00,  7.04it/s]


TestLoss = 0.6544530508728968
TestAcc = 0.6644474267959595


100%|██████████| 153/153 [01:17<00:00,  1.98it/s]


Epoch 3: TrainLoss = 0.485269270042619
TrainAcc = 0.7769718170166016


100%|██████████| 153/153 [00:21<00:00,  7.01it/s]


TestLoss = 0.6377718196556996
TestAcc = 0.6683396697044373


100%|██████████| 153/153 [01:17<00:00,  1.98it/s]


Epoch 4: TrainLoss = 0.4662233124375587
TrainAcc = 0.7895382046699524


100%|██████████| 153/153 [00:21<00:00,  6.98it/s]


TestLoss = 0.6660260636762775
TestAcc = 0.6675202250480652


100%|██████████| 153/153 [01:16<00:00,  1.99it/s]


Epoch 5: TrainLoss = 0.45183744406670906
TrainAcc = 0.7981201410293579


100%|██████████| 153/153 [00:22<00:00,  6.89it/s]


TestLoss = 0.6353968603559953
TestAcc = 0.6821673512458801


100%|██████████| 153/153 [01:17<00:00,  1.97it/s]


Epoch 6: TrainLoss = 0.43731270678734163
TrainAcc = 0.8076215982437134


100%|██████████| 153/153 [00:21<00:00,  7.09it/s]


TestLoss = 0.6369245817680089
TestAcc = 0.6889275908470154


100%|██████████| 153/153 [01:16<00:00,  1.99it/s]


Epoch 7: TrainLoss = 0.42171764507749687
TrainAcc = 0.816816508769989


100%|██████████| 153/153 [00:21<00:00,  7.00it/s]


TestLoss = 0.635181746961005
TestAcc = 0.6873911619186401


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


Epoch 8: TrainLoss = 0.4144264968575679
TrainAcc = 0.8235594630241394


100%|██████████| 153/153 [00:22<00:00,  6.86it/s]


TestLoss = 0.635145000871498
TestAcc = 0.6928198337554932


100%|██████████| 153/153 [01:17<00:00,  1.98it/s]


Epoch 9: TrainLoss = 0.3998641362714436
TrainAcc = 0.8307110667228699


100%|██████████| 153/153 [00:22<00:00,  6.93it/s]

TestLoss = 0.6354890530267895
TestAcc = 0.6947659850120544





*Модель предсказывает на 10% хуже, чем сверточная сеть. Действительно, долгосрочные зависимости ей улавливать тяжело.*

__Задание 5 (2.5 балла)__
В предыдущем задании скорее всего качество RNN у вас должно было получиться хуже, чем у CNN. Попробуем исправить это, добавив в модель вектор памяти. Реализуйте модель LSTM и сравните ее качество с RNN. Напомним, что скрытые состояния LSTM считаются по следующим формулам:
$$
\begin{gathered}
f_t=\sigma\left(W_f \cdot\left[h_{t-1}, x_t\right]+b_f\right) \\
i_t=\sigma\left(W_i \cdot\left[h_{t-1}, x_t\right]+b_i\right) \\
o_t=\sigma\left(W_o \cdot\left[h_{t-1}, x_t\right]+b_o\right) \\
\tilde{C}_t=\tanh \left(W_c \cdot\left[h_{t-1}, x_t\right]+b_c\right) \\
C_t=f_t \odot C_{t-1}+i_t \odot \tilde{C}_t \\
h_t=o_t \odot \tanh \left(C_t\right)
\end{gathered}
$$

In [None]:
from models import LSTM

lstmModel = LSTM(dim_embedding=dim_size, dim_hidden=64, device=device).to(device)
lstmOptim = torch.optim.Adam(lstmModel.parameters(), lr=3e-4)
train(lstmModel, trainDataloader, testDataloader, lstmOptim, epochs=30)

100%|██████████| 153/153 [03:11<00:00,  1.25s/it]


Epoch 0: TrainLoss = 0.7276189372059175
TrainAcc = 0.5084797739982605


100%|██████████| 153/153 [00:49<00:00,  3.06it/s]


TestLoss = 0.6928148559770366
TestAcc = 0.5242241024971008


100%|██████████| 153/153 [02:47<00:00,  1.10s/it]


Epoch 1: TrainLoss = 0.6893961555040949
TrainAcc = 0.5415815114974976


100%|██████████| 153/153 [00:44<00:00,  3.40it/s]


TestLoss = 0.687451815856696
TestAcc = 0.5481921434402466


100%|██████████| 153/153 [02:48<00:00,  1.10s/it]


Epoch 2: TrainLoss = 0.6793435105363544
TrainAcc = 0.5733551383018494


100%|██████████| 153/153 [00:44<00:00,  3.44it/s]


TestLoss = 0.6752428388199967
TestAcc = 0.5781009793281555


100%|██████████| 153/153 [02:46<00:00,  1.09s/it]


Epoch 3: TrainLoss = 0.6588095478442527
TrainAcc = 0.6076828837394714


100%|██████████| 153/153 [00:44<00:00,  3.42it/s]


TestLoss = 0.6507888031423452
TestAcc = 0.6214278340339661


100%|██████████| 153/153 [02:47<00:00,  1.09s/it]


Epoch 4: TrainLoss = 0.6232102909622068
TrainAcc = 0.6540662050247192


100%|██████████| 153/153 [00:44<00:00,  3.47it/s]


TestLoss = 0.6296401597322114
TestAcc = 0.6493905782699585


100%|██████████| 153/153 [02:44<00:00,  1.08s/it]


Epoch 5: TrainLoss = 0.5892461889317243
TrainAcc = 0.6906416416168213


100%|██████████| 153/153 [00:44<00:00,  3.44it/s]


TestLoss = 0.6037389419734033
TestAcc = 0.6804261207580566


100%|██████████| 153/153 [02:45<00:00,  1.08s/it]


Epoch 6: TrainLoss = 0.5528275537451871
TrainAcc = 0.7280343174934387


100%|██████████| 153/153 [00:44<00:00,  3.47it/s]


TestLoss = 0.5816871220613984
TestAcc = 0.7017310261726379


100%|██████████| 153/153 [02:42<00:00,  1.07s/it]


Epoch 7: TrainLoss = 0.523393365379056
TrainAcc = 0.7508173584938049


100%|██████████| 153/153 [00:44<00:00,  3.48it/s]


TestLoss = 0.5578876036754168
TestAcc = 0.7208849787712097


100%|██████████| 153/153 [02:42<00:00,  1.07s/it]


Epoch 8: TrainLoss = 0.4831447368453462
TrainAcc = 0.7779935002326965


100%|██████████| 153/153 [00:43<00:00,  3.52it/s]


TestLoss = 0.5395953412318735
TestAcc = 0.7408583760261536


100%|██████████| 153/153 [02:41<00:00,  1.06s/it]


Epoch 9: TrainLoss = 0.4478994770516753
TrainAcc = 0.8017981052398682


100%|██████████| 153/153 [00:43<00:00,  3.50it/s]


TestLoss = 0.5171614789235034
TestAcc = 0.7543787956237793


100%|██████████| 153/153 [02:42<00:00,  1.06s/it]


Epoch 10: TrainLoss = 0.4180894337433136
TrainAcc = 0.8198814988136292


100%|██████████| 153/153 [00:44<00:00,  3.41it/s]


TestLoss = 0.5230106667674712
TestAcc = 0.741985023021698


100%|██████████| 153/153 [02:42<00:00,  1.07s/it]


Epoch 11: TrainLoss = 0.393724840772264
TrainAcc = 0.8309153914451599


100%|██████████| 153/153 [00:44<00:00,  3.45it/s]


TestLoss = 0.49211081449435795
TestAcc = 0.7707672119140625


100%|██████████| 153/153 [02:42<00:00,  1.06s/it]


Epoch 12: TrainLoss = 0.36907277140853156
TrainAcc = 0.8448100090026855


100%|██████████| 153/153 [00:43<00:00,  3.53it/s]


TestLoss = 0.48448109582202376
TestAcc = 0.783365786075592


100%|██████████| 153/153 [02:45<00:00,  1.08s/it]


Epoch 13: TrainLoss = 0.3361241822833181
TrainAcc = 0.8621782064437866


100%|██████████| 153/153 [00:44<00:00,  3.44it/s]


TestLoss = 0.4776815780420644
TestAcc = 0.7922769784927368


100%|██████████| 153/153 [02:42<00:00,  1.06s/it]


Epoch 14: TrainLoss = 0.3086311854559108
TrainAcc = 0.8790355920791626


100%|██████████| 153/153 [00:43<00:00,  3.51it/s]


TestLoss = 0.46197242186985993
TestAcc = 0.7943255305290222


100%|██████████| 153/153 [02:38<00:00,  1.04s/it]


Epoch 15: TrainLoss = 0.2917675067258456
TrainAcc = 0.8851655125617981


100%|██████████| 153/153 [00:43<00:00,  3.53it/s]


TestLoss = 0.46605073709682304
TestAcc = 0.8008809089660645


100%|██████████| 153/153 [02:38<00:00,  1.04s/it]


Epoch 16: TrainLoss = 0.2751163651943694
TrainAcc = 0.8939517736434937


100%|██████████| 153/153 [00:43<00:00,  3.55it/s]


TestLoss = 0.4805182478081847
TestAcc = 0.7958619594573975


100%|██████████| 153/153 [02:39<00:00,  1.04s/it]


Epoch 17: TrainLoss = 0.2542022149758676
TrainAcc = 0.9066203832626343


100%|██████████| 153/153 [00:43<00:00,  3.55it/s]


TestLoss = 0.45975730494984984
TestAcc = 0.8052852749824524


100%|██████████| 153/153 [02:39<00:00,  1.04s/it]


Epoch 18: TrainLoss = 0.23986046070413392
TrainAcc = 0.9115243554115295


100%|██████████| 153/153 [00:42<00:00,  3.58it/s]


TestLoss = 0.46122279964386653
TestAcc = 0.8114309310913086


100%|██████████| 153/153 [02:38<00:00,  1.04s/it]


Epoch 19: TrainLoss = 0.22010286674847349
TrainAcc = 0.9208214282989502


100%|██████████| 153/153 [00:43<00:00,  3.48it/s]


TestLoss = 0.4747891467662543
TestAcc = 0.8155280351638794


100%|██████████| 153/153 [02:38<00:00,  1.04s/it]


Epoch 20: TrainLoss = 0.20913860171387816
TrainAcc = 0.9262362122535706


100%|██████████| 153/153 [00:43<00:00,  3.51it/s]


TestLoss = 0.4588867056251342
TestAcc = 0.8141964673995972


100%|██████████| 153/153 [02:38<00:00,  1.03s/it]


Epoch 21: TrainLoss = 0.18979543641142618
TrainAcc = 0.935533344745636


100%|██████████| 153/153 [00:43<00:00,  3.53it/s]


TestLoss = 0.47172959592270824
TestAcc = 0.8174741268157959


100%|██████████| 153/153 [02:38<00:00,  1.04s/it]


Epoch 22: TrainLoss = 0.17401584478656174
TrainAcc = 0.9422762989997864


100%|██████████| 153/153 [00:42<00:00,  3.57it/s]


TestLoss = 0.5067386527316902
TestAcc = 0.8173717260360718


100%|██████████| 153/153 [02:37<00:00,  1.03s/it]


Epoch 23: TrainLoss = 0.1637407863352023
TrainAcc = 0.9453412294387817


100%|██████████| 153/153 [00:41<00:00,  3.69it/s]


TestLoss = 0.4856408065940273
TestAcc = 0.8196251392364502


100%|██████████| 153/153 [02:33<00:00,  1.01s/it]


Epoch 24: TrainLoss = 0.155592595643056
TrainAcc = 0.9505516886711121


100%|██████████| 153/153 [00:41<00:00,  3.66it/s]


TestLoss = 0.5216565293927765
TestAcc = 0.8155280351638794


100%|██████████| 153/153 [02:34<00:00,  1.01s/it]


Epoch 25: TrainLoss = 0.14170971174823735
TrainAcc = 0.9560686945915222


100%|██████████| 153/153 [00:42<00:00,  3.64it/s]


TestLoss = 0.515347025246817
TestAcc = 0.8200348615646362


100%|██████████| 153/153 [02:35<00:00,  1.01s/it]


Epoch 26: TrainLoss = 0.1295543083114969
TrainAcc = 0.9608704447746277


100%|██████████| 153/153 [00:42<00:00,  3.60it/s]


TestLoss = 0.514182141474814
TestAcc = 0.8205469846725464


100%|██████████| 153/153 [02:35<00:00,  1.02s/it]


Epoch 27: TrainLoss = 0.12890316826083195
TrainAcc = 0.9596444964408875


100%|██████████| 153/153 [00:42<00:00,  3.63it/s]


TestLoss = 0.5233396943458265
TestAcc = 0.8194202780723572


100%|██████████| 153/153 [02:35<00:00,  1.02s/it]


Epoch 28: TrainLoss = 0.11297558040388954
TrainAcc = 0.967306911945343


100%|██████████| 153/153 [00:42<00:00,  3.61it/s]


TestLoss = 0.5834472307224298
TestAcc = 0.8162450194358826


100%|██████████| 153/153 [02:35<00:00,  1.01s/it]


Epoch 29: TrainLoss = 0.10365928821554951
TrainAcc = 0.9711892008781433


100%|██████████| 153/153 [00:42<00:00,  3.64it/s]

TestLoss = 0.593229417678556
TestAcc = 0.8206493854522705





***Как видим, модель LSTM дааёт лучше результат, чем RNN: 80% против 70%. Сверочная сеть для классификации текстов самая приятная и по эффективности, и по времени.***

__Бонус (1 балл)__ Проверьте, на что влияет каждый гейт в LSTM. Попробуйте отключать каждый из них по очереди (выход гейта всегда 1) и посмотрите, при отключении каких из них точность падает сильнее. Совпадает ли результат с вашими ожиданиями?

*Предположение: gate o повлияет на точность меньше всего, он кажется бесполезным, гейты f и i отразятся на результате сильнее, отключение i будет самым фатальным, так как в контекст будут попадать все векторы без разбору.*

In [None]:
cache_o = lstmModel.Woh.data, lstmModel.boh.data
lstmModel.Woh.data = torch.zeros(lstmModel.Woh.shape).to(device)
lstmModel.boh.data = torch.ones(lstmModel.boh.shape).to(device)
loss, test_acc = evaluate(lstmModel, testDataloader, torch.nn.BCELoss())
print(f'Loss without o: {loss}   ||||   Accuracy without o: {test_acc.item()}')
lstmModel.Woh.data, lstmModel.boh.data = cache_o

100%|██████████| 153/153 [00:48<00:00,  3.15it/s]

Loss without o: 1.67920076013112   ||||   Accuracy without o: 0.5410222411155701





In [None]:
cache_i = lstmModel.Wih.data, lstmModel.bih.data
lstmModel.Wih.data = torch.zeros(lstmModel.Wih.shape).to(device)
lstmModel.bih.data = torch.ones(lstmModel.bih.shape).to(device)
loss, test_acc = evaluate(lstmModel, testDataloader, torch.nn.BCELoss())
print(f'Loss without i: {loss}   ||||   Accuracy without i: {test_acc.item()}')
lstmModel.Wih.data, lstmModel.bih.data = cache_i

100%|██████████| 153/153 [00:43<00:00,  3.53it/s]

Loss without i: 2.8646949304108076   ||||   Accuracy without i: 0.4994366466999054





In [None]:
cache_f = lstmModel.Wfh.data, lstmModel.bfh.data
lstmModel.Wfh.data = torch.zeros(lstmModel.Wfh.shape).to(device)
lstmModel.bfh.data = torch.ones(lstmModel.bfh.shape).to(device)
loss, test_acc = evaluate(lstmModel, testDataloader, torch.nn.BCELoss())
print(f'Loss without f: {loss}   ||||   Accuracy without f: {test_acc.item()}')
lstmModel.Wfh.data, lstmModel.bfh.data = cache_f

100%|██████████| 153/153 [00:46<00:00,  3.28it/s]

Loss without f: 0.757747303947469   ||||   Accuracy without f: 0.6685445308685303





*Оказалось, что без вектора i модель вообще не может существовать (как предполагалось), однако и gate o критичен для модели, он выполняет преобразование контекста в hidden вектор. Вектор f, отвечающий за забываемость контекста, не так важен, и без него модель ещё может работать, просто сохраняется вообще весь предыдущий контекст, а не выборочно. Но точность при отключении любого из гейтов значительно падает.*

__Задание 6 (1 балл): Многослойная рекуррентная сеть.__
Часто увеличение число слоев в рекуррентных нейронных сетях помогает улучшить способность модели извлекать информацию из текста. Дополнительный слой – это еще одна LSTM поверх выходов предыдущей. Добавьте в вашу модель возможность создания сети с произвольным числом слоев. Обучите двухслойную LSTM и сравните качество с однослойной версией. Подтвердилась ли теория?

![image.png](attachment:b09010ac-64d0-4606-a033-ec6a4a1f3e87.png)


In [None]:
from models import LSTMnLayers

lstm2LModel = LSTMnLayers(dim_embedding=dim_size, dim_hidden=64, n_layers=2, device=device).to(device)
lstm2LOptim = torch.optim.Adam(lstm2LModel.parameters(), lr=3e-4)
train(lstm2LModel, trainDataloader, testDataloader, lstm2LOptim, epochs=10)

100%|██████████| 153/153 [04:56<00:00,  1.94s/it]


Epoch 0: TrainLoss = 0.7111695969791669
TrainAcc = 0.5085819363594055


100%|██████████| 153/153 [01:18<00:00,  1.95it/s]


TestLoss = 0.6919295886531663
TestAcc = 0.5079381465911865


100%|██████████| 153/153 [04:53<00:00,  1.92s/it]


Epoch 1: TrainLoss = 0.6891351203359192
TrainAcc = 0.5429096817970276


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


TestLoss = 0.6883062465103218
TestAcc = 0.5323159098625183


100%|██████████| 153/153 [04:56<00:00,  1.93s/it]


Epoch 2: TrainLoss = 0.6693386159042558
TrainAcc = 0.5906211733818054


100%|██████████| 153/153 [01:18<00:00,  1.95it/s]


TestLoss = 0.6608482852439271
TestAcc = 0.6006350517272949


100%|██████████| 153/153 [04:53<00:00,  1.92s/it]


Epoch 3: TrainLoss = 0.6192386591975232
TrainAcc = 0.6624438166618347


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


TestLoss = 0.6194122347213395
TestAcc = 0.6520536541938782


100%|██████████| 153/153 [04:53<00:00,  1.92s/it]


Epoch 4: TrainLoss = 0.5747611852485305
TrainAcc = 0.7089293003082275


100%|██████████| 153/153 [01:15<00:00,  2.02it/s]


TestLoss = 0.6271282030607386
TestAcc = 0.667212963104248


100%|██████████| 153/153 [04:53<00:00,  1.92s/it]


Epoch 5: TrainLoss = 0.5315583251571967
TrainAcc = 0.7420310974121094


100%|██████████| 153/153 [01:15<00:00,  2.03it/s]


TestLoss = 0.566171147742013
TestAcc = 0.7099252343177795


100%|██████████| 153/153 [04:53<00:00,  1.92s/it]


Epoch 6: TrainLoss = 0.5031643003213148
TrainAcc = 0.7627707719802856


100%|██████████| 153/153 [01:16<00:00,  1.99it/s]


TestLoss = 0.5371366218258999
TestAcc = 0.7331762909889221


100%|██████████| 153/153 [04:52<00:00,  1.91s/it]


Epoch 7: TrainLoss = 0.4609081730776336
TrainAcc = 0.7915815114974976


100%|██████████| 153/153 [01:15<00:00,  2.02it/s]


TestLoss = 0.5198483030644399
TestAcc = 0.7518181204795837


100%|██████████| 153/153 [04:53<00:00,  1.92s/it]


Epoch 8: TrainLoss = 0.4273989092684981
TrainAcc = 0.8106865882873535


100%|██████████| 153/153 [01:17<00:00,  1.97it/s]


TestLoss = 0.5090879647443374
TestAcc = 0.7641093730926514


100%|██████████| 153/153 [04:57<00:00,  1.95s/it]


Epoch 9: TrainLoss = 0.3973173891518815
TrainAcc = 0.8299959301948547


100%|██████████| 153/153 [01:17<00:00,  1.98it/s]

TestLoss = 0.5148865744054874
TestAcc = 0.7573491930961609





In [None]:
train(lstm2LModel, trainDataloader, testDataloader, lstm2LOptim, epochs=5)

100%|██████████| 153/153 [04:54<00:00,  1.93s/it]


Epoch 0: TrainLoss = 0.37223726551192704
TrainAcc = 0.8452186584472656


100%|██████████| 153/153 [01:17<00:00,  1.98it/s]


TestLoss = 0.4858975432134732
TestAcc = 0.7807026505470276


100%|██████████| 153/153 [04:56<00:00,  1.94s/it]


Epoch 1: TrainLoss = 0.35079995098531025
TrainAcc = 0.8568655848503113


100%|██████████| 153/153 [01:17<00:00,  1.98it/s]


TestLoss = 0.4984524027558608
TestAcc = 0.7843900322914124


100%|██████████| 153/153 [05:00<00:00,  1.97s/it]


Epoch 2: TrainLoss = 0.32710803598835364
TrainAcc = 0.8670821785926819


100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


TestLoss = 0.46840797611207463
TestAcc = 0.7959643602371216


100%|██████████| 153/153 [04:56<00:00,  1.94s/it]


Epoch 3: TrainLoss = 0.30495727805152056
TrainAcc = 0.8810788989067078


100%|██████████| 153/153 [01:16<00:00,  2.01it/s]


TestLoss = 0.4677857994166332
TestAcc = 0.7965789437294006


100%|██████████| 153/153 [04:56<00:00,  1.94s/it]


Epoch 4: TrainLoss = 0.2872161137287988
TrainAcc = 0.8880261778831482


100%|██████████| 153/153 [01:15<00:00,  2.02it/s]

TestLoss = 0.5031414609408141
TestAcc = 0.798627495765686





In [None]:
train(lstm2LModel, trainDataloader, testDataloader, lstm2LOptim, epochs=5)

100%|██████████| 153/153 [04:55<00:00,  1.93s/it]


Epoch 0: TrainLoss = 0.26894116672657925
TrainAcc = 0.899162232875824


100%|██████████| 153/153 [01:15<00:00,  2.02it/s]


TestLoss = 0.4719444356723654
TestAcc = 0.8112260699272156


100%|██████████| 153/153 [04:55<00:00,  1.93s/it]


Epoch 1: TrainLoss = 0.2518251020298425
TrainAcc = 0.9079484939575195


100%|██████████| 153/153 [01:16<00:00,  2.00it/s]


TestLoss = 0.46687212473152234
TestAcc = 0.8106114864349365


100%|██████████| 153/153 [04:54<00:00,  1.92s/it]


Epoch 2: TrainLoss = 0.23356093801207867
TrainAcc = 0.9153044819831848


100%|██████████| 153/153 [01:17<00:00,  1.98it/s]


TestLoss = 0.45592780039592024
TestAcc = 0.8118406534194946


100%|██████████| 153/153 [05:05<00:00,  2.00s/it]


Epoch 3: TrainLoss = 0.21612042144799554
TrainAcc = 0.9260318875312805


100%|██████████| 153/153 [01:19<00:00,  1.93it/s]


TestLoss = 0.45250675911592264
TestAcc = 0.8170644044876099


100%|██████████| 153/153 [04:59<00:00,  1.96s/it]


Epoch 4: TrainLoss = 0.2095766199770196
TrainAcc = 0.9279730319976807


100%|██████████| 153/153 [01:17<00:00,  1.97it/s]

TestLoss = 0.4745088768984638
TestAcc = 0.8204445242881775





*Видим, что качество по сравнению с обычной LSTM не выросло, либо выросло незначитально.*

__Задание 6 (1 балл): Двунаправленная рекуррентная сеть.__ Для некоторых задач классификации может помочь смотреть на последовательность слева направо и справа налево одновременно. Рекуррентные сети с такой способностью называются двунаправленными (bidirectional). Реализуйте данный функционал в вашей LSTM модели. Заметьте, что такая модификация увеличивает число параметров модели так же, как и добавление еще одного слоя. Какая из этих двух модификаций оказывается лучше?

__ВАЖНО:__ Подумайте о том, как лучше агрегировать выходы разнонаправленных моделей. Попробуйте разные способы.

![image.png](attachment:38d1abab-a2af-403f-bc0d-ec408b9bfd01.png)

In [None]:
from models import LSTMbiDir

lstmBiDirModel = LSTMbiDir(dim_embedding=dim_size, dim_hidden=64, device=device).to(device)
lstmBiDirOptim = torch.optim.Adam(lstmBiDirModel.parameters(), lr=3e-4)
train(lstmBiDirModel, trainDataloader, testDataloader, lstmBiDirOptim, epochs=20)

100%|██████████| 153/153 [05:32<00:00,  2.18s/it]


Epoch 0: TrainLoss = 0.6914066407550925
TrainAcc = 0.5254393219947815


100%|██████████| 153/153 [01:33<00:00,  1.63it/s]


TestLoss = 0.688475683339121
TestAcc = 0.5432756543159485


100%|██████████| 153/153 [05:16<00:00,  2.07s/it]


Epoch 1: TrainLoss = 0.6811445576831863
TrainAcc = 0.5635471940040588


100%|██████████| 153/153 [01:23<00:00,  1.83it/s]


TestLoss = 0.6749797579353979
TestAcc = 0.5858854651451111


100%|██████████| 153/153 [05:15<00:00,  2.06s/it]


Epoch 2: TrainLoss = 0.666792416626159
TrainAcc = 0.5987944602966309


100%|██████████| 153/153 [01:23<00:00,  1.83it/s]


TestLoss = 0.677760190056763
TestAcc = 0.5634538531303406


100%|██████████| 153/153 [05:16<00:00,  2.07s/it]


Epoch 3: TrainLoss = 0.6550053237991816
TrainAcc = 0.6169799566268921


100%|██████████| 153/153 [01:22<00:00,  1.84it/s]


TestLoss = 0.6653109423195768
TestAcc = 0.5911092758178711


100%|██████████| 153/153 [05:14<00:00,  2.05s/it]


Epoch 4: TrainLoss = 0.619228137504046
TrainAcc = 0.6590723395347595


100%|██████████| 153/153 [01:23<00:00,  1.82it/s]


TestLoss = 0.607572829364375
TestAcc = 0.6757144331932068


100%|██████████| 153/153 [05:15<00:00,  2.06s/it]


Epoch 5: TrainLoss = 0.5763444258672732
TrainAcc = 0.7056599855422974


100%|██████████| 153/153 [01:25<00:00,  1.79it/s]


TestLoss = 0.58597239195342
TestAcc = 0.6988630890846252


100%|██████████| 153/153 [05:15<00:00,  2.06s/it]


Epoch 6: TrainLoss = 0.5442373659301886
TrainAcc = 0.734368622303009


100%|██████████| 153/153 [01:23<00:00,  1.84it/s]


TestLoss = 0.5583360140457708
TestAcc = 0.7238553762435913


100%|██████████| 153/153 [05:18<00:00,  2.08s/it]


Epoch 7: TrainLoss = 0.501282245054701
TrainAcc = 0.7660400867462158


100%|██████████| 153/153 [01:23<00:00,  1.83it/s]


TestLoss = 0.5382032103101628
TestAcc = 0.7368636727333069


100%|██████████| 153/153 [05:15<00:00,  2.06s/it]


Epoch 8: TrainLoss = 0.4645618130393938
TrainAcc = 0.7888230681419373


100%|██████████| 153/153 [01:24<00:00,  1.81it/s]


TestLoss = 0.5137023382880191
TestAcc = 0.7531496286392212


100%|██████████| 153/153 [05:14<00:00,  2.06s/it]


Epoch 9: TrainLoss = 0.43088340474285786
TrainAcc = 0.8147732019424438


100%|██████████| 153/153 [01:28<00:00,  1.72it/s]


TestLoss = 0.4967302546862096
TestAcc = 0.7698453664779663


100%|██████████| 153/153 [05:18<00:00,  2.08s/it]


Epoch 10: TrainLoss = 0.4058729365108741
TrainAcc = 0.8267266154289246


100%|██████████| 153/153 [01:23<00:00,  1.82it/s]


TestLoss = 0.4753790554008339
TestAcc = 0.7808051109313965


100%|██████████| 153/153 [05:16<00:00,  2.07s/it]


Epoch 11: TrainLoss = 0.3725179621624761
TrainAcc = 0.8463424444198608


100%|██████████| 153/153 [01:23<00:00,  1.83it/s]


TestLoss = 0.48505126730921716
TestAcc = 0.7896138429641724


100%|██████████| 153/153 [05:16<00:00,  2.07s/it]


Epoch 12: TrainLoss = 0.35097112127552726
TrainAcc = 0.8569677472114563


100%|██████████| 153/153 [01:23<00:00,  1.83it/s]


TestLoss = 0.4533696583300771
TestAcc = 0.7969886660575867


100%|██████████| 153/153 [05:15<00:00,  2.06s/it]


Epoch 13: TrainLoss = 0.3235875251442255
TrainAcc = 0.8712709546089172


100%|██████████| 153/153 [01:23<00:00,  1.83it/s]


TestLoss = 0.4607007895277426
TestAcc = 0.7964764833450317


100%|██████████| 153/153 [05:12<00:00,  2.04s/it]


Epoch 14: TrainLoss = 0.3023920395591574
TrainAcc = 0.8809767365455627


100%|██████████| 153/153 [01:23<00:00,  1.84it/s]


TestLoss = 0.45741710312527906
TestAcc = 0.8018027544021606


100%|██████████| 153/153 [05:12<00:00,  2.04s/it]


Epoch 15: TrainLoss = 0.285788800358821
TrainAcc = 0.8890478014945984


100%|██████████| 153/153 [01:23<00:00,  1.83it/s]


TestLoss = 0.4383254835721131
TestAcc = 0.813274621963501


100%|██████████| 153/153 [05:07<00:00,  2.01s/it]


Epoch 16: TrainLoss = 0.2627684791257638
TrainAcc = 0.9011033773422241


100%|██████████| 153/153 [01:20<00:00,  1.90it/s]


TestLoss = 0.4405908832586191
TestAcc = 0.8173717260360718


100%|██████████| 153/153 [05:03<00:00,  1.99s/it]


Epoch 17: TrainLoss = 0.24353293947872454
TrainAcc = 0.9081528782844543


100%|██████████| 153/153 [01:21<00:00,  1.88it/s]


TestLoss = 0.43458277465109574
TestAcc = 0.8157328963279724


100%|██████████| 153/153 [05:03<00:00,  1.98s/it]


Epoch 18: TrainLoss = 0.23049291327114635
TrainAcc = 0.9123416543006897


100%|██████████| 153/153 [01:20<00:00,  1.90it/s]


TestLoss = 0.5105712092168188
TestAcc = 0.8069241046905518


100%|██████████| 153/153 [05:03<00:00,  1.98s/it]


Epoch 19: TrainLoss = 0.21765293786854076
TrainAcc = 0.9210257530212402


100%|██████████| 153/153 [01:21<00:00,  1.88it/s]

TestLoss = 0.4403835864972106
TestAcc = 0.8199324011802673





***Итог: Обе модификации не улучшили качество модели и показали примерно равный результат, однако просто LSTM обучается быстрее. Среди всех моделей сверточные сети предпочтительней благодаря своей скорости, ведь accuracy примерно одинаковый, однако LSTM оказался чуть более эффективным (~2% accuracy + выигрыш по лоссу)***