In [1]:
import json
import pickle
from argparse import ArgumentParser, Namespace
from pathlib import Path
from typing import Dict

import torch
from torch.utils.data import DataLoader
from tqdm import trange
from model import SeqClassifier
from dataset import SeqClsDataset
from utils import Vocab

TRAIN = "train"
DEV = "eval"
SPLITS = [TRAIN, DEV]

In [2]:
cache_dir = Path("./cache/intent/")
data_dir = Path("./data/intent/")
batch_size = 128
max_len = 128
with open(cache_dir / "vocab.pkl", "rb") as f:
    vocab: Vocab = pickle.load(f)

intent_idx_path = cache_dir / "intent2idx.json"
intent2idx: Dict[str, int] = json.loads(intent_idx_path.read_text())

data_paths = {
    split: data_dir / f"{split}.json" 
    for split in SPLITS
}
data = {
    split: json.loads(path.read_text()) 
    for split, path in data_paths.items()
}
datasets: Dict[str, SeqClsDataset] = {
    split: SeqClsDataset(split_data, vocab, intent2idx, max_len)
    for split, split_data in data.items()
}
# TODO: crecate DataLoader for train / dev datasets
train_data_loader = DataLoader(
    datasets["train"],
    batch_size=batch_size,
    shuffle=True,
    collate_fn=datasets["train"].collate_fn,
)
dev_data_loader = DataLoader(
    datasets["eval"],
    batch_size=batch_size,
    shuffle=True,
    collate_fn=datasets["eval"].collate_fn,
)


In [3]:
import numpy as np

embeddings = torch.load(cache_dir / "embeddings.pt")
num_layers = 2
hidden_size = 512
dropout = 0.1
bidirectional = 1
device = "cuda"
num_epoch = 50
lr = 1e-3
# TODO: init model and move model to target device(cpu / gpu)
model = SeqClassifier(
    embeddings,
    int(hidden_size),
    int(num_layers),
    float(dropout),
    int(bidirectional),
    150,
)
model.to(device)

# TODO: init optimizer
optimizer = torch.optim.Adam(model.parameters(), lr=lr)
criterion = torch.nn.CrossEntropyLoss()

epoch_pbar = trange(num_epoch, desc="Epoch")
train_losses = []
train_accs = []
valid_losses = []
valid_accs = []
best_valid_loss = float('inf')
for epoch in epoch_pbar:
    # TODO: Training loop - iterate over train dataloader and update model weights
    model.train()
    epoch_train_losses = []
    epoch_train_accs = []
    for batch in train_data_loader:
        ids = batch["ids"].to(device)
        labels = batch["labels"].to(device)
        pred = model(ids).to(device)
        loss = criterion(pred, labels).to(device)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        epoch_train_losses.append(loss.item())
        epoch_train_accs.append((pred.argmax(dim=1) == labels).float().mean().item())

    # TODO: Evaluation loop - calculate accuracy and save model weights
    model.eval()
    epoch_eval_losses = []
    epoch_eval_accs = []
    with torch.no_grad():
        for batch in dev_data_loader:
            ids = batch["ids"].to(device)
            labels = batch["labels"].to(device)
            pred = model(ids).to(device)
            loss = criterion(pred, labels).to(device)
            epoch_eval_losses.append(loss.item())
            epoch_eval_accs.append((pred.argmax(dim=1) == labels).float().mean().item())
            
    train_losses.extend(epoch_train_losses)
    train_accs.extend(epoch_train_accs)
    valid_losses.extend(epoch_eval_losses)
    valid_accs.extend(epoch_eval_accs)
    
    epoch_train_loss = np.mean(epoch_train_losses)
    epoch_train_acc = np.mean(epoch_train_accs)
    epoch_valid_loss = np.mean(epoch_eval_losses)
    epoch_valid_acc = np.mean(epoch_eval_accs)
    
    print(epoch_train_acc)
    print(epoch_valid_acc)
    if epoch_valid_loss < best_valid_loss:
        best_valid_loss = epoch_valid_loss
        torch.save(model.state_dict(), 'lstm.pt')

# TODO: Inference on test set

Epoch:   2%|███▎                                                                                                                                                                    | 1/50 [00:25<20:39, 25.30s/it]

0.2686926202248719
0.6127232164144516


Epoch:   4%|██████▋                                                                                                                                                                 | 2/50 [00:50<20:24, 25.51s/it]

0.8064971753096176
0.8203590040405592


Epoch:   6%|██████████                                                                                                                                                              | 3/50 [01:16<20:08, 25.71s/it]

0.9257150423728814
0.8769531274835268


Epoch:   8%|█████████████▍                                                                                                                                                          | 4/50 [01:43<19:52, 25.93s/it]

0.9621954449152542
0.8857421899835268


Epoch:  10%|████████████████▊                                                                                                                                                       | 5/50 [02:09<19:37, 26.16s/it]

0.9796742584745762
0.8900204623738924


Epoch:  12%|████████████████████▏                                                                                                                                                   | 6/50 [02:36<19:20, 26.38s/it]

0.9888771186440678
0.8987630233168602


Epoch:  14%|███████████████████████▌                                                                                                                                                | 7/50 [03:03<19:02, 26.57s/it]

0.9917240466101694
0.9085286483168602


Epoch:  16%|██████████████████████████▉                                                                                                                                             | 8/50 [03:30<18:40, 26.68s/it]

0.996822033898305
0.9090401803453764


Epoch:  18%|██████████████████████████████▏                                                                                                                                         | 9/50 [03:57<18:18, 26.80s/it]

0.994041313559322
0.8973679343859354


Epoch:  20%|█████████████████████████████████▍                                                                                                                                     | 10/50 [04:24<17:57, 26.94s/it]

0.9972854872881356
0.913364956776301


Epoch:  22%|████████████████████████████████████▋                                                                                                                                  | 11/50 [04:51<17:34, 27.03s/it]

0.9977489406779662
0.8994605665405592


Epoch:  24%|████████████████████████████████████████                                                                                                                               | 12/50 [05:19<17:11, 27.13s/it]

0.9940854523141506
0.8915550609429678


Epoch:  26%|███████████████████████████████████████████▍                                                                                                                           | 13/50 [05:46<16:45, 27.18s/it]

0.9932909607887268
0.9036923373738924


Epoch:  28%|██████████████████████████████████████████████▊                                                                                                                        | 14/50 [06:13<16:18, 27.19s/it]

0.9930481991525424
0.8964378734429678


Epoch:  30%|██████████████████████████████████████████████████                                                                                                                     | 15/50 [06:41<15:51, 27.20s/it]

0.996292372881356
0.8970889151096344


Epoch:  32%|█████████████████████████████████████████████████████▍                                                                                                                 | 16/50 [07:08<15:24, 27.19s/it]

0.9954316737288136
0.9110863109429678


Epoch:  34%|████████████████████████████████████████████████████████▊                                                                                                              | 17/50 [07:35<14:57, 27.20s/it]

0.9950344279661016
0.9022042428453764


Epoch:  36%|████████████████████████████████████████████████████████████                                                                                                           | 18/50 [08:02<14:31, 27.23s/it]

0.9974179025423728
0.9157366082072258


Epoch:  38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 19/50 [08:29<14:04, 27.23s/it]

0.9986758474576272
0.9125279039144516


Epoch:  40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 20/50 [08:57<13:36, 27.21s/it]

0.9989406779661016
0.9140625024835268


Epoch:  42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 21/50 [09:24<13:09, 27.23s/it]

0.9992055084745762
0.9138764888048172


Epoch:  44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 22/50 [09:51<12:44, 27.29s/it]

0.999073093220339
0.9098307316501936


Epoch:  46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 23/50 [10:19<12:19, 27.39s/it]

0.999073093220339
0.9156436026096344


Epoch:  48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 24/50 [10:47<11:53, 27.45s/it]

0.9995365466101694
0.9141090040405592


Epoch:  50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 25/50 [11:14<11:26, 27.48s/it]

0.999271716101695
0.9103887677192688


Epoch:  52%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 26/50 [11:42<10:59, 27.46s/it]

0.999073093220339
0.9108072941501936


Epoch:  54%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 27/50 [12:09<10:31, 27.45s/it]

0.9997351694915254
0.9152250761787096


Epoch:  56%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 28/50 [12:36<10:02, 27.36s/it]

0.9996689618644068
0.9131789455811182


Epoch:  58%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 29/50 [13:03<09:33, 27.29s/it]

0.9952330508474576
0.8826729928453764


Epoch:  60%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 30/50 [13:30<09:04, 27.23s/it]

0.9755031779661016
0.8838355665405592


Epoch:  62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 31/50 [13:57<08:36, 27.18s/it]

0.9862950211864406
0.8936011915405592


Epoch:  64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 32/50 [14:24<08:08, 27.14s/it]

0.9950123590938116
0.9015532011787096


Epoch:  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 33/50 [14:51<07:40, 27.09s/it]

0.9974841101694916
0.9136439760526022


Epoch:  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 34/50 [15:18<07:13, 27.06s/it]

0.9994041313559322
0.9180617580811182


Epoch:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 35/50 [15:45<06:45, 27.04s/it]

0.999801377118644
0.9205264151096344


Epoch:  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 36/50 [16:12<06:17, 26.99s/it]

0.9997351694915254
0.9191313261787096


Epoch:  74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 37/50 [16:39<05:50, 26.94s/it]

0.9999337923728814
0.9193638414144516


Epoch:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 38/50 [17:06<05:22, 26.92s/it]

0.9998675847457628
0.9181547636787096


Epoch:  78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 39/50 [17:33<04:55, 26.89s/it]

0.9998675847457628
0.9191313261787096


Epoch:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 40/50 [18:00<04:28, 26.87s/it]

0.9999337923728814
0.9210379471381506


Epoch:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 41/50 [18:26<04:01, 26.86s/it]

0.9999337923728814
0.9186197941501936


Epoch:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 42/50 [18:53<03:33, 26.72s/it]

0.9999337923728814
0.917736237247785


Epoch:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 43/50 [19:19<03:06, 26.59s/it]

1.0
0.9188988109429678


Epoch:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 44/50 [19:45<02:38, 26.48s/it]

1.0
0.918480284512043


Epoch:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 45/50 [20:12<02:11, 26.39s/it]

1.0
0.9179687524835268


Epoch:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 46/50 [20:38<01:45, 26.33s/it]

1.0
0.918480284512043


Epoch:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 47/50 [21:04<01:18, 26.29s/it]

1.0
0.9182942733168602


Epoch:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 48/50 [21:30<00:52, 26.27s/it]

1.0
0.9202938998738924


Epoch:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 49/50 [21:56<00:26, 26.25s/it]

1.0
0.9185267885526022


Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [22:23<00:00, 26.86s/it]

1.0
0.9206194207072258





In [4]:
for batch in train_data_loader:
    ids = batch["ids"].to(device)
    labels = batch["labels"].to(device)
    pred = model(ids).to(device)
    print(labels)
    print(pred.argmax(dim=1))
    break

tensor([118,  39,  21,  42, 144,  10, 100,  39,  41, 140, 122, 129,  97, 146,
         72,  35,  71, 115,  81,  58,  84,  74, 102,  83, 117,  16,  47,  89,
         79,  93, 149,  57,  19, 113,  75,  42, 145, 121,  31, 120,  95, 126,
        112,  20,  88,  50, 136, 114, 106, 127,  81, 145, 108,  52,  21, 100,
         76, 111,  73,  40,  20,   9, 103,  34, 133,  82,  14,  64,   7,  17,
        101,  15,  52, 139,  99, 114, 102,  25, 111, 141,  67, 122,  14,  20,
         48, 121,  81,  18, 113, 101,   5,  47,   6,  87,  94, 133, 120,  60,
         37,  26, 110,  31,  47, 120, 115,   1, 112,  63,  59, 110,  45,  92,
        117, 139,  95,  40,  44,  95, 116,  24,  32,   4,  16, 138,  17,  50,
         12,  32], device='cuda:0')
tensor([118,  39,  21,  42, 144,  10, 100,  39,  41, 140, 122, 129,  97, 146,
         72,  35,  71, 115,  81,  58,  84,  74, 102,  83, 117,  16,  47,  89,
         79,  93, 149,  57,  19, 113,  75,  42, 145, 121,  31, 120,  95, 126,
        112,  20,  88,  50, 

In [19]:
a = torch.tensor([[1, 2, 3], [4, 5, 6]])
a.shape

torch.Size([2, 3])

In [20]:
a

tensor([[1, 2, 3],
        [4, 5, 6]])

In [21]:
a.argmax(dim=1)

tensor([2, 2])

In [4]:
embeddings = torch.load(cache_dir / "embeddings.pt")
num_layers = 2
hidden_size = 512
dropout = 0.1
bidirectional = 1
device = "cuda"
num_epoch = 50
lr = 1e-3

# load pytorch model
lstm_model = SeqClassifier(
    embeddings,
    int(hidden_size),
    int(num_layers),
    float(dropout),
    int(bidirectional),
    150,
)
lstm_model.load_state_dict(torch.load("lstm.pt"))
lstm_model.to(device)
lstm_model.eval()
for batch in train_data_loader:
    ids = batch["ids"].to(device)
    labels = batch["labels"].to(device)
    pred = lstm_model(ids).to(device)
    print(labels)
    print(pred.argmax(dim=1))
    break

tensor([ 90,  76,   4,  14,  19,  30, 136,  76,  44,  99,  88,  33, 128,  87,
         59,  80, 112,  39,   9,  82,  14, 145,  33,  33,  90,  79,  94,   4,
        119, 135,  94,  67,  29,   3,  30,  87, 114,  49,   8,  91,   7,  36,
         86, 100,  63, 137, 142, 102,  37,  39,  43,  69,  91, 118,  43,   8,
        140, 132,  23,  44,  14,  88,  19,   1, 135,  72, 126,  23, 120,  42,
         69,  89, 121,  53,   9,  14,  20,  19, 101,  50,  20, 105,  49,  17,
         83, 121, 129,  34, 121,  23,  94,  56,  14, 139,  97,   3,  78,  27,
        147, 113, 144, 124,  67,  56,  41,  95, 138, 107,   5, 110,   8, 140,
          7,  67,  83,  45,  68,   0, 135,  57, 147,  22, 112,  82,  15,  95,
         66, 132], device='cuda:0')
tensor([ 90,  76,   4,  14,  19,  30, 136,  76,  44,  99,  88,  33, 128,  87,
         59,  80, 112,  39,   9,  82,  14, 145,  33,  33,  90,  79,  94,   4,
        119, 135,  94,  67,  29,   3,  30,  87, 114,  49,   8,  91,   7,  36,
         86, 100,  63, 137, 

In [6]:
type(lstm_model)

collections.OrderedDict

In [5]:
torch.load("lstm.pt").__dict__

{'_metadata': OrderedDict([('', {'version': 1}),
              ('embed', {'version': 1}),
              ('rnn', {'version': 1}),
              ('fc', {'version': 1}),
              ('dropout', {'version': 1})])}