In [20]:
import json
import pickle
import numpy as np
import torch
import pandas as pd
from utils import Vocab
from typing import Dict
from tqdm import trange
from pathlib import Path
from model import SeqClassifier,SeqTagger
from dataset import SeqTaggingClsDataset
from torch.utils.data import DataLoader
from argparse import ArgumentParser, Namespace
from IPython.display import display

In [2]:
cache_dir = Path("./cache/slot/")
data_dir = Path("./data/slot/")
ckpt_dir = Path("./ckpt/slot/")
max_len = 128
batch_size = 512
hidden_size = 512
num_layers = 2
dropout = 0.1
bidirectional = True
device = "cuda"
num_epoch = 50
lr = 1e-3

In [3]:
with open(cache_dir / "vocab.pkl", "rb") as f:
    vocab: Vocab = pickle.load(f)

In [4]:
tag_idx_path = cache_dir / "tag2idx.json"
tag2idx: Dict[str, int] = json.loads(tag_idx_path.read_text())

In [5]:
TRAIN = "train"
DEV = "eval"
SPLITS = [TRAIN, DEV]

In [6]:
# create datasets
data_paths = {
    split: data_dir / f"{split}.json" 
    for split in SPLITS
}
data = {
    split: json.loads(path.read_text()) 
    for split, path in data_paths.items()
}


data_train = [
    {
        "token": token,
        "tag": tag,
        "id": item["id"]
        
    }
    for item in data["train"]
    for token, tag in zip(item["tokens"], item["tags"])
]


data_eval = [
    {
        "token": token,
        "tag": tag,
        "id": item["id"]
        
    }
    for item in data["eval"]
    for token, tag in zip(item["tokens"], item["tags"])
]

data = {
    "train": data_train,
    "eval": data_eval
}

datasets: Dict[str, SeqTaggingClsDataset] = {
    split: SeqTaggingClsDataset(split_data, vocab, tag2idx, max_len)
    for split, split_data in data.items()
}
display(datasets)

{'token': 'i', 'tag': 'O', 'id': 'train-0'}
{'token': 'i', 'tag': 'O', 'id': 'eval-0'}


{'train': <dataset.SeqTaggingClsDataset at 0x7fbab617cd90>,
 'eval': <dataset.SeqTaggingClsDataset at 0x7fbab60808e0>}

In [7]:
train_data_loader = DataLoader(
    datasets["train"],
    batch_size=batch_size,
    shuffle=True,
    collate_fn=datasets["train"].collate_fn
)
dev_data_loader = DataLoader(
    datasets["eval"],
    batch_size=batch_size,
    shuffle=True,
    collate_fn=datasets["eval"].collate_fn,
)
# for batch in train_data_loader:
#     print(batch["ids"])
#     print(batch["labels"])
#     print(batch["index"])

In [8]:
embeddings = torch.load(cache_dir / "embeddings.pt")
# TODO: init model and move model to target device(cpu / gpu)
model = SeqTagger(
    embeddings,
    hidden_size,
    num_layers,
    dropout,
    bidirectional,
    len(tag2idx),
)
model.to(device)

# TODO: init optimizer
optimizer = torch.optim.Adam(model.parameters(), lr=lr)
criterion = torch.nn.CrossEntropyLoss()

train_losses = []
train_accs = []
valid_losses = []
valid_accs = []
best_valid_loss = float('inf')

epoch_pbar = trange(num_epoch, desc="Epoch")
for epoch in epoch_pbar:
    # TODO: Training loop - iterate over train dataloader and update model weights
    model.train()
    epoch_train_losses = []
    epoch_train_accs = []
    for batch in train_data_loader:
        ids = batch["ids"].to(device)
        labels = batch["labels"].to(device)
        pred = model(ids).to(device)
        loss = criterion(pred, labels).to(device)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        epoch_train_losses.append(loss.item())
        epoch_train_accs.append((pred.argmax(dim=1) == labels).float().mean().item())

    # TODO: Evaluation loop - calculate accuracy and save model weights
    model.eval()
    epoch_eval_losses = []
    epoch_eval_accs = []
    with torch.no_grad():
        for batch in dev_data_loader:
            ids = batch["ids"].to(device)
            labels = batch["labels"].to(device)
            pred = model(ids).to(device)
            loss = criterion(pred, labels).to(device)
            epoch_eval_losses.append(loss.item())
            epoch_eval_accs.append((pred.argmax(dim=1) == labels).float().mean().item())

    train_losses.extend(epoch_train_losses)
    train_accs.extend(epoch_train_accs)
    valid_losses.extend(epoch_eval_losses)
    valid_accs.extend(epoch_eval_accs)

    epoch_train_loss = np.mean(epoch_train_losses)
    epoch_train_acc = np.mean(epoch_train_accs)
    epoch_valid_loss = np.mean(epoch_eval_losses)
    epoch_valid_acc = np.mean(epoch_eval_accs)

    print(epoch_train_acc)
    print(epoch_valid_acc)

    if epoch_valid_loss < best_valid_loss:
        best_valid_loss = epoch_valid_loss
        torch.save(model.state_dict(), ckpt_dir / 'slot_model.pt')

Epoch:   2%|███▎                                                                                                                                                                  | 1/50 [01:27<1:11:05, 87.05s/it]

0.8390431729230013
0.8616312779486179


Epoch:   4%|██████▋                                                                                                                                                               | 2/50 [02:56<1:10:51, 88.57s/it]

0.8626970410346985
0.8703179396688938


Epoch:   6%|█████████▉                                                                                                                                                            | 3/50 [04:27<1:10:18, 89.77s/it]

0.8705404953523116
0.8768559321761131


Epoch:   8%|█████████████▎                                                                                                                                                        | 4/50 [05:59<1:09:27, 90.60s/it]

0.8738062836907127
0.8797497525811195


Epoch:  10%|████████████████▌                                                                                                                                                     | 5/50 [07:32<1:08:33, 91.41s/it]

0.8773384077982469
0.8832897916436195


Epoch:  12%|███████████████████▉                                                                                                                                                  | 6/50 [09:05<1:07:23, 91.89s/it]

0.8790951203216206
0.8803080357611179


Epoch:  14%|███████████████████████▏                                                                                                                                              | 7/50 [10:38<1:06:10, 92.34s/it]

0.8815238773822784
0.8799418248236179


Epoch:  16%|██████████████████████████▌                                                                                                                                           | 8/50 [12:11<1:04:48, 92.58s/it]

0.8831077472730117
0.8829756490886211


Epoch:  18%|█████████████████████████████▉                                                                                                                                        | 9/50 [13:44<1:03:18, 92.63s/it]

0.8859486563639207
0.8829594478011131


Epoch:  20%|█████████████████████████████████                                                                                                                                    | 10/50 [15:17<1:01:45, 92.65s/it]

0.8858799901875583
0.883445993065834


Epoch:  22%|████████████████████████████████████▎                                                                                                                                | 11/50 [16:49<1:00:12, 92.62s/it]

0.8871821262619712
0.8830618485808372


Epoch:  24%|████████████████████████████████████████                                                                                                                               | 12/50 [18:21<58:26, 92.28s/it]

0.8880284276875583
0.8841604813933372


Epoch:  26%|███████████████████████████████████████████▍                                                                                                                           | 13/50 [19:51<56:34, 91.75s/it]

0.8888013498349623
0.8818787522614002


Epoch:  28%|██████████████████████████████████████████████▊                                                                                                                        | 14/50 [21:22<54:53, 91.47s/it]

0.8894394544037906
0.8846684321761131


Epoch:  30%|██████████████████████████████████████████████████                                                                                                                     | 15/50 [22:53<53:14, 91.27s/it]

0.8895271333781156
0.8849287740886211


Epoch:  32%|█████████████████████████████████████████████████████▍                                                                                                                 | 16/50 [24:24<51:38, 91.14s/it]

0.8898585200309753
0.8826991096138954


Epoch:  34%|████████████████████████████████████████████████████████▊                                                                                                              | 17/50 [25:55<50:03, 91.01s/it]

0.8899601833386854
0.882995318621397


Epoch:  36%|████████████████████████████████████████████████████████████                                                                                                           | 18/50 [27:24<48:21, 90.66s/it]

0.8904999245296825
0.8843022212386131


Epoch:  38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 19/50 [28:55<46:46, 90.54s/it]

0.8903638498349623
0.8878387920558453


Epoch:  40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 20/50 [30:25<45:16, 90.54s/it]

0.8912233509800651
0.8845087587833405


Epoch:  42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 21/50 [31:56<43:45, 90.54s/it]

0.8917310373349623
0.8830097801983356


Epoch:  44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 22/50 [33:27<42:18, 90.66s/it]

0.8918649120764299
0.8828194439411163


Epoch:  46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 23/50 [34:58<40:50, 90.75s/it]

0.8910693634640087
0.887108102440834


Epoch:  48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 24/50 [36:29<39:20, 90.80s/it]

0.8920031867244027
0.8852591142058372


Epoch:  50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 25/50 [37:59<37:48, 90.73s/it]

0.8909084623510187
0.8814066685736179


Epoch:  52%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 26/50 [39:29<36:12, 90.52s/it]

0.8912434632127936
0.8819487541913986


Epoch:  54%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 27/50 [40:59<34:37, 90.34s/it]

0.8921749293804169
0.8842142857611179


Epoch:  56%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 28/50 [42:29<33:05, 90.26s/it]

0.8919832310893319
0.8824873678386211


Epoch:  58%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 29/50 [43:59<31:35, 90.25s/it]

0.8915594518184662
0.8840742819011211


Epoch:  60%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 30/50 [45:30<30:07, 90.37s/it]

0.8919642182913694
0.8837780728936195


Epoch:  62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 31/50 [47:01<28:40, 90.56s/it]

0.8921832572330128
0.8854673877358437


Epoch:  64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 32/50 [48:32<27:13, 90.73s/it]

0.8916257603601976
0.8838301412761211


Epoch:  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 33/50 [50:03<25:44, 90.84s/it]

0.8923135183074258
0.8857294619083405


Epoch:  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 34/50 [51:34<24:14, 90.89s/it]

0.8916634716770866
0.8827656395733356


Epoch:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 35/50 [53:05<22:44, 90.94s/it]

0.8915534805167805
0.8869322314858437


Epoch:  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 36/50 [54:38<21:22, 91.61s/it]

0.8922437526962974
0.8842142857611179


Epoch:  74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 37/50 [56:11<19:56, 92.03s/it]

0.8917157958854328
0.885765329003334


Epoch:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 38/50 [57:45<18:28, 92.34s/it]

0.8920826944437894
0.8848229013383389


Epoch:  78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 39/50 [59:18<16:59, 92.65s/it]

0.8873879665678198
0.8823311626911163


Epoch:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 40/50 [1:00:51<15:29, 92.93s/it]

0.8897958251562985
0.8859215341508389


Epoch:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 41/50 [1:02:25<13:57, 93.09s/it]

0.8908682373437015
0.8841442838311195


Epoch:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 42/50 [1:03:58<12:25, 93.20s/it]

0.8926507191224532
0.8846649639308453


Epoch:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 43/50 [1:05:32<10:52, 93.24s/it]

0.8922200257127936
0.8823832310736179


Epoch:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 44/50 [1:07:05<09:19, 93.29s/it]

0.8918152592398904
0.881652545183897


Epoch:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 45/50 [1:08:39<07:46, 93.34s/it]

0.8920294273983348
0.884178414940834


Epoch:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 46/50 [1:10:12<06:13, 93.32s/it]

0.8924519495530562
0.8840042799711227


Epoch:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 47/50 [1:11:46<04:40, 93.56s/it]

0.8923088041218844
0.8842484205961227


Epoch:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 48/50 [1:13:20<03:07, 93.65s/it]

0.8922754927115006
0.883445993065834


Epoch:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 49/50 [1:14:53<01:33, 93.62s/it]

0.891784461519935
0.883690133690834


Epoch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [1:16:26<00:00, 91.73s/it]

0.8931953310966492
0.8829594478011131





# Predict model

In [5]:
embeddings = torch.load(cache_dir / "embeddings.pt")
cache_dir_dir = Path("./cache/slot/")
test_file = Path("data/slot/test.json")
with open(cache_dir / "vocab.pkl", "rb") as f:
    vocab: Vocab = pickle.load(f)

intent_idx_path = cache_dir / "tag2idx.json"
intent2idx: Dict[str, int] = json.loads(intent_idx_path.read_text())

data = json.loads(test_file.read_text())

data_eval = [
    {
        "token": token,
        "id": item["id"]   
    }
    for item in data
    for token in item["tokens"]
]

dataset = SeqTaggingClsDataset(data_eval, vocab, intent2idx, max_len)

# TODO: crecate DataLoader for test dataset
test_data_loader = DataLoader(
    dataset,
    batch_size=batch_size,
    shuffle=False,
    collate_fn=dataset.collate_fn,
)

In [13]:
test_model = SeqTagger(
    embeddings,
    hidden_size,
    num_layers,
    dropout,
    bidirectional,
    len(tag2idx),
)

test_model.load_state_dict(torch.load("./ckpt/slot/slot_model.pt"))
test_model.to(device)
test_model.eval()

result_dict = {}
result_index_list = list()
result_ids_list = list()

for batch in test_data_loader:
    ids = batch["ids"].to(device)
    pred = test_model(ids).to(device)
    
#     print("-" * 59)
#     print(pred.argmax(dim=1))
    
#     print("-" * 59)
#     print(pred.argmax(dim=1).shape)
    
#     print("-" * 59)
#     print(batch["index"])
    
#     print("-" * 59)
#     print(len(batch["index"]))
          
#     print("-" * 59)

    result_ids_list.extend(
        pred.argmax(dim=1).tolist()
    )
    
    result_index_list.extend(batch["index"])

In [14]:
display(len(result_ids_list))
display(len(result_index_list))

28571

28571

In [15]:
for index, id in zip(result_index_list, result_ids_list):
    if index not in result_dict:
        result_dict[index] = []
    result_dict[index].append(
        dataset.idx2label(id)
    )

In [24]:
csv_dict = {
    "id": [],
    "tags": []
}
for k, v in result_dict.items():
    csv_dict["id"].append(k)
    csv_dict["tags"].append(
        " ".join(v)
    )

csv_result = pd.DataFrame(csv_dict)
csv_result.to_csv("slot_res.csv", index=False)

In [26]:
csv_result.head()

Unnamed: 0,id,tags
0,test-0,O O O O B-people O O B-time
1,test-1,O O O O O O O B-people I-date O B-time O
2,test-2,O O O O O B-people
3,test-3,O O O O O
4,test-4,O O O O


In [27]:
csv_result.iloc[60, :]

id                                   test-60
tags    O O O I-people I-people O O I-people
Name: 60, dtype: object