In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import distill

In [3]:
from smart_open import open as smart_open
from transformers import BertTokenizer
import torch
import io
from dataloader import get_dataloader, check_cache, prepare_features, process_data, prepare_inputs
from load import load_data
import os

In [4]:
load_path = "https://amazonmassive.s3.us-west-1.amazonaws.com/model.pt"
print(load_path)
with smart_open(load_path, 'rb') as f:
    #buffer = io.BytesIO(f.read())
    model=torch.load(io.BytesIO(f.read()),map_location=torch.device('cuda'))

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", truncation_side="left")

# move elsewhere
config = {
        'vocab_size' : len(tokenizer.get_vocab()),
        'embedding_size' : 300,
        'hidden_size' : 512,
        'fc_size' : 128,
        'num_layers' : 2,
        'n_classes' : 60,
        'dropout' : 0.5,
        'epochs' : 40,
        'lr' : 5e-4,
        'temp' : 1,
        'weight_decay' : 1e-4,
        'alpha' : 0.95,
        'batch_size' : 256,
        'input_dir' : 'assets',
        'dataset' : 'amazon',
        'ignore_cache' : False,
        'max_len' : 20,
        'early_stop' : 3
        #'output_dir' : 'result',
        }

https://amazonmassive.s3.us-west-1.amazonaws.com/model.pt


In [None]:
config

In [5]:
class AttributeDict(dict):
    __getattr__ = dict.__getitem__
    __setattr__ = dict.__setitem__
    __delattr__ = dict.__delitem__
    
config = AttributeDict(config)

In [6]:
cache_results, already_exist = check_cache(config)

if already_exist:
    print('exist')
    features = cache_results
else:
    print('not exist')
    data = load_data()
    features = prepare_features(config, data, tokenizer, cache_results)
datasets = process_data(config, features, tokenizer)

Creating new input features ...
exist


No config specified, defaulting to: amazon_massive_intent/en
Found cached dataset amazon_massive_intent (C:/Users/Wang/.cache/huggingface/datasets/mteb___amazon_massive_intent/en/1.0.0/a9ab9f5d309356e4995ca161846b3636f56df1ad43cb04bb300dd8b4f99141f4)


  0%|          | 0/3 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'label', 'label_text', 'text'],
        num_rows: 11514
    })
    validation: Dataset({
        features: ['id', 'label', 'label_text', 'text'],
        num_rows: 2033
    })
    test: Dataset({
        features: ['id', 'label', 'label_text', 'text'],
        num_rows: 2974
    })
})


100%|██████████████████████████████████████████████████████████████████████████| 11514/11514 [00:03<00:00, 3077.37it/s]


{'input_ids': [101, 4638, 10373, 2013, 2198, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]} {'id': '17180', 'label': 44, 'label_text': 'email_query', 'text': 'check email from john'}
Number of train features: 11514


100%|████████████████████████████████████████████████████████████████████████████| 2033/2033 [00:00<00:00, 3121.04it/s]


{'input_ids': [101, 2054, 1005, 1055, 1996, 4769, 2005, 4074, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]} {'id': '17167', 'label': 17, 'label_text': 'email_querycontact', 'text': "what's the address for alex"}
Number of validation features: 2033


100%|████████████████████████████████████████████████████████████████████████████| 2974/2974 [00:00<00:00, 3162.11it/s]

{'input_ids': [101, 2038, 2198, 2741, 2033, 2019, 10373, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]} {'id': '17179', 'label': 44, 'label_text': 'email_query', 'text': 'has john sent me an email'}
Number of test features: 2974





In [7]:
distill.learn(config, model, datasets , tokenizer)

Loaded train data with 45 batches


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:15<00:00,  2.83it/s, loss=3.32]


epoch 0 | train losses 3.4368905120425755
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 14.00it/s]


validation acc: 0.06443679291687161 |dataset split validation size: 2033


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:15<00:00,  2.90it/s, loss=3.09]


epoch 1 | train losses 3.264537196689182
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 14.90it/s]


validation acc: 0.12149532710280374 |dataset split validation size: 2033


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:15<00:00,  2.84it/s, loss=2.83]


epoch 2 | train losses 2.9557895872328017
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.54it/s]


validation acc: 0.21790457452041317 |dataset split validation size: 2033


100%|████████████████████████████████████████████████████████████████████████| 45/45 [00:16<00:00,  2.76it/s, loss=2.6]


epoch 3 | train losses 2.6370142036014133
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 12.44it/s]


validation acc: 0.24938514510575505 |dataset split validation size: 2033


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:16<00:00,  2.68it/s, loss=2.29]


epoch 4 | train losses 2.3622832457224527
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 13.44it/s]


validation acc: 0.3512051155927201 |dataset split validation size: 2033


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:16<00:00,  2.70it/s, loss=1.86]


epoch 5 | train losses 2.041533342997233
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.45it/s]


validation acc: 0.4171175602557796 |dataset split validation size: 2033


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.19it/s, loss=1.74]


epoch 6 | train losses 1.7394599702623155
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.57it/s]


validation acc: 0.500245941957698 |dataset split validation size: 2033


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.24it/s, loss=1.35]


epoch 7 | train losses 1.4498676538467408
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.03it/s]


validation acc: 0.5686178061977374 |dataset split validation size: 2033


100%|███████████████████████████████████████████████████████████████████████| 45/45 [00:19<00:00,  2.25it/s, loss=1.02]


epoch 8 | train losses 1.1968798584408231
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.05it/s]


validation acc: 0.632070831283817 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:19<00:00,  2.30it/s, loss=0.851]


epoch 9 | train losses 0.9731775787141588
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.37it/s]


validation acc: 0.6714215445154943 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:19<00:00,  2.26it/s, loss=0.855]


epoch 10 | train losses 0.809516433874766
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 17.01it/s]


validation acc: 0.7092966060009838 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:21<00:00,  2.14it/s, loss=0.692]


epoch 11 | train losses 0.6991011884477404
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 12.45it/s]


validation acc: 0.7265125430398426 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.15it/s, loss=0.569]


epoch 12 | train losses 0.577143837345971
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.61it/s]


validation acc: 0.7427447122479095 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.17it/s, loss=0.511]


epoch 13 | train losses 0.5005044963624742
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.27it/s]


validation acc: 0.7530742744712248 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.20it/s, loss=0.424]


epoch 14 | train losses 0.42013916108343335
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00,  9.71it/s]


validation acc: 0.7624200688637481 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:22<00:00,  2.01it/s, loss=0.423]


epoch 15 | train losses 0.39213339620166354
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 16.17it/s]


validation acc: 0.7609444171175602 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:22<00:00,  2.01it/s, loss=0.359]


epoch 16 | train losses 0.347553159793218
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.27it/s]


validation acc: 0.763895720609936 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:21<00:00,  2.10it/s, loss=0.303]


epoch 17 | train losses 0.3044697874122196
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.97it/s]


validation acc: 0.764387604525332 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:22<00:00,  2.04it/s, loss=0.284]


epoch 18 | train losses 0.2840623355574078
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.64it/s]


validation acc: 0.7722577471716675 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.18it/s, loss=0.275]


epoch 19 | train losses 0.2632052004337311
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.05it/s]


validation acc: 0.7747171667486473 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:22<00:00,  2.04it/s, loss=0.244]


epoch 20 | train losses 0.2337894641690784
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 16.22it/s]


validation acc: 0.7850467289719626 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.17it/s, loss=0.227]


epoch 21 | train losses 0.22061460978455014
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00,  9.47it/s]


validation acc: 0.7761928184948352 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:21<00:00,  2.07it/s, loss=0.274]


epoch 22 | train losses 0.20605250861909655
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 14.91it/s]


validation acc: 0.7771765863256271 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:21<00:00,  2.14it/s, loss=0.212]


epoch 23 | train losses 0.20101119776566823
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.21it/s]


validation acc: 0.779636005902607 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:21<00:00,  2.12it/s, loss=0.199]


epoch 24 | train losses 0.18347965015305412
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.69it/s]


validation acc: 0.779636005902607 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:21<00:00,  2.14it/s, loss=0.192]


epoch 25 | train losses 0.1725575155682034
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.52it/s]


validation acc: 0.7816035415641909 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.20it/s, loss=0.163]


epoch 26 | train losses 0.16072595781750149
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.22it/s]


validation acc: 0.7860304968027545 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:18<00:00,  2.42it/s, loss=0.188]


epoch 27 | train losses 0.18526800241735247
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00,  9.98it/s]


validation acc: 0.7820954254795868 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:18<00:00,  2.39it/s, loss=0.179]


epoch 28 | train losses 0.18337499830457898
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.58it/s]


validation acc: 0.780127889818003 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:19<00:00,  2.32it/s, loss=0.188]


epoch 29 | train losses 0.16201074951224856
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.12it/s]


validation acc: 0.7830791933103788 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:18<00:00,  2.40it/s, loss=0.208]


epoch 30 | train losses 0.15896476871437495
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.74it/s]


validation acc: 0.7845548450565667 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:18<00:00,  2.37it/s, loss=0.122]


epoch 31 | train losses 0.15176246580150393
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 12.34it/s]


validation acc: 0.792916871618298 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:18<00:00,  2.41it/s, loss=0.114]


epoch 32 | train losses 0.1534287189443906
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 12.43it/s]


validation acc: 0.7919331037875061 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:18<00:00,  2.42it/s, loss=0.125]


epoch 33 | train losses 0.1381225743227535
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.48it/s]


validation acc: 0.7835710772257747 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:18<00:00,  2.37it/s, loss=0.116]


epoch 34 | train losses 0.12803749077849919
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.19it/s]


validation acc: 0.7894736842105263 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:19<00:00,  2.26it/s, loss=0.129]


epoch 35 | train losses 0.11709917800294029
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.13it/s]


validation acc: 0.7939006394490901 |dataset split validation size: 2033


100%|█████████████████████████████████████████████████████████████████████| 45/45 [00:19<00:00,  2.27it/s, loss=0.0931]


epoch 36 | train losses 0.11256734844711092
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 11.57it/s]


validation acc: 0.7939006394490901 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:19<00:00,  2.34it/s, loss=0.088]


epoch 37 | train losses 0.10944215605656306
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 13.75it/s]


validation acc: 0.7889818002951303 |dataset split validation size: 2033


100%|██████████████████████████████████████████████████████████████████████| 45/45 [00:22<00:00,  2.04it/s, loss=0.147]


epoch 38 | train losses 0.11306494921445846
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.00it/s]


validation acc: 0.7939006394490901 |dataset split validation size: 2033


100%|█████████████████████████████████████████████████████████████████████| 45/45 [00:20<00:00,  2.25it/s, loss=0.0791]


epoch 39 | train losses 0.11444978747102949
Loaded validation data with 8 batches


100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 10.34it/s]

validation acc: 0.794392523364486 |dataset split validation size: 2033





'end of epochs'

In [10]:
student_model = distill.StudentModel(config)
student_model.load_state_dict(torch.load('./saved_model/student.pt'))
student_model.eval()


StudentModel(
  (embedding): Embedding(30522, 300)
  (rnn): LSTM(300, 512, num_layers=2, batch_first=True, bidirectional=True)
  (fc): Sequential(
    (0): Linear(in_features=1024, out_features=128, bias=True)
    (1): ReLU(inplace=True)
    (2): Dropout(p=0.5, inplace=False)
    (3): Linear(in_features=128, out_features=60, bias=True)
  )
)

In [11]:
from torch.optim.lr_scheduler import CosineAnnealingWarmRestarts

In [12]:
optimizer = optim.AdamW(student_model.parameters(), lr=config.lr, weight_decay = config.weight_decay)
scheduler = CosineAnnealingWarmRestarts(optimizer, T_0, T_mult)
for i in range(20):
    scheduler.step()
    scheduler.step(26)
    scheduler.step()

NameError: name 'optimizer' is not defined

In [None]:
a = torch.randint(0, 5, size = (256 , 20 , 1024))
a

In [None]:
a[:, -1, :]

In [None]:
length = torch.randint(1, 20, size = (256,))
length

In [None]:
sum(length)

In [None]:
a[:, -1, :].size()

In [None]:
packed = torch.nn.utils.rnn.pack_padded_sequence(a, length, batch_first=True, enforce_sorted = False)

In [None]:
packed.data.size()