In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import json
import numpy as np
from torch.utils.data import Dataset, DataLoader
import glob
import wandb
import os
import torch.optim as optimizers

In [3]:
import dfs_code
from torch_geometric.data import InMemoryDataset, Data
import pickle
import torch
import torch.nn as nn
import tqdm
import copy
import pandas as pd

In [4]:
import sys
sys.path = ['../../src'] + sys.path
from dfs_transformer import EarlyStopping, DFSCodeSeq2SeqFC, smiles2graph, BERTize



In [5]:
from dfs_transformer import DFSCodeSeq2SeqFCFeatures, Trainer, PubChem, get_n_files
from dfs_transformer.training.utils import seq_loss, seq_acc, collate_BERT, collate_rnd2min
import argparse
import yaml
import functools
from ml_collections import ConfigDict
fname = '../../config/selfattn/bert100K.yaml'

In [6]:
with open(fname) as file:
    config = ConfigDict(yaml.load(file, Loader=yaml.FullLoader))

In [7]:
run = wandb.init(mode="online", project="pubchem-experimental", entity="chrisxx", 
                 name="fbert-100K", config=config.to_dict())

ERROR:wandb.jupyter:Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mchrisxx[0m (use `wandb login --relogin` to force relogin)
[34m[1mwandb[0m: wandb version 0.12.2 is available!  To upgrade, please run:
[34m[1mwandb[0m:  $ pip install wandb --upgrade
2021-09-15 19:59:27.414858: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/opt/cuda/extras/CUPTI/lib64/:/opt/intel/lib:/opt/intel/mkl/lib/intel64:/opt/intel:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/bin/x86-64_linux:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/python/3.7/x86-64_linux:/opt/intel/clck_latest/lib:/opt/intel/daal/lib:/opt/intel/intelpython3/lib:/opt/intel/ipp/lib:/opt/intel/itac_2019/lib:/opt/intel/itac_latest/lib:/opt/in

In [8]:
m = config.model
t = config.training
d = config.data
device = torch.device('cuda:%d'%config.training.gpu_id if torch.cuda.is_available() else 'cpu')

ce = nn.CrossEntropyLoss(ignore_index=-1)
bce = nn.BCEWithLogitsLoss()    

fields = ['acc-dfs1', 'acc-dfs2', 'acc-atm1', 'acc-atm2', 'acc-bnd']
metrics = {field:functools.partial(seq_acc, idx=idx) for idx, field in enumerate(fields)}

In [9]:
def collate_fn(dlist, fraction_missing=0.1):
    node_batch = [] 
    edge_batch = []
    min_code_batch = []
    for d in dlist:
        node_batch += [d.node_features]
        edge_batch += [d.edge_features]
        atom1 = d.node_features[d.min_dfs_code[:, -3]]
        atom2 = d.node_features[d.min_dfs_code[:, -1]]
        bond = d.edge_features[d.min_dfs_code[:, -2]]
        min_code_batch += [torch.cat((d.min_dfs_code, atom1, atom2, bond), dim=1)]

    inputs, outputs = BERTize(min_code_batch, fraction_missing=fraction_missing)
    inputs = [inp[:, :8].long() for inp in inputs]
    targets = nn.utils.rnn.pad_sequence(outputs, padding_value=-1)
    return inputs, node_batch, edge_batch, targets 

In [10]:
def loss(pred, target):
    dfs1, dfs2, atm1, atm2, bnd, feat = pred
    
    pred_dfs1 = torch.reshape(dfs1, (-1, m.max_nodes))
    pred_dfs2 = torch.reshape(dfs2, (-1, m.max_nodes))
    pred_atm1 = torch.reshape(atm1, (-1, m.n_atoms))
    pred_atm2 = torch.reshape(atm2, (-1, m.n_atoms))
    pred_bnd = torch.reshape(bnd, (-1, m.n_bonds))
    pred_feat = torch.reshape(feat, (-1,  2*m.n_node_features + m.n_edge_features))
    
    tgt_dfs1 = target[:, :, 0].view(-1).long()
    tgt_dfs2 = target[:, :, 1].view(-1).long()
    tgt_atm1 = target[:, :, 2].view(-1).long()
    tgt_atm2 = target[:, :, 4].view(-1).long()
    tgt_bnd = target[:, :, 3].view(-1).long()
    tgt_feat = target[:, :, 8:].view(-1, 2*m.n_node_features + m.n_edge_features)
    
    loss = ce(pred_dfs1, tgt_dfs1) 
    loss += ce(pred_dfs2, tgt_dfs2)
    loss += ce(pred_atm1, tgt_atm1)
    loss += ce(pred_bnd, tgt_bnd)
    loss += ce(pred_atm2, tgt_atm2)
    
    mask = tgt_dfs1 != -1
    loss += bce(pred_feat[mask], tgt_feat[mask])
    
    return loss 

In [11]:
model = DFSCodeSeq2SeqFCFeatures(**m)
    
if t.load_last and t.es_path is not None:
    model.load_state_dict(torch.load(t.es_path, map_location=device))
elif t.pretrained_dir is not None:
    model.load_state_dict(torch.load(t.pretrained_dir, map_location=device))

In [12]:
validloader = None
if d.valid_path is not None:
    validset = PubChem('../.'+d.valid_path, max_nodes=m.max_nodes, max_edges=m.max_edges)
    validloader = DataLoader(validset, batch_size=d.batch_size, shuffle=True, 
                             pin_memory=False, collate_fn=collate_fn)
    exclude = validset.smiles

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 16.37it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9978/9978 [00:00<00:00, 14780.53it/s]


In [13]:
data = next(iter(validloader))

In [14]:
data[-1][1]

tensor([[-1., -1., -1.,  ..., -1., -1., -1.],
        [-1., -1., -1.,  ..., -1., -1., -1.],
        [-1., -1., -1.,  ..., -1., -1., -1.],
        ...,
        [-1., -1., -1.,  ..., -1., -1., -1.],
        [-1., -1., -1.,  ..., -1., -1., -1.],
        [-1., -1., -1.,  ..., -1., -1., -1.]])

In [15]:
trainer = Trainer(model, None, loss, validloader=validloader, metrics=metrics, 
                  wandb_run = run, **t)
trainer.n_epochs = d.n_iter_per_split

In [16]:
n_files = get_n_files('../.'+d.path)
if d.n_used is None:
    n_splits = 1
else:
    n_splits = n_files // d.n_used

In [17]:
for epoch in range(t.n_epochs):
    print('starting epoch %d'%(epoch+1))
    for split in range(n_splits):
        dataset = PubChem('../.'+d.path, n_used = d.n_used, max_nodes=m.max_nodes, 
                          max_edges=m.max_edges, exclude=exclude)
        loader = DataLoader(dataset, batch_size=d.batch_size, shuffle=True, 
                            pin_memory=False, collate_fn=collate_fn)
        trainer.loader = loader
        trainer.fit()
        if trainer.stop_training:
            break
    if trainer.stop_training:
        break

starting epoch 1


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:06<00:00,  1.56it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 99796/99796 [00:06<00:00, 15877.82it/s]
Epoch 1: loss 7.257581 0.6176 0.6373 0.8725 0.6961 0.7255: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:34<00:00,  4.40it/s]
Valid 1: loss 4.958181 0.7018 0.7193 0.7895 0.6842 0.6842: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.07it/s]
Epoch 2: loss 4.615386 0.6436 0.7327 0.7921 0.8020 0.7129: 100%|████████████████████████████████████████████████████████████████████████████████████████

EarlyStopping counter: 1 out of 10


Epoch 6: loss 1.873947 0.8679 0.8868 0.9623 0.9151 0.9528: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:23<00:00,  4.50it/s]
Valid 6: loss 1.493221 0.8793 0.9483 0.9655 0.8966 0.9310: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 10.97it/s]
Epoch 7: loss 1.723645 0.9570 0.8925 0.9892 0.9140 0.9247:  26%|█████████████████████████████▌                                                                                  | 526/1996 [01:59<05:18,  4.61it/s]

EarlyStopping counter: 1 out of 10


Epoch 7: loss 1.674628 0.8473 0.9237 0.9695 0.9313 0.9084:  51%|█████████████████████████████████████████████████████████                                                      | 1025/1996 [03:48<03:35,  4.51it/s]

EarlyStopping counter: 2 out of 10


Epoch 7: loss 1.644109 0.8151 0.8739 0.9412 0.8655 0.9664:  76%|████████████████████████████████████████████████████████████████████████████████████▊                          | 1525/1996 [05:38<01:48,  4.33it/s]

EarlyStopping counter: 3 out of 10


Epoch 7: loss 1.612130 0.7500 0.8333 0.9352 0.8981 0.9259: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:21<00:00,  4.52it/s]
Valid 7: loss 1.304890 0.8889 0.8889 0.9861 0.9167 0.9444: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.08it/s]
Epoch 8: loss 1.400503 0.9222 0.9778 0.9333 0.9333 0.9444: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:20<00:00,  4.53it/s]
Valid 8: loss 1.080939 0.8955 0.9552 0.9254 0.9403 0.9851: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.07it/s]
Epoch 9: loss 1.266387 0.8618 0.8780 0.9431 0.9106 0.9106:  52%|█████████████████████████████████████████████████████████▍                              

EarlyStopping counter: 1 out of 10


Epoch 9: loss 1.227853 0.9327 0.9423 0.9904 0.8942 0.9423: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:19<00:00,  4.54it/s]
Valid 9: loss 0.956861 0.9194 0.9677 0.9839 0.9032 0.9516: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.14it/s]
Epoch 10: loss 1.093309 0.9375 0.9688 0.9583 0.9583 0.9583: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:21<00:00,  4.52it/s]
Valid 10: loss 0.860072 0.9275 0.9710 1.0000 0.9420 0.9710: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.05it/s]
Epoch 11: loss 0.979221 0.9175 0.9485 0.9588 0.9485 0.9691: 100%|███████████████████████████████████████████████████████████████████████████████████████

EarlyStopping counter: 1 out of 10


Epoch 12: loss 0.904737 0.9519 0.9712 0.9712 0.9231 0.9904:  52%|█████████████████████████████████████████████████████████▋                                                    | 1046/1996 [03:50<03:10,  5.00it/s]

EarlyStopping counter: 2 out of 10


Epoch 12: loss 0.887260 0.9318 0.9773 0.9773 0.9318 1.0000: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:18<00:00,  4.55it/s]
Valid 12: loss 0.697318 0.9344 0.9508 0.9672 1.0000 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.03it/s]
Epoch 13: loss 0.870042 0.9558 0.9912 0.9912 0.9558 0.9735:  28%|██████████████████████████████▌                                                                                | 549/1996 [02:03<05:11,  4.65it/s]

EarlyStopping counter: 1 out of 10


Epoch 13: loss 0.833698 0.9810 0.9619 0.9905 0.9429 0.9619:  53%|█████████████████████████████████████████████████████████▊                                                    | 1049/1996 [03:51<03:09,  4.99it/s]

EarlyStopping counter: 2 out of 10


Epoch 13: loss 0.824970 0.9406 0.9505 0.9802 0.9604 0.9703:  78%|█████████████████████████████████████████████████████████████████████████████████████▍                        | 1550/1996 [05:41<01:25,  5.19it/s]

EarlyStopping counter: 3 out of 10


Epoch 13: loss 0.824032 0.9896 0.9896 1.0000 0.9792 1.0000: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:21<00:00,  4.52it/s]
Valid 13: loss 0.639170 0.9821 1.0000 1.0000 0.9286 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.17it/s]
Epoch 14: loss 0.788273 0.9429 0.9429 0.9905 0.9524 0.9905:  28%|██████████████████████████████▊                                                                                | 553/1996 [02:02<04:58,  4.84it/s]

EarlyStopping counter: 1 out of 10


Epoch 14: loss 0.778216 0.9500 0.9600 0.9800 0.9100 0.9600:  53%|██████████████████████████████████████████████████████████                                                    | 1053/1996 [03:51<03:15,  4.82it/s]

EarlyStopping counter: 2 out of 10


Epoch 14: loss 0.767959 0.9811 0.9245 1.0000 0.9811 0.9906:  78%|█████████████████████████████████████████████████████████████████████████████████████▌                        | 1553/1996 [05:40<01:27,  5.05it/s]

EarlyStopping counter: 3 out of 10


Epoch 14: loss 0.761957 0.9062 0.9688 0.9792 0.9375 0.9583: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:17<00:00,  4.57it/s]
Valid 14: loss 0.603255 0.9014 0.9296 1.0000 0.9155 0.9718: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.13it/s]
Epoch 15: loss 0.757604 0.9099 0.9640 0.9730 0.9640 0.9910:   3%|███▏                                                                                                            | 57/1996 [00:12<06:53,  4.69it/s]

EarlyStopping counter: 4 out of 10


Epoch 15: loss 0.764190 0.9746 0.9831 0.9831 0.9407 0.9831:  28%|███████████████████████████████                                                                                | 558/1996 [02:02<04:46,  5.02it/s]

EarlyStopping counter: 5 out of 10


Epoch 15: loss 0.738296 0.9735 0.9646 0.9735 0.9469 0.9823:  53%|██████████████████████████████████████████████████████████▎                                                   | 1057/1996 [03:51<03:17,  4.75it/s]

EarlyStopping counter: 6 out of 10
Epoch    59: reducing learning rate of group 0 to 2.4000e-05.


Epoch 15: loss 0.713466 0.9439 0.9533 0.9252 0.9065 0.9907: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:18<00:00,  4.55it/s]
Valid 15: loss 0.545676 0.9697 0.9394 0.9848 0.9091 0.9697: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.07it/s]
Epoch 16: loss 0.655596 0.9500 0.9200 0.9900 0.9500 0.9700: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:22<00:00,  4.51it/s]
Valid 16: loss 0.520756 0.9836 0.9836 0.9836 0.9508 0.9836: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 10.98it/s]
Epoch 17: loss 0.619084 0.9120 0.9440 0.9760 0.9200 0.9680:  53%|██████████████████████████████████████████████████████████▋                            

EarlyStopping counter: 1 out of 10


Epoch 17: loss 0.618376 0.9153 0.9661 0.9831 0.9237 0.9492:  78%|██████████████████████████████████████████████████████████████████████████████████████▏                       | 1565/1996 [05:48<01:32,  4.68it/s]

EarlyStopping counter: 2 out of 10


Epoch 17: loss 0.620323 0.9806 0.9417 0.9709 0.9223 0.9612: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:23<00:00,  4.50it/s]
Valid 17: loss 0.501666 0.9836 1.0000 1.0000 0.9508 0.9836: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.11it/s]
Epoch 18: loss 0.595633 0.9901 0.9802 0.9901 0.9406 0.9901:  29%|███████████████████████████████▋                                                                               | 569/1996 [02:06<04:59,  4.77it/s]

EarlyStopping counter: 1 out of 10


Epoch 18: loss 0.595459 0.9826 0.9391 0.9739 0.9130 0.9652:  54%|██████████████████████████████████████████████████████████▉                                                   | 1069/1996 [03:54<03:19,  4.65it/s]

EarlyStopping counter: 2 out of 10


Epoch 18: loss 0.590311 0.9320 0.9417 0.9515 0.9417 0.9806:  79%|██████████████████████████████████████████████████████████████████████████████████████▍                       | 1569/1996 [05:43<01:33,  4.56it/s]

EarlyStopping counter: 3 out of 10


Epoch 18: loss 0.591682 1.0000 0.9900 1.0000 0.9400 0.9900: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:19<00:00,  4.54it/s]
Valid 18: loss 0.463512 0.9559 0.9559 1.0000 0.9559 0.9853: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.08it/s]
Epoch 19: loss 0.624120 0.9533 0.9626 0.9907 0.9720 1.0000:   4%|████                                                                                                            | 73/1996 [00:16<06:57,  4.61it/s]

EarlyStopping counter: 4 out of 10


Epoch 19: loss 0.580241 0.9619 0.9619 0.9714 0.9714 0.9905:  29%|███████████████████████████████▊                                                                               | 573/1996 [02:05<05:13,  4.54it/s]

EarlyStopping counter: 5 out of 10


Epoch 19: loss 0.577447 0.9490 0.9694 0.9796 0.9184 0.9796:  54%|███████████████████████████████████████████████████████████▏                                                  | 1073/1996 [03:56<03:31,  4.35it/s]

EarlyStopping counter: 6 out of 10
Epoch    75: reducing learning rate of group 0 to 1.9200e-05.


Epoch 19: loss 0.564192 0.9619 0.9619 0.9905 0.9714 0.9619: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:21<00:00,  4.52it/s]
Valid 19: loss 0.436049 1.0000 0.9844 1.0000 0.9375 0.9844: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.21it/s]
Epoch 20: loss 0.556793 0.8615 0.8538 0.9923 0.9308 0.9923:  29%|████████████████████████████████                                                                               | 577/1996 [02:08<06:45,  3.50it/s]

EarlyStopping counter: 1 out of 10


Epoch 20: loss 0.552190 0.9344 0.9262 0.9836 0.9016 0.9918:  54%|███████████████████████████████████████████████████████████▎                                                  | 1077/1996 [03:58<03:12,  4.78it/s]

EarlyStopping counter: 2 out of 10


Epoch 20: loss 0.541747 0.9322 0.9492 0.9915 0.9153 0.9746:  79%|██████████████████████████████████████████████████████████████████████████████████████▉                       | 1577/1996 [05:47<01:23,  5.03it/s]

EarlyStopping counter: 3 out of 10


Epoch 20: loss 0.538701 1.0000 0.9894 0.9894 0.9043 1.0000: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:19<00:00,  4.55it/s]
Valid 20: loss 0.429139 0.9706 0.9412 0.9853 0.9265 0.9706: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.12it/s]
Epoch 21: loss 0.527795 0.9630 0.9815 0.9815 0.9537 0.9630:   4%|████▌                                                                                                           | 81/1996 [00:17<06:33,  4.86it/s]

EarlyStopping counter: 4 out of 10


Epoch 21: loss 0.527833 0.9703 0.9604 1.0000 0.9604 0.9604:  29%|████████████████████████████████▎                                                                              | 581/1996 [02:08<05:08,  4.59it/s]

EarlyStopping counter: 5 out of 10


Epoch 21: loss 0.523758 0.9358 0.9633 1.0000 0.9174 0.9908:  54%|███████████████████████████████████████████████████████████▌                                                  | 1081/1996 [03:57<03:07,  4.88it/s]

EarlyStopping counter: 6 out of 10
Epoch    83: reducing learning rate of group 0 to 1.5360e-05.


Epoch 21: loss 0.518614 0.9636 0.9909 0.9727 0.9091 0.9909:  79%|███████████████████████████████████████████████████████████████████████████████████████▏                      | 1581/1996 [05:47<01:28,  4.71it/s]

EarlyStopping counter: 7 out of 10


Epoch 21: loss 0.515038 0.9881 1.0000 1.0000 0.9643 1.0000: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:18<00:00,  4.55it/s]
Valid 21: loss 0.406234 0.9524 0.9206 0.9683 0.9524 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.02it/s]
Epoch 22: loss 0.483411 0.9817 1.0000 1.0000 0.9633 1.0000:  29%|████████████████████████████████▌                                                                              | 585/1996 [02:09<05:08,  4.57it/s]

EarlyStopping counter: 1 out of 10


Epoch 22: loss 0.483032 0.9904 0.9904 1.0000 0.9135 1.0000:  54%|███████████████████████████████████████████████████████████▊                                                  | 1086/1996 [03:57<03:05,  4.90it/s]

EarlyStopping counter: 2 out of 10


Epoch 22: loss 0.485837 0.9590 0.9344 0.9672 0.9426 0.9672:  79%|███████████████████████████████████████████████████████████████████████████████████████▎                      | 1585/1996 [05:47<01:31,  4.51it/s]

EarlyStopping counter: 3 out of 10


Epoch 22: loss 0.486793 1.0000 0.9703 1.0000 0.9505 0.9802: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:18<00:00,  4.56it/s]
Valid 22: loss 0.400117 1.0000 0.9844 1.0000 1.0000 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.04it/s]
Epoch 23: loss 0.498710 0.9909 0.9636 1.0000 0.9545 0.9818:   4%|████▉                                                                                                           | 89/1996 [00:19<08:03,  3.94it/s]

EarlyStopping counter: 4 out of 10


Epoch 23: loss 0.479929 0.9910 1.0000 0.9910 0.9369 0.9730:  30%|████████████████████████████████▊                                                                              | 589/1996 [02:09<04:35,  5.10it/s]

EarlyStopping counter: 5 out of 10


Epoch 23: loss 0.481794 0.9439 0.9439 0.9907 0.9439 0.9813:  55%|████████████████████████████████████████████████████████████                                                  | 1089/1996 [03:59<03:14,  4.67it/s]

EarlyStopping counter: 6 out of 10
Epoch    91: reducing learning rate of group 0 to 1.2288e-05.


Epoch 23: loss 0.480224 0.9569 0.9655 0.9741 0.9655 0.9741:  80%|███████████████████████████████████████████████████████████████████████████████████████▌                      | 1589/1996 [05:47<01:28,  4.58it/s]

EarlyStopping counter: 7 out of 10


Epoch 23: loss 0.477974 0.9596 0.9798 0.9798 0.9596 0.9899: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:17<00:00,  4.56it/s]
Valid 23: loss 0.371151 0.9855 0.9855 1.0000 0.9275 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.14it/s]
Epoch 24: loss 0.467344 1.0000 1.0000 0.9905 0.9429 0.9905:  30%|█████████████████████████████████                                                                              | 594/1996 [02:11<04:49,  4.84it/s]

EarlyStopping counter: 1 out of 10


Epoch 24: loss 0.463466 0.8739 0.8824 0.9664 0.9076 0.9664: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:22<00:00,  4.51it/s]
Valid 24: loss 0.382665 0.9710 0.9710 1.0000 0.9855 0.9855: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.23it/s]
Epoch 25: loss 0.473144 0.9821 0.9911 0.9911 0.9732 1.0000:   5%|█████▍                                                                                                          | 97/1996 [00:21<07:33,  4.19it/s]

EarlyStopping counter: 1 out of 10


Epoch 25: loss 0.467303 0.8952 0.9194 0.9919 0.9274 0.9758:  30%|█████████████████████████████████▏                                                                             | 597/1996 [02:12<05:06,  4.56it/s]

EarlyStopping counter: 2 out of 10


Epoch 25: loss 0.452637 0.9189 0.8829 0.9910 0.9459 0.9820: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:22<00:00,  4.52it/s]
Valid 25: loss 0.354720 1.0000 1.0000 0.9841 0.9365 0.9841: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.12it/s]
Epoch 26: loss 0.444559 1.0000 1.0000 1.0000 0.9615 0.9904:  30%|█████████████████████████████████▍                                                                             | 601/1996 [02:13<04:50,  4.80it/s]

EarlyStopping counter: 1 out of 10


Epoch 26: loss 0.445102 0.9565 0.9739 0.9826 0.9391 0.9913:  55%|████████████████████████████████████████████████████████████▋                                                 | 1101/1996 [04:03<03:29,  4.28it/s]

EarlyStopping counter: 2 out of 10


Epoch 26: loss 0.446291 0.9510 0.9902 0.9902 0.9804 0.9804:  80%|████████████████████████████████████████████████████████████████████████████████████████▏                     | 1601/1996 [05:53<01:25,  4.64it/s]

EarlyStopping counter: 3 out of 10


Epoch 26: loss 0.444489 0.9406 0.9604 0.9802 0.9406 0.9604: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:19<00:00,  4.54it/s]
Valid 26: loss 0.354246 0.9836 1.0000 1.0000 0.9836 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.03it/s]
Epoch 27: loss 0.437274 0.9453 0.9531 0.9688 0.9141 0.9609:  30%|█████████████████████████████████▋                                                                             | 605/1996 [02:13<04:57,  4.68it/s]

EarlyStopping counter: 1 out of 10


Epoch 27: loss 0.442506 1.0000 0.9732 0.9821 0.9554 0.9911:  55%|████████████████████████████████████████████████████████████▉                                                 | 1105/1996 [04:04<02:58,  4.98it/s]

EarlyStopping counter: 2 out of 10


Epoch 27: loss 0.440209 0.9709 0.9612 0.9709 0.9417 0.9903:  80%|████████████████████████████████████████████████████████████████████████████████████████▍                     | 1605/1996 [05:54<01:25,  4.57it/s]

EarlyStopping counter: 3 out of 10


Epoch 27: loss 0.436523 0.9802 0.9703 0.9802 0.9406 0.9505: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:19<00:00,  4.54it/s]
Valid 27: loss 0.356768 1.0000 1.0000 1.0000 0.9344 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.11it/s]
Epoch 28: loss 0.419227 0.9810 1.0000 0.9619 0.9524 1.0000:  31%|█████████████████████████████████▊                                                                             | 609/1996 [02:14<04:40,  4.95it/s]

EarlyStopping counter: 1 out of 10


Epoch 28: loss 0.424005 0.9815 1.0000 1.0000 0.9722 0.9907:  56%|█████████████████████████████████████████████████████████████                                                 | 1109/1996 [04:05<03:03,  4.83it/s]

EarlyStopping counter: 2 out of 10


Epoch 28: loss 0.428649 0.9912 0.9912 0.9912 0.9823 0.9912:  81%|████████████████████████████████████████████████████████████████████████████████████████▋                     | 1609/1996 [05:57<01:24,  4.56it/s]

EarlyStopping counter: 3 out of 10


Epoch 28: loss 0.427017 0.9630 0.9722 0.9815 0.9444 0.9815: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:21<00:00,  4.52it/s]
Valid 28: loss 0.351429 1.0000 1.0000 1.0000 0.9667 0.9833: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.10it/s]
Epoch 29: loss 0.433732 1.0000 1.0000 1.0000 0.9820 0.9910:   6%|██████▎                                                                                                        | 113/1996 [00:25<06:49,  4.60it/s]

EarlyStopping counter: 4 out of 10


Epoch 29: loss 0.439880 0.9640 0.9820 0.9730 0.9459 1.0000:  31%|██████████████████████████████████                                                                             | 613/1996 [02:15<04:46,  4.82it/s]

EarlyStopping counter: 5 out of 10


Epoch 29: loss 0.437960 0.9573 0.9829 1.0000 0.9402 0.9915:  56%|█████████████████████████████████████████████████████████████▎                                                | 1113/1996 [04:06<03:06,  4.75it/s]

EarlyStopping counter: 6 out of 10
Epoch   115: reducing learning rate of group 0 to 9.8304e-06.


Epoch 29: loss 0.425042 0.9902 1.0000 0.9902 0.9314 0.9902:  81%|████████████████████████████████████████████████████████████████████████████████████████▉                     | 1613/1996 [05:53<01:11,  5.37it/s]

EarlyStopping counter: 7 out of 10


Epoch 29: loss 0.423406 0.9604 0.9802 0.9802 0.9901 0.9901: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1996/1996 [07:18<00:00,  4.55it/s]
Valid 29: loss 0.336159 0.9848 1.0000 1.0000 0.9394 0.9697: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:17<00:00, 11.14it/s]
Epoch 30: loss 0.418859 0.9912 0.9912 0.9823 0.9381 0.9912:   6%|██████▌                                                                                                        | 117/1996 [00:25<06:28,  4.83it/s]

EarlyStopping counter: 8 out of 10


Epoch 30: loss 0.420790 0.9818 0.9818 1.0000 0.9727 1.0000:  31%|██████████████████████████████████▎                                                                            | 617/1996 [02:15<04:33,  5.03it/s]

EarlyStopping counter: 9 out of 10


Epoch 30: loss 0.414734 0.9808 0.9712 0.9712 0.9327 1.0000:  56%|█████████████████████████████████████████████████████████████▌                                                | 1116/1996 [04:05<03:13,  4.55it/s]


EarlyStopping counter: 10 out of 10


Valid 30: loss 0.327830 0.9833 1.0000 1.0000 0.9167 1.0000: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:18<00:00, 11.10it/s]


In [18]:
d = next(iter(loader))

In [19]:
np.unique(torch.cat(d[1]).numpy())

array([0.     , 0.12011, 0.14007, 0.15999, 0.18998, 0.28086, 0.30974,
       0.32067, 0.35453, 0.79904, 1.     ], dtype=float32)

In [20]:
np.unique(torch.cat(d[2]).numpy())

array([0., 1.], dtype=float32)

In [21]:
d[2]

[tensor([[0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
         [0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
         [0., 1., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0.],
         [0., 1., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.],
         [0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 

In [22]:
#store config and model
with open(trainer.es_path+'config.yaml', 'w') as f:
    yaml.dump(config.to_dict(), f, default_flow_style=False)
if args.name is not None and args.wandb_mode != "offline":
    trained_model_artifact = wandb.Artifact(args.name, type="model", description="trained selfattn model")
    trained_model_artifact.add_dir(trainer.es_path)
    run.log_artifact(trained_model_artifact)

NameError: name 'args' is not defined