In [4]:
import torch
import random
import numpy as np


config = {
    'train_file_path': 'dataset/train.csv',
    'test_file_path': 'dataset/test.csv',
    'train_val_ratio': 0.1,
    'head': 'cnn',
    'model_path': 'dataset/BERT_model/',
    'batch_size': 16,
    'num_epochs': 1,
    'learning_rate': 2e-5,
    'logging_step': 500,
    'seed': 2021
}
config['device'] = 'cuda' if torch.cuda.is_available() else 'cpu'

def seed_everything(seed):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    return seed

seed_everything(config['seed'])

2021

In [12]:
import pandas as pd
from tqdm import tqdm
from collections import defaultdict


def read_data(config, tokenizer, mode='train'):
    # read data
    data_df = pd.read_csv(config[f'{mode}_file_path'], sep=',')
    if mode == 'train':
        # split dataset
        X_train, y_train = defaultdict(list), []
        X_val, y_val = defaultdict(list), []
        num_val = int(len(data_df) * config['train_val_ratio'])
    else:
        X_test, y_test = defaultdict(list), []
        
    for i, row in tqdm(data_df.iterrows(), desc=f'preprocess {mode} data', total=len(data_df)):
        # label
        label = row[1] if mode == 'train' else 0
        # sentence
        sentence = row[-1]
        # add special token
        inputs = tokenizer.encode_plus(sentence, add_special_tokens=True, return_token_type_ids=True, return_attention_mask=True)
        
        if mode == 'train':
            if i < num_val:
                X_val['input_ids'].append(inputs['input_ids'])
                y_val.append(label)
                X_val['token_type_ids'].append(inputs['token_type_ids'])
                X_val['attention_mask'].append(inputs['attention_mask'])
            else:
                X_train['input_ids'].append(inputs['input_ids'])
                y_train.append(label)
                X_train['token_type_ids'].append(inputs['token_type_ids'])
                X_train['attention_mask'].append(inputs['attention_mask'])
        else:
            X_test['input_ids'].append(inputs['input_ids'])
            y_test.append(label)
            X_test['token_type_ids'].append(inputs['token_type_ids'])
            X_test['attention_mask'].append(inputs['attention_mask'])
            
    if mode == 'train':
        label2id = {label: i for i, label in enumerate(np.unique(y_train))}
        id2label = {i: label for label, i in label2id.items()}
        y_train = torch.tensor([label2id[i] for i in y_train], dtype=torch.long)
        y_val = torch.tensor([label2id[i] for i in y_val], dtype=torch.long)    
        return X_train, y_train, X_val, y_val, label2id, id2label
    else:
        y_test = torch.tensor(y_test, dtype=torch.long)
        return X_test, y_test

In [8]:
from torch.utils.data import Dataset

class TNEWSData(Dataset):
    def __init__(self, X, y):
        self.x = X
        self.y = y
        
    def __getitem__(self, idx): # one example
        return {
            'input_ids': self.x['input_ids'][idx],
            'label': self.y[idx],
            'token_type_ids': self.x['token_type_ids'][idx],
            'attention_mask': self.x['attention_mask'][idx]
        }
    
    def __len__(self):
        return self.y.size(0)

In [9]:
def collate_fn(examples):
    input_ids_list = []
    labels = []
    token_type_ids_list = []
    attention_mask_list = []
    
    for example in examples:
        input_ids_list.append(example['input_ids'])
        labels.append(example['label'])
        token_type_ids_list.append(example['token_type_ids'])
        attention_mask_list.append(example['attention_mask'])
        
    # alignment
    max_length = max(len(input_ids) for input_ids in input_ids_list)
    # (len(labels), max_length)
    input_ids_tensor = torch.zeros((len(labels), max_length), dtype=torch.long)
    token_type_ids_tensor = torch.zeros_like(input_ids_tensor)
    attention_mask_tensor = torch.zeros_like(input_ids_tensor)
    
    # fill data
    for i, input_ids in enumerate(input_ids_list):
        input_ids_tensor[i, :len(input_ids)] = torch.tensor(input_ids, dtype=torch.long)
        token_type_ids_tensor[i, :len(input_ids)] = torch.tensor(token_type_ids_list[i], dtype=torch.long)
        attention_mask_tensor[i, :len(input_ids)] = torch.tensor(attention_mask_list[i], dtype=torch.long)
        
    return {
        'input_ids': input_ids_tensor,
        'labels': torch.tensor(labels, dtype=torch.long),
        'token_type_ids': token_type_ids_tensor,
        'attention_mask': attention_mask_tensor
    }

In [10]:
from transformers import BertTokenizer
from torch.utils.data import DataLoader


def build_dataloader(config):
    tokenizer = BertTokenizer.from_pretrained(config['model_path'])
    X_train, y_train, X_val, y_val, label2id, id2label = read_data(config, tokenizer, mode='train')
    X_test, y_test = read_data(config, tokenizer, mode='test')
    
    train_dataset = TNEWSData(X_train, y_train)
    val_dataset = TNEWSData(X_val, y_val)
    test_dataset = TNEWSData(X_test, y_test)
    
    train_dataloader = DataLoader(train_dataset, batch_size=config['batch_size'], num_workers=8, shuffle=True, collate_fn=collate_fn)
    val_dataloader = DataLoader(val_dataset, batch_size=config['batch_size'], num_workers=8, shuffle=False, collate_fn=collate_fn)
    test_dataloader = DataLoader(test_dataset, batch_size=config['batch_size'], num_workers=8, shuffle=False, collate_fn=collate_fn)
    
    return train_dataloader, val_dataloader, test_dataloader, id2label

In [13]:
train_dataloader, val_dataloader, test_dataloader, id2label = build_dataloader(config)

preprocess train data: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 53360/53360 [00:25<00:00, 2099.42it/s]
preprocess test data: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:05<00:00, 1925.90it/s]


In [14]:
for batch in train_dataloader:
    print(batch)
    break

{'input_ids': tensor([[  101,  2682,  1762,  6948,  2336,  1453,  6804,   743,  5018,   753,
          1947,  2791,  2094,  8024,   126,  1283,  2340,  1381,  4638,  8024,
          3300,   784,   720,  1962,  4638,  2972,  5773,  8043,   102,     0,
             0,     0,     0,     0,     0,     0,     0,     0],
        [  101,  8108,  2207,  3198,   704,  1744,  7674,  2168,   131,  2199,
          8208,   674,  2207,   868,  1773,   976,  1168,  2399,  1057, 10194,
          8157,   783,   117,  4706,  4518,  7790,  1213,  1772,  6631,  3330,
          1649,  6411,   102,     0,     0,     0,     0,     0],
        [  101,  3173,  3528,  1059,  1744,  6121,  1266,   776,  4991,   100,
          2207,  4923,  2415,  3173,  6629,  4157,  2199,   715,  1215,   102,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0],
        [  101,  5303,   754,  5023,  1168,   872,  8013,  1266,   677,  2408

In [22]:
from transformers import BertPreTrainedModel, BertModel


class BertForTNEWS(BertPreTrainedModel):
    # classifier -- head
    def __init__(self, config, model_path, classifier):
        super(BertForTNEWS, self).__init__(config)
        self.bert = BertModel.from_pretrained(model_path, config=config)
        self.classifier = classifier
        
    def forward(self, input_ids, token_type_ids, attention_mask, labels):
        outputs = self.bert(input_ids=input_ids,
                            attention_mask=attention_mask,
                            token_type_ids=token_type_ids,
                            output_hidden_states=True)
        hidden_states = outputs[2]
        logits = self.classifier(hidden_states, input_ids)
        outputs = (logits,)
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss()
            loss = loss_fct(logits, labels.view(-1))
            outputs = (loss,) + outputs
            
        return outputs   

In [17]:
import torch.nn.functional as F
import torch.nn as nn


class ConvClassifier(nn.Module):
    # CNN + Global max pooling
    def __init__(self, config):
        super().__init__()
        self.conv = nn.Conv1d(in_channels=config.hidden_size, out_channels=config.hidden_size, kernel_size=3)
        self.global_max_pool = nn.AdaptiveMaxPool1d(1)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.fc = nn.Linear(config.hidden_size, config.num_labels)
        
    def forward(self, hidden_states, input_ids):
        hidden_states = self.dropout(hidden_states[-1])
        # hidden_states shape (bs, seq_len, hidden_size) -> (bs, hidden_size, seq_len) 
        hidden_states = hidden_states.permute(0, 2, 1)
        out = F.relu(self.conv(hidden_states))
        # out (bs, hidden_size_out, seq_len_out)
        # out (bs, hidden_size, 1)
        # out (bs, hidden_size)
        out = self.global_max_pool(out).squeeze(dim=2)
        out = self.fc(out)
        return out

In [18]:
def build_model(model_path, config, head):
    heads = {'cnn': ConvClassifier}
    model = BertForTNEWS(config, model_path, heads[head](config))
    return model

In [19]:
from sklearn.metrics import f1_score


def evaluation(config, model, val_dataloader):
    model.eval()
    preds, labels = [], []
    val_loss = 0.
    val_iterator = tqdm(val_dataloader, desc='Evaluation', total=len(val_dataloader))
    
    with torch.no_grad():
        for batch in val_iterator:
            labels.append(batch['labels'])
            batch = {item: value.to(config['device']) for item, value in batch.items()}
            loss, logits = model(**batch)[:2]
            val_loss += loss.item()
            preds.append(logits.argmax(dim=-1).detach().cpu())
            
    avg_val_loss = val_loss / len(val_dataloader)
    labels = torch.cat(labels, dim=0).numpy()
    preds = torch.cat(preds, dim=0).numpy()
    f1 = f1_score(labels, preds, average='macro')
    return avg_val_loss, f1

In [20]:
from transformers import BertConfig, BertForSequenceClassification
import torch.optim as optim
from tqdm import trange


def train(config, id2label, train_dataloader, val_dataloader):
    bert_config = BertConfig.from_pretrained(config['model_path'])
    bert_config.num_labels = len(id2label)
    model = build_model(config['model_path'], bert_config, config['head'])
    optimizer = optim.AdamW(model.parameters(), lr=config['learning_rate'])
    model.to(config['device'])
    epoch_iterator = trange(config['num_epochs'])
    global_steps = 0
    train_loss = 0.
    logging_loss = 0.
    
    for epoch in epoch_iterator:
        train_iterator = tqdm(train_dataloader, desc='Training', total=len(train_dataloader))
        model.train()
        for batch in train_iterator:
            batch = {item: value.to(config['device']) for item, value in batch.items()}
            loss = model(**batch)[0]
            model.zero_grad()
            loss.backward()
            optimizer.step()
            train_loss += loss.item()
            global_steps += 1
            
            if global_steps % config['logging_step'] == 0:
                print_train_loss = (train_loss - logging_loss) / config['logging_step']
                logging_loss = train_loss

                avg_val_loss, f1 = evaluation(config, model, val_dataloader)

                print_log = f'>>> training loss: {print_train_loss:.4f}, valid loss: {avg_val_loss:.4f}, ' \
                            f'valid f1 score: {f1:.4f}'
                print(print_log)
                model.train()
    
    return model

In [23]:
train(config, id2label, train_dataloader, val_dataloader)

Some weights of the model checkpoint at dataset/BERT_model/ were not used when initializing BertModel: ['cls.predictions.decoder.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
  0%|                                                                                                                                            | 0/1 [0

Training:   1%|█▌                                                                                                                    | 41/3002 [00:05<05:38,  8.75it/s][A
Training:   1%|█▋                                                                                                                    | 42/3002 [00:05<05:41,  8.66it/s][A
Training:   1%|█▋                                                                                                                    | 43/3002 [00:05<05:37,  8.77it/s][A
Training:   1%|█▋                                                                                                                    | 44/3002 [00:05<05:32,  8.90it/s][A
Training:   1%|█▊                                                                                                                    | 45/3002 [00:05<05:34,  8.85it/s][A
Training:   2%|█▊                                                                                                                    | 46/3002 [0

Training:   3%|███▍                                                                                                                  | 89/3002 [00:10<05:54,  8.22it/s][A
Training:   3%|███▌                                                                                                                  | 90/3002 [00:10<05:41,  8.53it/s][A
Training:   3%|███▌                                                                                                                  | 91/3002 [00:11<05:30,  8.80it/s][A
Training:   3%|███▋                                                                                                                  | 93/3002 [00:11<05:03,  9.59it/s][A
Training:   3%|███▋                                                                                                                  | 95/3002 [00:11<05:02,  9.60it/s][A
Training:   3%|███▊                                                                                                                  | 96/3002 [0

Training:   5%|█████▍                                                                                                               | 138/3002 [00:16<05:27,  8.74it/s][A
Training:   5%|█████▍                                                                                                               | 139/3002 [00:16<05:22,  8.87it/s][A
Training:   5%|█████▍                                                                                                               | 140/3002 [00:16<05:18,  8.98it/s][A
Training:   5%|█████▍                                                                                                               | 141/3002 [00:16<05:25,  8.78it/s][A
Training:   5%|█████▌                                                                                                               | 142/3002 [00:16<05:29,  8.68it/s][A
Training:   5%|█████▌                                                                                                               | 143/3002 [0

Training:   6%|███████▏                                                                                                             | 186/3002 [00:22<05:19,  8.82it/s][A
Training:   6%|███████▎                                                                                                             | 187/3002 [00:22<05:11,  9.03it/s][A
Training:   6%|███████▎                                                                                                             | 188/3002 [00:22<05:05,  9.20it/s][A
Training:   6%|███████▎                                                                                                             | 189/3002 [00:22<05:14,  8.96it/s][A
Training:   6%|███████▍                                                                                                             | 190/3002 [00:22<05:19,  8.79it/s][A
Training:   6%|███████▍                                                                                                             | 191/3002 [0

Training:   8%|█████████▏                                                                                                           | 236/3002 [00:27<05:21,  8.61it/s][A
Training:   8%|█████████▏                                                                                                           | 237/3002 [00:27<05:33,  8.29it/s][A
Training:   8%|█████████▎                                                                                                           | 238/3002 [00:28<05:28,  8.41it/s][A
Training:   8%|█████████▎                                                                                                           | 239/3002 [00:28<05:26,  8.46it/s][A
Training:   8%|█████████▎                                                                                                           | 240/3002 [00:28<05:24,  8.52it/s][A
Training:   8%|█████████▍                                                                                                           | 241/3002 [0

Training:   9%|███████████                                                                                                          | 283/3002 [00:33<05:06,  8.87it/s][A
Training:   9%|███████████                                                                                                          | 284/3002 [00:33<05:03,  8.95it/s][A
Training:   9%|███████████                                                                                                          | 285/3002 [00:33<05:08,  8.81it/s][A
Training:  10%|███████████▏                                                                                                         | 286/3002 [00:33<05:05,  8.90it/s][A
Training:  10%|███████████▏                                                                                                         | 287/3002 [00:33<05:25,  8.35it/s][A
Training:  10%|███████████▏                                                                                                         | 288/3002 [0

Training:  11%|████████████▉                                                                                                        | 332/3002 [00:38<05:07,  8.69it/s][A
Training:  11%|████████████▉                                                                                                        | 333/3002 [00:39<05:34,  7.98it/s][A
Training:  11%|█████████████                                                                                                        | 334/3002 [00:39<05:39,  7.86it/s][A
Training:  11%|█████████████                                                                                                        | 335/3002 [00:39<05:51,  7.59it/s][A
Training:  11%|█████████████                                                                                                        | 336/3002 [00:39<05:38,  7.88it/s][A
Training:  11%|█████████████▏                                                                                                       | 337/3002 [0

Training:  13%|██████████████▊                                                                                                      | 380/3002 [00:44<04:40,  9.36it/s][A
Training:  13%|██████████████▊                                                                                                      | 381/3002 [00:44<04:39,  9.37it/s][A
Training:  13%|██████████████▉                                                                                                      | 382/3002 [00:44<04:45,  9.16it/s][A
Training:  13%|██████████████▉                                                                                                      | 383/3002 [00:45<04:50,  9.00it/s][A
Training:  13%|██████████████▉                                                                                                      | 384/3002 [00:45<04:54,  8.88it/s][A
Training:  13%|███████████████                                                                                                      | 385/3002 [0

Training:  14%|████████████████▉                                                                                                    | 433/3002 [00:50<05:00,  8.55it/s][A
Training:  14%|████████████████▉                                                                                                    | 434/3002 [00:50<05:00,  8.55it/s][A
Training:  14%|████████████████▉                                                                                                    | 435/3002 [00:50<05:03,  8.45it/s][A
Training:  15%|████████████████▉                                                                                                    | 436/3002 [00:50<04:55,  8.67it/s][A
Training:  15%|█████████████████                                                                                                    | 437/3002 [00:50<04:44,  9.01it/s][A
Training:  15%|█████████████████                                                                                                    | 439/3002 [0

Training:  16%|██████████████████▊                                                                                                  | 482/3002 [00:56<04:45,  8.82it/s][A
Training:  16%|██████████████████▊                                                                                                  | 483/3002 [00:56<04:47,  8.76it/s][A
Training:  16%|██████████████████▊                                                                                                  | 484/3002 [00:56<04:43,  8.89it/s][A
Training:  16%|██████████████████▉                                                                                                  | 485/3002 [00:56<04:49,  8.70it/s][A
Training:  16%|██████████████████▉                                                                                                  | 486/3002 [00:56<04:47,  8.77it/s][A
Training:  16%|██████████████████▉                                                                                                  | 487/3002 [0

Evaluation:  36%|█████████████████████████████████████████▎                                                                          | 119/334 [00:03<00:06, 34.87it/s][A[A

Evaluation:  37%|██████████████████████████████████████████▋                                                                         | 123/334 [00:03<00:05, 35.56it/s][A[A

Evaluation:  38%|████████████████████████████████████████████                                                                        | 127/334 [00:04<00:05, 36.03it/s][A[A

Evaluation:  39%|█████████████████████████████████████████████▍                                                                      | 131/334 [00:04<00:05, 36.42it/s][A[A

Evaluation:  40%|██████████████████████████████████████████████▉                                                                     | 135/334 [00:04<00:05, 35.65it/s][A[A

Evaluation:  42%|████████████████████████████████████████████████▎                                                           

Evaluation:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 303/334 [00:09<00:00, 32.13it/s][A[A

Evaluation:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 307/334 [00:09<00:00, 32.30it/s][A[A

Evaluation:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 311/334 [00:09<00:00, 32.33it/s][A[A

Evaluation:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 315/334 [00:09<00:00, 32.93it/s][A[A

Evaluation:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 319/334 [00:09<00:00, 33.53it/s][A[A

Evaluation:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████

>>> training loss: 1.5734, valid loss: 1.3397, valid f1 score: 0.5148



Training:  17%|███████████████████▏                                                                                               | 502/3002 [01:08<1:06:40,  1.60s/it][A
Training:  17%|███████████████████▌                                                                                                 | 503/3002 [01:08<48:09,  1.16s/it][A
Training:  17%|███████████████████▋                                                                                                 | 504/3002 [01:08<35:21,  1.18it/s][A
Training:  17%|███████████████████▋                                                                                                 | 505/3002 [01:09<26:23,  1.58it/s][A
Training:  17%|███████████████████▋                                                                                                 | 506/3002 [01:09<20:05,  2.07it/s][A
Training:  17%|███████████████████▊                                                                                                 | 507/3002 [

Training:  18%|█████████████████████▍                                                                                               | 549/3002 [01:14<04:28,  9.12it/s][A
Training:  18%|█████████████████████▍                                                                                               | 550/3002 [01:14<04:34,  8.95it/s][A
Training:  18%|█████████████████████▍                                                                                               | 551/3002 [01:14<04:33,  8.97it/s][A
Training:  18%|█████████████████████▌                                                                                               | 552/3002 [01:14<04:28,  9.12it/s][A
Training:  18%|█████████████████████▌                                                                                               | 553/3002 [01:14<04:25,  9.23it/s][A
Training:  18%|█████████████████████▌                                                                                               | 554/3002 [0

Training:  20%|███████████████████████▎                                                                                             | 597/3002 [01:19<04:20,  9.22it/s][A
Training:  20%|███████████████████████▎                                                                                             | 598/3002 [01:19<04:16,  9.38it/s][A
Training:  20%|███████████████████████▎                                                                                             | 599/3002 [01:19<04:32,  8.82it/s][A
Training:  20%|███████████████████████▍                                                                                             | 600/3002 [01:19<04:31,  8.84it/s][A
Training:  20%|███████████████████████▍                                                                                             | 601/3002 [01:20<04:30,  8.87it/s][A
Training:  20%|███████████████████████▍                                                                                             | 602/3002 [0

Training:  22%|█████████████████████████▏                                                                                           | 647/3002 [01:25<04:21,  9.02it/s][A
Training:  22%|█████████████████████████▎                                                                                           | 648/3002 [01:25<04:23,  8.95it/s][A
Training:  22%|█████████████████████████▎                                                                                           | 649/3002 [01:25<04:41,  8.36it/s][A
Training:  22%|█████████████████████████▎                                                                                           | 650/3002 [01:25<04:29,  8.73it/s][A
Training:  22%|█████████████████████████▎                                                                                           | 651/3002 [01:25<04:21,  8.99it/s][A
Training:  22%|█████████████████████████▍                                                                                           | 653/3002 [0

Training:  23%|███████████████████████████▏                                                                                         | 698/3002 [01:31<04:44,  8.08it/s][A
Training:  23%|███████████████████████████▏                                                                                         | 699/3002 [01:31<04:48,  7.97it/s][A
Training:  23%|███████████████████████████▎                                                                                         | 700/3002 [01:31<04:50,  7.91it/s][A
Training:  23%|███████████████████████████▎                                                                                         | 701/3002 [01:31<04:53,  7.85it/s][A
Training:  23%|███████████████████████████▎                                                                                         | 702/3002 [01:31<04:56,  7.75it/s][A
Training:  23%|███████████████████████████▍                                                                                         | 703/3002 [0

Training:  25%|█████████████████████████████                                                                                        | 745/3002 [01:36<04:18,  8.74it/s][A
Training:  25%|█████████████████████████████                                                                                        | 746/3002 [01:36<04:13,  8.89it/s][A
Training:  25%|█████████████████████████████                                                                                        | 747/3002 [01:36<04:10,  9.00it/s][A
Training:  25%|█████████████████████████████▏                                                                                       | 748/3002 [01:36<04:08,  9.07it/s][A
Training:  25%|█████████████████████████████▏                                                                                       | 749/3002 [01:36<04:08,  9.07it/s][A
Training:  25%|█████████████████████████████▏                                                                                       | 750/3002 [0

Training:  26%|██████████████████████████████▊                                                                                      | 792/3002 [01:42<04:04,  9.04it/s][A
Training:  26%|██████████████████████████████▉                                                                                      | 793/3002 [01:42<04:12,  8.74it/s][A
Training:  26%|██████████████████████████████▉                                                                                      | 794/3002 [01:42<04:08,  8.89it/s][A
Training:  26%|██████████████████████████████▉                                                                                      | 795/3002 [01:42<04:05,  9.01it/s][A
Training:  27%|███████████████████████████████                                                                                      | 796/3002 [01:42<04:03,  9.05it/s][A
Training:  27%|███████████████████████████████                                                                                      | 797/3002 [0

Training:  28%|████████████████████████████████▊                                                                                    | 841/3002 [01:47<04:34,  7.87it/s][A
Training:  28%|████████████████████████████████▊                                                                                    | 842/3002 [01:47<04:39,  7.73it/s][A
Training:  28%|████████████████████████████████▊                                                                                    | 843/3002 [01:47<04:40,  7.69it/s][A
Training:  28%|████████████████████████████████▉                                                                                    | 844/3002 [01:48<04:30,  7.97it/s][A
Training:  28%|████████████████████████████████▉                                                                                    | 845/3002 [01:48<04:29,  8.00it/s][A
Training:  28%|████████████████████████████████▉                                                                                    | 846/3002 [0

Training:  30%|██████████████████████████████████▋                                                                                  | 891/3002 [01:53<03:45,  9.35it/s][A
Training:  30%|██████████████████████████████████▊                                                                                  | 893/3002 [01:53<03:36,  9.74it/s][A
Training:  30%|██████████████████████████████████▉                                                                                  | 895/3002 [01:54<03:26, 10.23it/s][A
Training:  30%|██████████████████████████████████▉                                                                                  | 897/3002 [01:54<03:25, 10.27it/s][A
Training:  30%|███████████████████████████████████                                                                                  | 899/3002 [01:54<03:37,  9.66it/s][A
Training:  30%|███████████████████████████████████                                                                                  | 900/3002 [0

Training:  31%|████████████████████████████████████▋                                                                                | 942/3002 [01:59<03:46,  9.10it/s][A
Training:  31%|████████████████████████████████████▊                                                                                | 943/3002 [01:59<03:47,  9.07it/s][A
Training:  31%|████████████████████████████████████▊                                                                                | 944/3002 [01:59<03:45,  9.13it/s][A
Training:  31%|████████████████████████████████████▊                                                                                | 945/3002 [01:59<03:44,  9.18it/s][A
Training:  32%|████████████████████████████████████▊                                                                                | 946/3002 [01:59<03:42,  9.23it/s][A
Training:  32%|████████████████████████████████████▉                                                                                | 948/3002 [0

Training:  33%|██████████████████████████████████████▌                                                                              | 990/3002 [02:04<03:39,  9.17it/s][A
Training:  33%|██████████████████████████████████████▌                                                                              | 991/3002 [02:04<03:40,  9.14it/s][A
Training:  33%|██████████████████████████████████████▋                                                                              | 992/3002 [02:04<03:39,  9.16it/s][A
Training:  33%|██████████████████████████████████████▋                                                                              | 994/3002 [02:05<03:28,  9.62it/s][A
Training:  33%|██████████████████████████████████████▊                                                                              | 995/3002 [02:05<03:31,  9.47it/s][A
Training:  33%|██████████████████████████████████████▊                                                                              | 996/3002 [0

Evaluation:  47%|██████████████████████████████████████████████████████▊                                                             | 158/334 [00:04<00:04, 38.34it/s][A[A

Evaluation:  49%|████████████████████████████████████████████████████████▎                                                           | 162/334 [00:04<00:04, 38.57it/s][A[A

Evaluation:  50%|█████████████████████████████████████████████████████████▋                                                          | 166/334 [00:04<00:04, 38.67it/s][A[A

Evaluation:  51%|███████████████████████████████████████████████████████████                                                         | 170/334 [00:05<00:04, 38.53it/s][A[A

Evaluation:  52%|████████████████████████████████████████████████████████████▍                                                       | 174/334 [00:05<00:04, 38.80it/s][A[A

Evaluation:  53%|█████████████████████████████████████████████████████████████▊                                              

>>> training loss: 1.3156, valid loss: 1.2994, valid f1 score: 0.5301



Training:  33%|██████████████████████████████████████▋                                                                             | 1002/3002 [02:14<47:05,  1.41s/it][A
Training:  33%|██████████████████████████████████████▊                                                                             | 1003/3002 [02:15<34:07,  1.02s/it][A
Training:  33%|██████████████████████████████████████▊                                                                             | 1005/3002 [02:15<19:54,  1.67it/s][A
Training:  34%|██████████████████████████████████████▊                                                                             | 1006/3002 [02:15<16:02,  2.07it/s][A
Training:  34%|██████████████████████████████████████▉                                                                             | 1007/3002 [02:15<12:48,  2.60it/s][A
Training:  34%|██████████████████████████████████████▉                                                                             | 1008/3002 [

Training:  35%|████████████████████████████████████████▌                                                                           | 1050/3002 [02:20<03:34,  9.09it/s][A
Training:  35%|████████████████████████████████████████▌                                                                           | 1051/3002 [02:20<03:33,  9.12it/s][A
Training:  35%|████████████████████████████████████████▋                                                                           | 1052/3002 [02:20<03:35,  9.06it/s][A
Training:  35%|████████████████████████████████████████▋                                                                           | 1053/3002 [02:20<03:33,  9.11it/s][A
Training:  35%|████████████████████████████████████████▋                                                                           | 1054/3002 [02:20<03:34,  9.07it/s][A
Training:  35%|████████████████████████████████████████▊                                                                           | 1055/3002 [0

Training:  37%|██████████████████████████████████████████▍                                                                         | 1098/3002 [02:25<03:15,  9.73it/s][A
Training:  37%|██████████████████████████████████████████▌                                                                         | 1100/3002 [02:25<03:02, 10.42it/s][A
Training:  37%|██████████████████████████████████████████▌                                                                         | 1102/3002 [02:25<03:05, 10.24it/s][A
Training:  37%|██████████████████████████████████████████▋                                                                         | 1104/3002 [02:26<03:12,  9.88it/s][A
Training:  37%|██████████████████████████████████████████▋                                                                         | 1105/3002 [02:26<03:15,  9.72it/s][A
Training:  37%|██████████████████████████████████████████▋                                                                         | 1106/3002 [0

Training:  38%|████████████████████████████████████████████▎                                                                       | 1148/3002 [02:30<03:23,  9.13it/s][A
Training:  38%|████████████████████████████████████████████▍                                                                       | 1149/3002 [02:30<03:31,  8.78it/s][A
Training:  38%|████████████████████████████████████████████▍                                                                       | 1150/3002 [02:31<03:28,  8.89it/s][A
Training:  38%|████████████████████████████████████████████▍                                                                       | 1151/3002 [02:31<03:27,  8.90it/s][A
Training:  38%|████████████████████████████████████████████▌                                                                       | 1152/3002 [02:31<03:26,  8.97it/s][A
Training:  38%|████████████████████████████████████████████▌                                                                       | 1153/3002 [0

Training:  40%|██████████████████████████████████████████████▏                                                                     | 1196/3002 [02:36<03:16,  9.17it/s][A
Training:  40%|██████████████████████████████████████████████▎                                                                     | 1197/3002 [02:36<03:17,  9.16it/s][A
Training:  40%|██████████████████████████████████████████████▎                                                                     | 1198/3002 [02:36<03:16,  9.19it/s][A
Training:  40%|██████████████████████████████████████████████▎                                                                     | 1199/3002 [02:36<03:16,  9.17it/s][A
Training:  40%|██████████████████████████████████████████████▎                                                                     | 1200/3002 [02:36<03:15,  9.20it/s][A
Training:  40%|██████████████████████████████████████████████▍                                                                     | 1201/3002 [0

Training:  41%|████████████████████████████████████████████████                                                                    | 1245/3002 [02:41<03:06,  9.43it/s][A
Training:  42%|████████████████████████████████████████████████▏                                                                   | 1246/3002 [02:41<03:06,  9.39it/s][A
Training:  42%|████████████████████████████████████████████████▏                                                                   | 1247/3002 [02:41<03:08,  9.33it/s][A
Training:  42%|████████████████████████████████████████████████▏                                                                   | 1248/3002 [02:41<03:08,  9.31it/s][A
Training:  42%|████████████████████████████████████████████████▎                                                                   | 1249/3002 [02:41<03:08,  9.29it/s][A
Training:  42%|████████████████████████████████████████████████▎                                                                   | 1250/3002 [0

Training:  43%|█████████████████████████████████████████████████▉                                                                  | 1293/3002 [02:46<03:05,  9.21it/s][A
Training:  43%|██████████████████████████████████████████████████                                                                  | 1294/3002 [02:46<03:06,  9.16it/s][A
Training:  43%|██████████████████████████████████████████████████                                                                  | 1295/3002 [02:46<03:06,  9.17it/s][A
Training:  43%|██████████████████████████████████████████████████                                                                  | 1296/3002 [02:46<03:05,  9.19it/s][A
Training:  43%|██████████████████████████████████████████████████                                                                  | 1297/3002 [02:47<03:05,  9.20it/s][A
Training:  43%|██████████████████████████████████████████████████▏                                                                 | 1298/3002 [0

Training:  45%|████████████████████████████████████████████████████▏                                                               | 1351/3002 [02:52<03:59,  6.89it/s][A
Training:  45%|████████████████████████████████████████████████████▏                                                               | 1352/3002 [02:52<03:52,  7.10it/s][A
Training:  45%|████████████████████████████████████████████████████▎                                                               | 1353/3002 [02:53<03:38,  7.53it/s][A
Training:  45%|████████████████████████████████████████████████████▎                                                               | 1354/3002 [02:53<03:34,  7.70it/s][A
Training:  45%|████████████████████████████████████████████████████▎                                                               | 1355/3002 [02:53<03:34,  7.68it/s][A
Training:  45%|████████████████████████████████████████████████████▍                                                               | 1356/3002 [0

Training:  47%|██████████████████████████████████████████████████████▏                                                             | 1401/3002 [02:58<02:55,  9.10it/s][A
Training:  47%|██████████████████████████████████████████████████████▏                                                             | 1402/3002 [02:58<02:56,  9.04it/s][A
Training:  47%|██████████████████████████████████████████████████████▏                                                             | 1403/3002 [02:58<02:56,  9.06it/s][A
Training:  47%|██████████████████████████████████████████████████████▎                                                             | 1404/3002 [02:58<02:56,  9.05it/s][A
Training:  47%|██████████████████████████████████████████████████████▎                                                             | 1405/3002 [02:58<02:55,  9.09it/s][A
Training:  47%|██████████████████████████████████████████████████████▎                                                             | 1406/3002 [0

Training:  48%|███████████████████████████████████████████████████████▉                                                            | 1448/3002 [03:03<02:49,  9.19it/s][A
Training:  48%|███████████████████████████████████████████████████████▉                                                            | 1449/3002 [03:03<02:49,  9.16it/s][A
Training:  48%|████████████████████████████████████████████████████████                                                            | 1450/3002 [03:03<02:48,  9.20it/s][A
Training:  48%|████████████████████████████████████████████████████████                                                            | 1451/3002 [03:03<02:48,  9.18it/s][A
Training:  48%|████████████████████████████████████████████████████████                                                            | 1452/3002 [03:04<02:48,  9.22it/s][A
Training:  48%|████████████████████████████████████████████████████████▏                                                           | 1453/3002 [0

Training:  50%|█████████████████████████████████████████████████████████▊                                                          | 1496/3002 [03:08<02:43,  9.19it/s][A
Training:  50%|█████████████████████████████████████████████████████████▊                                                          | 1497/3002 [03:08<02:43,  9.18it/s][A
Training:  50%|█████████████████████████████████████████████████████████▉                                                          | 1498/3002 [03:09<02:44,  9.15it/s][A
Training:  50%|█████████████████████████████████████████████████████████▉                                                          | 1499/3002 [03:09<02:43,  9.21it/s][A

Evaluation:   0%|                                                                                                                              | 0/334 [00:00<?, ?it/s][A[A

Evaluation:   0%|▎                                                                                                                     | 1/3

Evaluation:  51%|███████████████████████████████████████████████████████████▍                                                        | 171/334 [00:05<00:04, 37.27it/s][A[A

Evaluation:  52%|████████████████████████████████████████████████████████████▊                                                       | 175/334 [00:05<00:04, 36.44it/s][A[A

Evaluation:  54%|██████████████████████████████████████████████████████████████▏                                                     | 179/334 [00:05<00:04, 36.47it/s][A[A

Evaluation:  55%|███████████████████████████████████████████████████████████████▌                                                    | 183/334 [00:05<00:04, 36.10it/s][A[A

Evaluation:  56%|████████████████████████████████████████████████████████████████▉                                                   | 187/334 [00:05<00:04, 35.76it/s][A[A

Evaluation:  57%|██████████████████████████████████████████████████████████████████▎                                         

>>> training loss: 1.2719, valid loss: 1.2575, valid f1 score: 0.5427



Training:  50%|██████████████████████████████████████████████████████████                                                          | 1502/3002 [03:19<38:46,  1.55s/it][A
Training:  50%|██████████████████████████████████████████████████████████                                                          | 1503/3002 [03:19<28:05,  1.12s/it][A
Training:  50%|██████████████████████████████████████████████████████████                                                          | 1504/3002 [03:19<20:39,  1.21it/s][A
Training:  50%|██████████████████████████████████████████████████████████▏                                                         | 1505/3002 [03:19<15:26,  1.62it/s][A
Training:  50%|██████████████████████████████████████████████████████████▏                                                         | 1506/3002 [03:19<11:46,  2.12it/s][A
Training:  50%|██████████████████████████████████████████████████████████▏                                                         | 1507/3002 [

Training:  52%|███████████████████████████████████████████████████████████▉                                                        | 1552/3002 [03:25<02:36,  9.28it/s][A
Training:  52%|████████████████████████████████████████████████████████████                                                        | 1553/3002 [03:25<02:36,  9.25it/s][A
Training:  52%|████████████████████████████████████████████████████████████                                                        | 1554/3002 [03:25<02:36,  9.26it/s][A
Training:  52%|████████████████████████████████████████████████████████████                                                        | 1555/3002 [03:25<02:36,  9.26it/s][A
Training:  52%|████████████████████████████████████████████████████████████▏                                                       | 1556/3002 [03:25<02:36,  9.24it/s][A
Training:  52%|████████████████████████████████████████████████████████████▏                                                       | 1557/3002 [0

Training:  53%|█████████████████████████████████████████████████████████████▊                                                      | 1600/3002 [03:30<02:33,  9.11it/s][A
Training:  53%|█████████████████████████████████████████████████████████████▊                                                      | 1601/3002 [03:30<02:33,  9.14it/s][A
Training:  53%|█████████████████████████████████████████████████████████████▉                                                      | 1602/3002 [03:30<02:32,  9.17it/s][A
Training:  53%|█████████████████████████████████████████████████████████████▉                                                      | 1603/3002 [03:30<02:33,  9.09it/s][A
Training:  53%|█████████████████████████████████████████████████████████████▉                                                      | 1604/3002 [03:30<02:33,  9.09it/s][A
Training:  53%|██████████████████████████████████████████████████████████████                                                      | 1605/3002 [0

Training:  55%|████████████████████████████████████████████████████████████████                                                    | 1657/3002 [03:36<02:03, 10.85it/s][A
Training:  55%|████████████████████████████████████████████████████████████████                                                    | 1659/3002 [03:36<02:09, 10.36it/s][A
Training:  55%|████████████████████████████████████████████████████████████████▏                                                   | 1661/3002 [03:36<02:08, 10.41it/s][A
Training:  55%|████████████████████████████████████████████████████████████████▎                                                   | 1663/3002 [03:36<02:11, 10.20it/s][A
Training:  55%|████████████████████████████████████████████████████████████████▎                                                   | 1665/3002 [03:37<02:09, 10.36it/s][A
Training:  56%|████████████████████████████████████████████████████████████████▍                                                   | 1667/3002 [0

Training:  57%|██████████████████████████████████████████████████████████████████▌                                                 | 1723/3002 [03:43<02:19,  9.18it/s][A
Training:  57%|██████████████████████████████████████████████████████████████████▌                                                 | 1724/3002 [03:43<02:18,  9.21it/s][A
Training:  57%|██████████████████████████████████████████████████████████████████▋                                                 | 1725/3002 [03:43<02:19,  9.17it/s][A
Training:  57%|██████████████████████████████████████████████████████████████████▋                                                 | 1726/3002 [03:43<02:18,  9.20it/s][A
Training:  58%|██████████████████████████████████████████████████████████████████▋                                                 | 1727/3002 [03:43<02:18,  9.20it/s][A
Training:  58%|██████████████████████████████████████████████████████████████████▊                                                 | 1728/3002 [0

Training:  59%|████████████████████████████████████████████████████████████████████▍                                               | 1770/3002 [03:48<02:13,  9.24it/s][A
Training:  59%|████████████████████████████████████████████████████████████████████▍                                               | 1771/3002 [03:48<02:13,  9.25it/s][A
Training:  59%|████████████████████████████████████████████████████████████████████▍                                               | 1772/3002 [03:48<02:12,  9.26it/s][A
Training:  59%|████████████████████████████████████████████████████████████████████▌                                               | 1773/3002 [03:48<02:12,  9.24it/s][A
Training:  59%|████████████████████████████████████████████████████████████████████▌                                               | 1774/3002 [03:48<02:12,  9.23it/s][A
Training:  59%|████████████████████████████████████████████████████████████████████▌                                               | 1775/3002 [0

Training:  61%|██████████████████████████████████████████████████████████████████████▏                                             | 1818/3002 [03:53<02:08,  9.21it/s][A
Training:  61%|██████████████████████████████████████████████████████████████████████▎                                             | 1819/3002 [03:53<02:08,  9.22it/s][A
Training:  61%|██████████████████████████████████████████████████████████████████████▎                                             | 1820/3002 [03:53<02:08,  9.21it/s][A
Training:  61%|██████████████████████████████████████████████████████████████████████▎                                             | 1821/3002 [03:53<02:07,  9.23it/s][A
Training:  61%|██████████████████████████████████████████████████████████████████████▍                                             | 1822/3002 [03:53<02:08,  9.18it/s][A
Training:  61%|██████████████████████████████████████████████████████████████████████▍                                             | 1823/3002 [0

Training:  62%|████████████████████████████████████████████████████████████████████████                                            | 1865/3002 [03:58<02:03,  9.21it/s][A
Training:  62%|████████████████████████████████████████████████████████████████████████                                            | 1866/3002 [03:58<02:03,  9.21it/s][A
Training:  62%|████████████████████████████████████████████████████████████████████████▏                                           | 1867/3002 [03:58<02:03,  9.22it/s][A
Training:  62%|████████████████████████████████████████████████████████████████████████▏                                           | 1868/3002 [03:58<02:03,  9.16it/s][A
Training:  62%|████████████████████████████████████████████████████████████████████████▏                                           | 1869/3002 [03:58<02:03,  9.17it/s][A
Training:  62%|████████████████████████████████████████████████████████████████████████▎                                           | 1870/3002 [0

Training:  64%|█████████████████████████████████████████████████████████████████████████▉                                          | 1913/3002 [04:03<01:58,  9.17it/s][A
Training:  64%|█████████████████████████████████████████████████████████████████████████▉                                          | 1914/3002 [04:03<01:58,  9.18it/s][A
Training:  64%|█████████████████████████████████████████████████████████████████████████▉                                          | 1915/3002 [04:03<01:58,  9.20it/s][A
Training:  64%|██████████████████████████████████████████████████████████████████████████                                          | 1916/3002 [04:04<01:58,  9.18it/s][A
Training:  64%|██████████████████████████████████████████████████████████████████████████                                          | 1917/3002 [04:04<01:57,  9.21it/s][A
Training:  64%|██████████████████████████████████████████████████████████████████████████                                          | 1918/3002 [0

Training:  65%|███████████████████████████████████████████████████████████████████████████▊                                        | 1961/3002 [04:08<01:53,  9.15it/s][A
Training:  65%|███████████████████████████████████████████████████████████████████████████▊                                        | 1963/3002 [04:09<01:44,  9.92it/s][A
Training:  65%|███████████████████████████████████████████████████████████████████████████▉                                        | 1965/3002 [04:09<01:38, 10.58it/s][A
Training:  66%|████████████████████████████████████████████████████████████████████████████                                        | 1967/3002 [04:09<01:40, 10.31it/s][A
Training:  66%|████████████████████████████████████████████████████████████████████████████                                        | 1969/3002 [04:09<01:43,  9.97it/s][A
Training:  66%|████████████████████████████████████████████████████████████████████████████                                        | 1970/3002 [0

Evaluation:  24%|████████████████████████████                                                                                         | 80/334 [00:02<00:05, 47.39it/s][A[A

Evaluation:  25%|█████████████████████████████▊                                                                                       | 85/334 [00:02<00:05, 47.44it/s][A[A

Evaluation:  27%|███████████████████████████████▌                                                                                     | 90/334 [00:02<00:05, 48.10it/s][A[A

Evaluation:  28%|█████████████████████████████████▎                                                                                   | 95/334 [00:02<00:05, 47.79it/s][A[A

Evaluation:  30%|██████████████████████████████████▋                                                                                 | 100/334 [00:02<00:04, 48.16it/s][A[A

Evaluation:  32%|████████████████████████████████████▊                                                                       

Evaluation:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 313/334 [00:07<00:00, 45.70it/s][A[A

Evaluation:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 318/334 [00:07<00:00, 46.57it/s][A[A

Evaluation:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 323/334 [00:07<00:00, 47.03it/s][A[A

Evaluation:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 328/334 [00:07<00:00, 46.15it/s][A[A

Evaluation: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 334/334 [00:07<00:00, 43.49it/s][A[A

Training:  67%|█████████████████████████████████████████████████████████████████████████████▎                                

>>> training loss: 1.2524, valid loss: 1.2351, valid f1 score: 0.5337



Training:  67%|█████████████████████████████████████████████████████████████████████████████▎                                      | 2002/3002 [04:21<20:54,  1.25s/it][A
Training:  67%|█████████████████████████████████████████████████████████████████████████████▍                                      | 2003/3002 [04:21<15:15,  1.09it/s][A
Training:  67%|█████████████████████████████████████████████████████████████████████████████▍                                      | 2004/3002 [04:21<11:13,  1.48it/s][A
Training:  67%|█████████████████████████████████████████████████████████████████████████████▍                                      | 2005/3002 [04:21<08:26,  1.97it/s][A
Training:  67%|█████████████████████████████████████████████████████████████████████████████▌                                      | 2006/3002 [04:21<06:32,  2.54it/s][A
Training:  67%|█████████████████████████████████████████████████████████████████████████████▌                                      | 2007/3002 [

Training:  69%|███████████████████████████████████████████████████████████████████████████████▊                                    | 2065/3002 [04:27<01:39,  9.45it/s][A
Training:  69%|███████████████████████████████████████████████████████████████████████████████▊                                    | 2066/3002 [04:27<01:38,  9.47it/s][A
Training:  69%|███████████████████████████████████████████████████████████████████████████████▊                                    | 2067/3002 [04:27<01:39,  9.43it/s][A
Training:  69%|███████████████████████████████████████████████████████████████████████████████▉                                    | 2068/3002 [04:27<01:38,  9.48it/s][A
Training:  69%|███████████████████████████████████████████████████████████████████████████████▉                                    | 2069/3002 [04:28<01:38,  9.45it/s][A
Training:  69%|████████████████████████████████████████████████████████████████████████████████                                    | 2071/3002 [0

Training:  71%|██████████████████████████████████████████████████████████████████████████████████                                  | 2123/3002 [04:33<01:33,  9.38it/s][A
Training:  71%|██████████████████████████████████████████████████████████████████████████████████                                  | 2124/3002 [04:33<01:32,  9.47it/s][A
Training:  71%|██████████████████████████████████████████████████████████████████████████████████                                  | 2125/3002 [04:33<01:32,  9.43it/s][A
Training:  71%|██████████████████████████████████████████████████████████████████████████████████▏                                 | 2126/3002 [04:33<01:33,  9.39it/s][A
Training:  71%|██████████████████████████████████████████████████████████████████████████████████▏                                 | 2128/3002 [04:34<01:28,  9.87it/s][A
Training:  71%|██████████████████████████████████████████████████████████████████████████████████▎                                 | 2129/3002 [0

Training:  73%|████████████████████████████████████████████████████████████████████████████████████                                | 2177/3002 [04:39<01:27,  9.41it/s][A
Training:  73%|████████████████████████████████████████████████████████████████████████████████████▏                               | 2178/3002 [04:39<01:27,  9.45it/s][A
Training:  73%|████████████████████████████████████████████████████████████████████████████████████▏                               | 2179/3002 [04:39<01:27,  9.41it/s][A
Training:  73%|████████████████████████████████████████████████████████████████████████████████████▏                               | 2180/3002 [04:39<01:26,  9.51it/s][A
Training:  73%|████████████████████████████████████████████████████████████████████████████████████▎                               | 2181/3002 [04:39<01:26,  9.46it/s][A
Training:  73%|████████████████████████████████████████████████████████████████████████████████████▎                               | 2182/3002 [0

Training:  74%|██████████████████████████████████████████████████████████████████████████████████████                              | 2228/3002 [04:44<01:21,  9.50it/s][A
Training:  74%|██████████████████████████████████████████████████████████████████████████████████████▏                             | 2229/3002 [04:44<01:21,  9.44it/s][A
Training:  74%|██████████████████████████████████████████████████████████████████████████████████████▏                             | 2230/3002 [04:44<01:21,  9.51it/s][A
Training:  74%|██████████████████████████████████████████████████████████████████████████████████████▏                             | 2231/3002 [04:44<01:21,  9.49it/s][A
Training:  74%|██████████████████████████████████████████████████████████████████████████████████████▏                             | 2232/3002 [04:44<01:21,  9.45it/s][A
Training:  74%|██████████████████████████████████████████████████████████████████████████████████████▎                             | 2234/3002 [0

Training:  76%|████████████████████████████████████████████████████████████████████████████████████████                            | 2279/3002 [04:49<01:16,  9.41it/s][A
Training:  76%|████████████████████████████████████████████████████████████████████████████████████████                            | 2280/3002 [04:49<01:17,  9.37it/s][A
Training:  76%|████████████████████████████████████████████████████████████████████████████████████████▏                           | 2281/3002 [04:50<01:20,  8.99it/s][A
Training:  76%|████████████████████████████████████████████████████████████████████████████████████████▏                           | 2282/3002 [04:50<01:19,  9.11it/s][A
Training:  76%|████████████████████████████████████████████████████████████████████████████████████████▏                           | 2283/3002 [04:50<01:18,  9.18it/s][A
Training:  76%|████████████████████████████████████████████████████████████████████████████████████████▎                           | 2284/3002 [0

Training:  78%|█████████████████████████████████████████████████████████████████████████████████████████▉                          | 2329/3002 [04:55<01:12,  9.29it/s][A
Training:  78%|██████████████████████████████████████████████████████████████████████████████████████████                          | 2330/3002 [04:55<01:18,  8.60it/s][A
Training:  78%|██████████████████████████████████████████████████████████████████████████████████████████                          | 2331/3002 [04:55<01:20,  8.34it/s][A
Training:  78%|██████████████████████████████████████████████████████████████████████████████████████████                          | 2332/3002 [04:55<01:21,  8.22it/s][A
Training:  78%|██████████████████████████████████████████████████████████████████████████████████████████▏                         | 2333/3002 [04:55<01:22,  8.08it/s][A
Training:  78%|██████████████████████████████████████████████████████████████████████████████████████████▏                         | 2334/3002 [0

Training:  79%|███████████████████████████████████████████████████████████████████████████████████████████▉                        | 2378/3002 [05:00<01:09,  8.95it/s][A
Training:  79%|███████████████████████████████████████████████████████████████████████████████████████████▉                        | 2379/3002 [05:00<01:08,  9.06it/s][A
Training:  79%|████████████████████████████████████████████████████████████████████████████████████████████                        | 2381/3002 [05:01<01:04,  9.70it/s][A
Training:  79%|████████████████████████████████████████████████████████████████████████████████████████████                        | 2382/3002 [05:01<01:04,  9.68it/s][A
Training:  79%|████████████████████████████████████████████████████████████████████████████████████████████                        | 2383/3002 [05:01<01:04,  9.60it/s][A
Training:  79%|████████████████████████████████████████████████████████████████████████████████████████████                        | 2384/3002 [0

Training:  81%|█████████████████████████████████████████████████████████████████████████████████████████████▊                      | 2429/3002 [05:06<01:01,  9.38it/s][A
Training:  81%|█████████████████████████████████████████████████████████████████████████████████████████████▉                      | 2430/3002 [05:06<01:00,  9.44it/s][A
Training:  81%|█████████████████████████████████████████████████████████████████████████████████████████████▉                      | 2431/3002 [05:06<01:00,  9.41it/s][A
Training:  81%|█████████████████████████████████████████████████████████████████████████████████████████████▉                      | 2432/3002 [05:06<01:00,  9.44it/s][A
Training:  81%|██████████████████████████████████████████████████████████████████████████████████████████████                      | 2433/3002 [05:06<01:02,  9.05it/s][A
Training:  81%|██████████████████████████████████████████████████████████████████████████████████████████████                      | 2434/3002 [0

Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████                    | 2487/3002 [05:12<00:52,  9.86it/s][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 2488/3002 [05:12<00:52,  9.78it/s][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 2489/3002 [05:12<00:54,  9.47it/s][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 2490/3002 [05:12<00:54,  9.35it/s][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 2491/3002 [05:12<00:54,  9.38it/s][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 2492/3002 [0

Evaluation:  44%|██████████████████████████████████████████████████▋                                                                 | 146/334 [00:04<00:04, 38.84it/s][A[A

Evaluation:  45%|████████████████████████████████████████████████████                                                                | 150/334 [00:04<00:04, 37.63it/s][A[A

Evaluation:  46%|█████████████████████████████████████████████████████▊                                                              | 155/334 [00:04<00:04, 38.99it/s][A[A

Evaluation:  48%|███████████████████████████████████████████████████████▏                                                            | 159/334 [00:04<00:04, 38.96it/s][A[A

Evaluation:  49%|████████████████████████████████████████████████████████▉                                                           | 164/334 [00:04<00:04, 39.00it/s][A[A

Evaluation:  50%|██████████████████████████████████████████████████████████▎                                                 

>>> training loss: 1.2469, valid loss: 1.2511, valid f1 score: 0.5437



Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 2502/3002 [05:23<12:08,  1.46s/it][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 2503/3002 [05:23<08:48,  1.06s/it][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 2504/3002 [05:23<06:26,  1.29it/s][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 2505/3002 [05:23<04:46,  1.73it/s][A
Training:  83%|████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 2506/3002 [05:23<03:36,  2.29it/s][A
Training:  84%|████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 2507/3002 [

Training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 2549/3002 [05:28<00:46,  9.66it/s][A
Training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 2550/3002 [05:28<00:46,  9.75it/s][A
Training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 2551/3002 [05:28<00:46,  9.68it/s][A
Training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 2552/3002 [05:28<00:46,  9.61it/s][A
Training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 2553/3002 [05:28<00:46,  9.60it/s][A
Training:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 2554/3002 [0

Training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 2597/3002 [05:33<00:42,  9.50it/s][A
Training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 2598/3002 [05:33<00:42,  9.57it/s][A
Training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 2599/3002 [05:33<00:42,  9.53it/s][A
Training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 2600/3002 [05:33<00:42,  9.45it/s][A
Training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 2601/3002 [05:33<00:42,  9.49it/s][A
Training:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 2602/3002 [0

Training:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 2655/3002 [05:39<00:36,  9.46it/s][A
Training:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 2656/3002 [05:39<00:37,  9.25it/s][A
Training:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 2657/3002 [05:39<00:37,  9.30it/s][A
Training:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 2658/3002 [05:39<00:36,  9.33it/s][A
Training:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 2659/3002 [05:39<00:36,  9.37it/s][A
Training:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 2660/3002 [0

Training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 2703/3002 [05:44<00:30,  9.65it/s][A
Training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 2704/3002 [05:44<00:31,  9.52it/s][A
Training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 2705/3002 [05:44<00:31,  9.49it/s][A
Training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 2706/3002 [05:44<00:31,  9.48it/s][A
Training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 2707/3002 [05:44<00:31,  9.36it/s][A
Training:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 2708/3002 [0

Training:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 2759/3002 [05:50<00:21, 11.08it/s][A
Training:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 2761/3002 [05:50<00:21, 11.33it/s][A
Training:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 2763/3002 [05:50<00:20, 11.51it/s][A
Training:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 2765/3002 [05:50<00:20, 11.34it/s][A
Training:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 2767/3002 [05:50<00:20, 11.48it/s][A
Training:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 2769/3002 [0

Training:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 2815/3002 [05:55<00:19,  9.43it/s][A
Training:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 2816/3002 [05:55<00:19,  9.41it/s][A
Training:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 2817/3002 [05:55<00:19,  9.45it/s][A
Training:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 2818/3002 [05:56<00:19,  9.50it/s][A
Training:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 2819/3002 [05:56<00:19,  9.52it/s][A
Training:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 2820/3002 [0

Training:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 2871/3002 [06:01<00:11, 11.14it/s][A
Training:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 2873/3002 [06:01<00:12, 10.55it/s][A
Training:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 2875/3002 [06:01<00:12, 10.19it/s][A
Training:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2877/3002 [06:02<00:12,  9.98it/s][A
Training:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2879/3002 [06:02<00:12,  9.81it/s][A
Training:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2880/3002 [0

Training:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2923/3002 [06:07<00:08,  9.30it/s][A
Training:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2924/3002 [06:07<00:08,  9.25it/s][A
Training:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 2925/3002 [06:07<00:08,  9.24it/s][A
Training:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 2926/3002 [06:07<00:08,  9.24it/s][A
Training:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 2927/3002 [06:07<00:08,  9.14it/s][A
Training:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2928/3002 [0

Training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2971/3002 [06:12<00:03,  9.74it/s][A
Training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2972/3002 [06:12<00:03,  9.66it/s][A
Training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2973/3002 [06:12<00:03,  9.59it/s][A
Training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2974/3002 [06:12<00:02,  9.57it/s][A
Training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2975/3002 [06:12<00:02,  9.50it/s][A
Training:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2976/3002 [0

Evaluation:  26%|██████████████████████████████▊                                                                                      | 88/334 [00:02<00:05, 44.65it/s][A[A

Evaluation:  28%|████████████████████████████████▌                                                                                    | 93/334 [00:02<00:05, 43.23it/s][A[A

Evaluation:  29%|██████████████████████████████████▎                                                                                  | 98/334 [00:02<00:05, 44.09it/s][A[A

Evaluation:  31%|███████████████████████████████████▊                                                                                | 103/334 [00:02<00:05, 44.97it/s][A[A

Evaluation:  32%|█████████████████████████████████████▌                                                                              | 108/334 [00:02<00:04, 45.32it/s][A[A

Evaluation:  34%|███████████████████████████████████████▏                                                                    

Evaluation:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 305/334 [00:07<00:00, 34.42it/s][A[A

Evaluation:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 309/334 [00:08<00:00, 35.64it/s][A[A

Evaluation:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 313/334 [00:08<00:00, 36.57it/s][A[A

Evaluation:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 317/334 [00:08<00:00, 37.38it/s][A[A

Evaluation:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 322/334 [00:08<00:00, 40.58it/s][A[A

Evaluation:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████

>>> training loss: 1.2201, valid loss: 1.2233, valid f1 score: 0.5228



Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3002/3002 [06:24<00:00,  7.81it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [06:24<00:00, 384.33s/it]


BertForTNEWS(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=1)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)