In [1]:
import tensorflow as tf
import tensorflow_hub as hub
import pandas as pd
import numpy as np
import torch
import transformers
import inspect
import time
import logging
import tmunlp as nlp

from tqdm import trange, tqdm, tqdm_notebook, tqdm_pandas, tqdm_gui
from datetime import datetime
from tqdm import tqdm
from transformers import BertConfig, BertModel, BertTokenizer, BertForSequenceClassification, AdamW, BertPreTrainedModel
from transformers import get_constant_schedule_with_warmup
from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler
from keras.preprocessing.sequence import pad_sequences
from sklearn.metrics import classification_report, accuracy_score, f1_score
from torch import nn

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
#torch.cuda.get_device_name(0)


  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
Using TensorFlow backend.


'GeForce GTX 1070'

# 1. Load data & pre-processing

In [2]:
def preprocessing(df):
    """
    Preprocessing step
    As above dataframe heads, there is a lot of <br /> character 
    """
    df.sentence = df.sentence.str.replace('<br />','')
    df.sentence = df.sentence.str.lower()
    return df

train = pd.read_csv('./dataset/imdb/train.csv')
test = pd.read_csv('./dataset/imdb/test.csv')

train = preprocessing(train)
test = preprocessing(test)

print('Train data:\n{}\n\nTest data:\n{}'.format(train.head(5), test.head(5)))

Train data:
                                            sentence  sentiment  polarity
0  this is a very bland and inert production of o...          2         0
1  i've seen this film in avant-premiere at imagi...          7         1
2  revolt of the zombies (2 outta 5 stars) no, th...          4         0
3  may contain minor spoilers.dressed to kill, ha...          7         1
4  (spoilers)i shoulda figured. the dvd didn't ev...          2         0

Test data:
                                            sentence  sentiment  polarity
0  i loved this movie so much. i'm a big fan of a...         10         1
1  the stark, cold landscape of big sky country, ...          9         1
2  this cheapo exploitation flick is some genuine...          2         0
3  this movie has been promoting in everywhere in...          1         0
4  this is a great off-the-wall romantic comedy a...          8         1


# 2. Build model

In [3]:
class BertModelBonz():
    def __init__(self, load_model=None, load_config=None, model='bert-base-uncased', max_len=512, batch_size=6):
        self.pre_trained_model = model
        self.config = load_config
        self.max_len = self.config.max_position_embeddings
        self.batch_size = batch_size
        
        self.tokenizer = BertTokenizer.from_pretrained(self.pre_trained_model)
        self.tokenizer.max_len = max_len
        
        self.model = BertForSequenceClassification(config=self.config)
        #self.model = BertForSequenceClassification.from_pretrained(self.pre_trained_model, config=self.config)
        self.optimizer = AdamW(params = self.model.parameters(), lr=1e-5)
    
    def create_ids(self, sentences):
        logging.getLogger("transformers.tokenization_utils").setLevel(logging.ERROR) #Disable tokenizer logs, it's really annoy
        input_ids = []
        for sen in tqdm_notebook(sentences, desc="Create Ids"):
            tmp = self.tokenizer.encode(sen)
            input_ids.append(tmp)
        input_ids = pad_sequences(input_ids, 
                                  maxlen=self.max_len, 
                                  dtype='int64', 
                                  truncating='post', 
                                  padding='post')
        return input_ids
    
    def prepare_data(self, input_ids, input_labels=None):
        input_ids = torch.tensor(self.create_ids(input_ids))
        if input_labels is None:
            return DataLoader(TensorDataset(input_ids), 
                              batch_size=self.batch_size)
        else:
            input_labels = torch.tensor(input_labels)
            return DataLoader(TensorDataset(input_ids, input_labels), 
                              batch_size=self.batch_size)
        
    def flat_accuracy(self, preds, labels):
        pred_flat = np.argmax(preds, axis=1).flatten()
        labels_flat = labels.flatten()
        return np.sum(pred_flat == labels_flat) / len(labels_flat)
    
    def train(self, dataloader, epochs=4):
        self.train_loss_set =[]
        for i in trange(epochs, desc="Epoch"):
            # Training model
            self.model.to(device)
            self.model.train()
            tr_loss = 0
            nb_tr_examples, nb_tr_steps = 0, 0
            for input_ids, input_labels in tqdm_notebook(dataloader):
                self.optimizer.zero_grad()
                loss = self.model(input_ids=input_ids.cuda(), labels=input_labels.cuda())[0]
                self.train_loss_set.append(loss)    
                loss.backward()
                self.optimizer.step()
                
                tr_loss += loss.item()
                nb_tr_examples += input_ids.size(0)
                nb_tr_steps += 1
            print("Train loss: {}".format(tr_loss/nb_tr_steps))

            # Evaluation
            self.model.eval()
            eval_loss, eval_accuracy = 0, 0
            nb_eval_steps, nb_eval_examples = 0, 0
            for input_ids, input_labels in dataloader:
                with torch.no_grad():
                    logits = self.model(input_ids.cuda())[0]
                logits = logits.detach().cpu().numpy()
                label_ids = input_labels.to('cpu').numpy()
                tmp_eval_accuracy = self.flat_accuracy(logits, label_ids)
                eval_accuracy += tmp_eval_accuracy
                nb_eval_steps += 1
            print("Validation Accuracy: {}".format(eval_accuracy/nb_eval_steps))
            
            '''
            #Save model for each epoch:
            filename = 'bert_512_epoch'+str(i)+'.sd'
            filepath = './model/bert/'+filename
            torch.save(self.model.state_dict(), filepath)
            '''
    def generate_cls_vectors(self, dataloader):
        self.model.to('cuda')
        self.model.eval()
        cls_vectors = []
        for input_ids, input_labels in tqdm_notebook(dataloader):
            with torch.no_grad():
                outputs = self.model(input_ids.cuda())
                last_hidden_layer = outputs[1][12]
                cls_vector = last_hidden_layer[:,0,:]
            cls_vector = cls_vector.detach().cpu().numpy()
            cls_vectors.extend(cls_vector)
        return cls_vectors
                
    
    def predict(self, test_data, test_labels):
        test_ids = self.create_ids(test_data)
        test_inputs = torch.tensor(test_ids)
        test_dataloader = DataLoader(test_inputs, batch_size=self.batch_size)
        
        # Preditcion
        self.model.to(device)
        self.model.eval()
        self.predictions = []
        for input_ids in tqdm_notebook(test_dataloader, desc="Predicting"):
            with torch.no_grad():
                logits = self.model(input_ids.to(device))[0] #This is for generate predict only
            logits = logits.detach().cpu().numpy()
            self.predictions.append(logits)
        return self.predictions
        self.predictions = [j for i in self.predictions for j in i]
        self.predictions = np.argmax(self.predictions, axis=1)
        print(classification_report(self.predictions, test_labels, digits=4))

        
        
#Create model
config = BertConfig(output_hidden_states=True, max_position_embeddings=512)
bert_model = BertModelBonz(load_config=config, batch_size=6)
bert_model.model.config

{
  "attention_probs_dropout_prob": 0.1,
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "is_decoder": false,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "num_labels": 2,
  "output_attentions": false,
  "output_hidden_states": true,
  "output_past": true,
  "pruned_heads": {},
  "torchscript": false,
  "type_vocab_size": 2,
  "use_bfloat16": false,
  "vocab_size": 30522
}

## 2.1. Create train & test dataloader

In [4]:
NUM_DATA = 25000

train_dataloader = bert_model.prepare_data(input_ids=train.sentence[:NUM_DATA], input_labels=train.polarity[:NUM_DATA])
test_dataloader = bert_model.prepare_data(input_ids=test.sentence[:NUM_DATA], input_labels=test.polarity[:NUM_DATA])

HBox(children=(IntProgress(value=0, description='Create Ids', max=25000, style=ProgressStyle(description_width…




HBox(children=(IntProgress(value=0, description='Create Ids', max=25000, style=ProgressStyle(description_width…




## 2.2. Train model

In [6]:
#Train model

bert_model.train(train_dataloader)
#torch.save(bert_model.model, 'bert_eb1024_1e5_e4.pth')




Epoch:   0%|                                                                                     | 0/4 [00:00<?, ?it/s]

HBox(children=(IntProgress(value=0, max=4167), HTML(value='')))


Train loss: 0.704374572213445
Validation Accuracy: 0.49998000159987244


Epoch:  25%|██████████████████▎                                                      | 1/4 [30:56<1:32:49, 1856.49s/it]

HBox(children=(IntProgress(value=0, max=4167), HTML(value='')))


Train loss: 0.7009197178506611
Validation Accuracy: 0.49998000159987244


Epoch:  50%|███████████████████████████████████▌                                   | 2/4 [1:01:51<1:01:52, 1856.15s/it]

HBox(children=(IntProgress(value=0, max=4167), HTML(value='')))


Train loss: 0.7004017656530898
Validation Accuracy: 0.49998000159987244


Epoch:  75%|██████████████████████████████████████████████████████▊                  | 3/4 [1:32:40<30:53, 1853.82s/it]

HBox(children=(IntProgress(value=0, max=4167), HTML(value='')))


Train loss: 0.6998716865851492
Validation Accuracy: 0.49998000159987244


Epoch: 100%|█████████████████████████████████████████████████████████████████████████| 4/4 [2:03:29<00:00, 1852.49s/it]


## 2.3. Predict test data

In [8]:
for i in range(4):
    filename = 'bert_512_epoch'+str(i)+'.sd'
    filepath = './model/bert/'+filename
    bert_model.model.load_state_dict(torch.load(filepath))
    bert_model.model.eval()
    print('Model ',filename,':')
    bert_model.predict(test_data=test.sentence, test_labels=test.polarity)

Model  bert_512_epoch0.sd :


HBox(children=(IntProgress(value=0, description='Create Ids', max=25000, style=ProgressStyle(description_width…




HBox(children=(IntProgress(value=0, description='Predicting', max=4167, style=ProgressStyle(description_width=…


              precision    recall  f1-score   support

           0     0.9084    0.9448    0.9262     12019
           1     0.9469    0.9118    0.9290     12981

   micro avg     0.9276    0.9276    0.9276     25000
   macro avg     0.9276    0.9283    0.9276     25000
weighted avg     0.9284    0.9276    0.9277     25000

Model  bert_512_epoch1.sd :


HBox(children=(IntProgress(value=0, description='Create Ids', max=25000, style=ProgressStyle(description_width…




HBox(children=(IntProgress(value=0, description='Predicting', max=4167, style=ProgressStyle(description_width=…


              precision    recall  f1-score   support

           0     0.9376    0.9228    0.9301     12701
           1     0.9215    0.9366    0.9290     12299

   micro avg     0.9296    0.9296    0.9296     25000
   macro avg     0.9296    0.9297    0.9296     25000
weighted avg     0.9297    0.9296    0.9296     25000

Model  bert_512_epoch2.sd :


HBox(children=(IntProgress(value=0, description='Create Ids', max=25000, style=ProgressStyle(description_width…




HBox(children=(IntProgress(value=0, description='Predicting', max=4167, style=ProgressStyle(description_width=…


              precision    recall  f1-score   support

           0     0.9002    0.9581    0.9282     11744
           1     0.9606    0.9059    0.9324     13256

   micro avg     0.9304    0.9304    0.9304     25000
   macro avg     0.9304    0.9320    0.9303     25000
weighted avg     0.9322    0.9304    0.9305     25000

Model  bert_512_epoch3.sd :


HBox(children=(IntProgress(value=0, description='Create Ids', max=25000, style=ProgressStyle(description_width…




HBox(children=(IntProgress(value=0, description='Predicting', max=4167, style=ProgressStyle(description_width=…


              precision    recall  f1-score   support

           0     0.9211    0.9444    0.9326     12192
           1     0.9458    0.9230    0.9343     12808

   micro avg     0.9334    0.9334    0.9334     25000
   macro avg     0.9334    0.9337    0.9334     25000
weighted avg     0.9337    0.9334    0.9335     25000



## 2.4. Generate CLS vectors

In [50]:
# Load state dict from trained model
filepath = './model/bert/bert_512_epoch2.sd'
bert_model.model.load_state_dict(torch.load(filepath))

cls_vectors = bert_model.generate_cls_vectors(train_dataloader)
cls_vectors_test = bert_model.generate_cls_vectors(test_dataloader)

HBox(children=(IntProgress(value=0, max=4167), HTML(value='')))




HBox(children=(IntProgress(value=0, max=4167), HTML(value='')))




# 3. Feature Extraction with TMUNLP

## 3.1. Build negative & positive vectors

In [24]:
result = nlp.get_label_term_weighting('tmunlp_file.txt', ['0','1'])
VECTOR_LEN = 50

#Create negative word list
negative_list =  nlp.get_keyword('0', result, VECTOR_LEN)
temp_max = negative_list[list(negative_list.keys())[0]]
for i in negative_list.keys():
    negative_list[i] = negative_list[i] #/ temp_max


#Create postive word list
positive_list =  nlp.get_keyword('1', result, VECTOR_LEN)
temp_max = positive_list[list(positive_list.keys())[0]]
for i in positive_list.keys():
    positive_list[i] = positive_list[i] #/ temp_max



def embedding_1hot(df, words):
    arr = []
    for i in range(df.shape[0]):
        temp = [words[word] if word in df.sentence[i] else 0 for word in words.keys()]
        arr.append(temp)
    return arr

train['negative_embedding'] = embedding_1hot(train, negative_list)
train['positive_embedding'] = embedding_1hot(train, positive_list)

test['negative_embedding'] = embedding_1hot(test, negative_list)
test['positive_embedding'] = embedding_1hot(test, positive_list)


## 3.2. Build bert_llr model

In [29]:
class BertLLR(nn.Module):
    def __init__(self, VECTOR_LEN):
        super(BertLLR, self).__init__()
        self.bert = nn.Linear(768,768)
        self.bert_activation = nn.Tanh()
        
        self.llr = nn.Linear(2*VECTOR_LEN, 2*VECTOR_LEN)
        self.llr_activation = nn.Tanh()
        
        self.dropout = nn.Dropout(0.1)
        
        self.classifier = nn.Linear(768+2*VECTOR_LEN, 2)
    
    def forward(self, cls_vectors=None, neg_embed=None, pos_embed=None, labels=None):
        tanh_cls_vectors = self.bert_activation(self.bert(cls_vectors))
        
        llr_vectors = torch.cat([neg_embed, pos_embed], dim=1)
        tanh_llr_vectors = self.llr_activation(self.llr(llr_vectors))
        
        concat_vectors = torch.cat([tanh_cls_vectors, tanh_llr_vectors], dim=1)
        concat_vectors = self.dropout(concat_vectors)
        
        logits = self.classifier(concat_vectors)
        
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss()
            loss = loss_fct(logits.view(-1, 2), labels.view(-1))
            outputs = (logits, loss)
        else:
            outputs = (logits,)
        
        return outputs
    
bert_llr_model = BertLLR(VECTOR_LEN)
bert_llr_optimizer = torch.optim.Adam(params = bert_llr_model.parameters(), 
                                      lr = 1e-4
                                     )


bert_llr_model   

BertLLR(
  (bert): Linear(in_features=768, out_features=768, bias=True)
  (bert_activation): Tanh()
  (llr): Linear(in_features=100, out_features=100, bias=True)
  (llr_activation): Tanh()
  (dropout): Dropout(p=0.1, inplace=False)
  (classifier): Linear(in_features=868, out_features=2, bias=True)
)

## 3.3. Train bert_llr model

In [31]:
dataloader = DataLoader(TensorDataset(torch.tensor(cls_vectors, dtype=torch.float),
                                      torch.tensor(train.negative_embedding, dtype=torch.float),
                                      torch.tensor(train.positive_embedding, dtype=torch.float),
                                      torch.tensor(train.polarity)
                                     ),
                        batch_size=16
                       )

dataloader_test = DataLoader(TensorDataset(torch.tensor(cls_vectors_test, dtype=torch.float),
                                          torch.tensor(test.negative_embedding, dtype=torch.float),
                                          torch.tensor(test.positive_embedding, dtype=torch.float),
                                          torch.tensor(test.polarity)
                                         ),
                            batch_size=16
                           )


bert_llr_model.to('cuda')
train_loss = []
train_accuracy = []
test_f1 = []
for _ in range(10):
    # Training
    bert_llr_model.train()
    tr_loss = []
    for cls_vector, neg_embed, pos_embed, labels in tqdm(dataloader, desc='Training'):
        #print(labels)
        bert_llr_optimizer.zero_grad()
        logits, loss = bert_llr_model(cls_vectors = cls_vector.cuda(), 
                                      neg_embed = neg_embed.cuda(), 
                                      pos_embed = pos_embed.cuda(), 
                                      labels = labels.cuda())
        loss.backward()
        bert_llr_optimizer.step()
        tr_loss.append(loss.item())
    loss_score = sum(tr_loss)/len(tr_loss)
    train_loss.append(loss_score)
    
    # Evaluation
    bert_llr_model.eval()
    predictions = []
    for cls_vector, neg_embed, pos_embed, labels in tqdm(dataloader, desc='Predicting'):
        with torch.no_grad():
            logits = bert_llr_model(cls_vectors = cls_vector.cuda(),
                                    neg_embed = neg_embed.cuda(),
                                    pos_embed = pos_embed.cuda())[0] #This is for generate predict only
        logits = logits.detach().cpu().numpy()
        predictions.append(logits)
    predictions = [j for i in predictions for j in i]
    predictions = np.argmax(predictions, axis=1)
    acc_score = accuracy_score(predictions, train.polarity)
    train_accuracy.append(acc_score)
    
    # Predict data
    predictions = []
    for cls_vector, neg_embed, pos_embed, labels in tqdm(dataloader_test, desc='Predicting'):
        with torch.no_grad():
            logits = bert_llr_model(cls_vectors = cls_vector.cuda(),
                                    neg_embed = neg_embed.cuda(),
                                    pos_embed = pos_embed.cuda())[0] #This is for generate predict only
        logits = logits.detach().cpu().numpy()
        predictions.append(logits)
    preds = [j for i in predictions for j in i]
    preds = np.argmax(preds, axis=1)
    test_f1.append(f1_score(preds, test.polarity, average='macro'))
    
    # Print result
    print('Train loss: ', loss_score)
    print('Train accuracy: ',acc_score)
    print(classification_report(preds, test.polarity, digits=4))
        

Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 150.93it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 911.28it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 883.03it/s]


Train loss:  0.3095645647965519
Train accuracy:  0.86768
              precision    recall  f1-score   support

           0     0.8982    0.8089    0.8513     13880
           1     0.7878    0.8856    0.8339     11120

   micro avg     0.8430    0.8430    0.8430     25000
   macro avg     0.8430    0.8473    0.8426     25000
weighted avg     0.8491    0.8430    0.8435     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 170.13it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 914.02it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 965.24it/s]


Train loss:  0.30776681377053716
Train accuracy:  0.8684
              precision    recall  f1-score   support

           0     0.9023    0.8063    0.8516     13988
           1     0.7833    0.8891    0.8329     11012

   micro avg     0.8428    0.8428    0.8428     25000
   macro avg     0.8428    0.8477    0.8422     25000
weighted avg     0.8499    0.8428    0.8434     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 177.67it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 897.71it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 965.61it/s]


Train loss:  0.302912172618884
Train accuracy:  0.86552
              precision    recall  f1-score   support

           0     0.9042    0.8018    0.8499     14096
           1     0.7765    0.8901    0.8294     10904

   micro avg     0.8403    0.8403    0.8403     25000
   macro avg     0.8403    0.8460    0.8397     25000
weighted avg     0.8485    0.8403    0.8410     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 152.06it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 903.01it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 962.84it/s]


Train loss:  0.29937451148807276
Train accuracy:  0.86432
              precision    recall  f1-score   support

           0     0.9079    0.7961    0.8483     14256
           1     0.7674    0.8929    0.8254     10744

   micro avg     0.8377    0.8377    0.8377     25000
   macro avg     0.8377    0.8445    0.8369     25000
weighted avg     0.8475    0.8377    0.8385     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 175.37it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 912.10it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 976.73it/s]


Train loss:  0.29662561862087755
Train accuracy:  0.86612
              precision    recall  f1-score   support

           0     0.9108    0.7968    0.8500     14289
           1     0.7677    0.8959    0.8268     10711

   micro avg     0.8392    0.8392    0.8392     25000
   macro avg     0.8392    0.8463    0.8384     25000
weighted avg     0.8495    0.8392    0.8401     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 171.69it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 930.84it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 942.51it/s]


Train loss:  0.29312723814983516
Train accuracy:  0.8724
              precision    recall  f1-score   support

           0     0.8999    0.8086    0.8518     13911
           1     0.7870    0.8872    0.8341     11089

   micro avg     0.8435    0.8435    0.8435     25000
   macro avg     0.8435    0.8479    0.8430     25000
weighted avg     0.8499    0.8435    0.8440     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 167.82it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 911.24it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 940.87it/s]


Train loss:  0.292349987323095
Train accuracy:  0.871
              precision    recall  f1-score   support

           0     0.9061    0.8018    0.8508     14125
           1     0.7761    0.8920    0.8300     10875

   micro avg     0.8411    0.8411    0.8411     25000
   macro avg     0.8411    0.8469    0.8404     25000
weighted avg     0.8495    0.8411    0.8418     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 168.21it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 908.40it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 883.79it/s]


Train loss:  0.28838467504054555
Train accuracy:  0.87836
              precision    recall  f1-score   support

           0     0.8958    0.8177    0.8550     13693
           1     0.8003    0.8848    0.8404     11307

   micro avg     0.8480    0.8480    0.8480     25000
   macro avg     0.8480    0.8512    0.8477     25000
weighted avg     0.8526    0.8480    0.8484     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 191.93it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 879.74it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 951.31it/s]


Train loss:  0.28601858995840557
Train accuracy:  0.87428
              precision    recall  f1-score   support

           0     0.9050    0.8030    0.8509     14088
           1     0.7779    0.8911    0.8307     10912

   micro avg     0.8414    0.8414    0.8414     25000
   macro avg     0.8414    0.8470    0.8408     25000
weighted avg     0.8495    0.8414    0.8421     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 174.00it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 904.18it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 916.18it/s]


Train loss:  0.284379572040918
Train accuracy:  0.87664
              precision    recall  f1-score   support

           0     0.9018    0.8116    0.8543     13889
           1     0.7906    0.8895    0.8372     11111

   micro avg     0.8462    0.8462    0.8462     25000
   macro avg     0.8462    0.8505    0.8457     25000
weighted avg     0.8524    0.8462    0.8467     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 176.40it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 912.71it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 918.30it/s]


Train loss:  0.28078463778700574
Train accuracy:  0.87488
              precision    recall  f1-score   support

           0     0.9100    0.8034    0.8534     14159
           1     0.7773    0.8962    0.8325     10841

   micro avg     0.8436    0.8436    0.8436     25000
   macro avg     0.8436    0.8498    0.8429     25000
weighted avg     0.8524    0.8436    0.8443     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 193.48it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 903.81it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 866.14it/s]


Train loss:  0.2808860255046602
Train accuracy:  0.87372
              precision    recall  f1-score   support

           0     0.9097    0.8009    0.8518     14198
           1     0.7738    0.8955    0.8302     10802

   micro avg     0.8418    0.8418    0.8418     25000
   macro avg     0.8418    0.8482    0.8410     25000
weighted avg     0.8510    0.8418    0.8425     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 159.52it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 861.86it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 967.18it/s]


Train loss:  0.2790962468429933
Train accuracy:  0.87612
              precision    recall  f1-score   support

           0     0.9056    0.8047    0.8522     14067
           1     0.7802    0.8921    0.8324     10933

   micro avg     0.8429    0.8429    0.8429     25000
   macro avg     0.8429    0.8484    0.8423     25000
weighted avg     0.8508    0.8429    0.8435     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 162.61it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 921.25it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 900.17it/s]


Train loss:  0.2757226913423776
Train accuracy:  0.8786
              precision    recall  f1-score   support

           0     0.9071    0.8054    0.8533     14078
           1     0.7809    0.8937    0.8335     10922

   micro avg     0.8440    0.8440    0.8440     25000
   macro avg     0.8440    0.8496    0.8434     25000
weighted avg     0.8520    0.8440    0.8446     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 151.14it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 882.48it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 922.29it/s]


Train loss:  0.27458019550086515
Train accuracy:  0.88208
              precision    recall  f1-score   support

           0     0.9033    0.8106    0.8544     13929
           1     0.7890    0.8908    0.8368     11071

   micro avg     0.8461    0.8461    0.8461     25000
   macro avg     0.8461    0.8507    0.8456     25000
weighted avg     0.8527    0.8461    0.8466     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 166.01it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 893.55it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 912.37it/s]


Train loss:  0.2741750148497403
Train accuracy:  0.88032
              precision    recall  f1-score   support

           0     0.9077    0.8053    0.8534     14089
           1     0.7806    0.8942    0.8335     10911

   micro avg     0.8441    0.8441    0.8441     25000
   macro avg     0.8441    0.8498    0.8435     25000
weighted avg     0.8522    0.8441    0.8448     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 162.59it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 908.70it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 942.18it/s]


Train loss:  0.2712979384257636
Train accuracy:  0.88376
              precision    recall  f1-score   support

           0     0.8998    0.8154    0.8555     13794
           1     0.7962    0.8882    0.8397     11206

   micro avg     0.8480    0.8480    0.8480     25000
   macro avg     0.8480    0.8518    0.8476     25000
weighted avg     0.8534    0.8480    0.8484     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 176.48it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 878.96it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 934.65it/s]


Train loss:  0.2685291315580856
Train accuracy:  0.88356
              precision    recall  f1-score   support

           0     0.9015    0.8117    0.8542     13884
           1     0.7908    0.8893    0.8371     11116

   micro avg     0.8462    0.8462    0.8462     25000
   macro avg     0.8462    0.8505    0.8457     25000
weighted avg     0.8523    0.8462    0.8466     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 178.39it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 899.84it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 909.06it/s]


Train loss:  0.26760662947224256
Train accuracy:  0.8878
              precision    recall  f1-score   support

           0     0.8976    0.8204    0.8572     13677
           1     0.8034    0.8870    0.8431     11323

   micro avg     0.8505    0.8505    0.8505     25000
   macro avg     0.8505    0.8537    0.8502     25000
weighted avg     0.8550    0.8505    0.8509     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 183.01it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 868.94it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 881.68it/s]


Train loss:  0.26694426049197706
Train accuracy:  0.88888
              precision    recall  f1-score   support

           0     0.8973    0.8190    0.8564     13694
           1     0.8018    0.8864    0.8420     11306

   micro avg     0.8495    0.8495    0.8495     25000
   macro avg     0.8495    0.8527    0.8492     25000
weighted avg     0.8541    0.8495    0.8499     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 165.67it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 898.14it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 912.59it/s]


Train loss:  0.2647111698298674
Train accuracy:  0.88704
              precision    recall  f1-score   support

           0     0.9011    0.8159    0.8564     13806
           1     0.7966    0.8896    0.8406     11194

   micro avg     0.8489    0.8489    0.8489     25000
   macro avg     0.8489    0.8527    0.8485     25000
weighted avg     0.8543    0.8489    0.8493     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 181.70it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 890.22it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 916.90it/s]


Train loss:  0.2644921568671023
Train accuracy:  0.88984
              precision    recall  f1-score   support

           0     0.8954    0.8218    0.8570     13619
           1     0.8058    0.8851    0.8436     11381

   micro avg     0.8506    0.8506    0.8506     25000
   macro avg     0.8506    0.8534    0.8503     25000
weighted avg     0.8546    0.8506    0.8509     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 164.65it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 921.72it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 879.03it/s]


Train loss:  0.2620837091422394
Train accuracy:  0.886
              precision    recall  f1-score   support

           0     0.9026    0.8121    0.8550     13893
           1     0.7912    0.8904    0.8379     11107

   micro avg     0.8469    0.8469    0.8469     25000
   macro avg     0.8469    0.8513    0.8464     25000
weighted avg     0.8531    0.8469    0.8474     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 185.77it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 904.53it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 897.56it/s]


Train loss:  0.2611244420234355
Train accuracy:  0.88536
              precision    recall  f1-score   support

           0     0.9045    0.8091    0.8542     13973
           1     0.7866    0.8917    0.8359     11027

   micro avg     0.8456    0.8456    0.8456     25000
   macro avg     0.8456    0.8504    0.8450     25000
weighted avg     0.8525    0.8456    0.8461     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 168.78it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 912.41it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 944.16it/s]


Train loss:  0.25900872918805173
Train accuracy:  0.8872
              precision    recall  f1-score   support

           0     0.9016    0.8103    0.8535     13909
           1     0.7889    0.8891    0.8360     11091

   micro avg     0.8452    0.8452    0.8452     25000
   macro avg     0.8452    0.8497    0.8447     25000
weighted avg     0.8516    0.8452    0.8457     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 163.81it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 923.37it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 901.58it/s]


Train loss:  0.2579791102813401
Train accuracy:  0.89028
              precision    recall  f1-score   support

           0     0.8996    0.8165    0.8560     13772
           1     0.7978    0.8882    0.8406     11228

   micro avg     0.8487    0.8487    0.8487     25000
   macro avg     0.8487    0.8524    0.8483     25000
weighted avg     0.8539    0.8487    0.8491     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 156.77it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 904.09it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 876.96it/s]


Train loss:  0.2555486292447788
Train accuracy:  0.88856
              precision    recall  f1-score   support

           0     0.9001    0.8111    0.8533     13871
           1     0.7904    0.8878    0.8363     11129

   micro avg     0.8452    0.8452    0.8452     25000
   macro avg     0.8452    0.8494    0.8448     25000
weighted avg     0.8513    0.8452    0.8457     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 155.32it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 891.52it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 961.01it/s]


Train loss:  0.2549799592976035
Train accuracy:  0.88592
              precision    recall  f1-score   support

           0     0.9070    0.8062    0.8537     14063
           1     0.7820    0.8938    0.8342     10937

   micro avg     0.8445    0.8445    0.8445     25000
   macro avg     0.8445    0.8500    0.8439     25000
weighted avg     0.8523    0.8445    0.8451     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 162.54it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 873.18it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 896.22it/s]


Train loss:  0.25404442525489623
Train accuracy:  0.8864
              precision    recall  f1-score   support

           0     0.9070    0.8054    0.8532     14076
           1     0.7809    0.8935    0.8334     10924

   micro avg     0.8439    0.8439    0.8439     25000
   macro avg     0.8439    0.8495    0.8433     25000
weighted avg     0.8519    0.8439    0.8445     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 156.50it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 901.59it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 890.40it/s]


Train loss:  0.253306344737819
Train accuracy:  0.89408
              precision    recall  f1-score   support

           0     0.8967    0.8151    0.8540     13752
           1     0.7966    0.8852    0.8386     11248

   micro avg     0.8466    0.8466    0.8466     25000
   macro avg     0.8466    0.8502    0.8463     25000
weighted avg     0.8517    0.8466    0.8470     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 148.32it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 886.13it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 884.10it/s]


Train loss:  0.25186247937262096
Train accuracy:  0.89756
              precision    recall  f1-score   support

           0     0.8938    0.8226    0.8568     13582
           1     0.8073    0.8838    0.8438     11418

   micro avg     0.8506    0.8506    0.8506     25000
   macro avg     0.8506    0.8532    0.8503     25000
weighted avg     0.8543    0.8506    0.8508     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 164.89it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 887.65it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 962.56it/s]


Train loss:  0.2515071423096262
Train accuracy:  0.89496
              precision    recall  f1-score   support

           0     0.8956    0.8186    0.8554     13675
           1     0.8016    0.8848    0.8411     11325

   micro avg     0.8486    0.8486    0.8486     25000
   macro avg     0.8486    0.8517    0.8483     25000
weighted avg     0.8530    0.8486    0.8489     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 153.70it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 899.89it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 932.43it/s]


Train loss:  0.25093963626660143
Train accuracy:  0.89608
              precision    recall  f1-score   support

           0     0.8958    0.8183    0.8553     13684
           1     0.8011    0.8849    0.8409     11316

   micro avg     0.8485    0.8485    0.8485     25000
   macro avg     0.8485    0.8516    0.8481     25000
weighted avg     0.8530    0.8485    0.8488     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 164.81it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 905.52it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 891.82it/s]


Train loss:  0.24829492337348671
Train accuracy:  0.89244
              precision    recall  f1-score   support

           0     0.9013    0.8113    0.8539     13886
           1     0.7904    0.8890    0.8368     11114

   micro avg     0.8458    0.8458    0.8458     25000
   macro avg     0.8458    0.8501    0.8454     25000
weighted avg     0.8520    0.8458    0.8463     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 163.90it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 927.33it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 955.88it/s]


Train loss:  0.24791767814399834
Train accuracy:  0.89824
              precision    recall  f1-score   support

           0     0.8930    0.8205    0.8552     13605
           1     0.8046    0.8827    0.8418     11395

   micro avg     0.8488    0.8488    0.8488     25000
   macro avg     0.8488    0.8516    0.8485     25000
weighted avg     0.8527    0.8488    0.8491     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 160.20it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 891.84it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 897.89it/s]


Train loss:  0.2461273190008282
Train accuracy:  0.8928
              precision    recall  f1-score   support

           0     0.9030    0.8072    0.8524     13983
           1     0.7843    0.8899    0.8338     11017

   micro avg     0.8436    0.8436    0.8436     25000
   macro avg     0.8436    0.8485    0.8431     25000
weighted avg     0.8507    0.8436    0.8442     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 151.91it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 948.30it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 933.12it/s]


Train loss:  0.2467501539324654
Train accuracy:  0.8956
              precision    recall  f1-score   support

           0     0.8974    0.8138    0.8536     13783
           1     0.7947    0.8856    0.8377     11217

   micro avg     0.8460    0.8460    0.8460     25000
   macro avg     0.8460    0.8497    0.8456     25000
weighted avg     0.8513    0.8460    0.8464     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:11<00:00, 140.75it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 894.20it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 923.32it/s]


Train loss:  0.24527758482417006
Train accuracy:  0.90308
              precision    recall  f1-score   support

           0     0.8906    0.8263    0.8572     13472
           1     0.8128    0.8813    0.8457     11528

   micro avg     0.8517    0.8517    0.8517     25000
   macro avg     0.8517    0.8538    0.8515     25000
weighted avg     0.8547    0.8517    0.8519     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 143.96it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 895.79it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 950.82it/s]


Train loss:  0.2439265107606095
Train accuracy:  0.89892
              precision    recall  f1-score   support

           0     0.8951    0.8175    0.8545     13687
           1     0.8002    0.8841    0.8400     11313

   micro avg     0.8476    0.8476    0.8476     25000
   macro avg     0.8476    0.8508    0.8473     25000
weighted avg     0.8521    0.8476    0.8480     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 163.84it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 900.17it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 894.68it/s]


Train loss:  0.24165578816927402
Train accuracy:  0.90092
              precision    recall  f1-score   support

           0     0.8943    0.8186    0.8548     13657
           1     0.8018    0.8835    0.8407     11343

   micro avg     0.8480    0.8480    0.8480     25000
   macro avg     0.8480    0.8510    0.8477     25000
weighted avg     0.8523    0.8480    0.8484     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 150.37it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 904.63it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 838.17it/s]


Train loss:  0.24207084712715998
Train accuracy:  0.90172
              precision    recall  f1-score   support

           0     0.8916    0.8214    0.8551     13568
           1     0.8062    0.8815    0.8421     11432

   micro avg     0.8489    0.8489    0.8489     25000
   macro avg     0.8489    0.8514    0.8486     25000
weighted avg     0.8525    0.8489    0.8492     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 169.21it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 896.81it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 961.69it/s]


Train loss:  0.24014154603312737
Train accuracy:  0.90196
              precision    recall  f1-score   support

           0     0.8967    0.8185    0.8558     13695
           1     0.8011    0.8858    0.8413     11305

   micro avg     0.8489    0.8489    0.8489     25000
   macro avg     0.8489    0.8521    0.8486     25000
weighted avg     0.8535    0.8489    0.8493     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 153.61it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 883.30it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 938.61it/s]


Train loss:  0.239576492920966
Train accuracy:  0.90236
              precision    recall  f1-score   support

           0     0.8900    0.8235    0.8554     13510
           1     0.8092    0.8803    0.8433     11490

   micro avg     0.8496    0.8496    0.8496     25000
   macro avg     0.8496    0.8519    0.8494     25000
weighted avg     0.8529    0.8496    0.8498     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 149.21it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 878.12it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 937.55it/s]


Train loss:  0.23988566418689028
Train accuracy:  0.90128
              precision    recall  f1-score   support

           0     0.8970    0.8181    0.8557     13705
           1     0.8006    0.8860    0.8411     11295

   micro avg     0.8488    0.8488    0.8488     25000
   macro avg     0.8488    0.8520    0.8484     25000
weighted avg     0.8534    0.8488    0.8491     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 154.39it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 869.29it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 909.69it/s]


Train loss:  0.23766800833917243
Train accuracy:  0.90284
              precision    recall  f1-score   support

           0     0.8942    0.8199    0.8555     13633
           1     0.8036    0.8837    0.8417     11367

   micro avg     0.8489    0.8489    0.8489     25000
   macro avg     0.8489    0.8518    0.8486     25000
weighted avg     0.8530    0.8489    0.8492     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 177.94it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 944.21it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 900.89it/s]


Train loss:  0.234920119155277
Train accuracy:  0.9036
              precision    recall  f1-score   support

           0     0.8927    0.8224    0.8561     13568
           1     0.8073    0.8827    0.8433     11432

   micro avg     0.8500    0.8500    0.8500     25000
   macro avg     0.8500    0.8526    0.8497     25000
weighted avg     0.8536    0.8500    0.8503     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 170.32it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 902.51it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 942.77it/s]


Train loss:  0.2346131742186487
Train accuracy:  0.90308
              precision    recall  f1-score   support

           0     0.8934    0.8196    0.8549     13625
           1     0.8034    0.8828    0.8412     11375

   micro avg     0.8484    0.8484    0.8484     25000
   macro avg     0.8484    0.8512    0.8481     25000
weighted avg     0.8524    0.8484    0.8487     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 160.21it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 873.00it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 924.00it/s]


Train loss:  0.23593600125541234
Train accuracy:  0.90228
              precision    recall  f1-score   support

           0     0.8970    0.8164    0.8548     13733
           1     0.7983    0.8857    0.8397     11267

   micro avg     0.8476    0.8476    0.8476     25000
   macro avg     0.8476    0.8511    0.8473     25000
weighted avg     0.8525    0.8476    0.8480     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 170.40it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 899.74it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 971.60it/s]


Train loss:  0.23371688884302202
Train accuracy:  0.90628
              precision    recall  f1-score   support

           0     0.8942    0.8195    0.8552     13639
           1     0.8030    0.8835    0.8414     11361

   micro avg     0.8486    0.8486    0.8486     25000
   macro avg     0.8486    0.8515    0.8483     25000
weighted avg     0.8528    0.8486    0.8489     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 162.15it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 874.99it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 900.05it/s]


Train loss:  0.23233166545801107
Train accuracy:  0.9058
              precision    recall  f1-score   support

           0     0.8953    0.8181    0.8549     13680
           1     0.8009    0.8844    0.8406     11320

   micro avg     0.8481    0.8481    0.8481     25000
   macro avg     0.8481    0.8512    0.8477     25000
weighted avg     0.8525    0.8481    0.8484     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 192.08it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 883.43it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 904.73it/s]


Train loss:  0.23273857317802926
Train accuracy:  0.91232
              precision    recall  f1-score   support

           0     0.8782    0.8341    0.8555     13161
           1     0.8253    0.8714    0.8477     11839

   micro avg     0.8517    0.8517    0.8517     25000
   macro avg     0.8517    0.8527    0.8516     25000
weighted avg     0.8531    0.8517    0.8518     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 179.68it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 819.51it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 949.18it/s]


Train loss:  0.23037119400440237
Train accuracy:  0.90304
              precision    recall  f1-score   support

           0     0.9000    0.8122    0.8538     13852
           1     0.7918    0.8879    0.8371     11148

   micro avg     0.8459    0.8459    0.8459     25000
   macro avg     0.8459    0.8500    0.8455     25000
weighted avg     0.8518    0.8459    0.8464     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 169.88it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 909.85it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 978.56it/s]


Train loss:  0.2302655668801706
Train accuracy:  0.91124
              precision    recall  f1-score   support

           0     0.8878    0.8283    0.8570     13398
           1     0.8159    0.8791    0.8463     11602

   micro avg     0.8518    0.8518    0.8518     25000
   macro avg     0.8518    0.8537    0.8516     25000
weighted avg     0.8544    0.8518    0.8520     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 174.60it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 866.57it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 856.51it/s]


Train loss:  0.23047294765853837
Train accuracy:  0.91012
              precision    recall  f1-score   support

           0     0.8917    0.8239    0.8565     13528
           1     0.8094    0.8820    0.8442     11472

   micro avg     0.8506    0.8506    0.8506     25000
   macro avg     0.8506    0.8529    0.8503     25000
weighted avg     0.8539    0.8506    0.8508     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 159.42it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 891.64it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 953.46it/s]


Train loss:  0.22817745188671812
Train accuracy:  0.91292
              precision    recall  f1-score   support

           0     0.8835    0.8295    0.8557     13314
           1     0.8184    0.8754    0.8459     11686

   micro avg     0.8510    0.8510    0.8510     25000
   macro avg     0.8510    0.8525    0.8508     25000
weighted avg     0.8531    0.8510    0.8511     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 166.72it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 838.13it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 864.63it/s]


Train loss:  0.22732836320538669
Train accuracy:  0.90872
              precision    recall  f1-score   support

           0     0.8914    0.8209    0.8547     13573
           1     0.8055    0.8812    0.8416     11427

   micro avg     0.8484    0.8484    0.8484     25000
   macro avg     0.8484    0.8510    0.8482     25000
weighted avg     0.8521    0.8484    0.8487     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 165.58it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 864.14it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 998.50it/s]


Train loss:  0.2258980313062153
Train accuracy:  0.90956
              precision    recall  f1-score   support

           0     0.8926    0.8199    0.8547     13608
           1     0.8039    0.8821    0.8412     11392

   micro avg     0.8482    0.8482    0.8482     25000
   macro avg     0.8482    0.8510    0.8479     25000
weighted avg     0.8522    0.8482    0.8485     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:08<00:00, 182.58it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 876.79it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 989.69it/s]


Train loss:  0.2254344006798928
Train accuracy:  0.91192
              precision    recall  f1-score   support

           0     0.8925    0.8235    0.8566     13547
           1     0.8087    0.8827    0.8441     11453

   micro avg     0.8506    0.8506    0.8506     25000
   macro avg     0.8506    0.8531    0.8503     25000
weighted avg     0.8541    0.8506    0.8509     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 163.24it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 902.90it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 903.39it/s]


Train loss:  0.22612972882166935
Train accuracy:  0.91136
              precision    recall  f1-score   support

           0     0.8934    0.8201    0.8552     13616
           1     0.8041    0.8829    0.8417     11384

   micro avg     0.8487    0.8487    0.8487     25000
   macro avg     0.8487    0.8515    0.8484     25000
weighted avg     0.8527    0.8487    0.8490     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 157.72it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 900.22it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 857.56it/s]


Train loss:  0.2246118427128534
Train accuracy:  0.91148
              precision    recall  f1-score   support

           0     0.8978    0.8152    0.8545     13766
           1     0.7965    0.8862    0.8390     11234

   micro avg     0.8471    0.8471    0.8471     25000
   macro avg     0.8471    0.8507    0.8467     25000
weighted avg     0.8522    0.8471    0.8475     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 151.87it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 901.90it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 900.38it/s]


Train loss:  0.22242052086717756
Train accuracy:  0.91412
              precision    recall  f1-score   support

           0     0.8896    0.8263    0.8568     13458
           1     0.8130    0.8804    0.8454     11542

   micro avg     0.8513    0.8513    0.8513     25000
   macro avg     0.8513    0.8534    0.8511     25000
weighted avg     0.8542    0.8513    0.8515     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 153.17it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 890.42it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 900.55it/s]


Train loss:  0.22158549976149622
Train accuracy:  0.91388
              precision    recall  f1-score   support

           0     0.8885    0.8233    0.8547     13489
           1     0.8094    0.8789    0.8427     11511

   micro avg     0.8489    0.8489    0.8489     25000
   macro avg     0.8489    0.8511    0.8487     25000
weighted avg     0.8520    0.8489    0.8492     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 145.04it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 922.28it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 905.05it/s]


Train loss:  0.22092662685177147
Train accuracy:  0.90952
              precision    recall  f1-score   support

           0     0.8901    0.8200    0.8536     13569
           1     0.8046    0.8798    0.8405     11431

   micro avg     0.8473    0.8473    0.8473     25000
   macro avg     0.8473    0.8499    0.8470     25000
weighted avg     0.8510    0.8473    0.8476     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 146.63it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 899.81it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 866.01it/s]


Train loss:  0.21880295797491295
Train accuracy:  0.91492
              precision    recall  f1-score   support

           0     0.8869    0.8257    0.8552     13426
           1     0.8128    0.8778    0.8441     11574

   micro avg     0.8498    0.8498    0.8498     25000
   macro avg     0.8498    0.8518    0.8496     25000
weighted avg     0.8526    0.8498    0.8500     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:11<00:00, 141.30it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 887.51it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 979.56it/s]


Train loss:  0.221321737318659
Train accuracy:  0.91048
              precision    recall  f1-score   support

           0     0.8939    0.8176    0.8541     13667
           1     0.8006    0.8830    0.8398     11333

   micro avg     0.8472    0.8472    0.8472     25000
   macro avg     0.8472    0.8503    0.8469     25000
weighted avg     0.8516    0.8472    0.8476     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 156.11it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 898.93it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 880.24it/s]


Train loss:  0.2196381442720739
Train accuracy:  0.91328
              precision    recall  f1-score   support

           0     0.8936    0.8172    0.8537     13669
           1     0.8001    0.8826    0.8393     11331

   micro avg     0.8468    0.8468    0.8468     25000
   macro avg     0.8468    0.8499    0.8465     25000
weighted avg     0.8512    0.8468    0.8472     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 153.61it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 884.06it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 906.39it/s]


Train loss:  0.21757452100305624
Train accuracy:  0.91372
              precision    recall  f1-score   support

           0     0.8914    0.8219    0.8553     13557
           1     0.8069    0.8814    0.8425     11443

   micro avg     0.8492    0.8492    0.8492     25000
   macro avg     0.8492    0.8517    0.8489     25000
weighted avg     0.8527    0.8492    0.8494     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 155.48it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 920.48it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 893.21it/s]


Train loss:  0.2173968509807277
Train accuracy:  0.91656
              precision    recall  f1-score   support

           0     0.8870    0.8254    0.8551     13434
           1     0.8123    0.8779    0.8438     11566

   micro avg     0.8497    0.8497    0.8497     25000
   macro avg     0.8497    0.8516    0.8495     25000
weighted avg     0.8525    0.8497    0.8499     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 149.68it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 856.09it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 901.83it/s]


Train loss:  0.21463357003659525
Train accuracy:  0.9136
              precision    recall  f1-score   support

           0     0.8972    0.8152    0.8542     13758
           1     0.7966    0.8857    0.8388     11242

   micro avg     0.8469    0.8469    0.8469     25000
   macro avg     0.8469    0.8504    0.8465     25000
weighted avg     0.8519    0.8469    0.8473     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 145.53it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 862.58it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 905.21it/s]


Train loss:  0.21588542450860534
Train accuracy:  0.91376
              precision    recall  f1-score   support

           0     0.8948    0.8156    0.8534     13714
           1     0.7977    0.8835    0.8384     11286

   micro avg     0.8462    0.8462    0.8462     25000
   macro avg     0.8462    0.8495    0.8459     25000
weighted avg     0.8510    0.8462    0.8466     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 157.56it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 897.20it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 888.52it/s]


Train loss:  0.21502162085909227
Train accuracy:  0.91392
              precision    recall  f1-score   support

           0     0.8942    0.8154    0.8530     13707
           1     0.7976    0.8828    0.8381     11293

   micro avg     0.8459    0.8459    0.8459     25000
   macro avg     0.8459    0.8491    0.8455     25000
weighted avg     0.8505    0.8459    0.8462     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 155.71it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 912.93it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 870.04it/s]


Train loss:  0.2168165700961803
Train accuracy:  0.915
              precision    recall  f1-score   support

           0     0.8937    0.8174    0.8539     13666
           1     0.8004    0.8827    0.8396     11334

   micro avg     0.8470    0.8470    0.8470     25000
   macro avg     0.8470    0.8501    0.8467     25000
weighted avg     0.8514    0.8470    0.8474     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 147.82it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 886.59it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 908.94it/s]


Train loss:  0.21422170476317023
Train accuracy:  0.9172
              precision    recall  f1-score   support

           0     0.8905    0.8224    0.8551     13535
           1     0.8077    0.8806    0.8426     11465

   micro avg     0.8491    0.8491    0.8491     25000
   macro avg     0.8491    0.8515    0.8488     25000
weighted avg     0.8525    0.8491    0.8493     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:11<00:00, 141.42it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 899.59it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 895.01it/s]


Train loss:  0.2104489505898758
Train accuracy:  0.92256
              precision    recall  f1-score   support

           0     0.8814    0.8322    0.8561     13240
           1     0.8222    0.8740    0.8473     11760

   micro avg     0.8518    0.8518    0.8518     25000
   macro avg     0.8518    0.8531    0.8517     25000
weighted avg     0.8536    0.8518    0.8520     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:11<00:00, 133.80it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 873.33it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 902.52it/s]


Train loss:  0.21093333290171257
Train accuracy:  0.91924
              precision    recall  f1-score   support

           0     0.8875    0.8259    0.8556     13433
           1     0.8129    0.8784    0.8444     11567

   micro avg     0.8502    0.8502    0.8502     25000
   macro avg     0.8502    0.8522    0.8500     25000
weighted avg     0.8530    0.8502    0.8504     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 158.50it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 842.32it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 920.09it/s]


Train loss:  0.21136527571181266
Train accuracy:  0.91288
              precision    recall  f1-score   support

           0     0.8951    0.8119    0.8515     13781
           1     0.7926    0.8831    0.8354     11219

   micro avg     0.8439    0.8439    0.8439     25000
   macro avg     0.8439    0.8475    0.8435     25000
weighted avg     0.8491    0.8439    0.8443     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:09<00:00, 165.68it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 901.37it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 882.08it/s]


Train loss:  0.20947725898082714
Train accuracy:  0.9172
              precision    recall  f1-score   support

           0     0.8973    0.8155    0.8545     13753
           1     0.7970    0.8858    0.8391     11247

   micro avg     0.8472    0.8472    0.8472     25000
   macro avg     0.8472    0.8507    0.8468     25000
weighted avg     0.8522    0.8472    0.8475     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 146.17it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 854.58it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 898.14it/s]


Train loss:  0.20935133923028648
Train accuracy:  0.9198
              precision    recall  f1-score   support

           0     0.8893    0.8213    0.8540     13534
           1     0.8066    0.8793    0.8414     11466

   micro avg     0.8479    0.8479    0.8479     25000
   macro avg     0.8479    0.8503    0.8477     25000
weighted avg     0.8513    0.8479    0.8482     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:11<00:00, 132.74it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 898.09it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 884.98it/s]


Train loss:  0.20891838819169875
Train accuracy:  0.9182
              precision    recall  f1-score   support

           0     0.8931    0.8174    0.8536     13658
           1     0.8005    0.8822    0.8394     11342

   micro avg     0.8468    0.8468    0.8468     25000
   macro avg     0.8468    0.8498    0.8465     25000
weighted avg     0.8511    0.8468    0.8471     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:07<00:00, 258.99it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 868.08it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 970.26it/s]


Train loss:  0.2075112884839185
Train accuracy:  0.91696
              precision    recall  f1-score   support

           0     0.9006    0.8126    0.8543     13853
           1     0.7923    0.8885    0.8377     11147

   micro avg     0.8464    0.8464    0.8464     25000
   macro avg     0.8464    0.8505    0.8460     25000
weighted avg     0.8523    0.8464    0.8469     25000



Training: 100%|███████████████████████████████████████████████████████████████████| 1563/1563 [00:10<00:00, 155.04it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 912.69it/s]
Predicting: 100%|█████████████████████████████████████████████████████████████████| 1563/1563 [00:01<00:00, 945.28it/s]


Train loss:  0.2060674474510869
Train accuracy:  0.91712
              precision    recall  f1-score   support

           0     0.8966    0.8164    0.8546     13729
           1     0.7983    0.8854    0.8396     11271

   micro avg     0.8475    0.8475    0.8475     25000
   macro avg     0.8475    0.8509    0.8471     25000
weighted avg     0.8523    0.8475    0.8478     25000



Training:  77%|███████████████████████████████████████████████████▊               | 1210/1563 [00:07<00:02, 127.44it/s]


KeyboardInterrupt: 

In [27]:
print(train_loss)
print(train_accuracy)
print(test_f1)

[0.6091443893624207, 0.5192290250490814, 0.47306699867783947, 0.4451642018228636, 0.4262837194435427, 0.41259511840015517, 0.40247247462957547, 0.3933825103026205, 0.38607654931239416, 0.3801700164369109]
[0.75452, 0.78908, 0.80148, 0.81176, 0.82024, 0.82596, 0.8304, 0.83424, 0.83784, 0.84064]
[0.7431020667888952, 0.7807754945986536, 0.7938288052732954, 0.8032311831550436, 0.8101958010506023, 0.8153445873109721, 0.82003608808, 0.8238238625140057, 0.8256383482518476, 0.8286212187232584]


## 3.4. Predict test data

In [70]:
dataloader = DataLoader(TensorDataset(torch.tensor(cls_vectors_test, dtype=torch.float),
                                      torch.tensor(test.negative_embedding, dtype=torch.float),
                                      torch.tensor(test.positive_embedding, dtype=torch.float),
                                      torch.tensor(test.polarity)
                                     ),
                        batch_size=16
                       )

bert_llr_model.to('cuda')
bert_llr_model.eval()

predictions = []
for cls_vector, neg_embed, pos_embed, labels in tqdm_notebook(dataloader, desc='Predicting'):
    with torch.no_grad():
        logits = bert_llr_model(cls_vectors = cls_vector.cuda(),
                                neg_embed = neg_embed.cuda(),
                                pos_embed = pos_embed.cuda())[0] #This is for generate predict only
    logits = logits.detach().cpu().numpy()
    predictions.append(logits)


preds = [j for i in predictions for j in i]
preds = np.argmax(preds, axis=1)
print(classification_report(preds, test.polarity, digits=4))



HBox(children=(IntProgress(value=0, description='Predicting', max=1563, style=ProgressStyle(description_width=…


              precision    recall  f1-score   support

           0     0.9366    0.9342    0.9354     12533
           1     0.9340    0.9365    0.9352     12467

   micro avg     0.9353    0.9353    0.9353     25000
   macro avg     0.9353    0.9353    0.9353     25000
weighted avg     0.9353    0.9353    0.9353     25000

