# Multi Model Evaluation

In [1]:
import sys
sys.path.append("..")

import copy
import cProfile
from datasets import load_dataset
import itertools
import json
import math
import nltk
from nltk.tokenize.treebank import TreebankWordDetokenizer
import pandas as pd
import random
from sklearn.metrics import classification_report, accuracy_score, f1_score
import time
import torch
from tqdm import tqdm
from transformers import AutoTokenizer, DataCollatorWithPadding, \
                         AutoModelForSequenceClassification, BertForSequenceClassification, \
                         BertModel, RobertaForSequenceClassification, RobertaModel

from resilient_nlp.mini_roben import Clustering, ClusterRepRecoverer, ClusterRecovererWithPassthrough
from resilient_nlp.models import BertClassifier
from resilient_nlp.perturbers import ToyPerturber, WordScramblerPerturber
from runner import ExperimentRunner
from word_score_attack import BertWordScoreAttack

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

In [2]:
tasks = ('imdb', 'sst')

In [3]:
model_types = ('bert', 'roberta')

Config for final evaluation on test set

In [4]:
eval_set_size = 500
use_dev_set = False

Config for evaluation on dev set

In [5]:
#eval_set_size = 113
#use_dev_set = True

In [6]:
max_raw_length = 826
preprocess = lambda row: { 'text': row['text'].lower()[:max_raw_length]}

## IMDb Dataset

In [7]:
sampled_test_set = {}
sampled_test_set_dict = {}
sampled_test_set_adv_no_ws = {}
sampled_test_set_adv_incl_ws = {}

In [8]:
imdb = load_dataset('artemis13fowl/imdb')

Using custom data configuration artemis13fowl--imdb-f63738dec0d5e230
Reusing dataset parquet (/home/jasko/.cache/huggingface/datasets/parquet/artemis13fowl--imdb-f63738dec0d5e230/0.0.0/0b6d5799bb726b24ad7fc7be720c170d8e497f575d02d47537de9a5bac074901)


  0%|          | 0/4 [00:00<?, ?it/s]

In [9]:
random.seed(11)
if use_dev_set:
    sampled_test_set['imdb'] = imdb['dev'].select(random.choices(range(len(imdb['dev'])), k=eval_set_size)).map(preprocess)
else:
    sampled_test_set['imdb'] = imdb['attack_eval_truncated'].select(range(eval_set_size)).map(preprocess)


# This is silly but apparently huggingface datasets are immutable?
# Representing it as something a bit more sane
sampled_test_set_dict['imdb'] = [
    {
        'text': row['text'],
        'label': row['label'],
    }
    for row in sampled_test_set['imdb']
]

Loading cached processed dataset at /home/jasko/.cache/huggingface/datasets/parquet/artemis13fowl--imdb-f63738dec0d5e230/0.0.0/0b6d5799bb726b24ad7fc7be720c170d8e497f575d02d47537de9a5bac074901/cache-b45d493b37ab1dc7.arrow


## SST-5 Dataset

In [10]:
treebank_detok = TreebankWordDetokenizer()

sst = load_dataset('sst').map(
    lambda row: {
        "text": treebank_detok.detokenize(row["sentence"].split()),
        "label": min(math.floor(row["label"] / 0.2), 4.0),
    }, remove_columns=['sentence', 'tokens', 'tree']
)

random.seed(11)
if use_dev_set:
    sampled_test_set['sst'] = sst['validation'].select(random.choices(range(len(sst['validation'])), k=eval_set_size)).map(preprocess)
else:
    sampled_test_set['sst'] = sst['test'].select(random.choices(range(len(sst['validation'])), k=eval_set_size)).map(preprocess)

sampled_test_set_dict['sst'] = [
    {
        'text': row['text'],
        'label': row['label'],
    }
    for row in sampled_test_set['sst']
]

No config specified, defaulting to: sst/default
Reusing dataset sst (/home/jasko/.cache/huggingface/datasets/sst/default/1.0.0/b8a7889ef01c5d3ae8c379b84cc4080f8aad3ac2bc538701cbe0ac6416fb76ff)


  0%|          | 0/3 [00:00<?, ?it/s]

Loading cached processed dataset at /home/jasko/.cache/huggingface/datasets/sst/default/1.0.0/b8a7889ef01c5d3ae8c379b84cc4080f8aad3ac2bc538701cbe0ac6416fb76ff/cache-3c142acdab53f98c.arrow
Loading cached processed dataset at /home/jasko/.cache/huggingface/datasets/sst/default/1.0.0/b8a7889ef01c5d3ae8c379b84cc4080f8aad3ac2bc538701cbe0ac6416fb76ff/cache-0bf56ce0086915ee.arrow
Loading cached processed dataset at /home/jasko/.cache/huggingface/datasets/sst/default/1.0.0/b8a7889ef01c5d3ae8c379b84cc4080f8aad3ac2bc538701cbe0ac6416fb76ff/cache-19fdf8d124be4ba7.arrow
Loading cached processed dataset at /home/jasko/.cache/huggingface/datasets/sst/default/1.0.0/b8a7889ef01c5d3ae8c379b84cc4080f8aad3ac2bc538701cbe0ac6416fb76ff/cache-79527fc10b9ffbb4.arrow


### Perturbations

In [11]:
def generate_perturbed_multiset(input, wsp):
    random.seed(11)
    result = []

    for i in range(10):
        test_item = copy.deepcopy(input)

        for row in test_item:
            row['text'] = wsp.perturb([row['text']])[0][0]
        result.append(test_item)
    
    return result

Perturbed set with no whitespace modifications

In [12]:
wsp = WordScramblerPerturber(perturb_prob=0.1, weight_add=1, weight_drop=1, weight_swap=1,
                             weight_split_word=0, weight_merge_words=0)

for task in tasks:
    sampled_test_set_adv_no_ws[task] = generate_perturbed_multiset(sampled_test_set_dict[task], wsp)

Perturbed set with whitespace modifications

In [13]:
wsp = WordScramblerPerturber(perturb_prob=0.1, weight_add=1, weight_drop=1, weight_swap=1,
                             weight_split_word=1, weight_merge_words=1)

for task in tasks:
    sampled_test_set_adv_incl_ws[task] = generate_perturbed_multiset(sampled_test_set_dict[task], wsp)

## Models

### BERT, including finetuned variants

In [14]:
tokenizer = {}
model_base = {}
model_finetuned = { type: {} for type in model_types }
model_finetuned_all_pert = { type: {} for type in model_types }

In [15]:
bert_checkpoint = "bert-base-uncased"
tokenizer['bert'] = AutoTokenizer.from_pretrained(bert_checkpoint)
model_base['bert'] = BertModel.from_pretrained(bert_checkpoint).to(device)

In [16]:
bert_checkpoint_finetuned_imdb = "artemis13fowl/bert-base-uncased-imdb"
model_finetuned['bert']['imdb'] = BertForSequenceClassification.from_pretrained(bert_checkpoint_finetuned_imdb).to(device)

In [17]:
bert_checkpoint_finetuned_imdb_all_pert = "jjezabek/bert-base-uncased-imdb-all-pert"
model_finetuned_all_pert['bert']['imdb'] = BertForSequenceClassification.from_pretrained(bert_checkpoint_finetuned_imdb_all_pert).to(device)

In [18]:
bert_checkpoint_finetuned_sst = "jjezabek/bert-base-uncased-sst"
model_finetuned['bert']['sst'] = BertForSequenceClassification.from_pretrained(bert_checkpoint_finetuned_sst).to(device)

In [19]:
roberta_checkpoint = "roberta-base"
tokenizer['roberta'] = AutoTokenizer.from_pretrained(roberta_checkpoint)
model_base['roberta'] = RobertaModel.from_pretrained(roberta_checkpoint).to(device)

In [20]:
roberta_checkpoint_finetuned_imdb = "jjezabek/roberta-base-imdb"
model_finetuned['roberta']['imdb'] = RobertaForSequenceClassification.from_pretrained(roberta_checkpoint_finetuned_imdb).to(device)

In [21]:
roberta_checkpoint_finetuned_sst = '/home/jasko/resilient_nlp/output/roberta-base-sst/checkpoint-900'
model_finetuned['roberta']['sst'] = RobertaForSequenceClassification.from_pretrained(roberta_checkpoint_finetuned_sst).to(device)

### RobEn clusterings (as baseline)

The first clustering is ConnComp (which very aggressively merges clusters). The second is AggClust, which uses a cost function to better preserve fidelity. The second one should generally be better.

In [22]:
roben_clustering = Clustering.from_pickle("../vocab100000_ed1.pkl")
roben_recoverer = ClusterRecovererWithPassthrough("cache", roben_clustering)
roben_clustering2 = Clustering.from_pickle("../vocab100000_ed1_gamma0.3.pkl")
roben_recoverer2 = ClusterRecovererWithPassthrough("cache", roben_clustering2)

## Model Prediction Helpers

In [23]:
max_sequence_length = 128
batch_size = 32

These are wrappers for standard (possibly finetuned) Huggingface models, using their normal tokenizers.

In [24]:
def standard_model_predict(tokenizer, model, sentences, recoverer, return_pred_tensor, recoverer_tokenize):
    if recoverer is not None:
        if recoverer_tokenize:
            tok = nltk.tokenize.treebank.TreebankWordTokenizer()
            sentences = [ " ".join(tok_list) for tok_list in tok.tokenize_sents(sentences) ]
        sentences = [ recoverer.recover(s.lower()) for s in sentences ]
        if recoverer_tokenize:
            detok = nltk.tokenize.treebank.TreebankWordDetokenizer()
            sentences = [ detok.detokenize(s.split(" ")) for s in sentences]
    tokenized = tokenizer(sentences, truncation=True, padding='max_length', max_length=max_sequence_length,
                          return_tensors='pt')
    tokenized = { k: v.to(device) for k, v in tokenized.items() }
    preds = model(**tokenized)
    if return_pred_tensor:
        return preds
    else:
        return torch.argmax(preds.logits, dim=1)

def wrap_standard_model(tokenizer, model, recoverer=None, return_pred_tensor=True, recoverer_tokenize=False):
    return lambda sentences: standard_model_predict(tokenizer, model, sentences, recoverer, return_pred_tensor,
                                                    recoverer_tokenize)

This is a wrapper for the machine trained tokenizer+embedder (aka MockingBERT)

In [25]:
def mltokenizer_model_predict(runner, model, cls_embedding, sep_embedding, pad_embedding, sentences, return_pred_tensor):
    # Truncate and lower case. Truncation is for performance only
    sentences = [ s.lower()[:8*max_sequence_length] for s in sentences]
    embedding = runner.embed(sentences=sentences,
        start_token=cls_embedding, end_token=sep_embedding, pad_token=pad_embedding,
        max_tokens=max_sequence_length)
    preds = model(inputs_embeds=embedding['inputs_embeds'], attention_mask=embedding['attention_mask'])
    if return_pred_tensor:
        return preds
    else:
        return torch.argmax(preds.logits, dim=1)

def wrap_mltokenizer_model(mltokenizer_prefix, tokenizer, model, cf_embedding, type, return_pred_tensor=True):
    filename = "../{}.pth".format(mltokenizer_prefix)
    runner = ExperimentRunner(device, model_filename=filename)
    if type == 'bert':
        cls_token_id = tokenizer.vocab['[CLS]']
        sep_token_id = tokenizer.vocab['[SEP]']
        pad_token_id = tokenizer.vocab['[PAD]']
    elif type == 'roberta':
        cls_token_id = tokenizer.vocab['<s>']
        sep_token_id = tokenizer.vocab['</s>']
        pad_token_id = tokenizer.vocab['<pad>']
    cls_embedding = cf_embedding(torch.tensor([cls_token_id], device=device)).view(-1)
    sep_embedding = cf_embedding(torch.tensor([sep_token_id], device=device)).view(-1)
    pad_embedding = cf_embedding(torch.tensor([pad_token_id], device=device)).view(-1)
    
    return lambda sentences: mltokenizer_model_predict(runner, model, cls_embedding, sep_embedding,
                                                      pad_embedding, sentences, return_pred_tensor)

## Evaluation Helpers

Evaluates a wrapped model on a test set

In [26]:
@torch.no_grad()
def evaluate_model(model, test_set):
    num_batches = math.ceil(len(test_set) / batch_size)
    
    sentences = [ x['text'] for x in test_set ]
    labels = [ x['label'] for x in test_set ]
    pred_batches = []
    
    for i in tqdm(range(num_batches)):
        bs = i * batch_size
        be = bs + batch_size
        
        output = model(sentences[bs:be])
        
        pred_batches.append(torch.argmax(output.logits, dim=1).detach().cpu())
    preds = torch.cat(pred_batches)
    
    print(classification_report(labels, preds, digits=4))
    
    accuracy = accuracy_score(labels, preds)
    f1 = f1_score(labels, preds, average='macro')
    
    return accuracy, f1

Evaluates a wrapped model on a stochastic, pseudo-adversarial test set. This means that each input sentence is replicated x times (typically 10) with randomized perturbations, and an attack is considered successful if *any* of the predictions is incorrect.

In [27]:
@torch.no_grad()
def evaluate_model_adv(model, test_sets):
    labels = [ x['label'] for x in test_sets[0] ]
    adv_preds = copy.copy(labels)
    accuracy_list = []
    f1_list = []
    
    for idx in tqdm(range(len(test_sets))):
        test_set = test_sets[idx]
        num_batches = math.ceil(len(test_set) / batch_size)
    
        sentences = [ x['text'] for x in test_set ]
        pred_batches = []
    
        for i in range(num_batches):
            bs = i * batch_size
            be = bs + batch_size
        
            output = model(sentences[bs:be])
        
            pred_batches.append(torch.argmax(output.logits, dim=1).detach().cpu())
        preds = torch.cat(pred_batches)
        
        for i in range(len(adv_preds)):
            if labels[i] != preds[i]:
                adv_preds[i] = preds[i]

        accuracy_list.append(accuracy_score(labels, adv_preds))
        f1_list.append(f1_score(labels, adv_preds, average='macro'))
    
    print(classification_report(labels, adv_preds, digits=4))    
    
    return accuracy_list, f1_list

Evaluates a model using WordScoreAttack

In [28]:
@torch.no_grad()
def evaluate_model_word_score(model, test_set, allow_whitespace_pert=True, report_prefix=None, word_scores_file=None):
    attacker = BertWordScoreAttack(
        WordScramblerPerturber(perturb_prob=1, weight_add=1, weight_drop=1, weight_swap=1,
                               weight_split_word=int(allow_whitespace_pert),
                               weight_merge_words=0),
        word_scores_file, model, tokenizer=None, max_sequence_length=max_sequence_length,
        attack_whitespace=allow_whitespace_pert,
    )

    res = attacker.attack(test_set, max_tokens_to_perturb=10, max_tries_per_token=4, mode=0, print_summary=False)

    if report_prefix is not None:
        res.to_csv(f"{report_prefix}_df.csv")
        with open(f"{report_prefix}_stats.json", "w") as f:
            json.dump(attacker.compute_attack_stats(), fp=f)            
    
    print(classification_report(res['ground_truth'], res['perturbed_preds'], digits=4))    
    
    accuracy = accuracy_score(res['ground_truth'], res['perturbed_preds'])
    f1 = f1_score(res['ground_truth'], res['perturbed_preds'], average='macro')
    
    return accuracy, f1

In [29]:
all_models = {
    'baseline': lambda task, type: wrap_standard_model(tokenizer[type], model_finetuned[type][task]),
    'baseline_all_pert': lambda task, type: wrap_standard_model(tokenizer[type], model_finetuned_all_pert[type][task]),
    'roben_1': lambda task, type: wrap_standard_model(tokenizer[type], model_finetuned[type][task], roben_recoverer),
    'roben_2': lambda task, type: wrap_standard_model(tokenizer[type], model_finetuned[type][task], roben_recoverer2),
    'roben_1_tok': lambda task, type: wrap_standard_model(tokenizer[type], model_finetuned[type][task], roben_recoverer, recoverer_tokenize=True),
    'roben_2_tok': lambda task, type: wrap_standard_model(tokenizer[type], model_finetuned[type][task], roben_recoverer2, recoverer_tokenize=True),
}

mltok_model_names = [
    '64k_lstm_clean_vanilla',
    '64k_lstm_no_whitespace_pert_vanilla',
    '64k_lstm_all_pert_vanilla',
    '64k_lstm_clean_finetuned',
    '64k_lstm_no_whitespace_pert_finetuned',
    '64k_lstm_all_pert_finetuned',
    '64k_cnn_no_whitespace_pert_finetuned',
    '2m_lstm_all_pert_finetuned',
    '32k_lstm_all_pert_finetuned_100ep',
]

for name in mltok_model_names:
    if name.endswith('_vanilla'):
        cf_embedding = lambda task, type: model_base[type].embeddings.word_embeddings
        filename = lambda task, type, name: f'output/{type}_{name}'
    else:
        cf_embedding = lambda task, type: model_finetuned[type][task].base_model.embeddings.word_embeddings
        filename = lambda task, type, name: f'output/{type}_{name}_{task}'
    # name=name is a hack to avoid Python late binding
    all_models[name] = lambda task, type, name=name, filename=filename, cf_embedding=cf_embedding: wrap_mltokenizer_model(filename(task, type, name), tokenizer[type], model_finetuned[type][task], cf_embedding(task, type), type)

In [30]:
evaluations = [
    'clean',
    'stochastic_no_ws',
    'stochastic_incl_ws',
    'word_score_no_ws',
    'word_score_incl_ws',
]

In [31]:
model_task_ids = [ f"{model}_{type}_{task}" for task, type, model in itertools.product(tasks, model_types, all_models.keys()) ]

accuracy_df = pd.DataFrame(columns=evaluations, index=model_task_ids)
f1_df = pd.DataFrame(columns=evaluations, index=model_task_ids)

for task, type in itertools.product(tasks, model_types):
    for cur_model_name, cur_model_factory in all_models.items():
        try:
            cur_model = cur_model_factory(task, type)
        except:
            print(f'Failed loading model {cur_model_name} on {type} for task {task}, skipping')
            accuracy_df.drop(f"{cur_model_name}_{type}_{task}", inplace=True)
            f1_df.drop(f"{cur_model_name}_{type}_{task}", inplace=True)
            continue
        for cur_evaluation in evaluations:
            print(f'Evaluating model {cur_model_name} on {type} on {cur_evaluation} for task {task}')
            start_time = time.time()
            random.seed(11)
            if cur_evaluation == 'clean':
                acc, f1 = evaluate_model(cur_model, sampled_test_set[task])
            elif cur_evaluation.startswith('stochastic_'):
                if cur_evaluation == 'stochastic_no_ws':
                    acc_list, f1_list = evaluate_model_adv(cur_model, sampled_test_set_adv_no_ws[task])
                elif cur_evaluation == 'stochastic_incl_ws':
                    acc_list, f1_list = evaluate_model_adv(cur_model, sampled_test_set_adv_incl_ws[task])
                acc = acc_list[-1]
                f1 = f1_list[-1]
                with open(f"../output/eval/{cur_model_name}_{type}_{task}_{cur_evaluation}_acc_list.json", "w") as f:
                    json.dump(acc_list, fp=f)
                with open(f"../output/eval/{cur_model_name}_{type}_{task}_{cur_evaluation}_f1_list.json", "w") as f:
                    json.dump(f1_list, fp=f)
            elif cur_evaluation.startswith('word_score_'):
                if cur_evaluation == 'word_score_no_ws':
                    acc, f1 = evaluate_model_word_score(cur_model, sampled_test_set[task], allow_whitespace_pert=False,
                                                        report_prefix=f"../output/eval/{cur_model_name}_{type}_{task}_{cur_evaluation}",
                                                        word_scores_file=f"../output/{task}_word_scores.json")
                elif cur_evaluation == 'word_score_incl_ws':
                    acc, f1 = evaluate_model_word_score(cur_model, sampled_test_set[task], allow_whitespace_pert=True,
                                                        report_prefix=f"../output/eval/{cur_model_name}_{type}_{task}_{cur_evaluation}",
                                                        word_scores_file=f"../output/{task}_word_scores.json")

            accuracy_df[cur_evaluation][f"{cur_model_name}_{type}_{task}"] = acc
            f1_df[cur_evaluation][f"{cur_model_name}_{type}_{task}"] = f1
            end_time = time.time()
            print(f"Evaluation took {end_time-start_time} seconds")
        del cur_model

Evaluating model baseline on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:03<00:00,  5.16it/s]


              precision    recall  f1-score   support

           0     0.8765    0.8765    0.8765       243
           1     0.8833    0.8833    0.8833       257

    accuracy                         0.8800       500
   macro avg     0.8799    0.8799    0.8799       500
weighted avg     0.8800    0.8800    0.8800       500

Evaluation took 3.304670572280884 seconds
Evaluating model baseline on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.56s/it]


              precision    recall  f1-score   support

           0     0.6970    0.7572    0.7258       243
           1     0.7500    0.6887    0.7181       257

    accuracy                         0.7220       500
   macro avg     0.7235    0.7230    0.7219       500
weighted avg     0.7242    0.7220    0.7218       500

Evaluation took 25.729147911071777 seconds
Evaluating model baseline on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:26<00:00,  2.66s/it]


              precision    recall  f1-score   support

           0     0.6692    0.7160    0.6918       243
           1     0.7125    0.6654    0.6881       257

    accuracy                         0.6900       500
   macro avg     0.6909    0.6907    0.6900       500
weighted avg     0.6915    0.6900    0.6899       500

Evaluation took 26.565213680267334 seconds
Evaluating model baseline on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:16<00:00,  6.52it/s]


              precision    recall  f1-score   support

           0     0.5891    0.6255    0.6068       243
           1     0.6240    0.5875    0.6052       257

    accuracy                         0.6060       500
   macro avg     0.6066    0.6065    0.6060       500
weighted avg     0.6070    0.6060    0.6060       500

Evaluation took 76.84684205055237 seconds
Evaluating model baseline on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:15<00:00,  6.60it/s]


              precision    recall  f1-score   support

           0     0.5667    0.6296    0.5965       243
           1     0.6087    0.5447    0.5749       257

    accuracy                         0.5860       500
   macro avg     0.5877    0.5872    0.5857       500
weighted avg     0.5883    0.5860    0.5854       500

Evaluation took 75.79945087432861 seconds
Evaluating model baseline_all_pert on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.22it/s]


              precision    recall  f1-score   support

           0     0.8745    0.8889    0.8816       243
           1     0.8933    0.8794    0.8863       257

    accuracy                         0.8840       500
   macro avg     0.8839    0.8841    0.8840       500
weighted avg     0.8842    0.8840    0.8840       500

Evaluation took 2.6160788536071777 seconds
Evaluating model baseline_all_pert on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]


              precision    recall  f1-score   support

           0     0.6554    0.7984    0.7199       243
           1     0.7598    0.6031    0.6725       257

    accuracy                         0.6980       500
   macro avg     0.7076    0.7007    0.6962       500
weighted avg     0.7091    0.6980    0.6955       500

Evaluation took 25.45649290084839 seconds
Evaluating model baseline_all_pert on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.53s/it]


              precision    recall  f1-score   support

           0     0.6330    0.7737    0.6963       243
           1     0.7291    0.5759    0.6435       257

    accuracy                         0.6720       500
   macro avg     0.6810    0.6748    0.6699       500
weighted avg     0.6824    0.6720    0.6691       500

Evaluation took 25.327449560165405 seconds
Evaluating model baseline_all_pert on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:13<00:00,  6.84it/s]


              precision    recall  f1-score   support

           0     0.5179    0.6543    0.5782       243
           1     0.5648    0.4241    0.4844       257

    accuracy                         0.5360       500
   macro avg     0.5413    0.5392    0.5313       500
weighted avg     0.5420    0.5360    0.5300       500

Evaluation took 73.30433440208435 seconds
Evaluating model baseline_all_pert on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:13<00:00,  6.83it/s]


              precision    recall  f1-score   support

           0     0.5338    0.6502    0.5863       243
           1     0.5833    0.4630    0.5163       257

    accuracy                         0.5540       500
   macro avg     0.5586    0.5566    0.5513       500
weighted avg     0.5593    0.5540    0.5503       500

Evaluation took 73.23209762573242 seconds
Evaluating model roben_1 on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  5.93it/s]


              precision    recall  f1-score   support

           0     0.8365    0.7160    0.7716       243
           1     0.7637    0.8677    0.8124       257

    accuracy                         0.7940       500
   macro avg     0.8001    0.7919    0.7920       500
weighted avg     0.7991    0.7940    0.7926       500

Evaluation took 2.7414894104003906 seconds
Evaluating model roben_1 on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:26<00:00,  2.67s/it]


              precision    recall  f1-score   support

           0     0.7048    0.6091    0.6534       243
           1     0.6724    0.7588    0.7130       257

    accuracy                         0.6860       500
   macro avg     0.6886    0.6839    0.6832       500
weighted avg     0.6881    0.6860    0.6840       500

Evaluation took 26.74954104423523 seconds
Evaluating model roben_1 on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:26<00:00,  2.67s/it]


              precision    recall  f1-score   support

           0     0.5674    0.5021    0.5328       243
           1     0.5754    0.6381    0.6052       257

    accuracy                         0.5720       500
   macro avg     0.5714    0.5701    0.5690       500
weighted avg     0.5716    0.5720    0.5700       500

Evaluation took 26.68456792831421 seconds
Evaluating model roben_1 on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:18<00:00,  6.35it/s]


              precision    recall  f1-score   support

           0     0.7033    0.5267    0.6024       243
           1     0.6384    0.7899    0.7061       257

    accuracy                         0.6620       500
   macro avg     0.6708    0.6583    0.6542       500
weighted avg     0.6699    0.6620    0.6557       500

Evaluation took 78.95353150367737 seconds
Evaluating model roben_1 on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:08<00:00,  7.28it/s]


              precision    recall  f1-score   support

           0     0.4697    0.3827    0.4218       243
           1     0.5033    0.5914    0.5438       257

    accuracy                         0.4900       500
   macro avg     0.4865    0.4871    0.4828       500
weighted avg     0.4870    0.4900    0.4845       500

Evaluation took 68.67365026473999 seconds
Evaluating model roben_2 on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.13it/s]


              precision    recall  f1-score   support

           0     0.8423    0.7695    0.8043       243
           1     0.7986    0.8638    0.8299       257

    accuracy                         0.8180       500
   macro avg     0.8205    0.8167    0.8171       500
weighted avg     0.8198    0.8180    0.8175       500

Evaluation took 2.6505815982818604 seconds
Evaluating model roben_2 on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.59s/it]


              precision    recall  f1-score   support

           0     0.7168    0.6667    0.6908       243
           1     0.7044    0.7510    0.7269       257

    accuracy                         0.7100       500
   macro avg     0.7106    0.7088    0.7089       500
weighted avg     0.7104    0.7100    0.7094       500

Evaluation took 25.921818733215332 seconds
Evaluating model roben_2 on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.59s/it]


              precision    recall  f1-score   support

           0     0.5778    0.5350    0.5556       243
           1     0.5891    0.6304    0.6090       257

    accuracy                         0.5840       500
   macro avg     0.5834    0.5827    0.5823       500
weighted avg     0.5836    0.5840    0.5830       500

Evaluation took 25.925090074539185 seconds
Evaluating model roben_2 on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:20<00:00,  6.19it/s]


              precision    recall  f1-score   support

           0     0.7238    0.6255    0.6711       243
           1     0.6862    0.7743    0.7276       257

    accuracy                         0.7020       500
   macro avg     0.7050    0.6999    0.6993       500
weighted avg     0.7045    0.7020    0.7001       500

Evaluation took 80.750009059906 seconds
Evaluating model roben_2 on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:10<00:00,  7.10it/s]


              precision    recall  f1-score   support

           0     0.5385    0.4897    0.5129       243
           1     0.5556    0.6031    0.5784       257

    accuracy                         0.5480       500
   macro avg     0.5470    0.5464    0.5456       500
weighted avg     0.5472    0.5480    0.5466       500

Evaluation took 70.47526407241821 seconds
Evaluating model roben_1_tok on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  5.45it/s]


              precision    recall  f1-score   support

           0     0.8541    0.6502    0.7383       243
           1     0.7302    0.8949    0.8042       257

    accuracy                         0.7760       500
   macro avg     0.7921    0.7726    0.7713       500
weighted avg     0.7904    0.7760    0.7722       500

Evaluation took 2.978468656539917 seconds
Evaluating model roben_1_tok on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:29<00:00,  2.91s/it]


              precision    recall  f1-score   support

           0     0.7472    0.5473    0.6318       243
           1     0.6584    0.8249    0.7323       257

    accuracy                         0.6900       500
   macro avg     0.7028    0.6861    0.6821       500
weighted avg     0.7015    0.6900    0.6835       500

Evaluation took 29.130512952804565 seconds
Evaluating model roben_1_tok on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:29<00:00,  2.91s/it]


              precision    recall  f1-score   support

           0     0.5521    0.4362    0.4874       243
           1     0.5552    0.6654    0.6053       257

    accuracy                         0.5540       500
   macro avg     0.5536    0.5508    0.5463       500
weighted avg     0.5537    0.5540    0.5480       500

Evaluation took 29.063089609146118 seconds
Evaluating model roben_1_tok on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:27<00:00,  5.70it/s]


              precision    recall  f1-score   support

           0     0.7602    0.5350    0.6280       243
           1     0.6565    0.8405    0.7372       257

    accuracy                         0.6920       500
   macro avg     0.7084    0.6877    0.6826       500
weighted avg     0.7069    0.6920    0.6841       500

Evaluation took 87.8146562576294 seconds
Evaluating model roben_1_tok on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:16<00:00,  6.55it/s]


              precision    recall  f1-score   support

           0     0.5169    0.3786    0.4371       243
           1     0.5311    0.6654    0.5907       257

    accuracy                         0.5260       500
   macro avg     0.5240    0.5220    0.5139       500
weighted avg     0.5242    0.5260    0.5160       500

Evaluation took 76.34076929092407 seconds
Evaluating model roben_2_tok on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  5.65it/s]


              precision    recall  f1-score   support

           0     0.8238    0.7119    0.7638       243
           1     0.7586    0.8560    0.8044       257

    accuracy                         0.7860       500
   macro avg     0.7912    0.7840    0.7841       500
weighted avg     0.7903    0.7860    0.7847       500

Evaluation took 2.873223304748535 seconds
Evaluating model roben_2_tok on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:28<00:00,  2.81s/it]


              precision    recall  f1-score   support

           0     0.7053    0.6008    0.6489       243
           1     0.6689    0.7626    0.7127       257

    accuracy                         0.6840       500
   macro avg     0.6871    0.6817    0.6808       500
weighted avg     0.6866    0.6840    0.6817       500

Evaluation took 28.154146194458008 seconds
Evaluating model roben_2_tok on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:28<00:00,  2.81s/it]


              precision    recall  f1-score   support

           0     0.5880    0.5226    0.5534       243
           1     0.5915    0.6537    0.6211       257

    accuracy                         0.5900       500
   macro avg     0.5898    0.5882    0.5872       500
weighted avg     0.5898    0.5900    0.5882       500

Evaluation took 28.138331651687622 seconds
Evaluating model roben_2_tok on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:27<00:00,  5.72it/s]


              precision    recall  f1-score   support

           0     0.7512    0.6337    0.6875       243
           1     0.6983    0.8016    0.7464       257

    accuracy                         0.7200       500
   macro avg     0.7248    0.7177    0.7169       500
weighted avg     0.7240    0.7200    0.7178       500

Evaluation took 87.44418787956238 seconds
Evaluating model roben_2_tok on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:15<00:00,  6.63it/s]


              precision    recall  f1-score   support

           0     0.5283    0.4609    0.4923       243
           1     0.5451    0.6109    0.5761       257

    accuracy                         0.5380       500
   macro avg     0.5367    0.5359    0.5342       500
weighted avg     0.5370    0.5380    0.5354       500

Evaluation took 75.43959331512451 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.18s/it]


              precision    recall  f1-score   support

           0     0.8571    0.8642    0.8607       243
           1     0.8706    0.8638    0.8672       257

    accuracy                         0.8640       500
   macro avg     0.8639    0.8640    0.8639       500
weighted avg     0.8641    0.8640    0.8640       500

Evaluation took 18.857181787490845 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:06<00:00, 18.68s/it]


              precision    recall  f1-score   support

           0     0.6858    0.7366    0.7103       243
           1     0.7322    0.6809    0.7056       257

    accuracy                         0.7080       500
   macro avg     0.7090    0.7088    0.7080       500
weighted avg     0.7097    0.7080    0.7079       500

Evaluation took 186.80392479896545 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:05<00:00, 18.59s/it]


              precision    recall  f1-score   support

           0     0.6370    0.7078    0.6706       243
           1     0.6913    0.6187    0.6530       257

    accuracy                         0.6620       500
   macro avg     0.6642    0.6632    0.6618       500
weighted avg     0.6649    0.6620    0.6615       500

Evaluation took 185.88605070114136 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [09:13<00:00,  1.11s/it]


              precision    recall  f1-score   support

           0     0.5486    0.5802    0.5640       243
           1     0.5802    0.5486    0.5640       257

    accuracy                         0.5640       500
   macro avg     0.5644    0.5644    0.5640       500
weighted avg     0.5649    0.5640    0.5640       500

Evaluation took 553.2234115600586 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [09:04<00:00,  1.09s/it]


              precision    recall  f1-score   support

           0     0.5203    0.5802    0.5486       243
           1     0.5546    0.4942    0.5226       257

    accuracy                         0.5360       500
   macro avg     0.5374    0.5372    0.5356       500
weighted avg     0.5379    0.5360    0.5353       500

Evaluation took 544.1524803638458 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.16s/it]


              precision    recall  f1-score   support

           0     0.8653    0.8724    0.8689       243
           1     0.8784    0.8716    0.8750       257

    accuracy                         0.8720       500
   macro avg     0.8719    0.8720    0.8719       500
weighted avg     0.8721    0.8720    0.8720       500

Evaluation took 18.67992115020752 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:06<00:00, 18.62s/it]


              precision    recall  f1-score   support

           0     0.8041    0.8107    0.8074       243
           1     0.8196    0.8132    0.8164       257

    accuracy                         0.8120       500
   macro avg     0.8118    0.8120    0.8119       500
weighted avg     0.8121    0.8120    0.8120       500

Evaluation took 186.22388863563538 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.73s/it]


              precision    recall  f1-score   support

           0     0.6972    0.7202    0.7085       243
           1     0.7269    0.7043    0.7154       257

    accuracy                         0.7120       500
   macro avg     0.7121    0.7122    0.7120       500
weighted avg     0.7125    0.7120    0.7121       500

Evaluation took 187.27407002449036 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:18<00:00,  1.24s/it]


              precision    recall  f1-score   support

           0     0.7489    0.7119    0.7300       243
           1     0.7398    0.7743    0.7567       257

    accuracy                         0.7440       500
   macro avg     0.7443    0.7431    0.7433       500
weighted avg     0.7442    0.7440    0.7437       500

Evaluation took 618.4565773010254 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [09:31<00:00,  1.14s/it]


              precision    recall  f1-score   support

           0     0.5940    0.5720    0.5828       243
           1     0.6090    0.6304    0.6195       257

    accuracy                         0.6020       500
   macro avg     0.6015    0.6012    0.6012       500
weighted avg     0.6017    0.6020    0.6017       500

Evaluation took 572.0049240589142 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.17s/it]


              precision    recall  f1-score   support

           0     0.8734    0.8519    0.8625       243
           1     0.8631    0.8833    0.8731       257

    accuracy                         0.8680       500
   macro avg     0.8683    0.8676    0.8678       500
weighted avg     0.8681    0.8680    0.8679       500

Evaluation took 18.78917956352234 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.77s/it]


              precision    recall  f1-score   support

           0     0.8162    0.7860    0.8008       243
           1     0.8045    0.8327    0.8184       257

    accuracy                         0.8100       500
   macro avg     0.8104    0.8093    0.8096       500
weighted avg     0.8102    0.8100    0.8098       500

Evaluation took 187.71181273460388 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.71s/it]


              precision    recall  f1-score   support

           0     0.8139    0.7737    0.7932       243
           1     0.7955    0.8327    0.8137       257

    accuracy                         0.8040       500
   macro avg     0.8047    0.8032    0.8035       500
weighted avg     0.8044    0.8040    0.8038       500

Evaluation took 187.0743329524994 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:13<00:00,  1.23s/it]


              precision    recall  f1-score   support

           0     0.7182    0.6502    0.6825       243
           1     0.6964    0.7588    0.7263       257

    accuracy                         0.7060       500
   macro avg     0.7073    0.7045    0.7044       500
weighted avg     0.7070    0.7060    0.7050       500

Evaluation took 613.3308417797089 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:05<00:00,  1.21s/it]


              precision    recall  f1-score   support

           0     0.7018    0.6296    0.6638       243
           1     0.6809    0.7471    0.7124       257

    accuracy                         0.6900       500
   macro avg     0.6913    0.6884    0.6881       500
weighted avg     0.6910    0.6900    0.6888       500

Evaluation took 605.1301996707916 seconds
Evaluating model 64k_lstm_clean_finetuned on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.17s/it]


              precision    recall  f1-score   support

           0     0.8543    0.8683    0.8612       243
           1     0.8735    0.8599    0.8667       257

    accuracy                         0.8640       500
   macro avg     0.8639    0.8641    0.8639       500
weighted avg     0.8642    0.8640    0.8640       500

Evaluation took 18.775984287261963 seconds
Evaluating model 64k_lstm_clean_finetuned on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.79s/it]


              precision    recall  f1-score   support

           0     0.7092    0.7325    0.7206       243
           1     0.7390    0.7160    0.7273       257

    accuracy                         0.7240       500
   macro avg     0.7241    0.7242    0.7240       500
weighted avg     0.7245    0.7240    0.7241       500

Evaluation took 187.87697625160217 seconds
Evaluating model 64k_lstm_clean_finetuned on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:04<00:00, 18.50s/it]


              precision    recall  f1-score   support

           0     0.6743    0.7243    0.6984       243
           1     0.7197    0.6693    0.6935       257

    accuracy                         0.6960       500
   macro avg     0.6970    0.6968    0.6960       500
weighted avg     0.6976    0.6960    0.6959       500

Evaluation took 184.9867901802063 seconds
Evaluating model 64k_lstm_clean_finetuned on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [09:30<00:00,  1.14s/it]


              precision    recall  f1-score   support

           0     0.5638    0.5638    0.5638       243
           1     0.5875    0.5875    0.5875       257

    accuracy                         0.5760       500
   macro avg     0.5757    0.5757    0.5757       500
weighted avg     0.5760    0.5760    0.5760       500

Evaluation took 570.5083112716675 seconds
Evaluating model 64k_lstm_clean_finetuned on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [09:18<00:00,  1.12s/it]


              precision    recall  f1-score   support

           0     0.5415    0.5638    0.5524       243
           1     0.5709    0.5486    0.5595       257

    accuracy                         0.5560       500
   macro avg     0.5562    0.5562    0.5560       500
weighted avg     0.5566    0.5560    0.5561       500

Evaluation took 558.4161539077759 seconds
Evaluating model 64k_lstm_no_whitespace_pert_finetuned on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.16s/it]


              precision    recall  f1-score   support

           0     0.8514    0.8724    0.8618       243
           1     0.8765    0.8560    0.8661       257

    accuracy                         0.8640       500
   macro avg     0.8639    0.8642    0.8640       500
weighted avg     0.8643    0.8640    0.8640       500

Evaluation took 18.52525305747986 seconds
Evaluating model 64k_lstm_no_whitespace_pert_finetuned on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:05<00:00, 18.52s/it]


              precision    recall  f1-score   support

           0     0.7984    0.8313    0.8145       243
           1     0.8340    0.8016    0.8175       257

    accuracy                         0.8160       500
   macro avg     0.8162    0.8164    0.8160       500
weighted avg     0.8167    0.8160    0.8160       500

Evaluation took 185.24866843223572 seconds
Evaluating model 64k_lstm_no_whitespace_pert_finetuned on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:04<00:00, 18.44s/it]


              precision    recall  f1-score   support

           0     0.7016    0.7449    0.7226       243
           1     0.7438    0.7004    0.7214       257

    accuracy                         0.7220       500
   macro avg     0.7227    0.7226    0.7220       500
weighted avg     0.7233    0.7220    0.7220       500

Evaluation took 184.45421648025513 seconds
Evaluating model 64k_lstm_no_whitespace_pert_finetuned on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:14<00:00,  1.23s/it]


              precision    recall  f1-score   support

           0     0.7202    0.7202    0.7202       243
           1     0.7354    0.7354    0.7354       257

    accuracy                         0.7280       500
   macro avg     0.7278    0.7278    0.7278       500
weighted avg     0.7280    0.7280    0.7280       500

Evaluation took 614.523227930069 seconds
Evaluating model 64k_lstm_no_whitespace_pert_finetuned on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [09:16<00:00,  1.11s/it]


              precision    recall  f1-score   support

           0     0.5650    0.5720    0.5685       243
           1     0.5906    0.5837    0.5871       257

    accuracy                         0.5780       500
   macro avg     0.5778    0.5778    0.5778       500
weighted avg     0.5782    0.5780    0.5781       500

Evaluation took 556.1458470821381 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.16s/it]


              precision    recall  f1-score   support

           0     0.8601    0.8601    0.8601       243
           1     0.8677    0.8677    0.8677       257

    accuracy                         0.8640       500
   macro avg     0.8639    0.8639    0.8639       500
weighted avg     0.8640    0.8640    0.8640       500

Evaluation took 18.674158334732056 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.74s/it]


              precision    recall  f1-score   support

           0     0.7903    0.8066    0.7984       243
           1     0.8135    0.7977    0.8055       257

    accuracy                         0.8020       500
   macro avg     0.8019    0.8021    0.8019       500
weighted avg     0.8022    0.8020    0.8020       500

Evaluation took 187.42799472808838 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:06<00:00, 18.69s/it]


              precision    recall  f1-score   support

           0     0.7765    0.8148    0.7952       243
           1     0.8163    0.7782    0.7968       257

    accuracy                         0.7960       500
   macro avg     0.7964    0.7965    0.7960       500
weighted avg     0.7970    0.7960    0.7960       500

Evaluation took 186.8679699897766 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:12<00:00,  1.22s/it]


              precision    recall  f1-score   support

           0     0.6811    0.7119    0.6962       243
           1     0.7154    0.6848    0.6998       257

    accuracy                         0.6980       500
   macro avg     0.6983    0.6984    0.6980       500
weighted avg     0.6988    0.6980    0.6980       500

Evaluation took 612.4074246883392 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:01<00:00,  1.20s/it]


              precision    recall  f1-score   support

           0     0.6777    0.6749    0.6763       243
           1     0.6938    0.6965    0.6951       257

    accuracy                         0.6860       500
   macro avg     0.6857    0.6857    0.6857       500
weighted avg     0.6860    0.6860    0.6860       500

Evaluation took 601.7836425304413 seconds
Evaluating model 64k_cnn_no_whitespace_pert_finetuned on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:14<00:00,  1.10it/s]


              precision    recall  f1-score   support

           0     0.8571    0.0247    0.0480       243
           1     0.5193    0.9961    0.6827       257

    accuracy                         0.5240       500
   macro avg     0.6882    0.5104    0.3653       500
weighted avg     0.6835    0.5240    0.3742       500

Evaluation took 14.614336252212524 seconds
Evaluating model 64k_cnn_no_whitespace_pert_finetuned on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [02:24<00:00, 14.44s/it]


              precision    recall  f1-score   support

           0     0.3333    0.0123    0.0238       243
           1     0.5112    0.9767    0.6711       257

    accuracy                         0.5080       500
   macro avg     0.4223    0.4945    0.3475       500
weighted avg     0.4248    0.5080    0.3565       500

Evaluation took 144.44773387908936 seconds
Evaluating model 64k_cnn_no_whitespace_pert_finetuned on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [02:21<00:00, 14.20s/it]


              precision    recall  f1-score   support

           0     0.1333    0.0082    0.0155       243
           1     0.5031    0.9494    0.6577       257

    accuracy                         0.4920       500
   macro avg     0.3182    0.4788    0.3366       500
weighted avg     0.3234    0.4920    0.3456       500

Evaluation took 142.00255942344666 seconds
Evaluating model 64k_cnn_no_whitespace_pert_finetuned on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [05:11<00:00,  1.61it/s]


              precision    recall  f1-score   support

           0     0.2857    0.0082    0.0160       243
           1     0.5112    0.9805    0.6720       257

    accuracy                         0.5080       500
   macro avg     0.3984    0.4944    0.3440       500
weighted avg     0.4016    0.5080    0.3532       500

Evaluation took 311.2927131652832 seconds
Evaluating model 64k_cnn_no_whitespace_pert_finetuned on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [04:59<00:00,  1.67it/s]


              precision    recall  f1-score   support

           0     0.0000    0.0000    0.0000       243
           1     0.5020    0.9533    0.6577       257

    accuracy                         0.4900       500
   macro avg     0.2510    0.4767    0.3289       500
weighted avg     0.2581    0.4900    0.3381       500

Evaluation took 299.6017656326294 seconds
Evaluating model 2m_lstm_all_pert_finetuned on bert on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.16s/it]


              precision    recall  f1-score   support

           0     0.8486    0.8765    0.8623       243
           1     0.8795    0.8521    0.8656       257

    accuracy                         0.8640       500
   macro avg     0.8641    0.8643    0.8640       500
weighted avg     0.8645    0.8640    0.8640       500

Evaluation took 18.659964323043823 seconds
Evaluating model 2m_lstm_all_pert_finetuned on bert on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:06<00:00, 18.62s/it]


              precision    recall  f1-score   support

           0     0.7886    0.7984    0.7935       243
           1     0.8071    0.7977    0.8023       257

    accuracy                         0.7980       500
   macro avg     0.7979    0.7980    0.7979       500
weighted avg     0.7981    0.7980    0.7980       500

Evaluation took 186.18741106987 seconds
Evaluating model 2m_lstm_all_pert_finetuned on bert on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:05<00:00, 18.56s/it]


              precision    recall  f1-score   support

           0     0.7738    0.8025    0.7879       243
           1     0.8065    0.7782    0.7921       257

    accuracy                         0.7900       500
   macro avg     0.7901    0.7903    0.7900       500
weighted avg     0.7906    0.7900    0.7900       500

Evaluation took 185.58879327774048 seconds
Evaluating model 2m_lstm_all_pert_finetuned on bert on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [09:55<00:00,  1.19s/it]


              precision    recall  f1-score   support

           0     0.6695    0.6502    0.6597       243
           1     0.6780    0.6965    0.6871       257

    accuracy                         0.6740       500
   macro avg     0.6738    0.6734    0.6734       500
weighted avg     0.6739    0.6740    0.6738       500

Evaluation took 595.6473610401154 seconds
Evaluating model 2m_lstm_all_pert_finetuned on bert on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:05<00:00,  1.21s/it]


              precision    recall  f1-score   support

           0     0.6816    0.6872    0.6844       243
           1     0.7020    0.6965    0.6992       257

    accuracy                         0.6920       500
   macro avg     0.6918    0.6919    0.6918       500
weighted avg     0.6921    0.6920    0.6920       500

Evaluation took 605.1934056282043 seconds
Failed loading model 32k_lstm_all_pert_finetuned_100ep on bert for task imdb, skipping
Evaluating model baseline on roberta on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  5.84it/s]


              precision    recall  f1-score   support

           0     0.9339    0.8724    0.9021       243
           1     0.8864    0.9416    0.9132       257

    accuracy                         0.9080       500
   macro avg     0.9102    0.9070    0.9077       500
weighted avg     0.9095    0.9080    0.9078       500

Evaluation took 2.779391288757324 seconds
Evaluating model baseline on roberta on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.53s/it]


              precision    recall  f1-score   support

           0     0.8381    0.7243    0.7770       243
           1     0.7690    0.8677    0.8154       257

    accuracy                         0.7980       500
   macro avg     0.8035    0.7960    0.7962       500
weighted avg     0.8026    0.7980    0.7967       500

Evaluation took 25.28039526939392 seconds
Evaluating model baseline on roberta on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]


              precision    recall  f1-score   support

           0     0.8278    0.7119    0.7655       243
           1     0.7595    0.8599    0.8066       257

    accuracy                         0.7880       500
   macro avg     0.7936    0.7859    0.7860       500
weighted avg     0.7926    0.7880    0.7866       500

Evaluation took 25.366220474243164 seconds
Evaluating model baseline on roberta on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:22<00:00,  6.07it/s]


              precision    recall  f1-score   support

           0     0.7094    0.5926    0.6457       243
           1     0.6667    0.7704    0.7148       257

    accuracy                         0.6840       500
   macro avg     0.6880    0.6815    0.6803       500
weighted avg     0.6874    0.6840    0.6812       500

Evaluation took 82.39820313453674 seconds
Evaluating model baseline on roberta on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:22<00:00,  6.04it/s]


              precision    recall  f1-score   support

           0     0.7241    0.6049    0.6592       243
           1     0.6768    0.7821    0.7256       257

    accuracy                         0.6960       500
   macro avg     0.7005    0.6935    0.6924       500
weighted avg     0.6998    0.6960    0.6933       500

Evaluation took 82.8648316860199 seconds
Failed loading model baseline_all_pert on roberta for task imdb, skipping
Evaluating model roben_1 on roberta on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.23it/s]


              precision    recall  f1-score   support

           0     0.9565    0.5432    0.6929       243
           1     0.6934    0.9767    0.8110       257

    accuracy                         0.7660       500
   macro avg     0.8249    0.7599    0.7519       500
weighted avg     0.8213    0.7660    0.7536       500

Evaluation took 2.6106438636779785 seconds
Evaluating model roben_1 on roberta on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]


              precision    recall  f1-score   support

           0     0.8469    0.3416    0.4868       243
           1     0.6020    0.9416    0.7344       257

    accuracy                         0.6500       500
   macro avg     0.7245    0.6416    0.6106       500
weighted avg     0.7210    0.6500    0.6141       500

Evaluation took 25.388060569763184 seconds
Evaluating model roben_1 on roberta on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]


              precision    recall  f1-score   support

           0     0.7400    0.3045    0.4315       243
           1     0.5775    0.8988    0.7032       257

    accuracy                         0.6100       500
   macro avg     0.6587    0.6017    0.5673       500
weighted avg     0.6565    0.6100    0.5711       500

Evaluation took 25.402211666107178 seconds
Evaluating model roben_1 on roberta on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:14<00:00,  6.70it/s]


              precision    recall  f1-score   support

           0     0.8681    0.3251    0.4731       243
           1     0.5990    0.9533    0.7357       257

    accuracy                         0.6480       500
   macro avg     0.7336    0.6392    0.6044       500
weighted avg     0.7298    0.6480    0.6081       500

Evaluation took 74.69346714019775 seconds
Evaluating model roben_1 on roberta on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:10<00:00,  7.11it/s]


              precision    recall  f1-score   support

           0     0.6627    0.2263    0.3374       243
           1     0.5492    0.8911    0.6795       257

    accuracy                         0.5680       500
   macro avg     0.6059    0.5587    0.5085       500
weighted avg     0.6043    0.5680    0.5133       500

Evaluation took 70.38018202781677 seconds
Evaluating model roben_2 on roberta on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.26it/s]


              precision    recall  f1-score   support

           0     0.9677    0.6173    0.7538       243
           1     0.7304    0.9805    0.8372       257

    accuracy                         0.8040       500
   macro avg     0.8491    0.7989    0.7955       500
weighted avg     0.8458    0.8040    0.7967       500

Evaluation took 2.5958356857299805 seconds
Evaluating model roben_2 on roberta on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]


              precision    recall  f1-score   support

           0     0.8952    0.4568    0.6049       243
           1     0.6489    0.9494    0.7709       257

    accuracy                         0.7100       500
   macro avg     0.7720    0.7031    0.6879       500
weighted avg     0.7686    0.7100    0.6902       500

Evaluation took 25.39859938621521 seconds
Evaluating model roben_2 on roberta on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]


              precision    recall  f1-score   support

           0     0.7851    0.3909    0.5220       243
           1     0.6095    0.8988    0.7264       257

    accuracy                         0.6520       500
   macro avg     0.6973    0.6449    0.6242       500
weighted avg     0.6949    0.6520    0.6271       500

Evaluation took 25.445854425430298 seconds
Evaluating model roben_2 on roberta on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:19<00:00,  6.32it/s]


              precision    recall  f1-score   support

           0     0.8966    0.4280    0.5794       243
           1     0.6380    0.9533    0.7644       257

    accuracy                         0.6980       500
   macro avg     0.7673    0.6906    0.6719       500
weighted avg     0.7637    0.6980    0.6745       500

Evaluation took 79.132239818573 seconds
Evaluating model roben_2 on roberta on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:13<00:00,  6.77it/s]


              precision    recall  f1-score   support

           0     0.7129    0.2963    0.4186       243
           1     0.5714    0.8872    0.6951       257

    accuracy                         0.6000       500
   macro avg     0.6421    0.5917    0.5569       500
weighted avg     0.6402    0.6000    0.5607       500

Evaluation took 73.8815188407898 seconds
Evaluating model roben_1_tok on roberta on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  5.78it/s]


              precision    recall  f1-score   support

           0     0.9381    0.3745    0.5353       243
           1     0.6228    0.9767    0.7606       257

    accuracy                         0.6840       500
   macro avg     0.7805    0.6756    0.6480       500
weighted avg     0.7761    0.6840    0.6511       500

Evaluation took 2.809784173965454 seconds
Evaluating model roben_1_tok on roberta on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:27<00:00,  2.75s/it]


              precision    recall  f1-score   support

           0     0.8706    0.3045    0.4512       243
           1     0.5928    0.9572    0.7321       257

    accuracy                         0.6400       500
   macro avg     0.7317    0.6309    0.5917       500
weighted avg     0.7278    0.6400    0.5956       500

Evaluation took 27.507904052734375 seconds
Evaluating model roben_1_tok on roberta on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:27<00:00,  2.75s/it]


              precision    recall  f1-score   support

           0     0.6974    0.2181    0.3323       243
           1     0.5519    0.9105    0.6872       257

    accuracy                         0.5740       500
   macro avg     0.6246    0.5643    0.5098       500
weighted avg     0.6226    0.5740    0.5147       500

Evaluation took 27.49527621269226 seconds
Evaluating model roben_1_tok on roberta on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:15<00:00,  6.59it/s]


              precision    recall  f1-score   support

           0     0.8590    0.2757    0.4174       243
           1     0.5829    0.9572    0.7246       257

    accuracy                         0.6260       500
   macro avg     0.7210    0.6165    0.5710       500
weighted avg     0.7171    0.6260    0.5753       500

Evaluation took 75.94364619255066 seconds
Evaluating model roben_1_tok on roberta on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:13<00:00,  6.81it/s]


              precision    recall  f1-score   support

           0     0.6769    0.1811    0.2857       243
           1     0.5425    0.9183    0.6821       257

    accuracy                         0.5600       500
   macro avg     0.6097    0.5497    0.4839       500
weighted avg     0.6078    0.5600    0.4894       500

Evaluation took 73.42509460449219 seconds
Evaluating model roben_2_tok on roberta on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  5.78it/s]


              precision    recall  f1-score   support

           0     0.9621    0.5226    0.6773       243
           1     0.6848    0.9805    0.8064       257

    accuracy                         0.7580       500
   macro avg     0.8235    0.7516    0.7419       500
weighted avg     0.8196    0.7580    0.7437       500

Evaluation took 2.809074878692627 seconds
Evaluating model roben_2_tok on roberta on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:27<00:00,  2.75s/it]


              precision    recall  f1-score   support

           0     0.9052    0.4321    0.5850       243
           1     0.6406    0.9572    0.7676       257

    accuracy                         0.7020       500
   macro avg     0.7729    0.6946    0.6763       500
weighted avg     0.7692    0.7020    0.6788       500

Evaluation took 27.51538610458374 seconds
Evaluating model roben_2_tok on roberta on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:27<00:00,  2.75s/it]


              precision    recall  f1-score   support

           0     0.7545    0.3416    0.4703       243
           1     0.5897    0.8949    0.7110       257

    accuracy                         0.6260       500
   macro avg     0.6721    0.6183    0.5906       500
weighted avg     0.6698    0.6260    0.5940       500

Evaluation took 27.526105165481567 seconds
Evaluating model roben_2_tok on roberta on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:25<00:00,  5.88it/s]


              precision    recall  f1-score   support

           0     0.9244    0.4527    0.6077       243
           1     0.6509    0.9650    0.7774       257

    accuracy                         0.7160       500
   macro avg     0.7876    0.7088    0.6926       500
weighted avg     0.7838    0.7160    0.6950       500

Evaluation took 85.09820580482483 seconds
Evaluating model roben_2_tok on roberta on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:18<00:00,  6.37it/s]


              precision    recall  f1-score   support

           0     0.7582    0.2840    0.4132       243
           1     0.5746    0.9144    0.7057       257

    accuracy                         0.6080       500
   macro avg     0.6664    0.5992    0.5594       500
weighted avg     0.6638    0.6080    0.5635       500

Evaluation took 78.54834794998169 seconds
Failed loading model 64k_lstm_clean_vanilla on roberta for task imdb, skipping
Failed loading model 64k_lstm_no_whitespace_pert_vanilla on roberta for task imdb, skipping
Evaluating model 64k_lstm_all_pert_vanilla on roberta on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.17s/it]


              precision    recall  f1-score   support

           0     0.8943    0.8354    0.8638       243
           1     0.8535    0.9066    0.8792       257

    accuracy                         0.8720       500
   macro avg     0.8739    0.8710    0.8715       500
weighted avg     0.8733    0.8720    0.8718       500

Evaluation took 18.696531534194946 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.78s/it]


              precision    recall  f1-score   support

           0     0.8348    0.7695    0.8009       243
           1     0.7971    0.8560    0.8255       257

    accuracy                         0.8140       500
   macro avg     0.8160    0.8128    0.8132       500
weighted avg     0.8154    0.8140    0.8135       500

Evaluation took 187.8515727519989 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.74s/it]


              precision    recall  f1-score   support

           0     0.8356    0.7737    0.8034       243
           1     0.8000    0.8560    0.8271       257

    accuracy                         0.8160       500
   macro avg     0.8178    0.8148    0.8152       500
weighted avg     0.8173    0.8160    0.8156       500

Evaluation took 187.36036920547485 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:30<00:00,  1.26s/it]


              precision    recall  f1-score   support

           0     0.7727    0.6996    0.7343       243
           1     0.7393    0.8054    0.7709       257

    accuracy                         0.7540       500
   macro avg     0.7560    0.7525    0.7526       500
weighted avg     0.7555    0.7540    0.7532       500

Evaluation took 630.2576284408569 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:32<00:00,  1.27s/it]


              precision    recall  f1-score   support

           0     0.7936    0.7119    0.7505       243
           1     0.7518    0.8249    0.7866       257

    accuracy                         0.7700       500
   macro avg     0.7727    0.7684    0.7686       500
weighted avg     0.7721    0.7700    0.7691       500

Evaluation took 632.6554889678955 seconds
Failed loading model 64k_lstm_clean_finetuned on roberta for task imdb, skipping
Failed loading model 64k_lstm_no_whitespace_pert_finetuned on roberta for task imdb, skipping
Evaluating model 64k_lstm_all_pert_finetuned on roberta on clean for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:18<00:00,  1.17s/it]


              precision    recall  f1-score   support

           0     0.9062    0.8354    0.8694       243
           1     0.8551    0.9183    0.8856       257

    accuracy                         0.8780       500
   macro avg     0.8807    0.8768    0.8775       500
weighted avg     0.8799    0.8780    0.8777       500

Evaluation took 18.83716654777527 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on stochastic_no_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:07<00:00, 18.80s/it]


              precision    recall  f1-score   support

           0     0.8447    0.7613    0.8009       243
           1     0.7936    0.8677    0.8290       257

    accuracy                         0.8160       500
   macro avg     0.8192    0.8145    0.8149       500
weighted avg     0.8185    0.8160    0.8153       500

Evaluation took 187.968088388443 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on stochastic_incl_ws for task imdb


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:05<00:00, 18.55s/it]


              precision    recall  f1-score   support

           0     0.8462    0.7695    0.8060       243
           1     0.7993    0.8677    0.8321       257

    accuracy                         0.8200       500
   macro avg     0.8227    0.8186    0.8191       500
weighted avg     0.8221    0.8200    0.8194       500

Evaluation took 185.5207121372223 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on word_score_no_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:36<00:00,  1.27s/it]


              precision    recall  f1-score   support

           0     0.8039    0.6749    0.7338       243
           1     0.7331    0.8444    0.7848       257

    accuracy                         0.7620       500
   macro avg     0.7685    0.7596    0.7593       500
weighted avg     0.7675    0.7620    0.7600       500

Evaluation took 636.9531965255737 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on word_score_incl_ws for task imdb


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [10:31<00:00,  1.26s/it]


              precision    recall  f1-score   support

           0     0.8000    0.6749    0.7321       243
           1     0.7322    0.8405    0.7826       257

    accuracy                         0.7600       500
   macro avg     0.7661    0.7577    0.7574       500
weighted avg     0.7652    0.7600    0.7581       500

Evaluation took 631.2476212978363 seconds
Failed loading model 64k_cnn_no_whitespace_pert_finetuned on roberta for task imdb, skipping
Failed loading model 2m_lstm_all_pert_finetuned on roberta for task imdb, skipping
Failed loading model 32k_lstm_all_pert_finetuned_100ep on roberta for task imdb, skipping
Evaluating model baseline on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.37it/s]


              precision    recall  f1-score   support

         0.0     0.8750    0.4667    0.6087        15
         1.0     0.2500    0.4348    0.3175        23
         2.0     0.4189    0.3690    0.3924        84
         3.0     0.5962    0.5767    0.5863       215
         4.0     0.6412    0.6687    0.6547       163

    accuracy                         0.5620       500
   macro avg     0.5562    0.5032    0.5119       500
weighted avg     0.5735    0.5620    0.5643       500

Evaluation took 2.5509860515594482 seconds
Evaluating model baseline on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.51s/it]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.0968    0.2609    0.1412        23
         2.0     0.1007    0.1667    0.1256        84
         3.0     0.2286    0.2233    0.2259       215
         4.0     0.2989    0.1595    0.2080       163

    accuracy                         0.1900       500
   macro avg     0.2450    0.1754    0.1637       500
weighted avg     0.2321    0.1900    0.1961       500

Evaluation took 25.08225965499878 seconds
Evaluating model baseline on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.52s/it]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.0750    0.2609    0.1165        23
         2.0     0.0923    0.1429    0.1121        84
         3.0     0.1970    0.1860    0.1914       215
         4.0     0.2353    0.1227    0.1613       163

    accuracy                         0.1580       500
   macro avg     0.2199    0.1558    0.1398       500
weighted avg     0.1954    0.1580    0.1626       500

Evaluation took 25.16103482246399 seconds
Evaluating model baseline on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:16<00:00, 31.18it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0533    0.1739    0.0816        23
         2.0     0.0357    0.0595    0.0446        84
         3.0     0.0985    0.0930    0.0957       215
         4.0     0.0000    0.0000    0.0000       163

    accuracy                         0.0580       500
   macro avg     0.0375    0.0653    0.0444       500
weighted avg     0.0508    0.0580    0.0524       500

Evaluation took 16.07308578491211 seconds
Evaluating model baseline on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.05it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0533    0.1739    0.0816        23
         2.0     0.0284    0.0476    0.0356        84
         3.0     0.0833    0.0791    0.0811       215
         4.0     0.0000    0.0000    0.0000       163

    accuracy                         0.0500       500
   macro avg     0.0330    0.0601    0.0397       500
weighted avg     0.0431    0.0500    0.0446       500

Evaluation took 15.619378328323364 seconds
Failed loading model baseline_all_pert on bert for task sst, skipping
Evaluating model roben_1 on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.29it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.2667    0.4211        15
         1.0     0.1129    0.3043    0.1647        23
         2.0     0.2587    0.4405    0.3260        84
         3.0     0.5022    0.5302    0.5158       215
         4.0     0.6562    0.2577    0.3700       163

    accuracy                         0.4080       500
   macro avg     0.5060    0.3599    0.3595       500
weighted avg     0.5085    0.4080    0.4174       500

Evaluation took 2.5859200954437256 seconds
Evaluating model roben_1 on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0125    0.0435    0.0194        23
         2.0     0.1353    0.2738    0.1811        84
         3.0     0.3695    0.3488    0.3589       215
         4.0     0.4894    0.1411    0.2190       163

    accuracy                         0.2440       500
   macro avg     0.2013    0.1614    0.1557       500
weighted avg     0.3417    0.2440    0.2570       500

Evaluation took 25.44218158721924 seconds
Evaluating model roben_1 on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.54s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0353    0.1304    0.0556        23
         2.0     0.0729    0.1667    0.1014        84
         3.0     0.2228    0.2000    0.2108       215
         4.0     0.1667    0.0307    0.0518       163

    accuracy                         0.1300       500
   macro avg     0.0995    0.1056    0.0839       500
weighted avg     0.1640    0.1300    0.1271       500

Evaluation took 25.369250535964966 seconds
Evaluating model roben_1 on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:23<00:00, 21.26it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0235    0.0870    0.0370        23
         2.0     0.0952    0.2143    0.1319        84
         3.0     0.2359    0.2140    0.2244       215
         4.0     0.2258    0.0429    0.0722       163

    accuracy                         0.1460       500
   macro avg     0.1161    0.1116    0.0931       500
weighted avg     0.1921    0.1460    0.1439       500

Evaluation took 23.537244081497192 seconds
Evaluating model roben_1 on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.46it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0000    0.0000    0.0000        23
         2.0     0.0524    0.1190    0.0727        84
         3.0     0.1243    0.1070    0.1150       215
         4.0     0.0000    0.0000    0.0000       163

    accuracy                         0.0660       500
   macro avg     0.0353    0.0452    0.0375       500
weighted avg     0.0623    0.0660    0.0617       500

Evaluation took 14.95841360092163 seconds
Evaluating model roben_2 on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.31it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.1875    0.3913    0.2535        23
         2.0     0.2662    0.4405    0.3318        84
         3.0     0.5063    0.5581    0.5310       215
         4.0     0.6667    0.3067    0.4202       163

    accuracy                         0.4340       500
   macro avg     0.5253    0.3527    0.3323       500
weighted avg     0.5184    0.4340    0.4365       500

Evaluation took 2.577364206314087 seconds
Evaluating model roben_2 on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.53s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0656    0.1739    0.0952        23
         2.0     0.1429    0.2857    0.1905        84
         3.0     0.3897    0.3860    0.3879       215
         4.0     0.5690    0.2025    0.2986       163

    accuracy                         0.2880       500
   macro avg     0.2334    0.2096    0.1944       500
weighted avg     0.3801    0.2880    0.3005       500

Evaluation took 25.275140047073364 seconds
Evaluating model roben_2 on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.53s/it]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0526    0.1739    0.0808        23
         2.0     0.0773    0.1667    0.1057        84
         3.0     0.2576    0.2372    0.2470       215
         4.0     0.2955    0.0798    0.1256       163

    accuracy                         0.1640       500
   macro avg     0.1366    0.1315    0.1118       500
weighted avg     0.2225    0.1640    0.1686       500

Evaluation took 25.2894024848938 seconds
Evaluating model roben_2 on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:26<00:00, 18.55it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0597    0.1739    0.0889        23
         2.0     0.1081    0.2381    0.1487        84
         3.0     0.2512    0.2372    0.2440       215
         4.0     0.3778    0.1043    0.1635       163

    accuracy                         0.1840       500
   macro avg     0.1594    0.1507    0.1290       500
weighted avg     0.2521    0.1840    0.1873       500

Evaluation took 26.966076135635376 seconds
Evaluating model roben_2 on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:16<00:00, 30.15it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0000    0.0000    0.0000        23
         2.0     0.0321    0.0714    0.0443        84
         3.0     0.1134    0.1023    0.1076       215
         4.0     0.0465    0.0123    0.0194       163

    accuracy                         0.0600       500
   macro avg     0.0384    0.0372    0.0343       500
weighted avg     0.0693    0.0600    0.0600       500

Evaluation took 16.60204768180847 seconds
Evaluating model roben_1_tok on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.14it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.1111    0.3043    0.1628        23
         2.0     0.1932    0.4048    0.2615        84
         3.0     0.4516    0.4558    0.4537       215
         4.0     0.6279    0.1656    0.2621       163

    accuracy                         0.3340       500
   macro avg     0.4768    0.2794    0.2530       500
weighted avg     0.4665    0.3340    0.3357       500

Evaluation took 2.645151376724243 seconds
Evaluating model roben_1_tok on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.60s/it]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.0923    0.2609    0.1364        23
         2.0     0.1778    0.3810    0.2424        84
         3.0     0.4481    0.4419    0.4450       215
         4.0     0.6190    0.1595    0.2537       163

    accuracy                         0.3200       500
   macro avg     0.4674    0.2620    0.2405       500
weighted avg     0.4586    0.3200    0.3248       500

Evaluation took 25.968952894210815 seconds
Evaluating model roben_1_tok on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.59s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0253    0.0870    0.0392        23
         2.0     0.0806    0.2024    0.1153        84
         3.0     0.2320    0.1953    0.2121       215
         4.0     0.2759    0.0491    0.0833       163

    accuracy                         0.1380       500
   macro avg     0.1228    0.1068    0.0900       500
weighted avg     0.2044    0.1380    0.1395       500

Evaluation took 25.944159269332886 seconds
Evaluating model roben_1_tok on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:27<00:00, 18.32it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.0882    0.2609    0.1319        23
         2.0     0.1559    0.3452    0.2148        84
         3.0     0.3960    0.3721    0.3837       215
         4.0     0.5814    0.1534    0.2427       163

    accuracy                         0.2820       500
   macro avg     0.4443    0.2396    0.2196       500
weighted avg     0.4201    0.2820    0.2900       500

Evaluation took 27.309820413589478 seconds
Evaluating model roben_1_tok on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 34.28it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0123    0.0435    0.0192        23
         2.0     0.0463    0.1190    0.0667        84
         3.0     0.1436    0.1209    0.1313       215
         4.0     0.0455    0.0061    0.0108       163

    accuracy                         0.0760       500
   macro avg     0.0495    0.0579    0.0456       500
weighted avg     0.0849    0.0760    0.0721       500

Evaluation took 14.603340864181519 seconds
Evaluating model roben_2_tok on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.17it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.1333    0.2353        15
         1.0     0.1875    0.3913    0.2535        23
         2.0     0.2632    0.4762    0.3390        84
         3.0     0.4790    0.5302    0.5033       215
         4.0     0.6667    0.2454    0.3587       163

    accuracy                         0.4100       500
   macro avg     0.5193    0.3553    0.3380       500
weighted avg     0.5061    0.4100    0.4090       500

Evaluation took 2.6342825889587402 seconds
Evaluating model roben_2_tok on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.58s/it]


              precision    recall  f1-score   support

         0.0     1.0000    0.1333    0.2353        15
         1.0     0.1800    0.3913    0.2466        23
         2.0     0.2297    0.4048    0.2931        84
         3.0     0.4564    0.5116    0.4825       215
         4.0     0.6441    0.2331    0.3423       163

    accuracy                         0.3860       500
   macro avg     0.5020    0.3348    0.3200       500
weighted avg     0.4831    0.3860    0.3867       500

Evaluation took 25.824338912963867 seconds
Evaluating model roben_2_tok on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.58s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0946    0.3043    0.1443        23
         2.0     0.0798    0.1786    0.1103        84
         3.0     0.2640    0.2419    0.2524       215
         4.0     0.3415    0.0859    0.1373       163

    accuracy                         0.1760       500
   macro avg     0.1560    0.1621    0.1289       500
weighted avg     0.2426    0.1760    0.1785       500

Evaluation took 25.835622549057007 seconds
Evaluating model roben_2_tok on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:32<00:00, 15.42it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.1698    0.3913    0.2368        23
         2.0     0.1887    0.3571    0.2469        84
         3.0     0.4192    0.4465    0.4324       215
         4.0     0.6379    0.2270    0.3348       163

    accuracy                         0.3460       500
   macro avg     0.4831    0.2977    0.2752       500
weighted avg     0.4577    0.3460    0.3512       500

Evaluation took 32.446877241134644 seconds
Evaluating model roben_2_tok on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:16<00:00, 30.73it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0000    0.0000    0.0000        23
         2.0     0.0455    0.1071    0.0638        84
         3.0     0.0957    0.0837    0.0893       215
         4.0     0.0698    0.0184    0.0291       163

    accuracy                         0.0600       500
   macro avg     0.0422    0.0419    0.0365       500
weighted avg     0.0716    0.0600    0.0586       500

Evaluation took 16.288083791732788 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00,  2.91it/s]


              precision    recall  f1-score   support

         0.0     0.6667    0.1333    0.2222        15
         1.0     0.2292    0.4783    0.3099        23
         2.0     0.3448    0.3571    0.3509        84
         3.0     0.5702    0.6419    0.6039       215
         4.0     0.6917    0.5092    0.5866       163

    accuracy                         0.5280       500
   macro avg     0.5005    0.4240    0.4147       500
weighted avg     0.5592    0.5280    0.5308       500

Evaluation took 5.544235944747925 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:55<00:00,  5.52s/it]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0820    0.2174    0.1190        23
         2.0     0.0638    0.1071    0.0800        84
         3.0     0.2918    0.3163    0.3036       215
         4.0     0.3333    0.1288    0.1858       163

    accuracy                         0.2060       500
   macro avg     0.1542    0.1539    0.1377       500
weighted avg     0.2487    0.2060    0.2100       500

Evaluation took 55.253031492233276 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:55<00:00,  5.51s/it]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0800    0.2609    0.1224        23
         2.0     0.0946    0.1667    0.1207        84
         3.0     0.2411    0.2512    0.2460       215
         4.0     0.2885    0.0920    0.1395       163

    accuracy                         0.1780       500
   macro avg     0.1408    0.1541    0.1257       500
weighted avg     0.2173    0.1780    0.1772       500

Evaluation took 55.09478259086609 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:40<00:00, 12.38it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0758    0.2174    0.1124        23
         2.0     0.0195    0.0357    0.0252        84
         3.0     0.1023    0.1023    0.1023       215
         4.0     0.0000    0.0000    0.0000       163

    accuracy                         0.0600       500
   macro avg     0.0395    0.0711    0.0480       500
weighted avg     0.0508    0.0600    0.0534       500

Evaluation took 40.395861864089966 seconds
Evaluating model 64k_lstm_clean_vanilla on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:35<00:00, 14.01it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0159    0.0435    0.0233        23
         2.0     0.0126    0.0238    0.0165        84
         3.0     0.0524    0.0512    0.0518       215
         4.0     0.0000    0.0000    0.0000       163

    accuracy                         0.0280       500
   macro avg     0.0162    0.0237    0.0183       500
weighted avg     0.0254    0.0280    0.0261       500

Evaluation took 35.71753406524658 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00,  2.95it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.4000    0.5714        15
         1.0     0.2439    0.4348    0.3125        23
         2.0     0.3370    0.3690    0.3523        84
         3.0     0.5433    0.6419    0.5885       215
         4.0     0.6916    0.4540    0.5481       163

    accuracy                         0.5180       500
   macro avg     0.5632    0.4599    0.4746       500
weighted avg     0.5569    0.5180    0.5224       500

Evaluation took 5.467586517333984 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:54<00:00,  5.41s/it]


              precision    recall  f1-score   support

         0.0     0.5000    0.2000    0.2857        15
         1.0     0.0851    0.1739    0.1143        23
         2.0     0.1887    0.2381    0.2105        84
         3.0     0.4418    0.5116    0.4741       215
         4.0     0.5870    0.3313    0.4235       163

    accuracy                         0.3820       500
   macro avg     0.3605    0.2910    0.3016       500
weighted avg     0.4319    0.3820    0.3911       500

Evaluation took 54.07413291931152 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:53<00:00,  5.39s/it]


              precision    recall  f1-score   support

         0.0     0.2000    0.0667    0.1000        15
         1.0     0.0508    0.1304    0.0732        23
         2.0     0.0857    0.1429    0.1071        84
         3.0     0.3203    0.3442    0.3318       215
         4.0     0.4308    0.1718    0.2456       163

    accuracy                         0.2360       500
   macro avg     0.2175    0.1712    0.1716       500
weighted avg     0.3009    0.2360    0.2471       500

Evaluation took 53.94148874282837 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:54<00:00,  9.22it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0364    0.0870    0.0513        23
         2.0     0.0687    0.1071    0.0837        84
         3.0     0.1853    0.2000    0.1924       215
         4.0     0.1795    0.0859    0.1162       163

    accuracy                         0.1360       500
   macro avg     0.0940    0.0960    0.0887       500
weighted avg     0.1514    0.1360    0.1370       500

Evaluation took 54.22682070732117 seconds
Evaluating model 64k_lstm_no_whitespace_pert_vanilla on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:40<00:00, 12.35it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0167    0.0435    0.0241        23
         2.0     0.0134    0.0238    0.0172        84
         3.0     0.1131    0.1163    0.1147       215
         4.0     0.0606    0.0245    0.0349       163

    accuracy                         0.0640       500
   macro avg     0.0408    0.0416    0.0382       500
weighted avg     0.0714    0.0640    0.0647       500

Evaluation took 40.5151584148407 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00,  2.92it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.2667    0.4211        15
         1.0     0.1591    0.3043    0.2090        23
         2.0     0.3776    0.4405    0.4066        84
         3.0     0.5520    0.6419    0.5935       215
         4.0     0.6923    0.4417    0.5393       163

    accuracy                         0.5160       500
   macro avg     0.5562    0.4190    0.4339       500
weighted avg     0.5638    0.5160    0.5216       500

Evaluation took 5.511512517929077 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:54<00:00,  5.45s/it]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.1064    0.2174    0.1429        23
         2.0     0.2167    0.3095    0.2549        84
         3.0     0.4435    0.5116    0.4752       215
         4.0     0.5714    0.2945    0.3887       163

    accuracy                         0.3800       500
   macro avg     0.4676    0.2799    0.2773       500
weighted avg     0.4483    0.3800    0.3842       500

Evaluation took 54.522422075271606 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:53<00:00,  5.37s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.1373    0.3043    0.1892        23
         2.0     0.2143    0.2857    0.2449        84
         3.0     0.4378    0.5070    0.4698       215
         4.0     0.5795    0.3129    0.4064       163

    accuracy                         0.3820       500
   macro avg     0.2738    0.2820    0.2621       500
weighted avg     0.4195    0.3820    0.3843       500

Evaluation took 53.73557376861572 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:54<00:00,  9.13it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0164    0.0435    0.0238        23
         2.0     0.0523    0.0952    0.0675        84
         3.0     0.1564    0.1535    0.1549       215
         4.0     0.1600    0.0736    0.1008       163

    accuracy                         0.1080       500
   macro avg     0.0770    0.0732    0.0694       500
weighted avg     0.1289    0.1080    0.1119       500

Evaluation took 54.78789043426514 seconds
Evaluating model 64k_lstm_all_pert_vanilla on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:53<00:00,  9.36it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0149    0.0435    0.0222        23
         2.0     0.0507    0.0833    0.0631        84
         3.0     0.1946    0.2000    0.1972       215
         4.0     0.2027    0.0920    0.1266       163

    accuracy                         0.1320       500
   macro avg     0.0926    0.0838    0.0818       500
weighted avg     0.1590    0.1320    0.1377       500

Evaluation took 53.42235493659973 seconds
Failed loading model 64k_lstm_clean_finetuned on bert for task sst, skipping
Failed loading model 64k_lstm_no_whitespace_pert_finetuned on bert for task sst, skipping
Evaluating model 64k_lstm_all_pert_finetuned on bert on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00,  2.94it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.2000    0.3333        15
         1.0     0.1667    0.3043    0.2154        23
         2.0     0.3119    0.4048    0.3523        84
         3.0     0.5394    0.6047    0.5702       215
         4.0     0.6762    0.4356    0.5299       163

    accuracy                         0.4900       500
   macro avg     0.5388    0.3899    0.4002       500
weighted avg     0.5425    0.4900    0.4970       500

Evaluation took 5.476775884628296 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:53<00:00,  5.39s/it]


              precision    recall  f1-score   support

         0.0     0.3333    0.0667    0.1111        15
         1.0     0.0652    0.1304    0.0870        23
         2.0     0.1811    0.2738    0.2180        84
         3.0     0.3878    0.4419    0.4130       215
         4.0     0.5190    0.2515    0.3388       163

    accuracy                         0.3260       500
   macro avg     0.2973    0.2329    0.2336       500
weighted avg     0.3793    0.3260    0.3320       500

Evaluation took 53.89710474014282 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:53<00:00,  5.38s/it]


              precision    recall  f1-score   support

         0.0     0.2500    0.0667    0.1053        15
         1.0     0.1064    0.2174    0.1429        23
         2.0     0.1692    0.2619    0.2056        84
         3.0     0.3879    0.4186    0.4027       215
         4.0     0.5517    0.2945    0.3840       163

    accuracy                         0.3320       500
   macro avg     0.2931    0.2518    0.2481       500
weighted avg     0.3875    0.3320    0.3426       500

Evaluation took 53.84492778778076 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:51<00:00,  9.73it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0000    0.0000    0.0000        23
         2.0     0.0629    0.1190    0.0823        84
         3.0     0.1560    0.1581    0.1570       215
         4.0     0.1408    0.0613    0.0855       163

    accuracy                         0.1080       500
   macro avg     0.0719    0.0677    0.0650       500
weighted avg     0.1235    0.1080    0.1092       500

Evaluation took 51.403409004211426 seconds
Evaluating model 64k_lstm_all_pert_finetuned on bert on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:50<00:00,  9.99it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0357    0.0870    0.0506        23
         2.0     0.0414    0.0714    0.0524        84
         3.0     0.1507    0.1535    0.1521       215
         4.0     0.0800    0.0368    0.0504       163

    accuracy                         0.0940       500
   macro avg     0.0616    0.0697    0.0611       500
weighted avg     0.0995    0.0940    0.0930       500

Evaluation took 50.04864740371704 seconds
Failed loading model 64k_cnn_no_whitespace_pert_finetuned on bert for task sst, skipping
Failed loading model 2m_lstm_all_pert_finetuned on bert for task sst, skipping
Failed loading model 32k_lstm_all_pert_finetuned_100ep on bert for task sst, skipping
Evaluating model baseline on roberta on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.40it/s]


              precision    recall  f1-score   support

         0.0     0.2500    0.0667    0.1053        15
         1.0     0.2895    0.4783    0.3607        23
         2.0     0.5000    0.4643    0.4815        84
         3.0     0.6111    0.5628    0.5860       215
         4.0     0.6264    0.6994    0.6609       163

    accuracy                         0.5720       500
   macro avg     0.4554    0.4543    0.4388       500
weighted avg     0.5718    0.5720    0.5680       500

Evaluation took 2.5414235591888428 seconds
Evaluating model baseline on roberta on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:24<00:00,  2.50s/it]


              precision    recall  f1-score   support

         0.0     0.2000    0.0667    0.1000        15
         1.0     0.0833    0.2174    0.1205        23
         2.0     0.1240    0.1786    0.1463        84
         3.0     0.3264    0.2930    0.3088       215
         4.0     0.4545    0.3374    0.3873       163

    accuracy                         0.2780       500
   macro avg     0.2377    0.2186    0.2126       500
weighted avg     0.3192    0.2780    0.2922       500

Evaluation took 24.966373920440674 seconds
Evaluating model baseline on roberta on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.50s/it]


              precision    recall  f1-score   support

         0.0     0.2500    0.0667    0.1053        15
         1.0     0.0658    0.2174    0.1010        23
         2.0     0.0800    0.0952    0.0870        84
         3.0     0.3053    0.2698    0.2864       215
         4.0     0.4000    0.3190    0.3549       163

    accuracy                         0.2480       500
   macro avg     0.2202    0.1936    0.1869       500
weighted avg     0.2856    0.2480    0.2613       500

Evaluation took 25.049026012420654 seconds
Evaluating model baseline on roberta on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:20<00:00, 24.23it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0429    0.1304    0.0645        23
         2.0     0.0451    0.0714    0.0553        84
         3.0     0.1542    0.1442    0.1490       215
         4.0     0.0112    0.0061    0.0079       163

    accuracy                         0.0820       500
   macro avg     0.0507    0.0704    0.0554       500
weighted avg     0.0795    0.0820    0.0789       500

Evaluation took 20.65204358100891 seconds
Evaluating model baseline on roberta on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:20<00:00, 24.50it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0282    0.0870    0.0426        23
         2.0     0.0244    0.0357    0.0290        84
         3.0     0.1330    0.1256    0.1292       215
         4.0     0.0707    0.0429    0.0534       163

    accuracy                         0.0780       500
   macro avg     0.0513    0.0582    0.0508       500
weighted avg     0.0856    0.0780    0.0798       500

Evaluation took 20.4251606464386 seconds
Failed loading model baseline_all_pert on roberta for task sst, skipping
Evaluating model roben_1 on roberta on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.36it/s]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.1029    0.3043    0.1538        23
         2.0     0.2312    0.4762    0.3113        84
         3.0     0.5497    0.4372    0.4870       215
         4.0     0.6628    0.3497    0.4578       163

    accuracy                         0.3980       500
   macro avg     0.4093    0.3268    0.3055       500
weighted avg     0.5110    0.3980    0.4216       500

Evaluation took 2.555418014526367 seconds
Evaluating model roben_1 on roberta on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.50s/it]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.0674    0.2609    0.1071        23
         2.0     0.1640    0.3690    0.2271        84
         3.0     0.4027    0.2791    0.3297       215
         4.0     0.6197    0.2699    0.3761       163

    accuracy                         0.2840       500
   macro avg     0.3508    0.2491    0.2315       500
weighted avg     0.4208    0.2840    0.3110       500

Evaluation took 25.052668571472168 seconds
Evaluating model roben_1 on roberta on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.51s/it]


              precision    recall  f1-score   support

         0.0     0.2500    0.0667    0.1053        15
         1.0     0.0222    0.0870    0.0354        23
         2.0     0.0804    0.1905    0.1131        84
         3.0     0.2587    0.1721    0.2067       215
         4.0     0.4219    0.1656    0.2379       163

    accuracy                         0.1660       500
   macro avg     0.2066    0.1364    0.1397       500
weighted avg     0.2708    0.1660    0.1902       500

Evaluation took 25.07307529449463 seconds
Evaluating model roben_1 on roberta on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:23<00:00, 21.48it/s]


              precision    recall  f1-score   support

         0.0     0.3333    0.0667    0.1111        15
         1.0     0.0444    0.1739    0.0708        23
         2.0     0.0963    0.2500    0.1391        84
         3.0     0.2256    0.1395    0.1724       215
         4.0     0.4643    0.1595    0.2374       163

    accuracy                         0.1640       500
   macro avg     0.2328    0.1579    0.1462       500
weighted avg     0.2766    0.1640    0.1815       500

Evaluation took 23.288907766342163 seconds
Evaluating model roben_1 on roberta on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 34.55it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0202    0.0870    0.0328        23
         2.0     0.0238    0.0595    0.0340        84
         3.0     0.0822    0.0558    0.0665       215
         4.0     0.0465    0.0123    0.0194       163

    accuracy                         0.0420       500
   macro avg     0.0345    0.0429    0.0305       500
weighted avg     0.0554    0.0420    0.0421       500

Evaluation took 14.488631963729858 seconds
Evaluating model roben_2 on roberta on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.36it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.1404    0.3478    0.2000        23
         2.0     0.2897    0.5000    0.3668        84
         3.0     0.5497    0.4884    0.5172       215
         4.0     0.6509    0.4233    0.5130       163

    accuracy                         0.4480       500
   macro avg     0.3261    0.3519    0.3194       500
weighted avg     0.5037    0.4480    0.4605       500

Evaluation took 2.5556230545043945 seconds
Evaluating model roben_2 on roberta on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.51s/it]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0658    0.2174    0.1010        23
         2.0     0.1615    0.3095    0.2122        84
         3.0     0.4310    0.3488    0.3856       215
         4.0     0.5862    0.3129    0.4080       163

    accuracy                         0.3140       500
   macro avg     0.2489    0.2377    0.2214       500
weighted avg     0.4066    0.3140    0.3391       500

Evaluation took 25.07497501373291 seconds
Evaluating model roben_2 on roberta on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.51s/it]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0494    0.1739    0.0769        23
         2.0     0.1105    0.2262    0.1484        84
         3.0     0.2849    0.2279    0.2532       215
         4.0     0.3973    0.1779    0.2458       163

    accuracy                         0.2020       500
   macro avg     0.1684    0.1612    0.1449       500
weighted avg     0.2728    0.2020    0.2175       500

Evaluation took 25.07449746131897 seconds
Evaluating model roben_2 on roberta on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:28<00:00, 17.70it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0633    0.2174    0.0980        23
         2.0     0.1099    0.2381    0.1504        84
         3.0     0.2638    0.2000    0.2275       215
         4.0     0.4730    0.2147    0.2954       163

    accuracy                         0.2060       500
   macro avg     0.1820    0.1740    0.1543       500
weighted avg     0.2890    0.2060    0.2239       500

Evaluation took 28.258835792541504 seconds
Evaluating model roben_2 on roberta on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:17<00:00, 29.29it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0120    0.0435    0.0189        23
         2.0     0.0276    0.0595    0.0377        84
         3.0     0.0893    0.0698    0.0783       215
         4.0     0.0758    0.0307    0.0437       163

    accuracy                         0.0520       500
   macro avg     0.0409    0.0407    0.0357       500
weighted avg     0.0683    0.0520    0.0551       500

Evaluation took 17.083969831466675 seconds
Evaluating model roben_1_tok on roberta on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.23it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.1087    0.4348    0.1739        23
         2.0     0.1929    0.4524    0.2705        84
         3.0     0.5177    0.3395    0.4101       215
         4.0     0.6667    0.2822    0.3966       163

    accuracy                         0.3360       500
   macro avg     0.4972    0.3151    0.2752       500
weighted avg     0.5074    0.3360    0.3628       500

Evaluation took 2.610523223876953 seconds
Evaluating model roben_1_tok on roberta on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.56s/it]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.0957    0.3913    0.1538        23
         2.0     0.1859    0.4405    0.2615        84
         3.0     0.5109    0.3256    0.3977       215
         4.0     0.6667    0.2822    0.3966       163

    accuracy                         0.3260       500
   macro avg     0.4919    0.3012    0.2669       500
weighted avg     0.5027    0.3260    0.3551       500

Evaluation took 25.592608213424683 seconds
Evaluating model roben_1_tok on roberta on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.56s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0370    0.1739    0.0611        23
         2.0     0.0892    0.2262    0.1279        84
         3.0     0.2683    0.1535    0.1953       215
         4.0     0.4643    0.1595    0.2374       163

    accuracy                         0.1640       500
   macro avg     0.1718    0.1426    0.1243       500
weighted avg     0.2834    0.1640    0.1857       500

Evaluation took 25.606322050094604 seconds
Evaluating model roben_1_tok on roberta on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:27<00:00, 18.03it/s]


              precision    recall  f1-score   support

         0.0     1.0000    0.0667    0.1250        15
         1.0     0.1064    0.4348    0.1709        23
         2.0     0.1756    0.4286    0.2491        84
         3.0     0.4667    0.2930    0.3600       215
         4.0     0.6462    0.2577    0.3684       163

    accuracy                         0.3040       500
   macro avg     0.4790    0.2961    0.2547       500
weighted avg     0.4757    0.3040    0.3284       500

Evaluation took 27.743834495544434 seconds
Evaluating model roben_1_tok on roberta on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 34.23it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0183    0.0870    0.0303        23
         2.0     0.0306    0.0833    0.0447        84
         3.0     0.0847    0.0465    0.0601       215
         4.0     0.2273    0.0613    0.0966       163

    accuracy                         0.0580       500
   macro avg     0.0722    0.0556    0.0463       500
weighted avg     0.1165    0.0580    0.0662       500

Evaluation took 14.622200012207031 seconds
Evaluating model roben_2_tok on roberta on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:02<00:00,  6.23it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.1148    0.3043    0.1667        23
         2.0     0.2446    0.5357    0.3358        84
         3.0     0.5212    0.4000    0.4526       215
         4.0     0.6778    0.3742    0.4822       163

    accuracy                         0.3980       500
   macro avg     0.3117    0.3229    0.2875       500
weighted avg     0.4914    0.3980    0.4159       500

Evaluation took 2.612173080444336 seconds
Evaluating model roben_2_tok on roberta on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.56s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.1061    0.3043    0.1573        23
         2.0     0.2283    0.5000    0.3134        84
         3.0     0.4969    0.3721    0.4255       215
         4.0     0.6517    0.3558    0.4603       163

    accuracy                         0.3740       500
   macro avg     0.2966    0.3065    0.2713       500
weighted avg     0.4693    0.3740    0.3929       500

Evaluation took 25.609371662139893 seconds
Evaluating model roben_2_tok on roberta on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:25<00:00,  2.56s/it]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0759    0.2609    0.1176        23
         2.0     0.1276    0.2976    0.1786        84
         3.0     0.2956    0.2186    0.2513       215
         4.0     0.4394    0.1779    0.2533       163

    accuracy                         0.2140       500
   macro avg     0.1877    0.1910    0.1602       500
weighted avg     0.2953    0.2140    0.2261       500

Evaluation took 25.600181579589844 seconds
Evaluating model roben_2_tok on roberta on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:32<00:00, 15.38it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0972    0.3043    0.1474        23
         2.0     0.1989    0.4286    0.2717        84
         3.0     0.4688    0.3488    0.4000       215
         4.0     0.6437    0.3436    0.4480       163

    accuracy                         0.3480       500
   macro avg     0.2817    0.2851    0.2534       500
weighted avg     0.4493    0.3480    0.3705       500

Evaluation took 32.52556586265564 seconds
Evaluating model roben_2_tok on roberta on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:16<00:00, 29.59it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0225    0.0870    0.0357        23
         2.0     0.0452    0.1071    0.0636        84
         3.0     0.1208    0.0837    0.0989       215
         4.0     0.1452    0.0552    0.0800       163

    accuracy                         0.0760       500
   macro avg     0.0667    0.0666    0.0556       500
weighted avg     0.1079    0.0760    0.0809       500

Evaluation took 16.915098190307617 seconds
Failed loading model 64k_lstm_clean_vanilla on roberta for task sst, skipping
Failed loading model 64k_lstm_no_whitespace_pert_vanilla on roberta for task sst, skipping
Evaluating model 64k_lstm_all_pert_vanilla on roberta on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00,  2.91it/s]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.2000    0.5217    0.2892        23
         2.0     0.4021    0.4643    0.4309        84
         3.0     0.5841    0.6140    0.5986       215
         4.0     0.6783    0.4785    0.5612       163

    accuracy                         0.5240       500
   macro avg     0.4729    0.4290    0.3995       500
weighted avg     0.5640    0.5240    0.5296       500

Evaluation took 5.544106483459473 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:54<00:00,  5.49s/it]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.1364    0.3913    0.2022        23
         2.0     0.2261    0.3095    0.2613        84
         3.0     0.4722    0.4744    0.4733       215
         4.0     0.6040    0.3742    0.4621       163

    accuracy                         0.3980       500
   macro avg     0.3877    0.3232    0.3033       500
weighted avg     0.4592    0.3980    0.4109       500

Evaluation took 54.86682653427124 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:54<00:00,  5.43s/it]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.1449    0.4348    0.2174        23
         2.0     0.2364    0.3095    0.2680        84
         3.0     0.4953    0.4930    0.4942       215
         4.0     0.6095    0.3926    0.4776       163

    accuracy                         0.4120       500
   macro avg     0.2972    0.3260    0.2914       500
weighted avg     0.4581    0.4120    0.4232       500

Evaluation took 54.26425075531006 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:58<00:00,  8.51it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0789    0.2609    0.1212        23
         2.0     0.0608    0.1071    0.0776        84
         3.0     0.2176    0.1953    0.2059       215
         4.0     0.2963    0.1472    0.1967       163

    accuracy                         0.1620       500
   macro avg     0.1307    0.1421    0.1203       500
weighted avg     0.2040    0.1620    0.1713       500

Evaluation took 58.747191429138184 seconds
Evaluating model 64k_lstm_all_pert_vanilla on roberta on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:59<00:00,  8.45it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0779    0.2609    0.1200        23
         2.0     0.0816    0.1429    0.1039        84
         3.0     0.1828    0.1581    0.1696       215
         4.0     0.2614    0.1411    0.1833       163

    accuracy                         0.1500       500
   macro avg     0.1207    0.1406    0.1153       500
weighted avg     0.1811    0.1500    0.1556       500

Evaluation took 59.183056354522705 seconds
Failed loading model 64k_lstm_clean_finetuned on roberta for task sst, skipping
Failed loading model 64k_lstm_no_whitespace_pert_finetuned on roberta for task sst, skipping
Evaluating model 64k_lstm_all_pert_finetuned on roberta on clean for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00,  2.93it/s]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.2182    0.5217    0.3077        23
         2.0     0.3838    0.4524    0.4153        84
         3.0     0.5806    0.5860    0.5833       215
         4.0     0.6850    0.5337    0.6000       163

    accuracy                         0.5280       500
   macro avg     0.4735    0.4321    0.4048       500
weighted avg     0.5625    0.5280    0.5339       500

Evaluation took 5.498709440231323 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on stochastic_no_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:54<00:00,  5.46s/it]


              precision    recall  f1-score   support

         0.0     0.5000    0.0667    0.1176        15
         1.0     0.1475    0.3913    0.2143        23
         2.0     0.2430    0.3095    0.2723        84
         3.0     0.4615    0.4744    0.4679       215
         4.0     0.5963    0.3988    0.4779       163

    accuracy                         0.4060       500
   macro avg     0.3897    0.3281    0.3100       500
weighted avg     0.4555    0.4060    0.4161       500

Evaluation took 54.64381766319275 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on stochastic_incl_ws for task sst


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:54<00:00,  5.46s/it]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.1129    0.3043    0.1647        23
         2.0     0.2642    0.3333    0.2947        84
         3.0     0.4661    0.4791    0.4725       215
         4.0     0.5741    0.3804    0.4576       163

    accuracy                         0.4000       500
   macro avg     0.2834    0.2994    0.2779       500
weighted avg     0.4371    0.4000    0.4094       500

Evaluation took 54.57454466819763 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on word_score_no_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:02<00:00,  7.95it/s]


              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0758    0.2174    0.1124        23
         2.0     0.0985    0.1548    0.1204        84
         3.0     0.2206    0.2093    0.2148       215
         4.0     0.3125    0.1840    0.2317       163

    accuracy                         0.1860       500
   macro avg     0.1415    0.1531    0.1358       500
weighted avg     0.2168    0.1860    0.1933       500

Evaluation took 62.875807762145996 seconds
Evaluating model 64k_lstm_all_pert_finetuned on roberta on word_score_incl_ws for task sst


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [01:00<00:00,  8.21it/s]

              precision    recall  f1-score   support

         0.0     0.0000    0.0000    0.0000        15
         1.0     0.0909    0.2609    0.1348        23
         2.0     0.0902    0.1429    0.1106        84
         3.0     0.2067    0.2000    0.2033       215
         4.0     0.2637    0.1472    0.1890       163

    accuracy                         0.1700       500
   macro avg     0.1303    0.1502    0.1275       500
weighted avg     0.1942    0.1700    0.1738       500

Evaluation took 60.887040853500366 seconds
Failed loading model 64k_cnn_no_whitespace_pert_finetuned on roberta for task sst, skipping
Failed loading model 2m_lstm_all_pert_finetuned on roberta for task sst, skipping
Failed loading model 32k_lstm_all_pert_finetuned_100ep on roberta for task sst, skipping





In [32]:
accuracy_df

Unnamed: 0,clean,stochastic_no_ws,stochastic_incl_ws,word_score_no_ws,word_score_incl_ws
baseline_bert_imdb,0.88,0.722,0.69,0.606,0.586
baseline_all_pert_bert_imdb,0.884,0.698,0.672,0.536,0.554
roben_1_bert_imdb,0.794,0.686,0.572,0.662,0.49
roben_2_bert_imdb,0.818,0.71,0.584,0.702,0.548
roben_1_tok_bert_imdb,0.776,0.69,0.554,0.692,0.526
roben_2_tok_bert_imdb,0.786,0.684,0.59,0.72,0.538
64k_lstm_clean_vanilla_bert_imdb,0.864,0.708,0.662,0.564,0.536
64k_lstm_no_whitespace_pert_vanilla_bert_imdb,0.872,0.812,0.712,0.744,0.602
64k_lstm_all_pert_vanilla_bert_imdb,0.868,0.81,0.804,0.706,0.69
64k_lstm_clean_finetuned_bert_imdb,0.864,0.724,0.696,0.576,0.556


In [33]:
f1_df

Unnamed: 0,clean,stochastic_no_ws,stochastic_incl_ws,word_score_no_ws,word_score_incl_ws
baseline_bert_imdb,0.879906,0.721946,0.689989,0.605998,0.58572
baseline_all_pert_bert_imdb,0.883954,0.696151,0.669887,0.531313,0.55127
roben_1_bert_imdb,0.792002,0.683201,0.568959,0.65422,0.482798
roben_2_bert_imdb,0.817104,0.708881,0.582289,0.699343,0.545645
roben_1_tok_bert_imdb,0.771257,0.682063,0.546333,0.68261,0.513864
roben_2_tok_bert_imdb,0.784092,0.680808,0.587224,0.716938,0.534227
64k_lstm_clean_vanilla_bert_imdb,0.863922,0.707981,0.661771,0.564,0.535636
64k_lstm_no_whitespace_pert_vanilla_bert_imdb,0.871926,0.811892,0.711959,0.743306,0.601156
64k_lstm_all_pert_vanilla_bert_imdb,0.867788,0.809597,0.803469,0.704381,0.688102
64k_lstm_clean_finetuned_bert_imdb,0.863946,0.72396,0.695981,0.575667,0.555972


In [34]:
accuracy_df.to_csv("../output/grid_accuracy.csv")

In [35]:
f1_df.to_csv("../output/grid_f1.csv")

-----