In [1]:
import torch
from torch.utils.data import DataLoader, Dataset
from torch.optim import AdamW
from torch.nn.utils import clip_grad_norm_
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import get_linear_schedule_with_warmup
import pandas as pd
import math
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from sklearn.metrics import mean_absolute_error, mean_squared_error
from tqdm import tqdm
import os
import itertools
import numpy as np

In [2]:
class TextValueDataset(Dataset):
    def __init__(self, dataframe, tokenizer, max_length, column):
        self.dataframe = dataframe
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.column = column

    def __len__(self):
        return len(self.dataframe)

    def __getitem__(self, index):
        row = self.dataframe.iloc[index]
        text = row['generated_text']
        label = (row[self.column] - 1)/4 # Convert value to 0-1
        
        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_length,
            padding='max_length',
            truncation=True,
            return_tensors='pt',
            return_attention_mask=True
        )
        
        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.float)
        }

In [3]:
# Load dataset
def load_dataset(file_path):
    if '.tsv' in file_path:
        df = pd.read_csv(file_path, sep='\t')
    else:
        df = pd.read_csv(file_path)
    return df

# Create DataLoader
def create_dataloader(df, tokenizer, max_length, batch_size, column):
    dataset = TextValueDataset(df, tokenizer, max_length, column)
    return DataLoader(dataset, batch_size=batch_size, shuffle=True)

In [4]:
def evaluate(model, dataloader, device):
    model.eval()
    predictions, true_labels = [], []

    eval_loss = 0
    eval_loop = tqdm(dataloader, desc="Evaluating", leave=False)
    with torch.no_grad():
        for batch in eval_loop:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            # print(input_ids, attention_mask, labels)
            
            outputs = model(
                input_ids=input_ids,
                attention_mask=attention_mask,
                labels=labels
            )
            logits = outputs.logits
            preds = torch.argmax(logits, dim=1)
            
            loss = outputs.loss
            eval_loss += loss.item()
            eval_loop.set_postfix(loss=loss.item())
            
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
    
    # accuracy = accuracy_score(true_labels, predictions)
    # precision, recall, f1, _ = precision_recall_fscore_support(true_labels, predictions, average='weighted')
    
    mae = mean_absolute_error(true_labels, predictions)
    mse = mean_squared_error(true_labels, predictions)
    return eval_loss, np.sqrt(mse), mse, mae

In [5]:
data_dict = { 
                'model' : [],
                 'dimension' : [],
                 'RMSE' : [],
                 'MSE' : [],
                 'MAE' : []
            }

In [6]:
def get_performance(tokname, modeldir):
    max_length = 256
    batch_size = 16
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    # tokenizer = AutoTokenizer.from_pretrained('google-t5/t5-small')
    tokenizer = AutoTokenizer.from_pretrained(tokname)
    test_df = load_dataset('../data/crowd-enVent-test.tsv')
    for model_name in os.listdir(modeldir):
        # model_name='./models/google-t5/suddenness_google-t5/'
        if '.ipy' in model_name:
            continue
        column = str.join('_', model_name.split('_')[:-1])
        print(column)
        test_loader = create_dataloader(test_df, tokenizer, max_length, batch_size, column)
        model = AutoModelForSequenceClassification.from_pretrained(os.path.join(modeldir, model_name))
        model = model.to(device)
        _, test_rmse, test_mse, test_mae = evaluate(model, test_loader, device)
        print(f'Model Name: {model_name}, Test RMSE: {test_rmse:.4f}, Test MSE: {test_mse:.4f}, Test MAE: {test_mae:.4f}')
        data_dict['model'].append(model_name.split('_')[-1])
        data_dict['dimension'].append(column)
        data_dict['RMSE'].append(test_rmse)
        data_dict['MSE'].append(test_mse)
        data_dict['MAE'].append(test_mae)
        # Cleanup
        model.to('cpu')
        del model
        torch.cuda.empty_cache()
    
    return data_dict

In [7]:
mod_tok_dict = {
    'bert-large-uncased' : 'bert-large-uncased',
    'dialogpt' : 'microsoft/DialogRPT-updown',
    'distilbert-base-uncased' : 'distilbert-base-uncased',
    'google-t5' : 'google-t5/t5-small',
    'roberta-base' : 'roberta-base'
}

for key in mod_tok_dict:
    modeldir = os.path.join('./models', key)
    data_dict = get_performance(mod_tok_dict[key], modeldir)



goal_relevance


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.75it/s, loss=0.0945]


Model Name: goal_relevance_bert-large-uncased, Test RMSE: 0.6449, Test MSE: 0.4159, Test MAE: 0.5236
chance_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.08it/s, loss=0.122]


Model Name: chance_responsblt_bert-large-uncased, Test RMSE: 0.5332, Test MSE: 0.2843, Test MAE: 0.3639
chance_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.05it/s, loss=0.156]


Model Name: chance_control_bert-large-uncased, Test RMSE: 0.5123, Test MSE: 0.2625, Test MAE: 0.3333
accept_conseq


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.01it/s, loss=0.0944]


Model Name: accept_conseq_bert-large-uncased, Test RMSE: 0.6153, Test MSE: 0.3786, Test MAE: 0.5014
standards


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.99it/s, loss=0.0822]


Model Name: standards_bert-large-uncased, Test RMSE: 0.5530, Test MSE: 0.3058, Test MAE: 0.3833
other_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.99it/s, loss=0.111]


Model Name: other_control_bert-large-uncased, Test RMSE: 0.6983, Test MSE: 0.4876, Test MAE: 0.5792
pleasantness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.97it/s, loss=0.0726]


Model Name: pleasantness_bert-large-uncased, Test RMSE: 0.5459, Test MSE: 0.2980, Test MAE: 0.3523
predict_conseq


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.97it/s, loss=0.158]


Model Name: predict_conseq_bert-large-uncased, Test RMSE: 0.6203, Test MSE: 0.3847, Test MAE: 0.5046
unpleasantness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.98it/s, loss=0.0595]


Model Name: unpleasantness_bert-large-uncased, Test RMSE: 0.7294, Test MSE: 0.5321, Test MAE: 0.5931
goal_support


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.97it/s, loss=0.0569]


Model Name: goal_support_bert-large-uncased, Test RMSE: 0.5254, Test MSE: 0.2760, Test MAE: 0.3579
familiarity


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.94it/s, loss=0.136]


Model Name: familiarity_bert-large-uncased, Test RMSE: 0.5424, Test MSE: 0.2942, Test MAE: 0.3926
self_control


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.96it/s, loss=0.0709]


Model Name: self_control_bert-large-uncased, Test RMSE: 0.5375, Test MSE: 0.2889, Test MAE: 0.3917
urgency


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  3.98it/s, loss=0.162]


Model Name: urgency_bert-large-uncased, Test RMSE: 0.6667, Test MSE: 0.4444, Test MAE: 0.5528
suddenness


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.01it/s, loss=0.063]


Model Name: suddenness_bert-large-uncased, Test RMSE: 0.6764, Test MSE: 0.4575, Test MAE: 0.5579
self_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.02it/s, loss=0.194]


Model Name: self_responsblt_bert-large-uncased, Test RMSE: 0.5864, Test MSE: 0.3439, Test MAE: 0.4181
attention


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.04it/s, loss=0.123]


Model Name: attention_bert-large-uncased, Test RMSE: 0.7525, Test MSE: 0.5662, Test MAE: 0.6769
social_norms


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.03it/s, loss=0.0798]


Model Name: social_norms_bert-large-uncased, Test RMSE: 0.3895, Test MSE: 0.1517, Test MAE: 0.1995
predict_event


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.05it/s, loss=0.117]


Model Name: predict_event_bert-large-uncased, Test RMSE: 0.5893, Test MSE: 0.3472, Test MAE: 0.4500
other_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.00it/s, loss=0.121]


Model Name: other_responsblt_bert-large-uncased, Test RMSE: 0.6608, Test MSE: 0.4367, Test MAE: 0.5162
not_consider


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:08<00:00,  4.02it/s, loss=0.14]


Model Name: not_consider_bert-large-uncased, Test RMSE: 0.6002, Test MSE: 0.3602, Test MAE: 0.4426




predict_event


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.56it/s, loss=0.15]


Model Name: predict_event_microsoft, Test RMSE: 0.5893, Test MSE: 0.3472, Test MAE: 0.4500
attention


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.60it/s, loss=0.139]


Model Name: attention_microsoft, Test RMSE: 0.7525, Test MSE: 0.5662, Test MAE: 0.6769
standards


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.56it/s, loss=0.129]


Model Name: standards_microsoft, Test RMSE: 0.5530, Test MSE: 0.3058, Test MAE: 0.3833
chance_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.56it/s, loss=0.163]


Model Name: chance_responsblt_microsoft, Test RMSE: 0.5332, Test MSE: 0.2843, Test MAE: 0.3639
unpleasantness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.55it/s, loss=0.0413]


Model Name: unpleasantness_microsoft, Test RMSE: 0.7294, Test MSE: 0.5321, Test MAE: 0.5931
goal_support


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.54it/s, loss=0.0477]


Model Name: goal_support_microsoft, Test RMSE: 0.5254, Test MSE: 0.2760, Test MAE: 0.3579
accept_conseq


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.52it/s, loss=0.159]


Model Name: accept_conseq_microsoft, Test RMSE: 0.6153, Test MSE: 0.3786, Test MAE: 0.5014
self_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.51it/s, loss=0.105]


Model Name: self_control_microsoft, Test RMSE: 0.5375, Test MSE: 0.2889, Test MAE: 0.3917
not_consider


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.54it/s, loss=0.112]


Model Name: not_consider_microsoft, Test RMSE: 0.6002, Test MSE: 0.3602, Test MAE: 0.4426
other_control


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.54it/s, loss=0.0964]


Model Name: other_control_microsoft, Test RMSE: 0.6983, Test MSE: 0.4876, Test MAE: 0.5792
urgency


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.53it/s, loss=0.0783]


Model Name: urgency_microsoft, Test RMSE: 0.6667, Test MSE: 0.4444, Test MAE: 0.5528
pleasantness


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.53it/s, loss=0.129]


Model Name: pleasantness_microsoft, Test RMSE: 0.5459, Test MSE: 0.2980, Test MAE: 0.3523
suddenness


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.55it/s, loss=0.18]


Model Name: suddenness_microsoft, Test RMSE: 0.6764, Test MSE: 0.4575, Test MAE: 0.5579
other_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.53it/s, loss=0.086]


Model Name: other_responsblt_microsoft, Test RMSE: 0.6608, Test MSE: 0.4367, Test MAE: 0.5162
predict_conseq


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.52it/s, loss=0.113]


Model Name: predict_conseq_microsoft, Test RMSE: 0.6203, Test MSE: 0.3847, Test MAE: 0.5046
chance_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.54it/s, loss=0.128]


Model Name: chance_control_microsoft, Test RMSE: 0.5123, Test MSE: 0.2625, Test MAE: 0.3333
goal_relevance


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.52it/s, loss=0.0601]


Model Name: goal_relevance_microsoft, Test RMSE: 0.6449, Test MSE: 0.4159, Test MAE: 0.5236
familiarity


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.53it/s, loss=0.107]


Model Name: familiarity_microsoft, Test RMSE: 0.5424, Test MSE: 0.2942, Test MAE: 0.3926
social_norms


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.53it/s, loss=0.14]


Model Name: social_norms_microsoft, Test RMSE: 0.3895, Test MSE: 0.1517, Test MAE: 0.1995
self_responsblt


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:09<00:00,  3.52it/s, loss=0.0862]


Model Name: self_responsblt_microsoft, Test RMSE: 0.5864, Test MSE: 0.3439, Test MAE: 0.4181




accept_conseq


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.19it/s, loss=0.0837]


Model Name: accept_conseq_distilbert-base-uncased, Test RMSE: 0.6153, Test MSE: 0.3786, Test MAE: 0.5014
other_responsblt


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.00it/s, loss=0.0944]


Model Name: other_responsblt_distilbert-base-uncased, Test RMSE: 0.6608, Test MSE: 0.4367, Test MAE: 0.5162
self_responsblt


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.42it/s, loss=0.0993]


Model Name: self_responsblt_distilbert-base-uncased, Test RMSE: 0.5864, Test MSE: 0.3439, Test MAE: 0.4181
goal_relevance


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.46it/s, loss=0.188]


Model Name: goal_relevance_distilbert-base-uncased, Test RMSE: 0.6449, Test MSE: 0.4159, Test MAE: 0.5236
attention


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.46it/s, loss=0.12]


Model Name: attention_distilbert-base-uncased, Test RMSE: 0.7525, Test MSE: 0.5662, Test MAE: 0.6769
self_control


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.28it/s, loss=0.0937]


Model Name: self_control_distilbert-base-uncased, Test RMSE: 0.5375, Test MSE: 0.2889, Test MAE: 0.3917
standards


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.00it/s, loss=0.115]


Model Name: standards_distilbert-base-uncased, Test RMSE: 0.5530, Test MSE: 0.3058, Test MAE: 0.3833
predict_conseq


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.48it/s, loss=0.0996]


Model Name: predict_conseq_distilbert-base-uncased, Test RMSE: 0.6203, Test MSE: 0.3847, Test MAE: 0.5046
pleasantness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.66it/s, loss=0.0542]


Model Name: pleasantness_distilbert-base-uncased, Test RMSE: 0.5459, Test MSE: 0.2980, Test MAE: 0.3523
familiarity


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.58it/s, loss=0.105]


Model Name: familiarity_distilbert-base-uncased, Test RMSE: 0.5424, Test MSE: 0.2942, Test MAE: 0.3926
urgency


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.20it/s, loss=0.103]


Model Name: urgency_distilbert-base-uncased, Test RMSE: 0.6667, Test MSE: 0.4444, Test MAE: 0.5528
chance_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.28it/s, loss=0.146]


Model Name: chance_control_distilbert-base-uncased, Test RMSE: 0.5123, Test MSE: 0.2625, Test MAE: 0.3333
goal_support


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.55it/s, loss=0.0605]


Model Name: goal_support_distilbert-base-uncased, Test RMSE: 0.5254, Test MSE: 0.2760, Test MAE: 0.3579
chance_responsblt


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.01it/s, loss=0.0737]


Model Name: chance_responsblt_distilbert-base-uncased, Test RMSE: 0.5332, Test MSE: 0.2843, Test MAE: 0.3639
social_norms


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.14it/s, loss=0.0595]


Model Name: social_norms_distilbert-base-uncased, Test RMSE: 0.3895, Test MSE: 0.1517, Test MAE: 0.1995
predict_event


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 18.46it/s, loss=0.165]


Model Name: predict_event_distilbert-base-uncased, Test RMSE: 0.5893, Test MSE: 0.3472, Test MAE: 0.4500
unpleasantness


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.34it/s, loss=0.227]


Model Name: unpleasantness_distilbert-base-uncased, Test RMSE: 0.7294, Test MSE: 0.5321, Test MAE: 0.5931
suddenness


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.43it/s, loss=0.113]


Model Name: suddenness_distilbert-base-uncased, Test RMSE: 0.6764, Test MSE: 0.4575, Test MAE: 0.5579
not_consider


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.52it/s, loss=0.107]


Model Name: not_consider_distilbert-base-uncased, Test RMSE: 0.6002, Test MSE: 0.3602, Test MAE: 0.4426
other_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 19.49it/s, loss=0.117]


Model Name: other_control_distilbert-base-uncased, Test RMSE: 0.6983, Test MSE: 0.4876, Test MAE: 0.5792
familiarity


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 14.40it/s, loss=0.187]


Model Name: familiarity_google-t5, Test RMSE: 0.5424, Test MSE: 0.2942, Test MAE: 0.3926
goal_support


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.87it/s, loss=0.0382]


Model Name: goal_support_google-t5, Test RMSE: 0.5254, Test MSE: 0.2760, Test MAE: 0.3579
suddenness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.86it/s, loss=0.0919]


Model Name: suddenness_google-t5, Test RMSE: 0.6764, Test MSE: 0.4575, Test MAE: 0.5579
social_norms


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.10it/s, loss=0.0805]


Model Name: social_norms_google-t5, Test RMSE: 0.3895, Test MSE: 0.1517, Test MAE: 0.1995
not_consider


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 14.89it/s, loss=0.16]


Model Name: not_consider_google-t5, Test RMSE: 0.6002, Test MSE: 0.3602, Test MAE: 0.4426
chance_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 14.59it/s, loss=0.181]


Model Name: chance_responsblt_google-t5, Test RMSE: 0.5332, Test MSE: 0.2843, Test MAE: 0.3639
self_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 14.61it/s, loss=0.217]


Model Name: self_responsblt_google-t5, Test RMSE: 0.5864, Test MSE: 0.3439, Test MAE: 0.4181
other_control


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 14.39it/s, loss=0.15]


Model Name: other_control_google-t5, Test RMSE: 0.6983, Test MSE: 0.4876, Test MAE: 0.5792
pleasantness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.79it/s, loss=0.0642]


Model Name: pleasantness_google-t5, Test RMSE: 0.5459, Test MSE: 0.2980, Test MAE: 0.3523
predict_conseq


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.17it/s, loss=0.102]


Model Name: predict_conseq_google-t5, Test RMSE: 0.6203, Test MSE: 0.3847, Test MAE: 0.5046
accept_conseq


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.66it/s, loss=0.0563]


Model Name: accept_conseq_google-t5, Test RMSE: 0.6153, Test MSE: 0.3786, Test MAE: 0.5014
predict_event


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.30it/s, loss=0.122]


Model Name: predict_event_google-t5, Test RMSE: 0.5893, Test MSE: 0.3472, Test MAE: 0.4500
urgency


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.28it/s, loss=0.114]


Model Name: urgency_google-t5, Test RMSE: 0.6667, Test MSE: 0.4444, Test MAE: 0.5528
other_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.69it/s, loss=0.103]


Model Name: other_responsblt_google-t5, Test RMSE: 0.6608, Test MSE: 0.4367, Test MAE: 0.5162
self_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.06it/s, loss=0.115]


Model Name: self_control_google-t5, Test RMSE: 0.5375, Test MSE: 0.2889, Test MAE: 0.3917
chance_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 14.99it/s, loss=0.136]


Model Name: chance_control_google-t5, Test RMSE: 0.5123, Test MSE: 0.2625, Test MAE: 0.3333
standards


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.43it/s, loss=0.0861]


Model Name: standards_google-t5, Test RMSE: 0.5530, Test MSE: 0.3058, Test MAE: 0.3833
goal_relevance


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 14.86it/s, loss=0.132]


Model Name: goal_relevance_google-t5, Test RMSE: 0.6449, Test MSE: 0.4159, Test MAE: 0.5236
attention


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.49it/s, loss=0.0839]


Model Name: attention_google-t5, Test RMSE: 0.7525, Test MSE: 0.5662, Test MAE: 0.6769
unpleasantness


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 15.81it/s, loss=0.15]


Model Name: unpleasantness_google-t5, Test RMSE: 0.7294, Test MSE: 0.5321, Test MAE: 0.5931




other_responsblt


Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.13it/s, loss=0.11]


Model Name: other_responsblt_roberta-base, Test RMSE: 0.6608, Test MSE: 0.4367, Test MAE: 0.5162
goal_support


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 10.83it/s, loss=0.0281]


Model Name: goal_support_roberta-base, Test RMSE: 0.5254, Test MSE: 0.2760, Test MAE: 0.3579
unpleasantness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 10.93it/s, loss=0.0594]


Model Name: unpleasantness_roberta-base, Test RMSE: 0.7294, Test MSE: 0.5321, Test MAE: 0.5931
accept_conseq


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.26it/s, loss=0.092]


Model Name: accept_conseq_roberta-base, Test RMSE: 0.6153, Test MSE: 0.3786, Test MAE: 0.5014
chance_control


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.31it/s, loss=0.0915]


Model Name: chance_control_roberta-base, Test RMSE: 0.5123, Test MSE: 0.2625, Test MAE: 0.3333
predict_event


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 11.39it/s, loss=0.0992]


Model Name: predict_event_roberta-base, Test RMSE: 0.5893, Test MSE: 0.3472, Test MAE: 0.4500
social_norms


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.27it/s, loss=0.0972]


Model Name: social_norms_roberta-base, Test RMSE: 0.3895, Test MSE: 0.1517, Test MAE: 0.1995
goal_relevance


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 11.35it/s, loss=0.0564]


Model Name: goal_relevance_roberta-base, Test RMSE: 0.6449, Test MSE: 0.4159, Test MAE: 0.5236
suddenness


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.21it/s, loss=0.0942]


Model Name: suddenness_roberta-base, Test RMSE: 0.6764, Test MSE: 0.4575, Test MAE: 0.5579
urgency


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 11.42it/s, loss=0.102]


Model Name: urgency_roberta-base, Test RMSE: 0.6667, Test MSE: 0.4444, Test MAE: 0.5528
attention


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 11.34it/s, loss=0.0973]


Model Name: attention_roberta-base, Test RMSE: 0.7525, Test MSE: 0.5662, Test MAE: 0.6769
self_control


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.25it/s, loss=0.0914]


Model Name: self_control_roberta-base, Test RMSE: 0.5375, Test MSE: 0.2889, Test MAE: 0.3917
other_control


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.08it/s, loss=0.141]


Model Name: other_control_roberta-base, Test RMSE: 0.6983, Test MSE: 0.4876, Test MAE: 0.5792
chance_responsblt


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.21it/s, loss=0.136]


Model Name: chance_responsblt_roberta-base, Test RMSE: 0.5332, Test MSE: 0.2843, Test MAE: 0.3639
pleasantness


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.32it/s, loss=0.028]


Model Name: pleasantness_roberta-base, Test RMSE: 0.5459, Test MSE: 0.2980, Test MAE: 0.3523
standards


Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 10.99it/s, loss=0.026]


Model Name: standards_roberta-base, Test RMSE: 0.5530, Test MSE: 0.3058, Test MAE: 0.3833
self_responsblt


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 11.46it/s, loss=0.0705]


Model Name: self_responsblt_roberta-base, Test RMSE: 0.5864, Test MSE: 0.3439, Test MAE: 0.4181
familiarity


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 11.34it/s, loss=0.0591]


Model Name: familiarity_roberta-base, Test RMSE: 0.5424, Test MSE: 0.2942, Test MAE: 0.3926
predict_conseq


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:02<00:00, 11.49it/s, loss=0.0741]


Model Name: predict_conseq_roberta-base, Test RMSE: 0.6203, Test MSE: 0.3847, Test MAE: 0.5046
not_consider


Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:03<00:00, 11.18it/s, loss=0.0943]


Model Name: not_consider_roberta-base, Test RMSE: 0.6002, Test MSE: 0.3602, Test MAE: 0.4426


In [11]:
df = pd.DataFrame(data_dict)
df

Unnamed: 0,model,dimension,RMSE,MSE,MAE
0,bert-large-uncased,goal_relevance,0.644869,0.415856,0.523611
1,bert-large-uncased,chance_responsblt,0.533160,0.284259,0.363889
2,bert-large-uncased,chance_control,0.512348,0.262500,0.333333
3,bert-large-uncased,accept_conseq,0.615295,0.378588,0.501389
4,bert-large-uncased,standards,0.552980,0.305787,0.383333
...,...,...,...,...,...
95,roberta-base,standards,0.552980,0.305787,0.383333
96,roberta-base,self_responsblt,0.586401,0.343866,0.418056
97,roberta-base,familiarity,0.542414,0.294213,0.392593
98,roberta-base,predict_conseq,0.620260,0.384722,0.504630


In [17]:
df[df['model'] == 'bert-large-uncased'].describe()

Unnamed: 0,RMSE,MSE,MAE
count,20.0,20.0,20.0
mean,0.598978,0.365822,0.454537
std,0.08613,0.101718,0.112351
min,0.389533,0.151736,0.199537
25%,0.541181,0.292882,0.378472
50%,0.594705,0.353704,0.446296
75%,0.662285,0.438628,0.530903
max,0.752465,0.566204,0.676852


In [18]:
df[df['model'] == 'roberta-base'].describe()

Unnamed: 0,RMSE,MSE,MAE
count,20.0,20.0,20.0
mean,0.598978,0.365822,0.454537
std,0.08613,0.101718,0.112351
min,0.389533,0.151736,0.199537
25%,0.541181,0.292882,0.378472
50%,0.594705,0.353704,0.446296
75%,0.662285,0.438628,0.530903
max,0.752465,0.566204,0.676852


In [19]:
df[df['model'] == 'distilbert-base-uncased'].describe()

Unnamed: 0,RMSE,MSE,MAE
count,20.0,20.0,20.0
mean,0.598978,0.365822,0.454537
std,0.08613,0.101718,0.112351
min,0.389533,0.151736,0.199537
25%,0.541181,0.292882,0.378472
50%,0.594705,0.353704,0.446296
75%,0.662285,0.438628,0.530903
max,0.752465,0.566204,0.676852


In [20]:
df[df['model'] == 'google-t5'].describe()

Unnamed: 0,RMSE,MSE,MAE
count,20.0,20.0,20.0
mean,0.598978,0.365822,0.454537
std,0.08613,0.101718,0.112351
min,0.389533,0.151736,0.199537
25%,0.541181,0.292882,0.378472
50%,0.594705,0.353704,0.446296
75%,0.662285,0.438628,0.530903
max,0.752465,0.566204,0.676852
