In [1]:
import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModel, AdamW, get_linear_schedule_with_warmup, AutoModelForSequenceClassification, Adafactor
from torch.utils.data import DataLoader, Dataset
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd
import re
from tqdm import tqdm
import numpy as np
import torch.nn.functional as F
import math, string

from huggingface_hub import login
login(token="")

# Define if GPU is available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")


# lstm_hidden_size: int = 128, lstm_layers: int = 1, dropout_prob: float = 0.3, lr=2e-5
class BilstmXLMRobertaClassifier(nn.Module):

    def __init__(self,
                 xlm_model_name: str,
                 num_labels: int,
                 lstm_hidden_size: int = 512,
                 lstm_layers: int = 3,
                 dropout_prob: float = 0.5):
        super(BilstmXLMRobertaClassifier, self).__init__()

        # Load XLM-RoBERTa model
        self.roberta = AutoModel.from_pretrained(xlm_model_name, cache_dir="/home/rohit/expt/dp_expt/codalab/NAACL-2025/20698/xlm_roberta/")
        #self.roberta = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
        # Unfreeze layers if necessary
        for param in self.roberta.parameters():
            param.requires_grad = True

        # BiLSTM layer with multiple layers
        self.bilstm = nn.LSTM(input_size=768,  # Embeddings from XLM-RoBERTa
                              hidden_size=lstm_hidden_size,
                              num_layers=lstm_layers,
                              bidirectional=True,
                              batch_first=True)

        # Initialize LSTM weights
        for name, param in self.bilstm.named_parameters():
            if 'weight_ih' in name:
                torch.nn.init.xavier_uniform_(param.data)  # Xavier uniform initialization for input-hidden weights
            elif 'weight_hh' in name:
                torch.nn.init.orthogonal_(param.data)  # Orthogonal initialization for hidden-hidden weights
            elif 'bias' in name:
                torch.nn.init.zeros_(param)  # Initialize biases to zeros

        # Attention mechanism after BiLSTM
        self.attention = nn.Linear(lstm_hidden_size * 2, 1)

        # Dropout layer for regularization
        self.dropout = nn.Dropout(dropout_prob)

        # Layer normalization
        self.layer_norm = nn.LayerNorm(lstm_hidden_size * 2)

        # Classification layer
        self.classifier = nn.Linear(lstm_hidden_size * 2, num_labels)  # Multiply by 2 for BiLSTM

    def forward(self,
                input_ids: torch.Tensor,
                attention_mask: torch.Tensor,
                labels: torch.Tensor = None):

        # Get embeddings from XLM-RoBERTa model
        outputs = self.roberta(input_ids=input_ids, attention_mask=attention_mask)

        #outputs = self.roberta.roberta(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = outputs.last_hidden_state  # Get the hidden states (XLM-RoBERTa output)


        # BiLSTM layer
        lstm_output, _ = self.bilstm(embeddings)

        # Attention mechanism
        attention_weights = torch.tanh(self.attention(lstm_output))
        attention_weights = torch.softmax(attention_weights, dim=1)
        lstm_output = torch.sum(lstm_output * attention_weights, dim=1)

        # # Residual Normalize LSTM output
        # lstm_output = lstm_output+self.layer_norm(lstm_output)

        # # Residual Dropout
        # lstm_output = lstm_output+self.dropout(lstm_output)

        # Normalize LSTM output
        lstm_output = self.layer_norm(lstm_output)

        # Dropout
        lstm_output = self.dropout(lstm_output)

        # Classification layer
        logits = self.classifier(lstm_output)

        # Calculate loss if labels are provided
        loss = None
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss()
            loss = loss_fct(logits.view(-1, self.classifier.out_features), labels.view(-1))

        return (loss, logits) if loss is not None else logits


# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained("bytesizedllm/MalayalamXLM_Roberta", cache_dir="/home/rohit/expt/dp_expt/codalab/NAACL-2025/20698/xlm_roberta/")

def remove_punctuation(text):
    return text.translate(str.maketrans('', '', string.punctuation))

def remove_emojis(text):
    # This regex pattern matches most emojis
    emoji_pattern = re.compile(
        "["
        "\U0001F600-\U0001F64F"  # Emoticons
        "\U0001F300-\U0001F5FF"  # Symbols & Pictographs
        "\U0001F680-\U0001F6FF"  # Transport & Map symbols
        "\U0001F1E0-\U0001F1FF"  # Flags (iOS)
        "\U00002500-\U00002BEF"  # Chinese characters
        "\U00002702-\U000027B0"  # Dingbats
        "\U00002702-\U000027B0"  # Additional symbols
        "\U000024C2-\U0001F251"  # Enclosed characters
        "\U0001F900-\U0001F9FF"  # Supplemental symbols and pictographs
        "\U0001F910-\U0001F9FF"  # Supplemental symbols and pictographs continued
        "]+", flags=re.UNICODE
    )

    return emoji_pattern.sub(r'', text)


def remove_html_tags(text):
    return re.sub(r'<.*?>', ' ', text)

punctuation_list = [r'\.', r',', r'\?', r'!', r':', r';', r'"', r'\-', r'–', r'\(', r'\)', r'\[', r'\]', r'\{', r'\}', r'\.\.\.', r'\/', r'\\', r'@', r'&', r'\*', r'#', r'%', r'_', r'~', r'`', r'\^', r'\|', r'=', r'<', r'>', r'\+']
# Create the regex pattern to match any of the punctuation marks
punctuation_pattern = r'(' + '|'.join(punctuation_list) + r')'

# Function to clean and tokenize input text
def preprocess_text(text):
    text = str(text).replace("&amp;"," ").replace("<br>"," ").replace("&#39;","'")
    text = remove_html_tags(text)
    url_pattern = re.compile(r'https?://\S+|www\.\S+')
    text = re.sub(r"http\S+", "", text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

declabels = {'MOSTLY False news': 'MOSTLY FALSE',
'HALF TRUE':'HALF TRUE',
'Half true':'HALF TRUE',
'PARTLY False news':'PARTLY FALSE',
'Partly False news':'PARTLY FALSE',
'False news':'FALSE',
'Mostly False news':'MOSTLY FALSE'}

# Data preparation function
def load_and_clean_data(trainpath, validpath):
    traindf = pd.read_csv(trainpath)
    train_sents = []
    train_labels = []
    labels = list(set([l.strip() for l in traindf["Label"]]))
    label2id = {labels[i]:i for i in range(len(labels))}
    for text1, label in zip( traindf["News"], traindf["Label"]):
        label = label.strip()
        train_sents.append(preprocess_text(text1))
        train_labels.append(label2id[label])  # Label as int for multi-class

    validdf = pd.read_csv(validpath)

    valid_sents = []
    valid_labels = []
    for sent, label in zip(validdf["News"], validdf["FactCheck"]):
        label = label.strip()
        valid_sents.append(preprocess_text(sent))
        valid_labels.append(label2id[declabels[label]])  # Label as int

    return train_sents, train_labels, valid_sents, valid_labels, label2id

# Load and clean data (assumed pre-written)
train_texts, train_labels, val_texts, val_labels, label2id = load_and_clean_data("fake_news_classification_mal_train1.csv", "./old_data/FakeNews - Test Dataset.csv")

# Dataset class for PyTorch DataLoader
class HateSpeechDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len=128):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        label = self.labels[idx]

        # Tokenize and encode the text
        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

from sklearn.model_selection import train_test_split

train_dataset = HateSpeechDataset(train_texts, train_labels, tokenizer)
val_dataset = HateSpeechDataset(val_texts, val_labels, tokenizer)

train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=8)


# Initialize model
model_name = "bytesizedllm/MalayalamXLM_Roberta"
num_labels = len(list(set(train_labels)))
print("No. of labels: ", num_labels, list(set(train_labels)), list(set(val_labels)), label2id)
model = BilstmXLMRobertaClassifier(model_name, num_labels).to(device)

# Initialize optimizer and scheduler
optimizer = AdamW(model.parameters(), lr=1e-5, weight_decay=0.01)

num_epochs = 13
total_steps = len(train_loader) * num_epochs
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)

from torch.nn.utils import clip_grad_norm_
# Training and Evaluation Functions
def train_epoch(model, dataloader, optimizer, device):
    model.train()
    total_loss = 0
    loop = tqdm(dataloader, leave=True, desc="Training")
    for batch in loop:
        optimizer.zero_grad()

        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)

        loss, logits = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss.backward()

        optimizer.step()

        scheduler.step()  # Move scheduler step inside the loop

        # Gradient clipping
        clip_grad_norm_(model.parameters(), max_norm=1.0)

        total_loss += loss.item()
        loop.set_description(f"Training Batch Loss: {loss.item():.4f}")

    return total_loss / len(dataloader)


def eval_model(model, dataloader, device):
    model.eval()
    predictions, true_labels = [], []
    loop = tqdm(dataloader, leave=True, desc="Evaluating")
    with torch.no_grad():
        for batch in loop:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            logits = model(input_ids=input_ids, attention_mask=attention_mask)
            preds = torch.argmax(logits, dim=1).cpu().numpy()
            labels = labels.cpu().numpy()

            predictions.extend(preds)
            true_labels.extend(labels)

    return accuracy_score(true_labels, predictions), true_labels, predictions

print("Train text:", train_texts[3])
print("val text:", val_texts[10])

# # Main Training Loop
best_macro_f1 = 0.0
best_model_path = "best_model.pth"

for epoch in range(num_epochs):
    print(f"Epoch {epoch + 1}/{num_epochs}")
    train_loss = train_epoch(model, train_loader, optimizer, device)
    accuracy, true_labels, predictions = eval_model(model, val_loader, device)

    report = classification_report(true_labels, predictions)
    report1 = classification_report(true_labels, predictions, output_dict=True)
    macro_f1 = report1['macro avg']['f1-score']

    print(f"Training Loss: {train_loss:.4f}")
    print(f"Validation Accuracy: {accuracy:.4f}")
    print(f"Validation Macro F1-Score: {macro_f1:.4f}")
    print("Classification Report:\n", report)

    # Save best model
    if macro_f1 > best_macro_f1:
        best_macro_f1 = macro_f1
        torch.save(model.state_dict(), best_model_path)
        print(f"New best Macro F1-Score: {best_macro_f1:.4f}. Saving model...")

print(f"Best Macro F1-Score achieved: {best_macro_f1:.4f}")




The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/rohit/.cache/huggingface/token
Login successful
Using device: cuda




No. of labels:  4 [0, 1, 2, 3] [0, 1, 2, 3] {'FALSE': 0, 'HALF TRUE': 1, 'PARTLY FALSE': 2, 'MOSTLY FALSE': 3}


  torch.utils._pytree._register_pytree_node(
  torch.utils._pytree._register_pytree_node(
Some weights of XLMRobertaModel were not initialized from the model checkpoint at bytesizedllm/MalayalamXLM_Roberta and are newly initialized: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Train text: വിഴിഞ്ഞത്ത് തീരദേശവാസികള്‍ ആക്രമിച്ചപ്പോള്‍ മുഖ്യമന്ത്രി പിണറായി വിജയന്‍ ഉപേക്ഷിച്ച കാര്‍.
val text: സ്നേഹത്തില്‍ പൊതിഞ്ഞ പാവക്കുട്ടികള്‍, ഈ സമ്മാനമെല്ലാം പലസ്‌തീനിലെ കുട്ടികള്‍ക്കോ?
Epoch 1/13


Training Batch Loss: 0.1750: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:46<00:00,  5.07it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 24.97it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Training Loss: 0.8942
Validation Accuracy: 0.5960
Validation Macro F1-Score: 0.1867
Classification Report:
               precision    recall  f1-score   support

           0       0.60      1.00      0.75       149
           1       0.00      0.00      0.00        24
           2       0.00      0.00      0.00        14
           3       0.00      0.00      0.00        63

    accuracy                           0.60       250
   macro avg       0.15      0.25      0.19       250
weighted avg       0.36      0.60      0.45       250

New best Macro F1-Score: 0.1867. Saving model...
Epoch 2/13


Training Batch Loss: 0.3660: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:42<00:00,  5.57it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 27.36it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Training Loss: 0.7815
Validation Accuracy: 0.7040
Validation Macro F1-Score: 0.4402
Classification Report:
               precision    recall  f1-score   support

           0       0.71      0.99      0.83       149
           1       0.54      0.58      0.56        24
           2       0.00      0.00      0.00        14
           3       0.88      0.24      0.37        63

    accuracy                           0.70       250
   macro avg       0.53      0.45      0.44       250
weighted avg       0.70      0.70      0.64       250

New best Macro F1-Score: 0.4402. Saving model...
Epoch 3/13


Training Batch Loss: 0.3482: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:41<00:00,  5.67it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 26.83it/s]


Training Loss: 0.6260
Validation Accuracy: 0.8640
Validation Macro F1-Score: 0.8309
Classification Report:
               precision    recall  f1-score   support

           0       0.89      0.94      0.92       149
           1       0.94      0.71      0.81        24
           2       1.00      0.71      0.83        14
           3       0.75      0.78      0.77        63

    accuracy                           0.86       250
   macro avg       0.90      0.78      0.83       250
weighted avg       0.87      0.86      0.86       250

New best Macro F1-Score: 0.8309. Saving model...
Epoch 4/13


Training Batch Loss: 0.4852: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:46<00:00,  5.12it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 25.03it/s]


Training Loss: 0.4297
Validation Accuracy: 0.9080
Validation Macro F1-Score: 0.8979
Classification Report:
               precision    recall  f1-score   support

           0       0.89      0.99      0.94       149
           1       1.00      0.83      0.91        24
           2       0.93      0.93      0.93        14
           3       0.92      0.73      0.81        63

    accuracy                           0.91       250
   macro avg       0.94      0.87      0.90       250
weighted avg       0.91      0.91      0.90       250

New best Macro F1-Score: 0.8979. Saving model...
Epoch 5/13


Training Batch Loss: 0.3969: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:44<00:00,  5.38it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 27.31it/s]


Training Loss: 0.2482
Validation Accuracy: 0.9480
Validation Macro F1-Score: 0.9483
Classification Report:
               precision    recall  f1-score   support

           0       0.93      0.99      0.96       149
           1       0.96      0.96      0.96        24
           2       1.00      0.93      0.96        14
           3       1.00      0.84      0.91        63

    accuracy                           0.95       250
   macro avg       0.97      0.93      0.95       250
weighted avg       0.95      0.95      0.95       250

New best Macro F1-Score: 0.9483. Saving model...
Epoch 6/13


Training Batch Loss: 0.2066: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:43<00:00,  5.51it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 27.60it/s]


Training Loss: 0.1318
Validation Accuracy: 0.9520
Validation Macro F1-Score: 0.9528
Classification Report:
               precision    recall  f1-score   support

           0       0.93      1.00      0.96       149
           1       0.96      1.00      0.98        24
           2       1.00      0.93      0.96        14
           3       1.00      0.83      0.90        63

    accuracy                           0.95       250
   macro avg       0.97      0.94      0.95       250
weighted avg       0.96      0.95      0.95       250

New best Macro F1-Score: 0.9528. Saving model...
Epoch 7/13


Training Batch Loss: 0.0257: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:42<00:00,  5.62it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 27.81it/s]


Training Loss: 0.0801
Validation Accuracy: 0.9560
Validation Macro F1-Score: 0.9606
Classification Report:
               precision    recall  f1-score   support

           0       0.94      0.99      0.96       149
           1       1.00      1.00      1.00        24
           2       1.00      0.93      0.96        14
           3       0.98      0.86      0.92        63

    accuracy                           0.96       250
   macro avg       0.98      0.94      0.96       250
weighted avg       0.96      0.96      0.96       250

New best Macro F1-Score: 0.9606. Saving model...
Epoch 8/13


Training Batch Loss: 0.0125: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:43<00:00,  5.44it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 25.20it/s]


Training Loss: 0.0444
Validation Accuracy: 0.9480
Validation Macro F1-Score: 0.9547
Classification Report:
               precision    recall  f1-score   support

           0       0.93      0.99      0.96       149
           1       1.00      1.00      1.00        24
           2       1.00      0.93      0.96        14
           3       0.96      0.84      0.90        63

    accuracy                           0.95       250
   macro avg       0.97      0.94      0.95       250
weighted avg       0.95      0.95      0.95       250

Epoch 9/13


Training Batch Loss: 0.0050: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:41<00:00,  5.69it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 27.33it/s]


Training Loss: 0.0407
Validation Accuracy: 0.9560
Validation Macro F1-Score: 0.9603
Classification Report:
               precision    recall  f1-score   support

           0       0.93      1.00      0.96       149
           1       1.00      1.00      1.00        24
           2       1.00      0.93      0.96        14
           3       1.00      0.84      0.91        63

    accuracy                           0.96       250
   macro avg       0.98      0.94      0.96       250
weighted avg       0.96      0.96      0.95       250

Epoch 10/13


Training Batch Loss: 0.0004: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:42<00:00,  5.66it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 25.26it/s]


Training Loss: 0.0311
Validation Accuracy: 0.9520
Validation Macro F1-Score: 0.9572
Classification Report:
               precision    recall  f1-score   support

           0       0.93      1.00      0.96       149
           1       1.00      1.00      1.00        24
           2       1.00      0.93      0.96        14
           3       1.00      0.83      0.90        63

    accuracy                           0.95       250
   macro avg       0.98      0.94      0.96       250
weighted avg       0.96      0.95      0.95       250

Epoch 11/13


Training Batch Loss: 0.0324: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:44<00:00,  5.40it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 28.30it/s]


Training Loss: 0.0344
Validation Accuracy: 0.9520
Validation Macro F1-Score: 0.9575
Classification Report:
               precision    recall  f1-score   support

           0       0.93      0.99      0.96       149
           1       1.00      1.00      1.00        24
           2       1.00      0.93      0.96        14
           3       0.98      0.84      0.91        63

    accuracy                           0.95       250
   macro avg       0.98      0.94      0.96       250
weighted avg       0.95      0.95      0.95       250

Epoch 12/13


Training Batch Loss: 0.0504: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:40<00:00,  5.88it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 28.07it/s]


Training Loss: 0.0186
Validation Accuracy: 0.9520
Validation Macro F1-Score: 0.9572
Classification Report:
               precision    recall  f1-score   support

           0       0.93      1.00      0.96       149
           1       1.00      1.00      1.00        24
           2       1.00      0.93      0.96        14
           3       1.00      0.83      0.90        63

    accuracy                           0.95       250
   macro avg       0.98      0.94      0.96       250
weighted avg       0.96      0.95      0.95       250

Epoch 13/13


Training Batch Loss: 0.0310: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:42<00:00,  5.56it/s]
Evaluating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:01<00:00, 26.19it/s]

Training Loss: 0.0191
Validation Accuracy: 0.9520
Validation Macro F1-Score: 0.9572
Classification Report:
               precision    recall  f1-score   support

           0       0.93      1.00      0.96       149
           1       1.00      1.00      1.00        24
           2       1.00      0.93      0.96        14
           3       1.00      0.83      0.90        63

    accuracy                           0.95       250
   macro avg       0.98      0.94      0.96       250
weighted avg       0.96      0.95      0.95       250

Best Macro F1-Score achieved: 0.9606





In [2]:
torch.save(model.state_dict(), best_model_path)

In [5]:

# Load tokenizer and model
model_name = "bytesizedllm/MalayalamXLM_Roberta"
num_labels = len(label2id)
label2id1 = {'PARTLY FALSE': 0, 'FALSE': 1, 'HALF TRUE': 2, 'MOSTLY FALSE': 3} #0.9543 best_model.pth
# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained("bytesizedllm/MalayalamXLM_Roberta", cache_dir="/home/rohit/expt/dp_expt/codalab/NAACL-2025/20698/xlm_roberta/")


model = BilstmXLMRobertaClassifier(model_name, num_labels)
best_model_path = "best_model.pth" # label2id (1e-5) {'HALF TRUE': 0, 'FALSE': 1, 'PARTLY FALSE': 2, 'MOSTLY FALSE': 3} Validation Macro F1-Score: 0.9511
model.load_state_dict(torch.load(best_model_path))
model = model.to(device)
model.eval()

def predict_label(text):
    with torch.no_grad():
        encoding = tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=128,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt'
        )
        
        # Move input to device
        input_ids = encoding['input_ids'].to(device)
        attention_mask = encoding['attention_mask'].to(device)

        # Get model predictions
        logits = model(input_ids=input_ids, attention_mask=attention_mask)
        pred = torch.argmax(logits, dim=1).cpu().item()  # Get the predicted label
    return pred

# Load the test dataset
test_path = "old_data/FakeNews - Test Dataset.csv"  # Path to the test dataset
test_df = pd.read_csv(test_path)


true_predictions = []
predicted = []
for text, label in zip(test_df["News"],test_df["FactCheck"]):
    pred = predict_label(preprocess_text(text))
    predicted.append(pred)
    true_predictions.append(label2id1[declabels[label]])


report = classification_report(true_predictions, predicted)
report1 = classification_report(true_predictions, predicted, output_dict=True)
macro_f1 = report1['macro avg']['f1-score']

print(f"Validation Macro F1-Score: {macro_f1:.4f}")
print("Classification Report:\n", report)
    
# output_df.to_csv("prediction.csv", index=False)

# print("Predictions saved to prediction.csv")

# Load the test dataset
test_path = "fake_news_classification_mal_test.csv"  # Path to the test dataset
test_df = pd.read_csv(test_path)

id2label = {v:k for k, v in label2id1.items()}

data = []
for text, ID in zip(test_df["News"],test_df["S.no"]):
    pred = predict_label(preprocess_text(text))
    pred = id2label[pred]
    data.append([ID, pred])

output_df = pd.DataFrame(data, columns = ["S.no", "Label"])
    

    
output_df.to_csv("ByteSizedLLM_Malayalam_task2_run1.tsv", sep = "\t", index=False)

print("Predictions saved to prediction.csv")

Some weights of XLMRobertaModel were not initialized from the model checkpoint at bytesizedllm/MalayalamXLM_Roberta and are newly initialized: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Validation Macro F1-Score: 0.9543
Classification Report:
               precision    recall  f1-score   support

           0       1.00      0.93      0.96        14
           1       0.93      0.99      0.96       149
           2       0.96      1.00      0.98        24
           3       1.00      0.84      0.91        63

    accuracy                           0.95       250
   macro avg       0.97      0.94      0.95       250
weighted avg       0.95      0.95      0.95       250

Predictions saved to prediction.csv


In [1]:
import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModel, AdamW, get_linear_schedule_with_warmup, AutoModelForSequenceClassification, Adafactor
from torch.utils.data import DataLoader, Dataset
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd
import re
from tqdm import tqdm
import numpy as np
import torch.nn.functional as F
import math, string


from huggingface_hub import login
login(token="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")

# Define if GPU is available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")


class TransformerXLMRobertaClassifier(nn.Module):
    def __init__(self,
                 xlm_model_name: str,
                 num_labels: int,
                 d_model: int = 768,
                 nhead: int = 8,
                 num_encoder_layers: int = 3,
                 num_decoder_layers: int = 3,
                 dim_feedforward: int = 2048,
                 dropout_prob: float = 0.5):
        super(TransformerXLMRobertaClassifier, self).__init__()

        # Load XLM-RoBERTa model
        self.roberta = AutoModel.from_pretrained(xlm_model_name, cache_dir="/home/rohit/expt/dp_expt/codalab/NAACL-2025/20698/xlm_roberta/")

        # Transformer Encoder Layer
        encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, 
                                                   nhead=nhead, 
                                                   dim_feedforward=dim_feedforward, 
                                                   dropout=dropout_prob)
        self.encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_encoder_layers)

        # Transformer Decoder Layer
        decoder_layer = nn.TransformerDecoderLayer(d_model=d_model, 
                                                   nhead=nhead, 
                                                   dim_feedforward=dim_feedforward, 
                                                   dropout=dropout_prob)
        self.decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_decoder_layers)

        # Linear layer to map XLM-RoBERTa output to transformer dimension
        self.input_projection = nn.Linear(768, d_model)

        # Output Classification Layer
        self.classifier = nn.Linear(d_model, num_labels)

        # Dropout for regularization
        self.dropout = nn.Dropout(dropout_prob)

        # Gradient Clipping
        self.gradient_clip_val = 1.0

    def forward(self, input_ids, attention_mask, labels=None):
        # Get embeddings from XLM-RoBERTa
        roberta_outputs = self.roberta(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = roberta_outputs.last_hidden_state

        # Project embeddings to match Transformer dimensions
        embeddings = self.input_projection(embeddings)

        # Create a source mask for the Transformer
        seq_len = embeddings.size(1)
        src_mask = self._generate_square_subsequent_mask(seq_len).to(embeddings.device)

        # Transformer Encoder
        encoder_output = self.encoder(embeddings.permute(1, 0, 2), src_mask)

        # Dummy target input for the Transformer Decoder
        # Here, we use the same encoder output for simplicity
        tgt = encoder_output.clone()
        tgt_mask = self._generate_square_subsequent_mask(seq_len).to(encoder_output.device)

        # Transformer Decoder
        decoder_output = self.decoder(tgt, encoder_output, tgt_mask=tgt_mask, memory_mask=src_mask)

        # Take the output of the last token
        output = decoder_output.permute(1, 0, 2).mean(dim=1)

        # Dropout and Classification
        output = self.dropout(output)
        logits = self.classifier(output)

        # Calculate loss if labels are provided
        loss = None
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss()
            loss = loss_fct(logits.view(-1, self.classifier.out_features), labels.view(-1))

        return (loss, logits) if loss is not None else logits

    def _generate_square_subsequent_mask(self, size):
        """Generate a square mask for the sequence to prevent attention to future tokens."""
        mask = torch.triu(torch.ones(size, size), diagonal=1).bool()
        return mask


# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained("bytesizedllm/MalayalamXLM_Roberta", cache_dir="/home/rohit/expt/dp_expt/codalab/NAACL-2025/20698/xlm_roberta/")

def remove_punctuation(text):
    return text.translate(str.maketrans('', '', string.punctuation))

def remove_emojis(text):
    # This regex pattern matches most emojis
    emoji_pattern = re.compile(
        "["
        "\U0001F600-\U0001F64F"  # Emoticons
        "\U0001F300-\U0001F5FF"  # Symbols & Pictographs
        "\U0001F680-\U0001F6FF"  # Transport & Map symbols
        "\U0001F1E0-\U0001F1FF"  # Flags (iOS)
        "\U00002500-\U00002BEF"  # Chinese characters
        "\U00002702-\U000027B0"  # Dingbats
        "\U00002702-\U000027B0"  # Additional symbols
        "\U000024C2-\U0001F251"  # Enclosed characters
        "\U0001F900-\U0001F9FF"  # Supplemental symbols and pictographs
        "\U0001F910-\U0001F9FF"  # Supplemental symbols and pictographs continued
        "]+", flags=re.UNICODE
    )

    return emoji_pattern.sub(r'', text)


def remove_html_tags(text):
    return re.sub(r'<.*?>', ' ', text)

punctuation_list = [r'\.', r',', r'\?', r'!', r':', r';', r'"', r'\-', r'–', r'\(', r'\)', r'\[', r'\]', r'\{', r'\}', r'\.\.\.', r'\/', r'\\', r'@', r'&', r'\*', r'#', r'%', r'_', r'~', r'`', r'\^', r'\|', r'=', r'<', r'>', r'\+']
# Create the regex pattern to match any of the punctuation marks
punctuation_pattern = r'(' + '|'.join(punctuation_list) + r')'

# Function to clean and tokenize input text
def preprocess_text(text):
    text = str(text).replace("&amp;"," ").replace("<br>"," ").replace("&#39;","'")
    text = remove_html_tags(text)
    url_pattern = re.compile(r'https?://\S+|www\.\S+')
    text = re.sub(r"http\S+", "", text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

declabels = {'MOSTLY False news': 'MOSTLY FALSE',
'HALF TRUE':'HALF TRUE',
'Half true':'HALF TRUE',
'PARTLY False news':'PARTLY FALSE',
'Partly False news':'PARTLY FALSE',
'False news':'FALSE',
'Mostly False news':'MOSTLY FALSE'}

# Data preparation function
def load_and_clean_data(trainpath, validpath):
    traindf = pd.read_csv(trainpath)
    train_sents = []
    train_labels = []
    labels = list(set([l.strip() for l in traindf["Label"]]))
    label2id = {labels[i]:i for i in range(len(labels))}
    for text1, label in zip( traindf["News"], traindf["Label"]):
        label = label.strip()
        train_sents.append(preprocess_text(text1))
        train_labels.append(label2id[label])  # Label as int for multi-class

    validdf = pd.read_csv(validpath)

    valid_sents = []
    valid_labels = []
    for sent, label in zip(validdf["News"], validdf["FactCheck"]):
        label = label.strip()
        valid_sents.append(preprocess_text(sent))
        valid_labels.append(label2id[declabels[label]])  # Label as int

    return train_sents, train_labels, valid_sents, valid_labels, label2id

# Load and clean data (assumed pre-written)
train_texts, train_labels, val_texts, val_labels, label2id = load_and_clean_data("fake_news_classification_mal_train1.csv", "./old_data/FakeNews - Test Dataset.csv")

print(label2id)

# Dataset class for PyTorch DataLoader
class HateSpeechDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len=128):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        label = self.labels[idx]

        # Tokenize and encode the text
        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

from sklearn.model_selection import train_test_split

train_dataset = HateSpeechDataset(train_texts, train_labels, tokenizer)
val_dataset = HateSpeechDataset(val_texts, val_labels, tokenizer)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32)


# Initialize model
model_name = "bytesizedllm/MalayalamXLM_Roberta"
num_labels = len(list(set(train_labels)))
print("No. of labels: ", num_labels, list(set(train_labels)), list(set(val_labels)), label2id)
model = TransformerXLMRobertaClassifier(model_name, num_labels).to(device)

# Initialize optimizer and scheduler
optimizer = AdamW(model.parameters(), lr=1e-5, weight_decay=0.01)

num_epochs = 12
total_steps = len(train_loader) * num_epochs
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)

from torch.nn.utils import clip_grad_norm_
# Training and Evaluation Functions
def train_epoch(model, dataloader, optimizer, device):
    model.train()
    total_loss = 0
    loop = tqdm(dataloader, leave=True, desc="Training")
    for batch in loop:
        optimizer.zero_grad()

        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)

        loss, logits = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss.backward()

        optimizer.step()

        scheduler.step()  # Move scheduler step inside the loop

        # Gradient clipping
        clip_grad_norm_(model.parameters(), max_norm=1.0)

        total_loss += loss.item()
        loop.set_description(f"Training Batch Loss: {loss.item():.4f}")

    return total_loss / len(dataloader)


def eval_model(model, dataloader, device):
    model.eval()
    predictions, true_labels = [], []
    loop = tqdm(dataloader, leave=True, desc="Evaluating")
    with torch.no_grad():
        for batch in loop:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            logits = model(input_ids=input_ids, attention_mask=attention_mask)
            preds = torch.argmax(logits, dim=1).cpu().numpy()
            labels = labels.cpu().numpy()

            predictions.extend(preds)
            true_labels.extend(labels)

    return accuracy_score(true_labels, predictions), true_labels, predictions

print("Train text:", train_texts[3])
print("val text:", val_texts[10])

# # Main Training Loop
best_macro_f1 = 0.0
best_model_path = "best_model2.pth"

for epoch in range(num_epochs):
    print(f"Epoch {epoch + 1}/{num_epochs}")
    train_loss = train_epoch(model, train_loader, optimizer, device)
    accuracy, true_labels, predictions = eval_model(model, val_loader, device)

    report = classification_report(true_labels, predictions)
    report1 = classification_report(true_labels, predictions, output_dict=True)
    macro_f1 = report1['macro avg']['f1-score']

    print(f"Training Loss: {train_loss:.4f}")
    print(f"Validation Accuracy: {accuracy:.4f}")
    print(f"Validation Macro F1-Score: {macro_f1:.4f}")
    print("Classification Report:\n", report)

    # Save best model
    if macro_f1 > best_macro_f1:
        best_macro_f1 = macro_f1
        torch.save(model.state_dict(), best_model_path)
        print(f"New best Macro F1-Score: {best_macro_f1:.4f}. Saving model...")

print(f"Best Macro F1-Score achieved: {best_macro_f1:.4f}")




The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/rohit/.cache/huggingface/token
Login successful
Using device: cuda




{'HALF TRUE': 0, 'PARTLY FALSE': 1, 'FALSE': 2, 'MOSTLY FALSE': 3}
No. of labels:  4 [0, 1, 2, 3] [0, 1, 2, 3] {'HALF TRUE': 0, 'PARTLY FALSE': 1, 'FALSE': 2, 'MOSTLY FALSE': 3}


  torch.utils._pytree._register_pytree_node(
  torch.utils._pytree._register_pytree_node(
Some weights of XLMRobertaModel were not initialized from the model checkpoint at bytesizedllm/MalayalamXLM_Roberta and are newly initialized: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Train text: വിഴിഞ്ഞത്ത് തീരദേശവാസികള്‍ ആക്രമിച്ചപ്പോള്‍ മുഖ്യമന്ത്രി പിണറായി വിജയന്‍ ഉപേക്ഷിച്ച കാര്‍.
val text: സ്നേഹത്തില്‍ പൊതിഞ്ഞ പാവക്കുട്ടികള്‍, ഈ സമ്മാനമെല്ലാം പലസ്‌തീനിലെ കുട്ടികള്‍ക്കോ?
Epoch 1/12


Training Batch Loss: 0.7169: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:15<00:00,  3.91it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 16.01it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Training Loss: 0.9114
Validation Accuracy: 0.5960
Validation Macro F1-Score: 0.1867
Classification Report:
               precision    recall  f1-score   support

           0       0.00      0.00      0.00        24
           1       0.00      0.00      0.00        14
           2       0.60      1.00      0.75       149
           3       0.00      0.00      0.00        63

    accuracy                           0.60       250
   macro avg       0.15      0.25      0.19       250
weighted avg       0.36      0.60      0.45       250

New best Macro F1-Score: 0.1867. Saving model...
Epoch 2/12


Training Batch Loss: 0.3788: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:13<00:00,  4.39it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 16.01it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Training Loss: 0.8044
Validation Accuracy: 0.6880
Validation Macro F1-Score: 0.3318
Classification Report:
               precision    recall  f1-score   support

           0       0.00      0.00      0.00        24
           1       0.00      0.00      0.00        14
           2       0.71      0.97      0.82       149
           3       0.60      0.44      0.51        63

    accuracy                           0.69       250
   macro avg       0.33      0.35      0.33       250
weighted avg       0.57      0.69      0.62       250

New best Macro F1-Score: 0.3318. Saving model...
Epoch 3/12


Training Batch Loss: 1.0176: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:13<00:00,  4.52it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 16.36it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Training Loss: 0.7478
Validation Accuracy: 0.7120
Validation Macro F1-Score: 0.3852
Classification Report:
               precision    recall  f1-score   support

           0       0.50      0.04      0.08        24
           1       0.00      0.00      0.00        14
           2       0.81      0.87      0.84       149
           3       0.53      0.75      0.62        63

    accuracy                           0.71       250
   macro avg       0.46      0.42      0.39       250
weighted avg       0.67      0.71      0.67       250

New best Macro F1-Score: 0.3852. Saving model...
Epoch 4/12


Training Batch Loss: 0.8498: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:13<00:00,  4.31it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.64it/s]


Training Loss: 0.6437
Validation Accuracy: 0.7680
Validation Macro F1-Score: 0.5396
Classification Report:
               precision    recall  f1-score   support

           0       0.60      0.25      0.35        24
           1       1.00      0.14      0.25        14
           2       0.84      0.93      0.88       149
           3       0.63      0.73      0.68        63

    accuracy                           0.77       250
   macro avg       0.77      0.51      0.54       250
weighted avg       0.77      0.77      0.74       250

New best Macro F1-Score: 0.5396. Saving model...
Epoch 5/12


Training Batch Loss: 0.4160: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:15<00:00,  3.84it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.55it/s]


Training Loss: 0.5335
Validation Accuracy: 0.8160
Validation Macro F1-Score: 0.6869
Classification Report:
               precision    recall  f1-score   support

           0       0.59      0.67      0.63        24
           1       0.83      0.36      0.50        14
           2       0.91      0.93      0.92       149
           3       0.69      0.71      0.70        63

    accuracy                           0.82       250
   macro avg       0.76      0.67      0.69       250
weighted avg       0.82      0.82      0.81       250

New best Macro F1-Score: 0.6869. Saving model...
Epoch 6/12


Training Batch Loss: 0.9172: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:14<00:00,  4.08it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.76it/s]


Training Loss: 0.4366
Validation Accuracy: 0.8600
Validation Macro F1-Score: 0.7899
Classification Report:
               precision    recall  f1-score   support

           0       0.53      0.96      0.69        24
           1       0.91      0.71      0.80        14
           2       0.92      0.97      0.95       149
           3       0.95      0.59      0.73        63

    accuracy                           0.86       250
   macro avg       0.83      0.81      0.79       250
weighted avg       0.89      0.86      0.86       250

New best Macro F1-Score: 0.7899. Saving model...
Epoch 7/12


Training Batch Loss: 0.1149: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:15<00:00,  3.87it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.69it/s]


Training Loss: 0.3349
Validation Accuracy: 0.8880
Validation Macro F1-Score: 0.8508
Classification Report:
               precision    recall  f1-score   support

           0       0.64      0.96      0.77        24
           1       1.00      0.86      0.92        14
           2       0.91      0.99      0.95       149
           3       1.00      0.62      0.76        63

    accuracy                           0.89       250
   macro avg       0.89      0.86      0.85       250
weighted avg       0.91      0.89      0.88       250

New best Macro F1-Score: 0.8508. Saving model...
Epoch 8/12


Training Batch Loss: 0.4656: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:14<00:00,  4.26it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.81it/s]


Training Loss: 0.2440
Validation Accuracy: 0.8960
Validation Macro F1-Score: 0.8527
Classification Report:
               precision    recall  f1-score   support

           0       0.87      0.83      0.85        24
           1       0.91      0.71      0.80        14
           2       0.93      0.96      0.94       149
           3       0.82      0.81      0.82        63

    accuracy                           0.90       250
   macro avg       0.88      0.83      0.85       250
weighted avg       0.90      0.90      0.89       250

New best Macro F1-Score: 0.8527. Saving model...
Epoch 9/12


Training Batch Loss: 0.0851: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:14<00:00,  4.14it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.34it/s]


Training Loss: 0.1912
Validation Accuracy: 0.9360
Validation Macro F1-Score: 0.9322
Classification Report:
               precision    recall  f1-score   support

           0       0.96      0.92      0.94        24
           1       1.00      0.93      0.96        14
           2       0.93      0.99      0.96       149
           3       0.94      0.81      0.87        63

    accuracy                           0.94       250
   macro avg       0.96      0.91      0.93       250
weighted avg       0.94      0.94      0.93       250

New best Macro F1-Score: 0.9322. Saving model...
Epoch 10/12


Training Batch Loss: 0.1032: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:13<00:00,  4.41it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 16.01it/s]


Training Loss: 0.1461
Validation Accuracy: 0.9360
Validation Macro F1-Score: 0.9376
Classification Report:
               precision    recall  f1-score   support

           0       0.96      0.96      0.96        24
           1       1.00      0.93      0.96        14
           2       0.91      0.99      0.95       149
           3       0.98      0.79      0.88        63

    accuracy                           0.94       250
   macro avg       0.96      0.92      0.94       250
weighted avg       0.94      0.94      0.93       250

New best Macro F1-Score: 0.9376. Saving model...
Epoch 11/12


Training Batch Loss: 0.3123: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:13<00:00,  4.32it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 15.41it/s]


Training Loss: 0.1294
Validation Accuracy: 0.9360
Validation Macro F1-Score: 0.9300
Classification Report:
               precision    recall  f1-score   support

           0       0.96      0.96      0.96        24
           1       1.00      0.86      0.92        14
           2       0.91      0.99      0.95       149
           3       0.98      0.81      0.89        63

    accuracy                           0.94       250
   macro avg       0.96      0.90      0.93       250
weighted avg       0.94      0.94      0.93       250

Epoch 12/12


Training Batch Loss: 0.1056: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:14<00:00,  4.17it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 14.98it/s]

Training Loss: 0.1165
Validation Accuracy: 0.9360
Validation Macro F1-Score: 0.9333
Classification Report:
               precision    recall  f1-score   support

           0       0.96      0.92      0.94        24
           1       1.00      0.93      0.96        14
           2       0.92      0.99      0.95       149
           3       0.96      0.81      0.88        63

    accuracy                           0.94       250
   macro avg       0.96      0.91      0.93       250
weighted avg       0.94      0.94      0.93       250

Best Macro F1-Score achieved: 0.9376



