In [1]:
!pip install -qU transformers sentence-transformers datasets

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.4/44.4 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.7/9.7 MB[0m [31m73.0 MB/s[0m eta [36m0:00:00[0m:00:01[0m0:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m275.7/275.7 kB[0m [31m16.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
from datasets import Dataset, DatasetDict, load_dataset

from sentence_transformers import SentenceTransformer, SentenceTransformerTrainer, SentenceTransformerTrainingArguments
from sentence_transformers.training_args import MultiDatasetBatchSamplers
from sentence_transformers.losses import SoftmaxLoss, MultipleNegativesRankingLoss
from sentence_transformers.evaluation import TripletEvaluator, BinaryClassificationEvaluator, SequentialEvaluator
from transformers import EarlyStoppingCallback

import pandas as pd
import numpy as np
import random

from huggingface_hub import login
from kaggle_secrets import UserSecretsClient

In [3]:
user_secrets = UserSecretsClient()
secret_token = user_secrets.get_secret("UIT_21520296_DATASET")
login(token=secret_token)

In [4]:
pair_class_dataset = load_dataset('KhoaUIT/UIT-R2GQA', 'pair-class')
pair_class_dataset, pair_class_dataset['train'][0], pair_class_dataset['train'][0]

README.md:   0%|          | 0.00/2.37k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/3.22M [00:00<?, ?B/s]

valid-00000-of-00001.parquet:   0%|          | 0.00/403k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/390k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/15612 [00:00<?, ? examples/s]

Generating valid split:   0%|          | 0/1952 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1952 [00:00<?, ? examples/s]

(DatasetDict({
     train: Dataset({
         features: ['question', 'context', 'label'],
         num_rows: 15612
     })
     valid: Dataset({
         features: ['question', 'context', 'label'],
         num_rows: 1952
     })
     test: Dataset({
         features: ['question', 'context', 'label'],
         num_rows: 1952
     })
 }),
 {'question': 'Sinh viên dự bị không trở thành sinh viên chính thức bao nhiêu học kỳ sẽ bị loại khỏi CTTN?',
  'context': 'Điều 9. Tuyển bổ sung và loại ra khỏi chương trình, xét chính thức và dự bị Đối tượng tham gia CTTN là những sinh viên có năng lực xuất sắc, do đó, sau mỗi học kỳ BĐH quyết định việc loại sinh viên khỏi lớp tài năng, tuyển bổ sung sinh viên từ chương trình chuẩn vào lớp tài năng, xét chuyển đổi sinh viên chính thức và dự bị. Đầu mỗi học kỳ, Khoa xét và đề nghị lên BĐH các danh sách sinh viên tuyển bổ sung, bị loại ra khỏi các lớp CTTN hoặc danh sách sinh viên chính thức và dự bị theo các tiêu chuẩn như sau: 1. Loại khỏi chương trì

In [5]:
triplet_dataset = load_dataset('KhoaUIT/UIT-R2GQA', 'triplet')
triplet_dataset, triplet_dataset['train'][0], triplet_dataset['train'][1]

train-00000-of-00001.parquet:   0%|          | 0.00/3.14M [00:00<?, ?B/s]

valid-00000-of-00001.parquet:   0%|          | 0.00/402k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/389k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/7806 [00:00<?, ? examples/s]

Generating valid split:   0%|          | 0/976 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/976 [00:00<?, ? examples/s]

(DatasetDict({
     train: Dataset({
         features: ['anchor', 'positive', 'negative'],
         num_rows: 7806
     })
     valid: Dataset({
         features: ['anchor', 'positive', 'negative'],
         num_rows: 976
     })
     test: Dataset({
         features: ['anchor', 'positive', 'negative'],
         num_rows: 976
     })
 }),
 {'anchor': 'Sinh viên dự bị không trở thành sinh viên chính thức bao nhiêu học kỳ sẽ bị loại khỏi CTTN?',
  'positive': 'Điều 9. Tuyển bổ sung và loại ra khỏi chương trình, xét chính thức và dự bị Đối tượng tham gia CTTN là những sinh viên có năng lực xuất sắc, do đó, sau mỗi học kỳ BĐH quyết định việc loại sinh viên khỏi lớp tài năng, tuyển bổ sung sinh viên từ chương trình chuẩn vào lớp tài năng, xét chuyển đổi sinh viên chính thức và dự bị. Đầu mỗi học kỳ, Khoa xét và đề nghị lên BĐH các danh sách sinh viên tuyển bổ sung, bị loại ra khỏi các lớp CTTN hoặc danh sách sinh viên chính thức và dự bị theo các tiêu chuẩn như sau: 1. Loại khỏi chương t

In [6]:
train_dataset = {
    "pair-class": pair_class_dataset["train"],
    "triplet": triplet_dataset["train"]
}

eval_dataset={
    "pair-class": pair_class_dataset["valid"],
    "triplet": triplet_dataset["valid"]
}

test_dataset={
    "pair-class": pair_class_dataset["test"],
    "triplet": triplet_dataset["test"]
}

In [7]:
# Load model

"""
    Documentation:
    - Auto truncate any input longer than max_seq_length, see: https://sbert.net/docs/package_reference/sentence_transformer/models.html
      Notice: 
          + "max_seq_length" should be adjusted to make SentenceTransformer model works properly and to be easy-to-understand
          + Original PhoBERT-base-v2 from VinAI expects input of 256 tokens, which is its maximum sequence length
      
    - There are two ways to create new SentenceTransformer object, see: https://sbert.net/docs/sentence_transformer/usage/custom_models.html#structure-of-sentence-transformer-models
      
"""

## first way to create SentenceTransformer model
# model = SentenceTransformer("hiieu/halong_embedding")
# model.max_seq_length = 512                               # to be easy to understand, 'max_seq_length' should be explicitly set up

## second way
from sentence_transformers import models, SentenceTransformer

# Define Transformer model with max_seq_length=512
transformer = models.Transformer("hiieu/halong_embedding", max_seq_length=512)

# Define pooling layer
pooling = models.Pooling(transformer.get_word_embedding_dimension(), pooling_mode="mean")

# Create SentenceTransformer model with both modules
model = SentenceTransformer(modules=[transformer, pooling])

config.json:   0%|          | 0.00/749 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.34k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

In [8]:
# check whether model can truncate input to max_seq_length, if you get an error, recheck model initiation step
# paragraph = pair_class_dataset['train'][0]['context']
# model.encode(paragraph)

In [9]:
# Loss functions
pair_class_loss = SoftmaxLoss(model, model.get_sentence_embedding_dimension(), num_labels=2)  # for Pair-Class
triplet_loss = MultipleNegativesRankingLoss(model)                                            # for Triplet

# Mapping datasets to losses
losses = {
    "pair-class": pair_class_loss,
    "triplet": triplet_loss
}

In [10]:
# Evaluator for Triplet
dev_triplet_evaluator = TripletEvaluator(
    anchors=triplet_dataset["valid"]["anchor"],
    positives=triplet_dataset["valid"]["positive"],
    negatives=triplet_dataset["valid"]["negative"],
    name="triplet-dev"
)

test_triplet_evaluator = TripletEvaluator(
    anchors=triplet_dataset["test"]["anchor"],
    positives=triplet_dataset["test"]["positive"],
    negatives=triplet_dataset["test"]["negative"],
    name="triplet-test"
)

# Evaluator for Pair-Class
dev_pair_class_evaluator = BinaryClassificationEvaluator(
    sentences1=pair_class_dataset["valid"]["question"],
    sentences2=pair_class_dataset["valid"]["context"],
    labels=pair_class_dataset["valid"]["label"],
    name="pair-class-dev"
)

test_pair_class_evaluator = BinaryClassificationEvaluator(
    sentences1=pair_class_dataset["test"]["question"],
    sentences2=pair_class_dataset["test"]["context"],
    labels=pair_class_dataset["test"]["label"],
    name="pair-class-test"
)

# Combine evaluators with SequentialEvaluator
dev_evaluator = SequentialEvaluator([dev_triplet_evaluator, dev_pair_class_evaluator], main_score_function=lambda scores: np.average(scores))
test_evaluator = SequentialEvaluator([test_triplet_evaluator, test_pair_class_evaluator], main_score_function=lambda scores: np.average(scores))

# Use evaluator for evaluating Validation/Testing set before training
dev_evaluator(model)

In [11]:
# Training arguments

"""
    Documentation:
    1. SentenceTransformerTrainingArguments, see: https://sbert.net/docs/package_reference/sentence_transformer/training_args.html#
       Note: SentenceTransformerTrainingArguments extends TrainingArguments with additional arguments specific to Sentence Transformers
       
    2. make a BatchSamplers/MultiDatasetBatchSamplers, see: https://sbert.net/docs/package_reference/sentence_transformer/sampler.html#
    3. examples, see: https://sbert.net/docs/sentence_transformer/training_overview.html
"""

args = SentenceTransformerTrainingArguments(
    output_dir="finetuned model",
    
    # Optional training parameters:
    num_train_epochs=6,
    per_device_train_batch_size=12,
    per_device_eval_batch_size=12,
    learning_rate=2e-5,
    warmup_ratio=0.1,
    fp16=True, 
    multi_dataset_batch_sampler=MultiDatasetBatchSamplers.PROPORTIONAL,
    
    # Optional tracking/debugging parameters:
    eval_strategy="epoch",
    # eval_steps=100,
    save_strategy="epoch",
    # save_steps=100,
    save_total_limit=1,
    load_best_model_at_end=True,
    metric_for_best_model="eval_sequential_score",  
    greater_is_better=True,
    logging_dir="logs",
    logging_strategy="epoch",
    # logging_steps=100,
    report_to="none"     
)

In [None]:
# 7. Create a trainer & train

"""
    Notice:
        You can use an evaluator with or without an eval_dataset, and vice versa (document)
"""

# there is a bug here, EarlyStoppingCallback cannot find and track any metrics 
# early_stop = EarlyStoppingCallback(2)

trainer = SentenceTransformerTrainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    loss=losses,
    evaluator=dev_evaluator,  
    # callbacks=[early_stop]
)

trainer.train()

Computing widget examples:   0%|          | 0/2 [00:00<?, ?example/s]

Epoch,Training Loss,Validation Loss


In [None]:
import glob
import os

# Path to the folder
path = '/kaggle/working/finetuned model/'

# Get all directories starting with 'checkpoint'
checkpoint_dirs = glob.glob(os.path.join(path, 'checkpoint*'))

trainer_state_dir = os.path.join(checkpoint_dirs[0], 'trainer_state.json')
print(trainer_state_dir)

In [None]:
import json

with open(trainer_state_dir, "r") as f:
    trainer_state = json.load(f)

trainer_state

In [None]:
dev_evaluator(model)

In [None]:
test_evaluator(model)

**Several mistakes**

1. **with eval_dataset and dev evaluator**, KeyError: "The metric_for_best_model training argument is set to 'eval_loss', which is not found in the evaluation metrics. The available evaluation metrics are: ['eval_pair-class_loss', 'eval_triplet-dev_cosine_accuracy', 'eval_pair-class-dev_cosine_accuracy', 'eval_pair-class-dev_cosine_accuracy_threshold', 'eval_pair-class-dev_cosine_f1', 'eval_pair-class-dev_cosine_f1_threshold', 'eval_pair-class-dev_cosine_precision', 'eval_pair-class-dev_cosine_recall', 'eval_pair-class-dev_cosine_ap', 'eval_sequential_score', 'eval_triplet_loss']. Consider changing the metric_for_best_model via the TrainingArguments."

2. **with eval_dataset and without dev evaluator**, KeyError: "The `metric_for_best_model` training argument is set to 'eval_sequential_score', which is not found in the evaluation metrics. The available evaluation metrics are: ['eval_pair-class_loss', 'eval_triplet_loss']. Consider changing the `metric_for_best_model` via the TrainingArguments."

   after training, losses only have `Pair-class Loss` and `Triplet Loss` (have no `val_loss`)

3. early stopping required metric_for_best_model, but did not find eval_sequential_score so early stopping is disabled.

   *This a bug here, EarlyStoppingCallback cannot find and track any metrics even you implement both cases above (1 and 2)*

5. ValueError: You have set `args.eval_strategy` to epoch but you didn't pass an `eval_dataset` to `Trainer`. Either set `args.eval_strategy` to `no` or pass an `eval_dataset`.

