# Reader: DistilBERT

## Install and import libraries

In [None]:
!pip install-qq datasets==2.16.1 evaluate==0.4.1 transformers[sentencepiece]==4.35.2
!pip install-qq accelerate==0.26.1
!apt install git-lfs

In [None]:
from huggingface_hub import notebook_login
notebook_login()

In [None]:
import numpy as np
from tqdm.auto import tqdm
import collections

import torch

from datasets import load_dataset
from transformers import AutoTokenizer
from transformers import AutoModelForQuestionAnswering
from transformers import TrainingArguments
from transformers import Trainer
import evaluate

device = torch.device("cuda") if torch.cuda.is_available() else \
torch.device("cpu")

## Setup config

In [None]:
# Sử dụng mô hình "distilbert-base-uncased" làm mô hình checkpoint
MODEL_NAME = "distilbert-base-uncased"

# Độ dài tối đa cho mỗi đoạn văn bản sau khi được xử lý
MAX_LENGTH = 384

# Khoảng cách giữa các điểm bắt đầu của các đoạn văn bản liên tiếp
STRIDE = 128

## Setup Dataset

In [None]:
# Download squad dataset từ HuggingFace
DATASET_NAME = 'squad_v2'
raw_datasets = load_dataset(DATASET_NAME)

In [None]:
# Load tokenizer để run một số example
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

## Tokenize Dataset

In [None]:
def preprocess_training_examples(examples):
    # Trích xuất danh sách câu hỏi từ examples và
    # loại bỏ các khoảng trắng dư thừa
    questions = [q.strip() for q in examples["question"]]
    # Tiến hành mã hóa thông tin đầu vào sử dụng tokenizer
    inputs = tokenizer(
        questions,
        examples["context"],
        max_length=MAX_LENGTH,
        truncation="only_second",
        stride=STRIDE,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Trích xuất offset_mapping từ inputs và loại bỏ nó ra khỏi inputs
    offset_mapping = inputs.pop("offset_mapping")

    # Trích xuất sample_map từ inputs và loại bỏ nó ra khỏi inputs
    sample_map = inputs.pop("overflow_to_sample_mapping")

    # Trích xuất thông tin về câu trả lời (answers) từ examples
    answers = examples["answers"]

    # Khởi tạo danh sách các vị trí bắt đầu và kết thúc câu trả lời
    start_positions = []
    end_positions = []

    # Duyệt qua danh sách offset_mapping
    for i, offset in enumerate(offset_mapping):
        # Xác định index của mẫu (sample) liên quan đến offset hiện tại
        sample_idx = sample_map[i]

        # Trích xuất sequence_ids từ inputs
        sequence_ids = inputs.sequence_ids(i)

        # Xác định vị trí bắt đầu và kết thúc của ngữ cảnh
        idx = 0
        while sequence_ids[idx] != 1:
            idx += 1
        context_start = idx
        while sequence_ids[idx] == 1:
            idx += 1
        context_end = idx- 1

        # Trích xuất thông tin về câu trả lời cho mẫu này
        answer = answers[sample_idx]

        if len(answer[’text’]) == 0:
            start_positions.append(0)
            end_positions.append(0)
        else:
            # Xác định vị trí ký tự bắt đầu và kết thúc của câu trả lời
            # trong ngữ cảnh
            start_char = answer["answer_start"][0]
            end_char = answer["answer_start"][0] + len(answer["text"][0])

            # Nếu câu trả lời không nằm hoàn toàn trong ngữ cảnh,
            # gán nhãn là (0, 0)
            if offset[context_start][0] > start_char
                or offset[context_end][1] < end_char:
                    start_positions.append(0)
                    end_positions.append(0)
        else:
            # Nếu không, gán vị trí bắt đầu và kết thúc dựa trên
            # vị trí của các mã thông tin
            idx = context_start
            while idx <= context_end and offset[idx][0] <= start_char:
                idx += 1
            start_positions.append(idx- 1)

            idx = context_end
            while idx >= context_start and offset[idx][1] >= end_char:
                idx-= 1
            end_positions.append(idx + 1)

            # Thêm thông tin vị trí bắt đầu và kết thúc vào inputs
            inputs["start_positions"] = start_positions
            inputs["end_positions"] = end_positions

    return inputs

In [None]:
train_dataset = raw_datasets["train"].map(
    preprocess_training_examples,
    batched=True,
    remove_columns=raw_datasets["train"].column_names,
)

# In ra độ dài của tập dữ liệu "train" ban đầu và
# độ dài của tập dữ liệu đã được xử lý (train_dataset)
len(raw_datasets["train"]), len(train_dataset)

In [None]:
def preprocess_validation_examples(examples):
    # Chuẩn bị danh sách câu hỏi bằng cách
    # loại bỏ khoảng trắng ở đầu và cuối mỗi câu hỏi
    questions = [q.strip() for q in examples["question"]]

    # Sử dụng tokenizer để mã hóa các câu hỏi và văn bản liên quan
    inputs = tokenizer(
        questions,
        examples["context"],
        max_length=MAX_LENGTH,
        truncation="only_second",
        stride=STRIDE,

        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Lấy ánh xạ để ánh xạ lại ví dụ tham chiếu cho từng dòng trong inputs
    sample_map = inputs.pop("overflow_to_sample_mapping")
    example_ids = []

    # Xác định ví dụ tham chiếu cho mỗi dòng đầu vào và
    # điều chỉnh ánh xạ offset
    for i in range(len(inputs["input_ids"])):
        sample_idx = sample_map[i]
        example_ids.append(examples["id"][sample_idx])

        sequence_ids = inputs.sequence_ids(i)
        offset = inputs["offset_mapping"][i]

        # Loại bỏ các offset không phù hợp với sequence_ids
        inputs["offset_mapping"][i] = [
        o if sequence_ids[k] == 1 else None \
        for k, o in enumerate(offset)
        ]

    # Thêm thông tin ví dụ tham chiếu vào đầu vào
    inputs["example_id"] = example_ids

    return inputs

In [None]:
validation_dataset = raw_datasets["validation"].map(
    preprocess_validation_examples,
    batched=True,
    remove_columns=raw_datasets["validation"].column_names,
)

# In ra độ dài của raw_datasets["validation"]
# và validation_dataset để so sánh.
len(raw_datasets["validation"]), len(validation_dataset)

## Train model

In [None]:
# Load model
model = AutoModelForQuestionAnswering.from_pretrained(MODEL_NAME)

In [None]:
# Tạo đối tượng args là các tham số cho quá trình huấn luyện
args = TrainingArguments(
    output_dir="distilbert-finetuned-squadv2", # Thư mục lưu output
    evaluation_strategy="no", # Chế độ đánh giá không tự động sau mỗi epoch
    save_strategy="epoch", # Lưu checkpoint sau mỗi epoch
    learning_rate=2e-5, # Tốc độ học
    num_train_epochs=3, # Số epoch huấn luyện
    weight_decay=0.01, # Giảm trọng lượng mô hình để tránh overfitting
    fp16=True, # Sử dụng kiểu dữ liệu half-precision để tối ưu tài nguyên
    push_to_hub=True,) # Đẩy kết quả huấn luyện lên HuggingFace Hub

In [None]:
# Khởi tạo một đối tượng Trainer để huấn luyện mô hình
trainer = Trainer(
    model=model, # Sử dụng mô hình đã tạo trước đó
    args=args, # Các tham số và cấu hình huấn luyện
    train_dataset=train_dataset, # Sử dụng tập dữ liệu huấn luyện
    eval_dataset=validation_dataset, # Sử dụng tập dữ liệu đánh giá
    tokenizer=tokenizer, # Sử dụng tokenizer để xử lý văn bản
)
# Bắt đầu quá trình huấn luyện
trainer.train()

In [None]:
# Gửi dữ liệu đào tạo lên Hub
trainer.push_to_hub(commit_message="Training complete")

## Evaluate model

In [None]:
N_BEST = 20 # Số lượng kết quả tốt nhất được lựa chọn sau khi dự đoán
MAX_ANS_LENGTH = 30 # Độ dài tối đa cho câu trả lời dự đoán

def compute_metrics(start_logits, end_logits, features, examples):
    # Tạo một từ điển mặc định để ánh xạ mỗi ví dụ
    # với danh sách các đặc trưng tương ứng
    example_to_features = collections.defaultdict(list)
    for idx, feature in enumerate(features):
        example_to_features[feature['example_id']].append(idx)

    predicted_answers = []
    for example in tqdm(examples):
        example_id = example['id']
        context = example['context']
        answers = []

    # Lặp qua tất cả các đặc trưng liên quan đến ví dụ đó
    for feature_index in example_to_features[example_id]:
        start_logit = start_logits[feature_index]
        end_logit = end_logits[feature_index]
        offsets = features[feature_index][’offset_mapping’]

        # Lấy các chỉ số có giá trị lớn nhất cho start và end logits
        start_indexes = np.argsort(start_logit)[-1:-N_BEST-1:-1].tolist()
        end_indexes = np.argsort(end_logit)[-1:-N_BEST-1:-1].tolist()
        for start_index in start_indexes:
            for end_index in end_indexes:
                # Bỏ qua các câu trả lời
                # không hoàn toàn nằm trong ngữ cảnh
                if offsets[start_index] is None or \
                offsets[end_index] is None:
                continue
                # Bỏ qua các câu trả lời có độ dài > max_answer_length
                if end_index-start_index + 1 > MAX_ANS_LENGTH:
                continue

                # Tạo một câu trả lời mới
                text = context[
                offsets[start_index][0]:offsets[end_index][1]]
                logit_score = start_logit[start_index] + \
                end_logit[end_index]
                answer = {
                'text': text,
                'logit_score': logit_score,
                }
                answers.append(answer)

    # Chọn câu trả lời có điểm số tốt nhất
        if len(answers) > 0:
        best_answer = max(answers, key=lambda x: x['logit_score'])
          answer_dict = {
        'id': example_id,
        'prediction_text': best_answer['text'],
        'no_answer_probability': 1-best_answer['logit_score']
        }
        else:
        answer_dict = {
        'id': example_id,
        'prediction_text': '',
        'no_answer_probability': 1.0
        }
        predicted_answers.append(answer_dict)

    # Tạo danh sách câu trả lời lý thuyết từ các ví dụ
    theoretical_answers = [
    {'id': ex['id'], 'answers': ex['answers']} for ex in examples
    ]
    # Sử dụng metric.compute để tính toán các độ đo và trả về kết quả
    return metric.compute(
    predictions=predicted_answers,
    references=theoretical_answers
    )

# Thực hiện dự đoán trên tập dữ liệu validation
predictions, _, _ = trainer.predict(validation_dataset)

# Lấy ra thông tin về các điểm bắt đầu và
# điểm kết thúc của câu trả lời dự đoán
start_logits, end_logits = predictions

# Tính toán các chỉ số đánh giá sử dụng hàm compute_metrics
results = compute_metrics(
    start_logits,
    end_logits,
    validation_dataset,
    raw_datasets["validation"]
)
results

## Load model from hub

In [None]:
# Use a pipeline as a high-level helper
from transformers import pipeline

PIPELINE_NAME = 'question-answering'
MODEL_NAME = 'thangduong0509/distilbert-finetuned-squadv2'
pipe = pipeline(PIPELINE_NAME, model=MODEL_NAME)
Sau đây ta sẽ chạy thử một example để test model:
INPUT_QUESTION = 'What is my name?'
INPUT_CONTEXT = 'My name is AI and I live in Vietnam.'
pipe(question=INPUT_QUESTION, context=INPUT_CONTEXT)