In [1]:
#%pip install evaluate
#%pip install transformers[torch]
#%pip install accelerate -U


## 1. Import thư viện

In [2]:
import numpy as np
from tqdm.auto import tqdm
import collections

import torch

from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, TrainingArguments, Trainer
import evaluate

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")


  from .autonotebook import tqdm as notebook_tqdm





## 2. Setup Config

In [3]:
MODEL_NAME = "distilbert-base-uncased"
MAX_LENGTH = 384
STRIDE = 128

## 3. Setup Dataset

> Download dataset

In [4]:
DATASET_NAME = "squad_v2"
raw_datasets = load_dataset(DATASET_NAME)

> Load tokenizer and run some examples

In [5]:
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)



## 4. Tokenize dataset

In [6]:
def preprocess_training_examples(examples):
    # trích xuất danh sách câu hỏi từ examples và loại bỏ các khoảng trắng dư thừa
    questions = [q.strip() for q in examples["question"]]
    # tiến hành mã hóa thông tin đầu vào sử dụng tokenizer
    inputs = tokenizer(
        questions,
        examples["context"],
        max_length= MAX_LENGTH,
        truncation= "only_second",
        stride = STRIDE,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # trích xuất offset_mapping từ inputs và loại bỏ nó ra khỏi inputs
    offset_mapping = inputs.pop("offset_mapping")

    # trích xuất sample_map từ inputs và loại bỏ nó ra khỏi inputs
    sample_map = inputs.pop("overflow_to_sample_mapping")

    # trích xuất thông tin về câu trả lời (answers) từ examples
    answers = examples["answers"]

    # khởi tạo danh sách các vị trí bắt đàu và kết thúc câu trả lời
    start_positions = []
    end_positions = []

    # Duyệt qua danh sách offset_mapping
    for i, offset in enumerate(offset_mapping):
        # xác định index của mẫu (Sample) liên quan đến offset hiện tại
        sample_idx = sample_map[i]

        # trích xuất sequence_ids từ inputs
        sequence_ids = inputs.sequence_ids(i)

        # Xác định vị trí bắt đầu và kết thúc của ngữ cảnh
        idx = 0
        while sequence_ids[idx] != 1:
            idx += 1
        context_start = idx
        while sequence_ids[idx] == 1:
            idx +=1
        context_end = idx - 1

        # Trích xuất thoong tin về câu trả lời cho mẫu này
        answer = answers[sample_idx]

        if len(answer['text']) == 0:
            start_positions.append(0)
            end_positions.append(0)
        else:
            # xác định vị trí ky tự bắt đầu và kết thúc của câu trả lời trong ngữ cảnh
            start_char = answer['answer_start'][0]
            end_char = answer['answer_start'][0] + len(answer["text"][0])

            # nếu câu trả lời không nằm hoàn toàn trong ngữ cảnh gắn nhãn là (0, 0)
            if offset[context_start][0] > start_char or offset[context_end][1] < end_char:
                start_positions.append(0)
                end_positions.append(0)
            else:
                # nếu không, gán vị trí bắt đầu và kết thúc dựa trên vị trí của các mã thông tin
                idx = context_start
                while idx <= context_end and offset[idx][0] <= start_char:
                    idx += 1
                start_positions.append(idx - 1)

                idx = context_end
                while idx >= context_start and offset[idx][1] >= end_char:
                    idx -= 1
                end_positions.append(idx + 1)

    # Thêm thông tin vị trí bắt đầu và kết thúc và inputs
    inputs["start_positions"] = start_positions
    inputs["end_positions"] = end_positions

    return inputs


In [7]:
train_dataset = raw_datasets["train"].map(
    preprocess_training_examples,
    batched=True,
    remove_columns=raw_datasets["train"].column_names,
)

In [8]:
len(raw_datasets["train"]), len(train_dataset)

(130319, 131754)

## 5. Tokenize val set

In [9]:
def preprocess_validation_examples(examples):
    # Chuẩn bị danh sách câu hỏi bằng cách loại bỏ các khoảng trắng dư thừa
    questions = [q.strip() for q in examples["question"]]
    
    # sử dụng tokenizer để mã hóa các câu hỏi và văn bản liên quan
    inputs = tokenizer(
        questions,
        examples["context"],
        max_length= MAX_LENGTH,
        truncation= "only_second",
        stride = STRIDE,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # lấy ánh xạ để ánh xạ lại ví dụ tham chiếu cho từng dòng trong inputs
    sample_map = inputs.pop("overflow_to_sample_mapping")
    examples_ids = []

    # Xác định ví dụ tham chiếu cho mỗi dòng đầu vào và điều chính ánh xạ offset
    for i in range(len(inputs["input_ids"])):
        sample_idx = sample_map[i]
        examples_ids.append(examples["id"][sample_idx])

        sequence_ids = inputs.sequence_ids(i)
        offset = inputs["offset_mapping"][i]

        # Loại bỏ các offset không phù hợp với sequence_ids
        inputs["offset_mapping"][i] = [
            o if sequence_ids[k] == 1 else None for k, o in enumerate(offset)
        ]

    inputs["example_id"] = examples_ids

    return inputs

In [10]:
validation_dataset = raw_datasets["validation"].map(
    preprocess_validation_examples,
    batched=True,
    remove_columns=raw_datasets["validation"].column_names,
)

Map: 100%|██████████| 11873/11873 [00:07<00:00, 1553.35 examples/s]


In [11]:
len(raw_datasets["validation"]), len(validation_dataset)

(11873, 12134)

## 6. Train model

In [12]:
model = AutoModelForQuestionAnswering.from_pretrained(MODEL_NAME)

Some weights of DistilBertForQuestionAnswering were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [15]:
args = TrainingArguments(
    output_dir = "distilbert-finetuned-squadv2", # Thư mục lưu output
    evaluation_strategy="no", # Chế độ đánh giá không tự động sau mỗi epoch
    save_strategy="epoch", # Lưu checkpoint sau mỗi epoch
    learning_rate = 2e-5, # Tốc độ học
    num_train_epochs=3, # Số epoch huấn luyện
    weight_decay=0.01, # Giảm trọng lượng mô hình để tránh overfitting
    fp16 = True, # Sử dụng kiểu dữ liệu half-precision để tối ưu tài nguyên
    push_to_hub = True, # Đẩy kết quả huấn luyện lên HuggingFace Hub
    hub_token= "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" # Điền token của tài khoản HuggingFace
)



In [None]:
trainer = Trainer(
    model = model,
    args = args,
    train_dataset = train_dataset,
    eval_dataset= validation_dataset,
    tokenizer = tokenizer,
)

trainer.train()

In [None]:
trainer.push_to_hub(commit_message="Training complete")

## 7. Evaluate model

In [None]:
metric = evaluate.load("squad_v2")

In [None]:
N_BEST = 20 # Số lượng kết quả tốt nhát được lựa chọn sau khi dự đoán
MAX_ANS_LENGTH = 30 # độ dài tối đã cho câu trả lời dự đoán

def compute_metrics(start_logits, end_logits, features, examples):
    # tạo một từ điển mặc định để tránh ánh xạ mỗi ví dụ với danh sách các đặc trưng tương ứng
    example_to_features = collections.defaultdict(list)
    for idx, feature in enumerate(features):
        example_to_features[features['example_id']].append(idx)

    predicted_answers = []
    for example in tqdm(examples):
        example_id = example['id']
        context = example['context']
        answers = []

        # Lặp qua tất cả các đặc trưng liên quan đến ví dụ đó
        for feature_index in example_to_features[example_id]:
            start_logit = start_logits[feature_index]
            end_logit = end_logits[feature_index]
            offsets = features[feature_index]['offset_mapping']

            # Lấy các chỉ số có giá trị lớn nhất cho start và end logits
            start_indexes = np.argsort(start_logit)[-1:-N_BEST-1:-1].tolist()
            end_indexes = np.argsort(end_logit)[-1:-N_BEST-1:-1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Bỏ qua các câu trả lời không hoàn toàn nằm trong ngữ cảnh
                    if offsets[start_index] is None or offsets[end_index] is None:
                        continue
                    # Bỏ qua các câu trả lời có độ dài > max_answwer_length
                    if end_index - start_index + 1 > MAX_ANS_LENGTH:
                        continue

                    # Tạo một câu trả lời mới
                    text = context [ offsets[start_index][0]:offsets[end_index][1]]
                    logit_score = start_logit[start_index] + end_logit[end_index]
                    answer = {
                        'text': text,
                        'logit_score': logit_score,
                    }
                    answers.append(answer)
        # Chọn câu trả lời có điểm số tốt nhất
        if len(answers) > 0:
            best_answer = max(answers, key = lambda x: x['logit_Score'])
            answer_dict = {
                'id': example_id,
                'prediction_text': best_answer['text'],
                'no_answer_probability': 1 - best_answer['logit_score']
            }
        else:
            answer_dict = {
                'id': example_id,
                'prediction_text': '',
                'no_answer_probability': 1.0
            }
        predicted_answers.append(answer_dict)

    # tạo danh sách câu trả lời lý thuyết từ các ví dụ
    theoretical_answers = [
        { 'id': ex['id'], 'answers': ex['answers']} for ex in examples
    ]
    # sử dụng metric.compute để tính toán các độ đo và trả về kết quả
    return metric.compute(
        predictions = predicted_answers,
        references = theoretical_answers
    )


In [None]:
predictions, _, _= trainer.predict(validation_dataset)

start_logits, end_logits = predictions

results = compute_metrics(
    start_logits,
    end_logits,
    validation_dataset,
    raw_datasets["validation"]
)

results

## 8. Load model from hub

In [None]:
from transformer import pipeline

PIPELINE_NAME = 'question-answering'
MODEL_NAME = '........' # Tên model đã fine-tuning trên hugging face
pipe = pipeline(PIPELINE_NAME, model=MODEL_NAME)

> Test


In [None]:
INPUT_QUESTION = 'What is my name?'
INPUT_CONTEXT = 'My name is Han and I live in Vietnam.'
pipe(question=INPUT_QUESTION, context=INPUT_CONTEXT)

In [None]:
from 