## Install and import bibraries

In [None]:
# Install and import libraries

# !pip install -qq datasets==2.16.1 evaluate==0.4.1 transformers[sentencepiece]==4.35.2
# !pip install -qq accelerate==0.26.1
# !apt install git-lfs

In [None]:

import numpy as np
import matplotlib.pyplot as plt
from tqdm.auto import tqdm
import collections

import torch

from datasets import load_dataset
from transformers import AutoTokenizer
from transformers import AutoModelForQuestionAnswering
from transformers import TrainingArguments
from transformers import Trainer
import evaluate


  from .autonotebook import tqdm as notebook_tqdm


### Check for GPU availability

In [None]:
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
print(f"Using device: {device}")

### Load dataset

In [None]:
dataset = load_dataset("squad_v2")
print(dataset)

In [5]:
raw_datasets

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 130319
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 11873
    })
})

### Tokenization

In [None]:
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

def preprocess_function(examples):
    return tokenizer(examples["question"], examples["context"], truncation=True, padding="max_length", max_length=384)

tokenized_datasets = dataset.map(preprocess_function, batched=True)
print(tokenized_datasets)

In [87]:
def find_start_end(inputs, examples, offset_mapping, sample_map):
    # Trích xuất thông tin về câu trả lời (answers) từ examples.
    answers = examples["answers"]

    # Khởi tạo danh sách các vị trí bắt đầu và kết thúc câu trả lời.
    start_positions = []
    end_positions = []

    # Duyệt qua danh sách offset_mapping.
    for i, offset in enumerate(offset_mapping):
        sample_idx = sample_map[i]

        # Trích xuất sequence_ids.
        sequence_ids = inputs.sequence_ids(i)

        # xác định start-end id of context
        idx = 0
        while sequence_ids[idx] != 1:
            idx += 1
        start_idx = idx
        while sequence_ids[idx] == 1:
            idx += 1
        end_idx = idx - 1

        # Trích xuất thông tin về câu trả lời cho mẫu này
        answer = answers[sample_idx]

        # Nếu không có câu trả lời, gán nhãn (0, 0).
        if len(answer['text']) == 0:
            start_positions.append(0)
            end_positions.append(0)
        else:
            # Xác định vị trí ký tự bắt đầu và kết thúc của câu trả lời trong ngữ cảnh.
            start_char = answer["answer_start"][0]
            end_char = answer["answer_start"][0] + len(answer["text"][0])

            # Nếu câu trả lời không nằm hoàn toàn trong ngữ cảnh, gán nhãn là (0, 0).
            if offset[start_idx][0] > start_char or offset[end_idx][1] < end_char:
                start_positions.append(0)
                end_positions.append(0)
            else:
                # Nếu không, xác định vị trí token bắt đầu và kết thúc của câu trả lời.
                idx = start_idx
                while idx <= end_idx and offset[idx][0] <= start_char:
                    idx += 1
                start_positions.append(idx - 1)

                idx = end_idx
                while idx >= start_idx and offset[idx][1] >= end_char:
                    idx -= 1
                end_positions.append(idx + 1)

    return start_positions, end_positions
        

In [88]:
# Định nghĩa hàm preprocess_training_examples và nhận đối số examples là dữ liệu đào tạo
def preprocess_training_examples(examples): # batch of samples
    inputs = tokenizer(
        examples["question"],
        examples["context"],
        truncation="only_second",
        max_length=MAX_LENGTH,
        stride=STRIDE,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length")
    # Trích xuất offset_mapping và sample_map, loại bỏ chúng khỏi inputs.
    offset_mapping = inputs.pop("offset_mapping")
    sample_map = inputs.pop("overflow_to_sample_mapping")
    
    start_positions, end_positions = find_start_end(
        inputs, examples, offset_mapping, sample_map)

    # Thêm thông tin vị trí bắt đầu và kết thúc vào inputs.
    inputs["start_positions"] = start_positions
    inputs["end_positions"] = end_positions

    return inputs

In [89]:
# Tạo một biến train_dataset và gán cho nó giá trị sau khi áp dụng hàm preprocess_training_examples lên tập dữ liệu "train"
# Bật chế độ xử lý theo từng batch bằng cách đặt batched=True
# Loại bỏ các cột không cần thiết trong tập dữ liệu "train" bằng cách sử dụng remove_columns

train_dataset = raw_datasets["train"].map(
    preprocess_training_examples,
    batched=True,
    remove_columns=raw_datasets["train"].column_names,
)

# In ra độ dài của tập dữ liệu "train" ban đầu và độ dài của tập dữ liệu đã được xử lý (train_dataset)
len(raw_datasets["train"]), len(train_dataset)

Map: 100%|██████████| 130319/130319 [00:38<00:00, 3370.76 examples/s]


(130319, 131754)

In [93]:
print(train_dataset[0].keys())

dict_keys(['input_ids', 'attention_mask', 'start_positions', 'end_positions'])


In [73]:
# Định nghĩa hàm preprocess_training_examples và nhận đối số examples là dữ liệu đào tạo
def preprocess_validation_examples(examples):  # batch of samples
    inputs = tokenizer(
        examples["question"],
        examples["context"],
        truncation="only_second",
        max_length=MAX_LENGTH,
        stride=STRIDE,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length")
    # Lấy ánh xạ để ánh xạ lại ví dụ tham chiếu cho từng dòng trong inputs
    sample_map = inputs.pop("overflow_to_sample_mapping")
    example_ids = []

    # Xác định ví dụ tham chiếu cho mỗi dòng đầu vào và
    # điều chỉnh ánh xạ offset
    for i in range(len(inputs["input_ids"])):
        sample_idx = sample_map[i]
        example_ids.append(examples["id"][sample_idx])

        sequence_ids = inputs.sequence_ids(i)
        offset = inputs["offset_mapping"][i]

        # Loại bỏ các offset không phù hợp với sequence_ids (chỉ giữ lại offset của context)
        inputs["offset_mapping"][i] = [
            o if sequence_ids[k] == 1 else None
            for k, o in enumerate(offset)
        ]

    # Thêm thông tin ví dụ tham chiếu vào đầu vào
    inputs["example_id"] = example_ids

    return inputs

In [74]:
# Tạo một biến validation_dataset và gán giá trị bằng việc sử dụng dữ liệu từ raw_datasets["validation"] sau khi áp dụng một hàm xử lý trước.
validation_dataset = raw_datasets["validation"].map(
    # Gọi hàm preprocess_validation_examples để xử lý dữ liệu đầu vào.
    preprocess_validation_examples,
    batched=True,  # Xử lý dữ liệu theo từng batch.
    # Loại bỏ các cột không cần thiết từ dữ liệu ban đầu.
    remove_columns=raw_datasets["validation"].column_names,
)

# In ra độ dài của raw_datasets["validation"] và validation_dataset để so sánh.
len(raw_datasets["validation"]), len(validation_dataset)

Map: 100%|██████████| 11873/11873 [00:05<00:00, 2157.49 examples/s]


(11873, 12134)

In [94]:
validation_dataset[0].keys()

dict_keys(['input_ids', 'attention_mask', 'offset_mapping', 'example_id'])

## Train model

In [None]:
# Load model
model = AutoModelForQuestionAnswering.from_pretrained(MODEL_NAME)

In [None]:
training_args = TrainingArguments(
    output_dir="/kaggle/working/distilbert-finetuned-squadv2",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=15,
    weight_decay=0.01,
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    report_to=None,
    save_total_limit=1,
    metric_for_best_model="eval_accuracy"
)

# Khởi tạo một đối tượng Trainer để huấn luyện mô hình
trainer = Trainer(
    model=model,  # Sử dụng mô hình đã tạo trước đó
    args=training_args,  # Các tham số và cấu hình huấn luyện
    train_dataset=train_dataset,  # Sử dụng tập dữ liệu huấn luyện
    eval_dataset=validation_dataset,  # Sử dụng tập dữ liệu đánh giá
    tokenizer=tokenizer,  # Sử dụng tokenizer để xử lý văn bản
)

# Bắt đầu quá trình huấn luyện
trainer.train()

## Evaluate model

In [None]:
metric = evaluate.load("squad_v2")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    return metric.compute(predictions=predictions, references=labels)

results = trainer.evaluate()
print(results)

## Visualization

In [None]:
def plot_metrics(results):
    metrics = ["eval_loss", "eval_runtime", "eval_samples_per_second"]
    values = [results[m] for m in metrics]
    plt.figure(figsize=(8, 5))
    plt.bar(metrics, values, color=['blue', 'orange', 'green'])
    plt.xlabel("Metrics")
    plt.ylabel("Values")
    plt.title("Evaluation Metrics")
    plt.show()

plot_metrics(results)

## Example inference

In [None]:
def answer_question(question, context):
    inputs = tokenizer(question, context, return_tensors="pt", truncation=True, padding="max_length", max_length=384).to(device)
    with torch.no_grad():
        outputs = model(**inputs)
    answer_start = torch.argmax(outputs.start_logits)
    answer_end = torch.argmax(outputs.end_logits) + 1
    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end]))
    return answer

## Example usage

In [None]:
context = "Hugging Face is a company based in New York City. It develops tools for natural language processing."
question = "Where is Hugging Face based?"
print(f"Question: {question}")
print(f"Answer: {answer_question(question, context)}")