In [1]:
!pip install transformers datasets evaluate


Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Downloading evaluate-0.4.3-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.0/84.0 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: evaluate
Successfully installed evaluate-0.4.3


In [2]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, TrainingArguments, Trainer
import numpy as np
import os
import evaluate
from transformers import pipeline

In [3]:
from datasets import load_dataset

dataset = load_dataset("taidng/UIT-ViQuAD2.0")
dataset

README.md:   0%|          | 0.00/6.04k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/5.20M [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/735k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/1.16M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/28454 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/3814 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/7301 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'uit_id', 'title', 'context', 'question', 'answers', 'is_impossible', 'plausible_answers'],
        num_rows: 28454
    })
    validation: Dataset({
        features: ['id', 'uit_id', 'title', 'context', 'question', 'answers', 'is_impossible', 'plausible_answers'],
        num_rows: 3814
    })
    test: Dataset({
        features: ['id', 'uit_id', 'title', 'context', 'question', 'answers', 'is_impossible', 'plausible_answers'],
        num_rows: 7301
    })
})

In [None]:
from huggingface_hub import login

login(os.getenv("HF_TOKEN"))  # Dán token bạn vừa copy vào đây


In [5]:
# Tổng số phần tử trong tập train gốc
total_len = len(dataset["train"])
test_size = total_len // 10  # Lấy 1/10

# Chia tập train: 9/10 đầu giữ làm train, 1/10 cuối làm test
train_dataset = dataset["train"].select(range(0, total_len - test_size))
test_dataset = dataset["train"].select(range(total_len - test_size, total_len))
val_dataset = dataset["validation"]

# Kiểm tra kết quả
print(f"Train size: {len(train_dataset)}")
print(f"Validation size: {len(val_dataset)}")
print(f"Test size: {len(test_dataset)}")


Train size: 25609
Validation size: 3814
Test size: 2845


In [6]:

print("Context: ", train_dataset[0]["context"])
print("Question: ", train_dataset[0]["question"])
print("Answer: ", train_dataset[0]["answers"])

Context:  Phạm Văn Đồng (1 tháng 3 năm 1906 – 29 tháng 4 năm 2000) là Thủ tướng đầu tiên của nước Cộng hòa Xã hội chủ nghĩa Việt Nam từ năm 1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi nghỉ hưu năm 1987. Trước đó ông từng giữ chức vụ Thủ tướng Chính phủ Việt Nam Dân chủ Cộng hòa từ năm 1955 đến năm 1976. Ông là vị Thủ tướng Việt Nam tại vị lâu nhất (1955–1987). Ông là học trò, cộng sự của Chủ tịch Hồ Chí Minh. Ông có tên gọi thân mật là Tô, đây từng là bí danh của ông. Ông còn có tên gọi là Lâm Bá Kiệt khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học Lãm).
Question:  Tên gọi nào được Phạm Văn Đồng sử dụng khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm?
Answer:  {'text': ['Lâm Bá Kiệt'], 'answer_start': [507]}


# EDA, Preprocessing, Extract Feature AND LOAD MODEL 

In [7]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, AddedToken

model_name = "FacebookAI/xlm-roberta-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)

tokenizer.mask_token = AddedToken("<mask>", lstrip=True, normalized=True)
tokenizer.save_pretrained("Finetune_XLM_R_large_QA")

model = AutoModelForQuestionAnswering.from_pretrained(model_name)


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/616 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Some weights of XLMRobertaForQuestionAnswering were not initialized from the model checkpoint at FacebookAI/xlm-roberta-large and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [8]:
def prepare_features(examples):
    tokenized = tokenizer(
        examples["question"],
        examples["context"],
        truncation="only_second",
        max_length=384,
        stride=128,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length"
    )

    sample_mapping = tokenized.pop("overflow_to_sample_mapping")
    offset_mapping = tokenized["offset_mapping"]
    example_ids = []
    start_positions = []
    end_positions = []

    for i, offsets in enumerate(offset_mapping):
        input_ids = tokenized["input_ids"][i]
        sample_idx = sample_mapping[i]
        answer = examples["answers"][sample_idx]
        is_impossible = examples["is_impossible"][sample_idx]

        example_ids.append(examples["id"][sample_idx])

        if is_impossible or len(answer["text"]) == 0:
            start_positions.append(0)
            end_positions.append(0)
            tokenized["offset_mapping"][i] = [(0, 0)] * len(offsets)  # Đánh dấu là không hợp lệ
        else:
            start_char = answer["answer_start"][0]
            end_char = start_char + len(answer["text"][0])
            sequence_ids = tokenized.sequence_ids(i)

            context_start = sequence_ids.index(1)
            context_end = len(sequence_ids) - 1 - list(reversed(sequence_ids)).index(1)

            if offsets[context_start][0] > start_char or offsets[context_end][1] < end_char:
                start_positions.append(0)
                end_positions.append(0)
                tokenized["offset_mapping"][i] = [(0, 0)] * len(offsets)
            else:
                idx = context_start
                while idx <= context_end and offsets[idx][0] <= start_char:
                    idx += 1
                start_positions.append(idx - 1)

                idx = context_end
                while idx >= context_start and offsets[idx][1] >= end_char:
                    idx -= 1
                end_positions.append(idx + 1)

    tokenized["start_positions"] = start_positions
    tokenized["end_positions"] = end_positions
    tokenized["example_id"] = example_ids
    return tokenized


In [9]:
# Lấy 3 ví dụ đầu tiên
subset = train_dataset.select(range(100,120))
tokenized = prepare_features(subset)

for i in range(3):  # In 3 ví dụ đầu
    print(f"\nExample {i}")
    input_ids = tokenized["input_ids"][i]
    tokens = tokenizer.convert_ids_to_tokens(input_ids)
    text = tokenizer.convert_tokens_to_string(tokens)
    
    print("Tokens:", tokens)
    print("Reconstructed text:", text)
    print("Start position:", tokenized["start_positions"][i])
    print("End position:", tokenized["end_positions"][i])



Example 0
Tokens: ['<s>', '▁Tầng', '▁phát', '▁sinh', '▁bó', '▁mạch', '▁là', '▁gì', '?', '</s>', '</s>', '▁Trong', '▁nhóm', '▁lớn', '▁hơn', '▁là', '▁thực', '▁vật', '▁hai', '▁lá', '▁m', 'ầ', 'm', '▁thì', '▁chúng', '▁có', '▁các', '▁bó', '▁mạch', '▁trong', '▁các', '▁thân', '▁cây', '▁non', '▁được', '▁sắp', '▁xếp', '▁trong', '▁vòng', '▁gỗ', '▁mở', ',', '▁chia', '▁tác', 'h', '▁phần', '▁lõi', '▁x', 'ố', 'p', '▁trung', '▁tâm', '▁với', '▁phần', '▁vỏ', '▁ngoài', '.', '▁Trong', '▁mỗi', '▁bó', ',', '▁chia', '▁tác', 'h', '▁bởi', '▁phần', '▁chất', '▁gỗ', '▁và', '▁phần', '▁li', '▁be', ',', '▁là', '▁một', '▁lớp', '▁mô', '▁phân', '▁sinh', '▁hay', '▁mô', '▁hình', '▁thành', '▁đang', '▁hoạt', '▁động', ',', '▁được', '▁biết', '▁dưới', '▁tên', '▁gọi', '▁tầng', '▁phát', '▁sinh', '▁gỗ', ';', '▁bằng', '▁sự', '▁hình', '▁thành', '▁của', '▁lớp', '▁phát', '▁sinh', '▁gỗ', '▁giữa', '▁các', '▁bó', '▁(', 't', 'ầ', 'ng', '▁phát', '▁sinh', '▁gỗ', '▁trong', '▁bó', ')', '▁thì', '▁vòng', '▁gỗ', '▁hoàn', '▁hảo', '▁được', '▁t

In [10]:
tokenized_train = train_dataset.map(prepare_features, batched=True, remove_columns=train_dataset.column_names)
tokenized_val = val_dataset.map(prepare_features, batched=True, remove_columns=val_dataset.column_names)


Map:   0%|          | 0/25609 [00:00<?, ? examples/s]

Map:   0%|          | 0/3814 [00:00<?, ? examples/s]

In [11]:
# Load raw validation
raw_validation_dataset = dataset["validation"]
tokenized_validation = tokenized_val

# Load metric
squad_metric = evaluate.load("squad_v2")

def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size=20, max_answer_length=30):
    all_start_logits, all_end_logits = raw_predictions
    example_id_to_index = {k["id"]: i for i, k in enumerate(examples)}
    features_per_example = collections.defaultdict(list)

    for i, feature in enumerate(features):
        features_per_example[feature["example_id"]].append(i)

    predictions = collections.OrderedDict()

    for example in examples:
        example_id = example["id"]
        context = example["context"]
        feature_indices = features_per_example[example_id]

        best_score = -float("inf")
        best_answer = ""

        for i in feature_indices:
            start_logits = all_start_logits[i]
            end_logits = all_end_logits[i]
            offset_mapping = features[i]["offset_mapping"]

            for start_index in np.argsort(start_logits)[-n_best_size:]:
                for end_index in np.argsort(end_logits)[-n_best_size:]:
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                        or end_index < start_index
                        or end_index - start_index + 1 > max_answer_length
                    ):
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    score = start_logits[start_index] + end_logits[end_index]

                    if score > best_score:
                        best_score = score
                        best_answer = context[start_char:end_char]

        if example.get("is_impossible", False) or best_answer.strip() == "":
            predictions[example_id] = ""
        else:
            predictions[example_id] = best_answer.strip()

    return predictions




Downloading builder script:   0%|          | 0.00/6.47k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/11.3k [00:00<?, ?B/s]

In [12]:
def compute_metrics(p):
    predictions = postprocess_qa_predictions(
        dataset["validation"],
        tokenized_val,
        p.predictions
    )

    formatted_predictions = [
        {
            "id": k,
            "prediction_text": v,
            "no_answer_probability": 0.0
        }
        for k, v in predictions.items()
    ]

    references = [
        {
            "id": ex["id"],
            "answers": ex["answers"]
            if ex["answers"]["text"]
            else {"text": [""], "answer_start": [0]}
        }
        for ex in dataset["validation"]
    ]

    return squad_metric.compute(predictions=formatted_predictions, references=references)


In [13]:
print(tokenized_train)


Dataset({
    features: ['input_ids', 'attention_mask', 'offset_mapping', 'start_positions', 'end_positions', 'example_id'],
    num_rows: 27269
})


# Train

In [14]:
print(model)

XLMRobertaForQuestionAnswering(
  (roberta): XLMRobertaModel(
    (embeddings): XLMRobertaEmbeddings(
      (word_embeddings): Embedding(250002, 1024, padding_idx=1)
      (position_embeddings): Embedding(514, 1024, padding_idx=1)
      (token_type_embeddings): Embedding(1, 1024)
      (LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): XLMRobertaEncoder(
      (layer): ModuleList(
        (0-23): 24 x XLMRobertaLayer(
          (attention): XLMRobertaAttention(
            (self): XLMRobertaSdpaSelfAttention(
              (query): Linear(in_features=1024, out_features=1024, bias=True)
              (key): Linear(in_features=1024, out_features=1024, bias=True)
              (value): Linear(in_features=1024, out_features=1024, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): XLMRobertaSelfOutput(
              (dense): Linear(in_features=1024, out_fea

In [None]:
from transformers import TrainingArguments, Trainer, DataCollatorWithPadding
import os
import collections
from transformers import EarlyStoppingCallback
os.environ["WANDB_DISABLED"] = "true"

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
#model_name = "CS338-" + model_id.split("/")[-1]+"-finetuned-xlm-roberta-large"
# Updated Training Arguments
training_args = TrainingArguments(
    output_dir="/kaggle/working/Finetune_XLM_R_large_QA",
    
    # Epoch-based saving and evaluation
    evaluation_strategy="epoch",   # Changed from steps to epoch
    save_strategy="epoch",         # Save checkpoint at end of each epoch
    save_total_limit=2,            # Keep maximum 2 checkpoints
    
    # Multi-GPU Configuration
    ddp_find_unused_parameters=False,  # Important for multi-GPU training
    dataloader_num_workers=2,          # Dataloader workers
    
    # Training Hyperparameters
    learning_rate=2e-5,
    num_train_epochs=10,
    per_device_train_batch_size=5,
    per_device_eval_batch_size=5,
    
    # Optimization Parameters
    weight_decay=0.01,
    gradient_accumulation_steps=2,
    eval_accumulation_steps=2,
    
    # Model Selection and Logging
    load_best_model_at_end=True,   # Automatically load best model
    logging_steps=50,
    logging_dir="/kaggle/working/logs",
    metric_for_best_model="f1",    # Select best model based on F1 score
    greater_is_better=True,        # Higher F1 is better
    
    # Ensure multi-GPU training
    dataloader_pin_memory=True,
    #push_to_hub=True,
    # Push to Hugging Face Hub
    push_to_hub=True,              # Enable pushing the model to Hugging Face Hub
    hub_strategy="end",            # When to push: 'end' means push after training is done
    hub_model_id="DatTran0509/Finetune_XLM_R_large_QA",  # Specify your Hugging Face username and model name
    hub_token=os.getenv("HF_TOKEN")  # Add your Hugging Face API token here
)

# Trainer Configuration
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_val,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    # Add EarlyStoppingCallback with patience
    callbacks=[EarlyStoppingCallback(early_stopping_patience=2)]  # Set patience to 2
)


Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).
  trainer = Trainer(


In [16]:
trainer.train()





Epoch,Training Loss,Validation Loss,Exact,F1,Total,Hasans Exact,Hasans F1,Hasans Total,Best Exact,Best Exact Thresh,Best F1,Best F1 Thresh
1,1.1404,1.170133,69.559518,79.814672,3814,69.559518,79.814672,3814,69.559518,0.0,79.814672,0.0
2,0.8399,1.237722,75.589932,86.778153,3814,75.589932,86.778153,3814,75.589932,0.0,86.778153,0.0
3,0.6357,1.261596,72.548506,83.471209,3814,72.548506,83.471209,3814,72.548506,0.0,83.471209,0.0
4,0.4288,1.509016,73.492396,85.542679,3814,73.492396,85.542679,3814,73.492396,0.0,85.542679,0.0




TrainOutput(global_step=5456, training_loss=0.8738664669200472, metrics={'train_runtime': 18961.3561, 'train_samples_per_second': 14.381, 'train_steps_per_second': 0.719, 'total_flos': 7.59747329050153e+16, 'train_loss': 0.8738664669200472, 'epoch': 4.0})

In [17]:
trainer.save_model("/kaggle/working/Finetune_XLM_R_large_QA")
tokenizer.save_pretrained("/kaggle/working/Finetune_XLM_R_large_QA")

training_args.bin:   0%|          | 0.00/5.37k [00:00<?, ?B/s]

Upload 3 LFS files:   0%|          | 0/3 [00:00<?, ?it/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

('/kaggle/working/Finetune_XLM_R_large_QA/tokenizer_config.json',
 '/kaggle/working/Finetune_XLM_R_large_QA/special_tokens_map.json',
 '/kaggle/working/Finetune_XLM_R_large_QA/sentencepiece.bpe.model',
 '/kaggle/working/Finetune_XLM_R_large_QA/added_tokens.json',
 '/kaggle/working/Finetune_XLM_R_large_QA/tokenizer.json')

In [18]:
# from pathlib import Path

# output_dir = Path("/kaggle/working/Finetune_XLM_R_large_QA")
# checkpoints = sorted(output_dir.glob("checkpoint-*"), key=os.path.getmtime)

# if checkpoints:
#     trainer.train(resume_from_checkpoint=str(checkpoints[-1]))
# else:
#     trainer.train()

# EVALUATE

In [19]:
# !pip install transformers datasets evaluate

In [20]:
# from transformers import AutoTokenizer, AutoModelForQuestionAnswering, TrainingArguments, Trainer
# import numpy as np
# import os
# import evaluate
# import collections

In [21]:
# from datasets import load_dataset

# # Load dataset
# dataset = load_dataset("vile99/vi_quad")

# # Chỉ lấy phần test dataset
# test_dataset = dataset["test"]

# # Hàm thay thế giá trị null trong 'answers' thành {"text": [], "answer_start": []}
# def replace_null_with_empty_answer(example):
#     if example['answers'] is None or len(example['answers']['text']) == 0:
#         # Thay thế nếu không có câu trả lời
#         example['answers'] = {"text": [], "answer_start": []}
#     else:
#         # Đảm bảo 'answers' có kiểu dữ liệu đúng
#         if not isinstance(example['answers']['text'], list):
#             example['answers']['text'] = [example['answers']['text']]  # Chuyển thành danh sách nếu không phải
#         if not isinstance(example['answers']['answer_start'], list):
#             example['answers']['answer_start'] = [example['answers']['answer_start']]  # Đảm bảo 'answer_start' là list
#     return example

# # Áp dụng hàm thay thế vào toàn bộ dataset
# test_dataset = test_dataset.map(replace_null_with_empty_answer)


In [22]:
# from transformers import AutoTokenizer, AutoModelForQuestionAnswering

# model_name = "DatTran0509/Finetune_XLM_R_large_QA"
# tokenizer = AutoTokenizer.from_pretrained(model_name)
# model = AutoModelForQuestionAnswering.from_pretrained(model_name)

In [23]:
# def prepare_features(examples):
#     tokenized = tokenizer(
#         examples["question"],
#         examples["context"],
#         truncation="only_second",
#         max_length=384,
#         return_overflowing_tokens=True,
#         return_offsets_mapping=True,
#         padding="max_length"
#     )

#     sample_mapping = tokenized.pop("overflow_to_sample_mapping")
#     offset_mapping = tokenized.pop("offset_mapping")

#     start_positions = []
#     end_positions = []

#     for i, offsets in enumerate(offset_mapping):
#         input_ids = tokenized["input_ids"][i]
#         sample_idx = sample_mapping[i]
#         answer = examples["answers"][sample_idx]
#         is_impossible = examples["is_impossible"][sample_idx]

#         # Trả về câu trả lời rỗng nếu is_impossible là True
#         if is_impossible or len(answer["text"]) == 0:
#             start_positions.append(0)
#             end_positions.append(0)
#         else:
#             start_char = answer["answer_start"][0]
#             end_char = start_char + len(answer["text"][0])
#             sequence_ids = tokenized.sequence_ids(i)

#             context_start = sequence_ids.index(1)
#             context_end = len(sequence_ids) - 1 - list(reversed(sequence_ids)).index(1)

#             if offsets[context_start][0] > start_char or offsets[context_end][1] < end_char:
#                 start_positions.append(0)
#                 end_positions.append(0)
#             else:
#                 idx = context_start
#                 while idx <= context_end and offsets[idx][0] <= start_char:
#                     idx += 1
#                 start_positions.append(idx - 1)

#                 idx = context_end
#                 while idx >= context_start and offsets[idx][1] >= end_char:
#                     idx -= 1
#                 end_positions.append(idx + 1)

#     tokenized["start_positions"] = start_positions
#     tokenized["end_positions"] = end_positions
#     return tokenized


In [24]:
# # Áp dụng hàm prepare_features cho tập test đã lọc
# tokenized_test = test_dataset.map(prepare_features, batched=True, remove_columns=test_dataset.column_names)

In [25]:
# print(tokenized_test[0])

In [26]:
# import evaluate

# # Load metric
# squad_metric = evaluate.load("squad_v2")

# def postprocess_qa_predictions(examples, features, raw_predictions):
#     predictions = collections.OrderedDict()
#     all_start_logits, all_end_logits = raw_predictions

#     for i, example in enumerate(examples):
#         context = example["context"]
#         is_impossible = example["is_impossible"]

#         # Nếu là câu hỏi không thể trả lời, trả về rỗng
#         if is_impossible:
#             predictions[example["id"]] = ""
#         else:
#             # Tìm start và end index với xác suất cao nhất
#             start_logit = all_start_logits[i]
#             end_logit = all_end_logits[i]
#             start_index = np.argmax(start_logit)
#             end_index = np.argmax(end_logit) + 1

#             # Giải mã câu trả lời dựa trên start và end index
#             # Nếu end_index nhỏ hơn start_index, chứng tỏ không tìm được đoạn trả lời hợp lý
#             if end_index <= start_index:
#                 predictions[example["id"]] = ""
#             else:
#                 answer = tokenizer.decode(features[i]["input_ids"][start_index:end_index], skip_special_tokens=True)
#                 predictions[example["id"]] = answer

#     return predictions

# def compute_metrics(p):
#     predictions = postprocess_qa_predictions(
#         test_dataset,  # raw examples
#         tokenized_test,  # tokenized test data
#         p.predictions
#     )

#     # Format prediction đúng chuẩn SQuAD v2
#     formatted_predictions = [
#         {
#             "id": k,
#             "prediction_text": v if v else "",  # Nếu prediction_text rỗng, set nó là chuỗi rỗng
#             "no_answer_probability": 0.0 if v else 1.0  # Nếu không có câu trả lời, đặt probability là 1.0
#         }
#         for k, v in predictions.items()
#     ]

#     # Đảm bảo rằng 'answers' có cấu trúc đúng với câu hỏi không có câu trả lời
#     formatted_references = [
#         {"id": ex["id"], "answers": ex["answers"] if ex["answers"] is not None else {"text": [], "answer_start": []}}
#         for ex in test_dataset  # Sử dụng test_dataset thay vì dataset["validation"]
#     ]

#     # Tính toán EM và F1 từ dự đoán và tham chiếu
#     result = squad_metric.compute(predictions=formatted_predictions, references=formatted_references)

#     return result

In [27]:
# os.environ["WANDB_DISABLED"] = "true"
# # TrainingArguments
# training_args = TrainingArguments(
#     output_dir="./results",
#     evaluation_strategy="epoch",
#     per_device_eval_batch_size=32,
#     logging_dir="./logs",
# )

# # Khởi tạo Trainer
# trainer = Trainer(
#     model=model,
#     args=training_args,
#     eval_dataset=tokenized_test,
#     compute_metrics=compute_metrics,  # Truyền compute_metrics vào Trainer
# )

# # Đánh giá mô hình trên tập test
# evaluation_results = trainer.evaluate()


In [28]:
# print("Evaluation Results:")
# print(f"--------------------")
# print(f"Exact Match (EM): {evaluation_results['eval_exact']:.2f}%")
# print(f"F1 Score: {evaluation_results['eval_f1']:.2f}%")
# print(f"Has Answer - Exact Match: {evaluation_results['eval_HasAns_exact']:.2f}%")
# print(f"Has Answer - F1: {evaluation_results['eval_HasAns_f1']:.2f}%")
# print(f"No Answer - Exact Match: {evaluation_results['eval_NoAns_exact']:.2f}%")
# print(f"No Answer - F1: {evaluation_results['eval_NoAns_f1']:.2f}%")
# print(f"Total examples: {evaluation_results['eval_total']}")
# print(f"Runtime: {evaluation_results['eval_runtime']:.2f} seconds")

# Visualize TEST

In [29]:
# from transformers import AutoModelForQuestionAnswering, AutoTokenizer
# import torch

# # Khởi tạo model và tokenizer
# model_id = "DatTran0509/Finetune_XLM_R_base_QA"
# model = AutoModelForQuestionAnswering.from_pretrained(model_id)
# tokenizer = AutoTokenizer.from_pretrained(model_id)

# # Tùy chỉnh context và câu hỏi
# # Tùy chỉnh context và câu hỏi
# context = """
# Ông Nguyễn Ngọc Hà cũng nêu một số điểm mới trong công tác tổ chức thi. Theo đó, một trong những vấn đề mà các sở lo lắng là quá trình sắp xếp phòng thi. Kỳ thi chỉ tổ chức 3 buổi thi, đặc biệt buổi thứ 3 chỉ có 1 buổi nhưng có 2 môn thi. Ví dụ môn vật lý có thể thi trong 2 khung giờ trong buổi thi đó. Việc này được xử lý ra sao?
# Để tiện lợi cho học sinh, các em được sắp xếp ở một phòng thi duy nhất, không phải di chuyển trong các buổi thi. Cho dù một môn thi ở hai khung giờ khác nhau, để đảm bảo yếu tố an ninh thay vì chỉ có 24 mã đề thì nâng lên thành 48 mã đề, 24 mã/khung giờ.
# """
# question = "Sau khi thay đổi có tổng cộng bao nhiêu đề thi?"

# # Tokenize
# inputs = tokenizer(
#     question,
#     context,
#     return_tensors="pt",
#     truncation=True,
#     max_length=384,
#     return_offsets_mapping=True
# )

# offset_mapping = inputs.pop("offset_mapping")  # Bỏ để không lỗi khi đưa vào model

# # Dự đoán với model
# with torch.no_grad():
#     outputs = model(**inputs)
#     start_logits = outputs.start_logits
#     end_logits = outputs.end_logits

# # Tìm vị trí có xác suất cao nhất
# start_index = torch.argmax(start_logits)
# end_index = torch.argmax(end_logits) + 1

# # Kiểm tra nếu end_index nhỏ hơn hoặc bằng start_index, tức là không tìm thấy câu trả lời hợp lệ
# if end_index <= start_index:
#     answer = ""
# else:
#     offsets = offset_mapping[0]
#     start_char = offsets[start_index][0].item()
#     end_char = offsets[end_index - 1][1].item()
#     answer = context[start_char:end_char]

# # In kết quả
# print(f"❓ Câu hỏi: {question}")
# print(f"📄 Context: {context[:300]}...")  # Cắt context để dễ đọc (300 ký tự đầu)

# # Kiểm tra nếu không có câu trả lời
# if not answer:
#     print(f"✅ Trả lời: [KHÔNG CÓ CÂU TRẢ LỜI TRONG ĐOẠN VĂN]")
# else:
#     print(f"✅ Trả lời: {answer}")


In [30]:
# !pip install transformers datasets evaluate gradio

In [31]:
# import gradio as gr
# from transformers import AutoModelForQuestionAnswering, AutoTokenizer
# import torch

# # Khởi tạo model và tokenizer
# model_id = "DatTran0509/Finetune_XLM_R_base_QA"
# model = AutoModelForQuestionAnswering.from_pretrained(model_id)
# tokenizer = AutoTokenizer.from_pretrained(model_id)

# def answer_question(question, context):
#     # Tokenize
#     inputs = tokenizer(
#         question,
#         context,
#         return_tensors="pt",
#         truncation=True,
#         max_length=384,
#         return_offsets_mapping=True
#     )

#     offset_mapping = inputs.pop("offset_mapping")  # Bỏ để không lỗi khi đưa vào model

#     # Dự đoán với model
#     with torch.no_grad():
#         outputs = model(**inputs)
#         start_logits = outputs.start_logits
#         end_logits = outputs.end_logits

#     # Tìm vị trí có xác suất cao nhất
#     start_index = torch.argmax(start_logits)
#     end_index = torch.argmax(end_logits) + 1

#     # Kiểm tra nếu end_index nhỏ hơn hoặc bằng start_index, tức là không tìm thấy câu trả lời hợp lệ
#     if end_index <= start_index:
#         return "Mời bạn hỏi câu khác, không có câu trả lời trong context."

#     offsets = offset_mapping[0]
#     start_char = offsets[start_index][0].item()
#     end_char = offsets[end_index - 1][1].item()
#     answer = context[start_char:end_char]
    
#     return answer

# # Tạo giao diện Gradio
# iface = gr.Interface(
#     fn=answer_question,  # Hàm trả lời câu hỏi
#     inputs=[
#         gr.Textbox(label="🌟 Nhập câu hỏi của bạn", placeholder="Nhập câu hỏi tại đây...", lines=2, max_length=500),
#         gr.Textbox(label="📜 Nhập đoạn văn bạn muốn hỏi về", placeholder="Nhập đoạn văn tại đây...", lines=4, max_length=1000)
#     ],
#     outputs="text",  # Kết quả trả về dưới dạng text
#     title="🤖 Mô hình Question Answering",  # Tiêu đề
#     description="Đây là một mô hình Question Answering cho phép bạn nhập câu hỏi và đoạn văn để nhận câu trả lời từ văn bản.",  # Mô tả ngắn
#     allow_flagging="never",  # Không cho phép đánh dấu câu hỏi
#     live=False,  # Tắt live để kết quả chỉ hiển thị sau khi nhấn "Thực hiện"
#     submit_btn="RUN",  # Thay đổi nhãn của nút submit
#     clear_btn="Clear"  # Thay đổi nhãn của nút clear
# )

# # Chạy demo
# iface.launch()
