In [None]:
!pip install transformers evaluate

In [None]:
import requests
import json
import torch
import os
from tqdm import tqdm
import pandas as pd
import datasets


In [None]:
import os
from huggingface_hub import login

hf_token = os.getenv("")
login(token=hf_token)
print("Logged in successfully!")


In [None]:
# Load the training dataset and take a look at it
with open('/kaggle/input/viquadv1/ViQuAD/train_ViQuAD.json', 'rb') as f:
  squad = json.load(f)

In [None]:
# Each 'data' dict has two keys (title and paragraphs)
squad['data'][0].keys()

In [None]:
squad['data'][0]['paragraphs'][0]['context']

In [None]:
def read_data(path):
  # load the json file
  with open(path, 'rb') as f:
    squad = json.load(f)

  data = []

  for group in squad['data']:
    title = group['title']
      
    for passage in group['paragraphs']:
      context = passage['context']
      for qa in passage['qas']:
        question = qa['question']
        id = qa['id']
        if len(qa['answers']) == 0:
            continue
        answer_start = []
        answer_text = []
        for t in range(len(qa['answers'])):
            answer_start.append(qa['answers'][t]['answer_start'])
            answer_text.append(qa['answers'][t]['text'])
        data.append({
          'id':id,
          'title':title,
          'context': context,
          'question': question ,
          'answers':{
                  'text':answer_text,
                  'answer_start':answer_start
              }
          
        })
  tdata = pd.DataFrame(data)
  tdata = datasets.Dataset.from_pandas(tdata)
  return tdata


In [None]:
data_train = read_data('/kaggle/input/viquadv1/ViQuAD/train_ViQuAD.json')
data_valid = read_data('/kaggle/input/viquadv1/ViQuAD/dev_ViQuAD.json')

In [None]:
data_valid

In [40]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('haidangnguyen467/finetune-xlm-r-base-uit-visquad-v1')

In [41]:
max_length = 384 
doc_stride = 128
pad_on_right = tokenizer.padding_side == "right"

In [42]:
def prepare_train_features(data):
    data["question"] = [q.lstrip() for q in data["question"]]

    tokenized_data = tokenizer(
        data["question" if pad_on_right else "context"],
        data["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    sample_mapping = tokenized_data.pop("overflow_to_sample_mapping")
    offset_mapping = tokenized_data.pop("offset_mapping")

    tokenized_data["start_positions"] = []
    tokenized_data["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        input_ids = tokenized_data["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        sequence_ids = tokenized_data.sequence_ids(i)

        sample_index = sample_mapping[i]
        answers = data["answers"][sample_index]
        if len(answers["answer_start"]) == 0:
            tokenized_data["start_positions"].append(cls_index)
            tokenized_data["end_positions"].append(cls_index)
        else:
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_data["start_positions"].append(cls_index)
                tokenized_data["end_positions"].append(cls_index)
            else:
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_data["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_data["end_positions"].append(token_end_index + 1)

    return tokenized_data

In [43]:
tokenized_train = data_train.map(prepare_train_features, batched=True, remove_columns=data_train.column_names)
tokenized_valid = data_valid.map(prepare_train_features, batched=True, remove_columns=data_train.column_names)

Map:   0%|          | 0/18579 [00:00<?, ? examples/s]

Map:   0%|          | 0/2285 [00:00<?, ? examples/s]

In [44]:
decoded_answer = tokenizer.decode(tokenized_valid[0]["input_ids"][tokenized_valid[0]["start_positions"]:tokenized_valid[0]["end_positions"] + 1])
print("Decoded answer:", decoded_answer)

Decoded answer: nằm ở điểm gặp nhau của các hành trình thương mại đường bộ và đường sông


In [45]:
decoded_token = tokenizer.decode(tokenized_train[0]["input_ids"]) 
print("Decoded token:", decoded_token)

decoded_answer = tokenizer.decode(tokenized_train[0]["input_ids"][tokenized_train[0]["start_positions"]:tokenized_train[0]["end_positions"] + 1])
print("Decoded answer:", decoded_answer)

Decoded token: <s> Tên gọi nào được Phạm Văn Đồng sử dụng khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm?</s></s> Phạm Văn Đồng (1 tháng 3 năm 1906 – 29 tháng 4 năm 2000) là Thủ tướng đầu tiên của nước Cộng hòa Xã hội chủ nghĩa Việt Nam từ năm 1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi nghỉ hưu năm 1987. Trước đó ông từng giữ chức vụ Thủ tướng Chính phủ Việt Nam Dân chủ Cộng hòa từ năm 1955 đến năm 1976. Ông là vị Thủ tướng Việt Nam tại vị lâu nhất (1955–1987). Ông là học trò, cộng sự của Chủ tịch Hồ Chí Minh. Ông có tên gọi thân mật là Tô, đây từng là bí danh của ông. Ông còn có tên gọi là Lâm Bá Kiệt khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học Lãm).</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pa

In [46]:
data_train[0]

{'id': 'uit_01__05272_0_1',
 'title': 'Phạm Văn Đồng',
 'context': 'Phạm Văn Đồng (1 tháng 3 năm 1906 – 29 tháng 4 năm 2000) là Thủ tướng đầu tiên của nước Cộng hòa Xã hội chủ nghĩa Việt Nam từ năm 1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi nghỉ hưu năm 1987. Trước đó ông từng giữ chức vụ Thủ tướng Chính phủ Việt Nam Dân chủ Cộng hòa từ năm 1955 đến năm 1976. Ông là vị Thủ tướng Việt Nam tại vị lâu nhất (1955–1987). Ông là học trò, cộng sự của Chủ tịch Hồ Chí Minh. Ông có tên gọi thân mật là Tô, đây từng là bí danh của ông. Ông còn có tên gọi là Lâm Bá Kiệt khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học Lãm).',
 'question': 'Tên gọi nào được Phạm Văn Đồng sử dụng khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm?',
 'answers': {'answer_start': [507], 'text': ['Lâm Bá Kiệt']}}

In [47]:
from sklearn.metrics import f1_score
import numpy as np
import collections
from transformers import EvalPrediction


def compute_metrics(p: EvalPrediction, tokenizer):
    
    predictions, labels = p.predictions, p.label_ids

    em, f1 = compute_em_and_f1(predictions, labels, tokenizer)
    
    return {
        'em': em,
        'f1': f1
    }

def compute_em_and_f1(predictions, labels, tokenizer):
    pred_answers = decode_predictions(predictions, tokenizer)
    true_answers = decode_labels(labels, tokenizer)

    em, f1 = 0, 0
    for pred, true in zip(pred_answers, true_answers):
        # print(f"Pred: {pred}")
        # print(f"True: {true}")
        em += exact_match(pred, true)
        f1 += f1_score(pred, true)

    em = em / len(pred_answers)
    f1 = f1 / len(pred_answers)
    return em, f1

def decode_predictions(predictions, tokenizer):
    start_logits, end_logits = predictions
    start_logits = torch.tensor(start_logits) 
    end_logits = torch.tensor(end_logits)      

    start_positions = torch.argmax(start_logits, dim=-1)  
    end_positions = torch.argmax(end_logits, dim=-1)     
    
    answers = []
    for idx, (start, end) in enumerate(zip(start_positions, end_positions)):
        
        if start <= end:
            answer = tokenizer.decode(tokenized_valid[idx]["input_ids"][start.item(): end.item() + 1])
            answers.append(answer)
        else:
            answers.append('')  
    return answers
def decode_labels(labels, tokenizer):

    start_positions, end_positions = labels
        
    answers = []
    for idx, (start, end) in enumerate(zip(start_positions, end_positions)):
        if start <= end:
            answer = tokenizer.decode(tokenized_valid[idx]["input_ids"][start.item(): end.item() + 1])
            answers.append(answer)
        else:
            answers.append('')  
    return answers

def exact_match(prediction, ground_truth):
    
    return int(prediction == ground_truth)

def f1_score(prediction, ground_truth):

    prediction_tokens = prediction.split()
    ground_truth_tokens = ground_truth.split()

    common = collections.Counter(prediction_tokens) & collections.Counter(ground_truth_tokens)
    num_common = sum(common.values())

    if num_common == 0:
        return 0.0

    precision = num_common / len(prediction_tokens)
    recall = num_common / len(ground_truth_tokens)
    return (2 * precision * recall) / (precision + recall)


In [48]:
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer
model = AutoModelForQuestionAnswering.from_pretrained("haidangnguyen467/finetune-xlm-r-base-uit-visquad-v1")

In [49]:
import os

os.makedirs("xlm_r_finetune", exist_ok=True)

In [66]:
import wandb

total = len(data_train)
batch_size = 32 
st = int(total / 32)
save = int(total / 2)
wandb_api = '5b506fee220b4162bcdedb46157cd237552aa7f0'
wandb.login(key=wandb_api)

args = TrainingArguments(
    output_dir = './xlm_r_finetune',
    eval_strategy = "steps",
    logging_strategy = "steps",
    eval_steps=st,
    logging_steps=st,
    save_steps=save,
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    gradient_accumulation_steps=1,
    num_train_epochs=5,
    weight_decay=0.01,
    metric_for_best_model='f1',
    save_total_limit=10,
    push_to_hub=True,
    hub_token="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",
    report_to="wandb"  # Báo cáo lên WandB

)



In [67]:
from transformers import default_data_collator
data_collator = default_data_collator

In [68]:
import gc
gc.collect()
trainer = None

In [69]:
import torch
torch.cuda.empty_cache()


In [None]:
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_valid,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=lambda p: compute_metrics(p, tokenizer)  # Truyền tokenizer vào
)

trainer.train()

Step,Training Loss,Validation Loss


In [None]:
checkpoint_path = '/kaggle/working/xlm_r_finetune/checkpoint-12420'
tokenizer = AutoTokenizer.from_pretrained(checkpoint_path)

# Load model
model = AutoModelForQuestionAnswering.from_pretrained(checkpoint_path)

model.push_to_hub("haidangnguyen467/finetune-xlm-r-base-uit-visquad-v1_3", use_auth_token="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")
tokenizer.push_to_hub("haidangnguyen467/finetune-xlm-r-base-uit-visquad-v1_3", use_auth_token="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")

In [61]:
from transformers import pipeline
checkpoint_path = 'haidangnguyen467/finetune-xlm-r-base-uit-visquad-v1_2'
tokenizer = AutoTokenizer.from_pretrained(checkpoint_path)

# Load model
model = AutoModelForQuestionAnswering.from_pretrained(checkpoint_path)
question_answerer = pipeline("question-answering", model=model, tokenizer=tokenizer)

context = """
Nhóm của chúng tôi là sinh viên năm 3 trường đại học công nghệ thông tin. Nhóm gồm 2 thành viên : Hoàng Đức Chung, Nguyễn Hải Đăng. Đây là đồ án cuối kỳ NLP . 
"""
question = "2 thành viên trong nhóm gồm những ai ?"
question_answerer(question=question, context=context)

tokenizer_config.json:   0%|          | 0.00/1.34k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/746 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


{'score': 0.990077555179596,
 'start': 99,
 'end': 132,
 'answer': 'Hoàng Đức Chung, Nguyễn Hải Đăng.'}