#Install lib

In [1]:
!pip install datasets transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting datasets
  Downloading datasets-2.9.0-py3-none-any.whl (462 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m462.8/462.8 KB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting transformers
  Downloading transformers-4.26.0-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m83.5 MB/s[0m eta [36m0:00:00[0m
Collecting responses<0.19
  Downloading responses-0.18.0-py3-none-any.whl (38 kB)
Collecting multiprocess
  Downloading multiprocess-0.70.14-py38-none-any.whl (132 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.0/132.0 KB[0m [31m18.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting xxhash
  Downloading xxhash-3.2.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (213 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m213.0/213.0 KB[0m [31m26.6

In [2]:
!pip install transformers[sentencepiece]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentencepiece!=0.1.92,>=0.1.91
  Downloading sentencepiece-0.1.97-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m20.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sentencepiece
Successfully installed sentencepiece-0.1.97


In [3]:
#!apt install git-lfs

#Enviroment

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
# This flag is the difference between SQUAD v1 or 2 (if you're using another dataset, it indicates if impossible answers are allowed or not).
squad_v2 = True
#model_checkpoint = "xlm-roberta-base"
model_checkpoint = "deepset/tinyroberta-squad2"
batch_size = 16

#Preprocessing the training data

In [9]:
import json
from pathlib import Path
import torch

In [10]:
from transformers import AutoTokenizer
    
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

Downloading (…)okenizer_config.json:   0%|          | 0.00/383 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

In [12]:
def read_squad_train(path,data_index,context_size):
  """
  Read data format squad 
  -> return contexts, questions, answers of sentenses
  """
  path = Path(path)
  with open(path, 'rb') as f:
      squad_dict = json.load(f)

  contexts = []
  questions = []
  answers = []
  size=0
  for group in squad_dict['data'][data_index-1:data_index]:
      for passage in group['paragraphs']:
        if size <= context_size:
          context = passage['context']
          for qa in passage['qas']:
              question = qa['question']
              for answer in qa['answers']:
                if answer['answer_start']>=0:
                  contexts.append(context)
                  questions.append(question)
                  answers.append(answer)
          size+=1
        else: break

  return contexts, questions, answers
def read_squad_val(path):
  """
  Read data format squad 
  -> return contexts, questions, answers of sentenses
  """
  path = Path(path)
  with open(path, 'rb') as f:
      squad_dict = json.load(f)

  contexts = []
  questions = []
  answers = []
  for group in squad_dict['data']:
      for passage in group['paragraphs']:
          context = passage['context']
          for qa in passage['qas']:
              question = qa['question']
              for answer in qa['answers']:
                  contexts.append(context)
                  questions.append(question)
                  answers.append(answer)

  return contexts, questions, answers
def add_token_positions(encodings, answers):
  """
  Convert answer start- end from string to token
  """
  start_positions = []
  end_positions = []
  for i in range(len(answers)):
    start_positions.append(encodings.char_to_token(i, answers[i]['answer_start']))
    end_positions.append(encodings.char_to_token(i, answers[i]['answer_end'] - 1))
    # if None, the answer passage has been truncated
    if start_positions[-1] is None:
        start_positions[-1] = tokenizer.model_max_length
    if end_positions[-1] is None:
        end_positions[-1] = tokenizer.model_max_length
  encodings.update({'start_positions': start_positions, 'end_positions': end_positions})
def add_end_idx(answers, contexts):
  """
  Squad format chỉ có id start của câu trả lời
  -> Hàm này dùng để tạo id end của câu trả lời
  """
  for answer, context in zip(answers, contexts):
    gold_text = answer['text']
    start_idx = answer['answer_start']
    end_idx = start_idx + len(gold_text)

    # sometimes squad answers are off by a character or two – fix this
    if context[start_idx:end_idx] == gold_text:
        answer['answer_end'] = end_idx
    elif context[start_idx-1:end_idx-1] == gold_text:
        answer['answer_start'] = start_idx - 1
        answer['answer_end'] = end_idx - 1     # When the gold label is off by one character
    elif context[start_idx-2:end_idx-2] == gold_text:
        answer['answer_start'] = start_idx - 2
        answer['answer_end'] = end_idx - 2     # When the gold label is off by two characters

In [None]:
train_contexts, train_questions, train_answers = read_squad_train('/content/drive/MyDrive/CS221/DoAnCK/Dataset/squad_vi.json', 1,3500)
#val_contexts, val_questions, val_answers = read_squad_train('/content/drive/MyDrive/CS221/DoAnCK/Dataset/squad_vi.json', 3000, 3500)
add_end_idx(train_answers, train_contexts)
#add_end_idx(val_answers, val_contexts) 

#train
new_train_contexts=[]
new_train_questions=[]
new_train_answers=[]
for i in range(len(train_answers)):
  if train_answers[i]['answer_start']!=train_answers[i]['answer_end']:
    new_train_contexts.append(train_contexts[i])
    new_train_questions.append(train_questions[i])
    new_train_answers.append(train_answers[i])
(train_contexts, train_questions, train_answers)=(new_train_contexts, new_train_questions, new_train_answers)
(new_train_contexts, new_train_questions, new_train_answers)=(0,0,0)

#chia train val
val_contexts, val_questions, val_answers = train_contexts[12000:], train_questions[12000:], train_answers[12000:]
train_contexts, train_questions, train_answers = train_contexts[:12000], train_questions[:12000], train_answers[:12000]


train_encodings = tokenizer(train_contexts, train_questions, truncation=True, padding=True)
val_encodings = tokenizer(val_contexts, val_questions, truncation=True, padding=True)

add_token_positions(train_encodings, train_answers)
add_token_positions(val_encodings, val_answers)


Tải data lên pytorch

In [16]:
class SquadDataset(torch.utils.data.Dataset):
    def __init__(self, encodings):
        self.encodings = encodings

    def __getitem__(self, idx):
        return {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}

    def __len__(self):
        return len(self.encodings.input_ids)

In [12]:
train_dataset = SquadDataset(train_encodings)
val_dataset = SquadDataset(val_encodings)

#Load pretrain

In [13]:
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer

model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

Downloading (…)lve/main/config.json:   0%|          | 0.00/835 [00:00<?, ?B/s]

Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/326M [00:00<?, ?B/s]

In [14]:
model

RobertaForQuestionAnswering(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(50265, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0): RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm):

#Train

In [15]:
from torch.utils.data import DataLoader
from transformers import AdamW

In [16]:
epochs = 10
batch_size=8
train_count = len(train_dataset)
val_count = len(val_dataset)
PATH = "/content/drive/MyDrive/CS221/DoAnCK/Model/best_model.model"

###Train with trainer

###10 epoch

In [17]:
import numpy as np

In [18]:
args = TrainingArguments(
    f"/content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad",#Tên folder chứa log
    evaluation_strategy = "epoch",#Đánh giá sau mỗi epoch
    save_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=16,
    num_train_epochs=10,
    weight_decay=0.01
    #push_to_hub=True,
)

In [22]:
def f1_score(start_pred,end_pred,start_true,end_true):
  a=np.arange(int(start_pred),int(end_pred+1), step=1)
  b=np.arange(int(start_true),int(end_true+1), step=1)
  true_count = len(np.intersect1d(a,b))
  if ((int(end_true)-int(start_true)) == 0):
    recall = 0
  else:
    recall = true_count/(int(end_true)-int(start_true))
  if ((int(end_pred)-int(start_pred)) == 0):
    precision = 0
  else:
    precision= true_count/(int(end_pred)-int(start_pred))
  if (precision + recall == 0):
    return 0
  f1=2*(precision*recall)/(precision+recall)
  return f1

In [23]:
def compute_metrics(eval_pred):    
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    count = 0
    for i in range(len(predictions[0])):
      if (predictions[0][i] == labels[0][i] and predictions[1][i] == labels[1][i]):
        count += 1
    f1 = 0
    for i in range(len(predictions[0])):
      f1 += f1_score(predictions[0][i], predictions[1][i], labels[0][i], labels[1][i])

    return {'exact_match': round(count/len(predictions[0]), 3), 'f1_score': round(f1/len(predictions[0]),3)} #metric.compute(predictions=predictions, references=labels)

In [21]:
trainer = Trainer(
    model,
    args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    #data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

In [22]:
trainer.train()
trainer.save_model("/content/drive/MyDrive/CS221/DoAnCK/Model/Minibert-viSquad")

***** Running training *****
  Num examples = 12000
  Num Epochs = 10
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 1
  Total optimization steps = 15000
  Number of trainable parameters = 81529346
You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss,Exact Match,F1 Score
1,3.1257,3.119982,0.169,0.257
2,2.7102,2.813204,0.207,0.328
3,2.3469,2.815731,0.24,0.348
4,2.0925,2.915711,0.253,0.364
5,1.8089,2.90017,0.251,0.369
6,1.641,3.01523,0.259,0.38
7,1.4233,3.233148,0.259,0.397
8,1.2448,3.52601,0.254,0.379
9,1.1165,3.481797,0.262,0.389
10,1.0192,3.775353,0.259,0.381


***** Running Evaluation *****
  Num examples = 1947
  Batch size = 16
Saving model checkpoint to /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-1500
Configuration saved in /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-1500/config.json
Model weights saved in /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-1500/pytorch_model.bin
tokenizer config file saved in /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-1500/tokenizer_config.json
Special tokens file saved in /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-1500/special_tokens_map.json
***** Running Evaluation *****
  Num examples = 1947
  Batch size = 16
Saving model checkpoint to /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-3000
Configuration saved in /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-3000/config.json
Model weights saved in /content/drive/MyDrive/CS221/DoAnCK/Logs/MiniB

TrainOutput(global_step=15000, training_loss=1.8731856567382812, metrics={'train_runtime': 6679.9282, 'train_samples_per_second': 17.964, 'train_steps_per_second': 2.246, 'total_flos': 1.567837200384e+16, 'train_loss': 1.8731856567382812, 'epoch': 10.0})

Evaluation

#Test

In [142]:
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer
from transformers import AutoTokenizer

model = AutoModelForQuestionAnswering.from_pretrained("/content/drive/MyDrive/CS221/DoAnCK/model/MiniBert-ViSquad/checkpoint-15000") 
tokenizer = AutoTokenizer.from_pretrained("/content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad/checkpoint-15000")

OSError: ignored

In [89]:
test_contexts, test_questions, test_answers = read_squad_val('/content/drive/MyDrive/CS221/DoAnCK/Dataset/Mailong25/train-v2.0.json')
add_end_idx(test_answers, test_contexts)
new_test_contexts=[]
new_test_questions=[]
new_test_answers=[]
for i in range(len(test_answers)):
  if test_answers[i]['answer_start']!=test_answers[i]['answer_end']:
    new_test_contexts.append(test_contexts[i])
    new_test_questions.append(test_questions[i])
    new_test_answers.append(test_answers[i])
(test_contexts, test_questions, test_answers)=(new_test_contexts, new_test_questions, new_test_answers)
test_encodings = tokenizer(test_contexts, test_questions, truncation=True, padding=True, return_offsets_mapping=True,)
add_token_positions(test_encodings, test_answers)
test_dataset = SquadDataset(test_encodings)

In [87]:
test_encodings[0]

Encoding(num_tokens=512, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

In [63]:
test_contexts[0]

'Narendra Damodardas Modi ( tiếng Gujarat : નરેન્દ્ર દામોદરદાસ મોદી , [ nəreːnd̪rə d̪ɑːmoːd̪ərəd̪ɑːsə moːd̪iː ] ( nghe ) , tiếng Hindi : नरेन्द्र दामोदरदास मोदी , sinh ngày 17 tháng 9 năm 1950 ) là Thủ tướng Ấn Độ thứ 15 . Ông là thủ lĩnh của đảng Bharatiya Janata ( đảng Nhân dân ) , từng giữ chức Thủ tịch bộ trưởng Gujarat từ năm 2001 đến năm 2014 . Ông đại diện cho Varanasi tại Lok Sabha .'

In [65]:
test_contexts[0][0:24]

'Narendra Damodardas Modi'

In [64]:
test_answers[0]

{'answer_start': 0, 'text': 'Narendra Damodardas Modi', 'answer_end': 24}

In [19]:
args = TrainingArguments(
    f"/content/drive/MyDrive/CS221/DoAnCK/Logs/MiniBert-ViSquad-test",#Tên folder chứa log
    evaluation_strategy = "epoch",#Đánh giá sau mỗi epoch
    save_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=16,
    num_train_epochs=10,
    weight_decay=0.01
    #push_to_hub=True,
)

In [25]:
import numpy as np

In [26]:
trainer = Trainer(
    model,
    args,
    #train_dataset=train_dataset,
    eval_dataset=test_dataset,
    #data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)
trainer.evaluate()

***** Running Evaluation *****
  Num examples = 985
  Batch size = 16


{'eval_loss': 3.7535667419433594,
 'eval_exact_match': 0.241,
 'eval_f1_score': 0.527,
 'eval_runtime': 16.3206,
 'eval_samples_per_second': 60.353,
 'eval_steps_per_second': 3.799}

#Predict

In [None]:
trainer.predict()

In [136]:
def Predict(contexts, questions, trainer):
  test_encodings = trainer.tokenizer(contexts, questions, truncation=True, padding=True, return_overflowing_tokens=True, return_offsets_mapping=True,)
  test_dataset = SquadDataset(test_encodings)
  
  result = trainer.predict(test_dataset, )
  predictions = np.argmax(result.predictions, axis =-1)
  metrics = result.metrics
  
  answers = []
  for i in range(len(contexts)):
    start = test_encodings['offset_mapping'][0][predictions[0][0]][0]
    end = test_encodings['offset_mapping'][0][predictions[1][0]][1]
    answers.append(contexts[i][start: end])
  return answers[0]

In [143]:
a = Predict(['Nam sinh ra và lớn lên ở Thủ Đức. Nam học công nghệ thông tin'], ["Nam học gì"], trainer)
a

***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


'Nam sinh ra và lớn lên ở Thủ Đức'

In [140]:
for i in range(0, 100, 10):
  print("Context:", test_contexts[i])
  print("Question:", test_questions[i])
  print("Trả lời:", Predict([test_contexts[i]], [test_questions[i]], trainer))
  print("\n==========")

***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Context: Narendra Damodardas Modi ( tiếng Gujarat : નરેન્દ્ર દામોદરદાસ મોદી , [ nəreːnd̪rə d̪ɑːmoːd̪ərəd̪ɑːsə moːd̪iː ] ( nghe ) , tiếng Hindi : नरेन्द्र दामोदरदास मोदी , sinh ngày 17 tháng 9 năm 1950 ) là Thủ tướng Ấn Độ thứ 15 . Ông là thủ lĩnh của đảng Bharatiya Janata ( đảng Nhân dân ) , từng giữ chức Thủ tịch bộ trưởng Gujarat từ năm 2001 đến năm 2014 . Ông đại diện cho Varanasi tại Lok Sabha .
Question: Ai là thủ tướng Ấn Độ hiện tại


***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Trả lời: Narendra Damodardas Modi

Context: Chia sẻ với VnExpress sau khi được Forbes công nhận là tỷ phú USD với 1,3 tỷ USD tài sản , ông Trần Đình Long - Chủ tịch HĐQT Tập đoàn Hoà Phát , thú nhận đã lâu không làm việc để vì mục tiêu kiếm một con số cụ thể bao nhiêu tiền trong ngày .
Question: Ai là chủ tịch tập đoàn Hòa Phát


***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Trả lời: Chia sẻ với VnExpress

Context: Nhà Trắng ngày 29/4 cho biết , Tổng thống Mỹ Donald Trump đã mời Tổng thống Philippines Rodrigo Duterte tới thăm Mỹ .
Question: Ai là tổng thống Philippines


***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Trả lời: Donald Trump

Context: Sáng ngày 25-2 , Bộ trưởng Bộ TT-TT Nguyễn Mạnh Hùng , Chủ tịch UBND TP Hà Nội Nguyễn Đức Chung , Thứ trưởng Bộ Ngoại giao Lê Hoài Trung sáng 25-2 đã chủ trì cuộc họp báo tại Trung tâm ...
Question: Bộ trưởng bộ ngoại giao Việt Nam là ai


***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Trả lời: ,

Context: Khi ra mắt lần đầu vào năm 1993 , bộ phim Jurassic Park ( Công viên kỷ Jura ) của đạo diễn kỳ tài Steven Spielberg đã trở thành một trong những bom tấn kinh điển về công nghệ CGI ( công nghệ mô phỏng hình ảnh ) cũng như thổi bay mọi phòng vé thời bấy giờ . Tiếp theo là các phần phim The Lost World : Jurassic Park ( 1997 ) và Jurassic Park III ( 2001 ) .
Question: Bộ phim Jurassic Park do ai làm đạo diễn?


***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Trả lời: Công viên kỷ Jura )

Context: ( VNF ) - Công ty Cổ phần Vinhomes ( HoSE : VHM ) vừa thông báo bà Nguyễn Diệu Linh , thành viên HĐQT kiêm Tổng giám đốc đã được bầu vào vị trí Phó Chủ tịch HĐQT của công ty .
Question: tổng giám đốc công ty cổ phần Vinhomes


***** Running Prediction *****


Trả lời: Tổng giám đốc

Context: Một đoạn clip ghi lại câu trả lời của phi hành gia Buzz Aldrin , người thứ 2 đặt chân lên Mặt trăng thừa nhận ông chưa từng đặt chân lên Mặt trăng , đã được đăng tải lên mạng .
Question: Ai là người thứ hai đặt chân lên Mặt trăng?


  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


***** Running Prediction *****
  Num examples = 1
  Batch size = 16


Trả lời: Buzz Aldrin ,

Context: Ông Putin lần đầu tiên nắm quyền tổng thống Nga vào ngày 31/12/1999 , sau khi tổng thống đầu tiên của Nga , ông Boris Yeltsin bất ngờ tuyên bố thoái vị và trao quyền lại cho thủ tướng Vladimir Putin , khi đó vẫn là cái tên ít người biết đến . Ba tháng sau , ông đắc cử tổng thống lần đầu tiên .
Question: Tổng thống Nga hiện tại là ai


The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Trả lời: Boris Yeltsin

Context: Cùng với đó , Hội đồng quản trị FECON cũng đã bổ nhiệm ông Nguyễn Văn Thanh , Tổng giám đốc điều hành FECON chính thức đảm nhận vị trí Tổng giám đốc FECON từ ngày 8/11/2018 .
Question: tổng giám đốc công ty Fecon


***** Running Prediction *****
  Num examples = 1
  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


***** Running Prediction *****
  Num examples = 1


Trả lời: ,

Context: “ Vài năm nay , mọi người nhìn thép rất xấu , nhưng thép vẫn được coi là bánh mì của công nghiệp và tại những nước công nghiệp hoá mới như chúng ta , nhu cầu thép vẫn còn tăng ” , đó là chia sẻ chân tình của ông Trần Đình Long , Chủ tịch HĐQT Tập đoàn Hoà Phát khi nói về những mối quan tâm của dư luận thời gian gần đây trước những biến động lớn trong ngành thép lẫn tương lai của ngành này tại Việt Nam .
Question: chủ tịch tập đoàn Hòa Phát


  Batch size = 16
The following columns in the test set don't have a corresponding argument in `RobertaForQuestionAnswering.forward` and have been ignored: overflow_to_sample_mapping, offset_mapping. If overflow_to_sample_mapping, offset_mapping are not expected by `RobertaForQuestionAnswering.forward`,  you can safely ignore this message.


Trả lời: ,

