# [基于BERT预训练模型的SQuAD问答任务](https://www.ylkz.life/deeplearning/p10265968/)
# [基于 Bert 的中文问答机器人](https://fengchao.pro/blog/bert-qa/)

In [1]:
import torch
import json
import pandas as pd
from torch.optim import AdamW
from transformers import BertTokenizerFast, BertForQuestionAnswering

tran_file_path = 'dataset/cmrc2018/train.json'
test_file_path = 'dataset/cmrc2018/test.json'
dev_file_path = 'dataset/cmrc2018/dev.json'
trial_file_path = 'dataset/cmrc2018/trial.json'

## 模型

In [2]:
# 优先使用 GPU
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print('device=', device)

device= cuda


In [3]:
# 加载预训练模型
model = BertForQuestionAnswering.from_pretrained('bert-base-chinese')
# local_model = '/root/.cache/huggingface/hub/models--bert-base-chinese/snapshots/c30a6ed22ab4564dc1e3b2ecbf6e766b0611a33f'
# model = BertForQuestionAnswering.from_pretrained(local_model)
# 需要移动到cuda上
model.to(device)

# 不训练,不需要计算梯度
# for param in model.parameters():
#     param.requires_grad_(False)

Some weights of the model checkpoint at bert-base-chinese were not used when initializing BertForQuestionAnswering: ['cls.predictions.decoder.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForQuestionAnswering were not initialized from the model checkpoint at bert-base-chinese a

BertForQuestionAnswering(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_

In [4]:
tokenizer = BertTokenizerFast.from_pretrained("bert-base-chinese")
# tokenizer = BertTokenizerFast.from_pretrained(local_model)


## 数据集

#### 数据集样例

In [5]:
import json

# /root/workspace/zero_ai/model_bert-base-chinese/fine-tuning/dataset/cmrc2018/train.json
with open(tran_file_path, 'r+', encoding='utf-8') as tran_file:
     tran_sample = json.load(tran_file)
tran_sample['data'][0]

{'paragraphs': [{'id': 'TRAIN_186',
   'context': '范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被擢升为天主教河内总教区宗座署理；1994年被擢升为总主教，同年年底被擢升为枢机；2009年2月离世。范廷颂于1919年6月15日在越南宁平省天主教发艳教区出生；童年时接受良好教育后，被一位越南神父带到河内继续其学业。范廷颂于1940年在河内大修道院完成神学学业。范廷颂于1949年6月6日在河内的主教座堂晋铎；及后被派到圣女小德兰孤儿院服务。1950年代，范廷颂在河内堂区创建移民接待中心以收容到河内避战的难民。1954年，法越战争结束，越南民主共和国建都河内，当时很多天主教神职人员逃至越南的南方，但范廷颂仍然留在河内。翌年管理圣若望小修院；惟在1960年因捍卫修院的自由、自治及拒绝政府在修院设政治课的要求而被捕。1963年4月5日，教宗任命范廷颂为天主教北宁教区主教，同年8月15日就任；其牧铭为「我信天主的爱」。由于范廷颂被越南政府软禁差不多30年，因此他无法到所属堂区进行牧灵工作而专注研读等工作。范廷颂除了面对战争、贫困、被当局迫害天主教会等问题外，也秘密恢复修院、创建女修会团体等。1990年，教宗若望保禄二世在同年6月18日擢升范廷颂为天主教河内总教区宗座署理以填补该教区总主教的空缺。1994年3月23日，范廷颂被教宗若望保禄二世擢升为天主教河内总教区总主教并兼天主教谅山教区宗座署理；同年11月26日，若望保禄二世擢升范廷颂为枢机。范廷颂在1995年至2001年期间出任天主教越南主教团主席。2003年4月26日，教宗若望保禄二世任命天主教谅山教区兼天主教高平教区吴光杰主教为天主教河内总教区署理主教；及至2005年2月19日，范廷颂因获批辞去总主教职务而荣休；吴光杰同日真除天主教河内总教区总主教职务。范廷颂于2009年2月22日清晨在河内离世，享年89岁；其葬礼于同月26日上午在天主教河内总教区总主教座堂举行。',
   'qas': [{'question': '范廷颂是什么时候被任为主教的？',
     'id': 'TRAIN_186_QUERY_0',
     'answers': [{'text': '1963年', 'answer_start': 30}]}

#### 重构样本
> 因为 input_ids 的长度为 512，如果【问题】+【上下文】的长度超过此长度，无法使用。<br/>
> 故采用滑动窗口处理样本、训练，预测时也采用滑动窗口方式预测。如下图：<br/>

<img src="https://moonhotel.oss-cn-shanghai.aliyuncs.com/images/22010353470.jpg" style="width: 400px;" align="left"/>

In [6]:
# 问题 + 上下文 的编码形式：
question_context_encode = tokenizer(tran_sample['data'][0]['paragraphs'][0]['qas'][0]['question'],
                                    tran_sample['data'][0]['paragraphs'][0]['context'],
                                    return_tensors="pt",
                                    padding=True,
                                    truncation=True,
                                    max_length=512
                                   )["input_ids"][0]
print(question_context_encode)
print(tokenizer.decode(question_context_encode))

# 发现数字没有拆开，这对后面的计算起始结束位置带来了影响

tensor([ 101, 5745, 2455, 7563, 3221,  784,  720, 3198,  952, 6158,  818,  711,
         712, 3136, 4638, 8043,  102, 5745, 2455, 7563, 3364, 3322, 8020, 8024,
        8021, 8024, 1760, 1399,  924, 4882,  185, 5735, 4449, 8020, 8021, 8024,
        3221, 6632, 1298, 5384, 7716, 1921,  712, 3136, 3364, 3322,  511, 9155,
        2399, 6158,  818,  711,  712, 3136, 8039, 8431, 2399, 6158, 3091, 1285,
         711, 1921,  712, 3136, 3777, 1079, 2600, 3136, 1277, 2134, 2429, 5392,
        4415, 8039, 8447, 2399, 6158, 3091, 1285,  711, 2600,  712, 3136, 8024,
        1398, 2399, 2399, 2419, 6158, 3091, 1285,  711, 3364, 3322, 8039, 8170,
        2399,  123, 3299, 4895,  686,  511, 5745, 2455, 7563,  754, 9915, 2399,
         127, 3299, 8115, 3189, 1762, 6632, 1298, 2123, 2398, 4689, 1921,  712,
        3136, 1355, 5683, 3136, 1277, 1139, 4495, 8039, 4997, 2399, 3198, 2970,
        1358, 5679, 1962, 3136, 5509, 1400, 8024, 6158,  671,  855, 6632, 1298,
        4868, 4266, 2372, 1168, 3777, 10

In [7]:
def build_sample(sample_data):
    """
    构建样本，数据打平
    """
    id_arr, title_arr, paragraph_id_arr, context_arr, qa_id, question_arr, answer_arr, answer_start_arr = [], [], [], [], [], [], [], []
    for sample in sample_data['data']:
        for paragraph in sample['paragraphs']:
            for qa in paragraph['qas']:
                for answer in qa['answers']:
                    id_arr.append(sample['id'])
                    title_arr.append(sample['title'])
                    paragraph_id_arr.append(paragraph['id'])
                    context_arr.append(paragraph['context'])
                    qa_id.append(qa['id'])
                    question_arr.append(qa['question'])
                    answer_arr.append(answer['text'])
                    answer_start_arr.append(answer['answer_start'])
        # break  # TODO 数据量太多，可以只试试一条
    return id_arr, title_arr, paragraph_id_arr, context_arr, qa_id, question_arr, answer_arr, answer_start_arr


def rebuild_sample(sample_data, max_length=512):
    """
    使用滑动窗口，重构样本
    """
    re_context_arr, re_question_arr, re_answer_arr, re_answer_start_arr, re_answer_end_arr = [], [], [], [], []
    
    # 1. 打平样本
    _, _, _, context_arr, _, question_arr, answer_arr, answer_start_arr = build_sample(sample_data)

    # 2. 根据长度重构样本
    space_character_length = 3
    for i in range(len(context_arr)):
        lenth = len(question_arr[i]) + len(context_arr[i]) + space_character_length
        answer_end = answer_start_arr[i] + len(answer_arr[i])  # 答案在上下文的结束下标
        # 2.1 问题+上下文+间隔符 的长度 <= 模型输入长度，则无法滑动
        if lenth <= max_length:
            re_context_arr.append(context_arr[i])
            re_question_arr.append(question_arr[i])
            re_answer_arr.append(answer_arr[i])
            re_answer_start_arr.append(answer_start_arr[i])
            re_answer_end_arr.append(answer_end)
        # 2.2 问题+上下文+间隔符 的长度 > 模型输入长度，则滑动
        else:
            context_window_max_length = max_length - len(question_arr[i]) - space_character_length  # 滑动窗口中上下文最大可用长度
            for window_start in range(len(context_arr[i])):  # 滑动下标起始位置
                window_end = window_start + context_window_max_length  # 滑动下标结束位置
                # window_end = window_end if window_end <= len(context_arr[i]) else len(context_arr[i])  # 结束位置不能超过上下文的长度
                if window_end > len(context_arr[i]):  # 防止滑动后样本数据暴增，当结束位置超过上下文时，不再滑动
                    break
                
                re_answer_start = answer_start_arr[i] - window_start  # 窗口中，答案的起始位置
                re_answer_end = answer_end - window_start  # 窗口中，答案的结束位置

                # 如果答案在窗口中
                re_context_arr.append(context_arr[i][window_start:window_end])
                re_question_arr.append(question_arr[i])
                re_answer_arr.append(answer_arr[i])
                if 0 <= re_answer_start <= context_window_max_length and 0 <= re_answer_end <= context_window_max_length:
                    re_answer_start_arr.append(re_answer_start)
                    re_answer_end_arr.append(re_answer_end)
                # 如果答案不在窗口中
                else:
                    re_answer_start_arr.append(0)
                    re_answer_end_arr.append(0)

    data = {'context': re_context_arr, 'question': re_question_arr, 'answer': re_answer_arr, 'answer_start': re_answer_start_arr, 'answer_end': re_answer_end_arr}
    return pd.DataFrame(data, columns=['context', 'question', 'answer', 'answer_start', 'answer_end'])


def rebuild_sample2(sample_data, max_length=512):
    """
    不使用滑动窗口，重构样本。
    发现使用滑动窗口，服务器内存撑不住
    """
    re_context_arr, re_question_arr, re_answer_arr, re_answer_start_arr, re_answer_end_arr = [], [], [], [], []
    
    # 1. 打平样本
    _, _, _, context_arr, _, question_arr, answer_arr, answer_start_arr = build_sample(sample_data)

    # 2. 根据长度重构样本。保证截断后的上下文中有答案
    space_character_length = 3
    for i in range(len(context_arr)):
        lenth = len(question_arr[i]) + len(context_arr[i]) + space_character_length
        answer_end = answer_start_arr[i] + len(answer_arr[i])  # 答案在上下文的结束下标
        # 2.1 问题+上下文+间隔符 的长度 <= 模型输入长度，无需截断
        if lenth <= max_length:
            re_context_arr.append(context_arr[i])
            re_question_arr.append(question_arr[i])
            re_answer_arr.append(answer_arr[i])
            re_answer_start_arr.append(answer_start_arr[i])
            re_answer_end_arr.append(answer_end)
        # 2.2 问题+上下文+间隔符 的长度 > 模型输入长度，则截断上下文
        else:
            context_window_max_length = max_length - len(question_arr[i]) - space_character_length  # 上下文最大可用长度
            for window_start in range(len(context_arr[i])):  # 滑动下标起始位置
                window_end = window_start + context_window_max_length  # 滑动下标结束位置
                window_end = window_end if window_end <= len(context_arr[i]) else len(context_arr[i])  # 结束位置不能超过上下文的长度
                
                re_answer_start = answer_start_arr[i] - window_start  # 窗口中，答案的起始位置
                re_answer_end = answer_end - window_start  # 窗口中，答案的结束位置
                
                # 如果答案在窗口中，则截断
                if 0 <= re_answer_start <= context_window_max_length and 0 <= re_answer_end <= context_window_max_length:
                    re_context_arr.append(context_arr[i][window_start:window_end])
                    re_question_arr.append(question_arr[i])
                    re_answer_arr.append(answer_arr[i])
                    re_answer_start_arr.append(re_answer_start)
                    re_answer_end_arr.append(re_answer_end)
                    break  # 只要一个
    data = {'context': re_context_arr, 'question': re_question_arr, 'answer': re_answer_arr, 'answer_start': re_answer_start_arr, 'answer_end': re_answer_end_arr}
    return pd.DataFrame(data, columns=['context', 'question', 'answer', 'answer_start', 'answer_end'])


# 注意，下标从 0 开始
# build_sample(tran_sample)
df_tran_sample = rebuild_sample2(tran_sample)
print(df_tran_sample.shape)
df_tran_sample.head()

(10142, 5)


Unnamed: 0,context,question,answer,answer_start,answer_end
0,范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年...,范廷颂是什么时候被任为主教的？,1963年,30,35
1,范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年...,1990年，范廷颂担任什么职务？,1990年被擢升为天主教河内总教区宗座署理,41,62
2,范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年...,范廷颂是于何时何地出生的？,范廷颂于1919年6月15日在越南宁平省天主教发艳教区出生,97,126
3,月15日在越南宁平省天主教发艳教区出生；童年时接受良好教育后，被一位越南神父带到河内继续其学...,1994年3月，范廷颂担任什么职务？,1994年3月23日，范廷颂被教宗若望保禄二世擢升为天主教河内总教区总主教并兼天主教谅山教区...,441,491
4,多天主教神职人员逃至越南的南方，但范廷颂仍然留在河内。翌年管理圣若望小修院；惟在1960年因...,范廷颂是何时去世的？,范廷颂于2009年2月22日清晨在河内离世,478,499


In [8]:
# 注意，如果直接编码，"1990"会被拆成一个 token，需要加入数字保证拆成四个 token
# tokenizer.add_tokens(new_tokens=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'])

# 测试
# question_context_encode = tokenizer(df_tran_sample['context'][0],
#                                     df_tran_sample['question'][0],
#                                     return_tensors="pt",
#                                     padding=True,
#                                     truncation=True,
#                                     max_length=512
#                                    )["input_ids"][0]
# print(question_context_encode)
# print(tokenizer.decode(question_context_encode))  # 发现: 年份被中的数字被拆开

train_encodings = tokenizer(
    df_tran_sample['context'].values.tolist(),
    df_tran_sample['question'].values.tolist(),
    return_tensors="pt",
    padding=True,
    truncation=True,
    max_length=512,
)
train_encodings.keys()

dict_keys(['input_ids', 'token_type_ids', 'attention_mask'])

In [9]:
print(train_encodings["input_ids"].shape)
print(train_encodings["token_type_ids"].shape)
print(train_encodings["attention_mask"].shape)

torch.Size([10142, 512])
torch.Size([10142, 512])
torch.Size([10142, 512])


In [10]:
train_encodings["start_positions"] = torch.tensor(
    [
        train_encodings.char_to_token(idx, x)
        if train_encodings.char_to_token(idx, x) != None
        else -1
        for idx, x in enumerate(df_tran_sample['answer_start'].values.tolist())
    ]
)
train_encodings["end_positions"] = torch.tensor(
    [
        train_encodings.char_to_token(idx, x - 1)
        if train_encodings.char_to_token(idx, x - 1) != None
        else -1
        for idx, x in enumerate(df_tran_sample['answer_end'].values.tolist())
    ]
)

In [11]:
# 看第一个问题的解答
print('上下文: ', df_tran_sample['context'][0])
print('\n问题: ', df_tran_sample['question'][0])
start_idx, end_idx = train_encodings["start_positions"][0], train_encodings["end_positions"][0]+1
print('解答:', tokenizer.decode(train_encodings["input_ids"][0][start_idx : end_idx]))


上下文:  范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被擢升为天主教河内总教区宗座署理；1994年被擢升为总主教，同年年底被擢升为枢机；2009年2月离世。范廷颂于1919年6月15日在越南宁平省天主教发艳教区出生；童年时接受良好教育后，被一位越南神父带到河内继续其学业。范廷颂于1940年在河内大修道院完成神学学业。范廷颂于1949年6月6日在河内的主教座堂晋铎；及后被派到圣女小德兰孤儿院服务。1950年代，范廷颂在河内堂区创建移民接待中心以收容到河内避战的难民。1954年，法越战争结束，越南民主共和国建都河内，当时很多天主教神职人员逃至越南的南方，但范廷颂仍然留在河内。翌年管理圣若望小修院；惟在1960年因捍卫修院的自由、自治及拒绝政府在修院设政治课的要求而被捕。1963年4月5日，教宗任命范廷颂为天主教北宁教区主教，同年8月15日就任；其牧铭为「我信天主的爱」。由于范廷颂被越南政府软禁差不多30年，因此他无法到所属堂区进行牧灵工作而专注研读等工作。范廷颂除了面对战争、贫困、被当局迫害天主教会等问题外，也秘密恢复修院、创建女修会团体等

问题:  范廷颂是什么时候被任为主教的？
解答: 1963 年


In [12]:
# 加载训练数据
import torch
from torch.utils.data import Dataset, DataLoader, TensorDataset

class SquadDataset(torch.utils.data.Dataset):
    def __init__(self, encodings):
        self.encodings = encodings

    def __getitem__(self, idx):
        return {k: v[idx].to(device) for k, v in self.encodings.items()}

    def __len__(self):
        return len(self.encodings.input_ids)

train_dataset = SquadDataset(train_encodings)
train_loader = DataLoader(train_dataset, batch_size=4, shuffle=True)

## 训练

In [13]:
from tqdm import tqdm
import time, datetime
from torch.optim import AdamW


start_time = datetime.datetime.now()
print('Start time:', start_time)

# 训练
optim = AdamW(model.parameters(), lr=5e-5)
model.train()
for epoch in range(3):
    loss_sum = 0.0
    acc_start_sum = 0.0
    acc_end_sum = 0.0
    pbar = tqdm(train_loader, desc=f'Epoch {epoch}')
    for batch_idx, batch in enumerate(pbar):
        optim.zero_grad()

        input_ids = batch["input_ids"]
        attention_mask = batch["attention_mask"]
        start_positions = batch["start_positions"]
        end_positions = batch["end_positions"]

        outputs = model(
            input_ids,
            attention_mask=attention_mask,
            start_positions=start_positions,
            end_positions=end_positions,
        )
        # 需要注意的是，由于损失值是在多个 GPU 上进行计算的，因此得到的 `loss.out` 是一个向量，而不是一个标量。我们可以用 .mean() 对多块 GPU 上的 loss 值求均值，将其转换为一个标量
        loss = outputs.loss.mean()
        # if fp16_training:
        #     accelerator.backward(loss)
        # else:
        loss.backward()
        optim.step()

        loss_sum += loss.item()

        ### START CODE HERE ###
        # Obtain answer by choosing the most probable start position / end position
        # Using `torch.argmax` and its `dim` parameter to extract preditions for start position and end position.
        start_pred = torch.argmax(outputs.start_logits, dim=1)
        end_pred = torch.argmax(outputs.end_logits, dim=1)

        # calculate accuracy for start and end positions. eg., using start_pred and start_positions to calculate acc_start.
        acc_start = (start_pred == start_positions).float().mean()
        acc_end = (end_pred == end_positions).float().mean()
        ### END CODE HERE ###

        acc_start_sum += acc_start
        acc_end_sum += acc_end

        # Update progress bar
        postfix = {
            "loss": f"{loss_sum/(batch_idx+1):.4f}",
            "acc_start": f"{acc_start_sum/(batch_idx+1):.4f}",
            "acc_end": f"{acc_end_sum/(batch_idx+1):.4f}",
        }

        # Add batch accuracy to progress bar
        batch_desc = f"Epoch {epoch}, train loss: {postfix['loss']}"
        pbar.set_postfix_str(
            f"{batch_desc}, acc start: {postfix['acc_start']}, acc end: {postfix['acc_end']}"
        )

 
end_time = datetime.datetime.now()
print('End time:', end_time)

consume_time = end_time - start_time
print('Consume time of second:', consume_time.seconds)

Start time: 2024-04-05 12:25:23.690488


Epoch 0: 100%|██████████| 2536/2536 [22:14<00:00,  1.90it/s, Epoch 0, train loss: 2.0593, acc start: 0.4456, acc end: 0.4662]
Epoch 1: 100%|██████████| 2536/2536 [22:15<00:00,  1.90it/s, Epoch 1, train loss: 1.3067, acc start: 0.5902, acc end: 0.6293]
Epoch 2: 100%|██████████| 2536/2536 [22:15<00:00,  1.90it/s, Epoch 2, train loss: 0.9728, acc start: 0.6750, acc end: 0.7000]

End time: 2024-04-05 13:32:09.031793
Consume time of second: 4005





## 测试

In [14]:
# 定义一个名为 predict 的函数，接收两个参数 doc 和 query
def predict(doc, query):
    # 输出“段落：”和  doc 的内容
    print("段落：", doc)
    # 输出“提问：”和 query 的内容
    print("提问：", query)
    # 将 doc 和 query 传递给 tokenizer 函数，将返回结果赋值给 item
    item = tokenizer(
        [doc, query], max_length=512, return_tensors="pt", truncation=True, padding=True
    )
    # 关闭 torch 的梯度计算
    with torch.no_grad():
        # 将 input_ids 和 attention_mask 传递给 model，将返回结果赋值给 outputs
        input_ids = item["input_ids"].to(device).reshape(1, -1)
        attention_mask = item["attention_mask"].to(device).reshape(1, -1)

        outputs = model(input_ids[:, :512], attention_mask[:, :512])

        ### START CODE HERE ###
        # 使用`torch.argmax`和它的`dim`参数来提取开始位置和结束位置的预测结果
        start_pred = torch.argmax(outputs.start_logits, dim=1)
        end_pred = torch.argmax(outputs.end_logits, dim=1)
        ### END CODE HERE ###

    # 将预测结果转为字符级别
    try:
        start_pred = item.token_to_chars(0, start_pred)
        end_pred = item.token_to_chars(0, end_pred)
    except:
        # 如果出现异常，则返回“无法找到答案”
        return "无法找到答案"

    # 判断结果是否有效，如果有效则返回结果
    if start_pred.start > end_pred.end:
        # 如果预测的开始位置大于结束位置，则返回“无法找到答案”
        return "无法找到答案"
    else:
        # 如果预测的开始位置小于结束位置，则返回预测的答案
        return doc[start_pred.start : end_pred.end]

In [15]:
model.eval()

# 在 dev 数据上进行检验
with open(dev_file_path, 'r+', encoding='utf-8') as dev_file:
     dev_sample = json.load(dev_file)
df_dev_sample = rebuild_sample2(dev_sample)
predict(
    df_dev_sample["context"][0],
    df_dev_sample["question"][0],
)

段落： 《战国无双3》（）是由光荣和ω-force开发的战国无双系列的正统第三续作。本作以三大故事为主轴，分别是以武田信玄等人为主的《关东三国志》，织田信长等人为主的《战国三杰》，石田三成等人为主的《关原的年轻武者》，丰富游戏内的剧情。此部份专门介绍角色，欲知武器情报、奥义字或擅长攻击类型等，请至战国无双系列1.由于乡里大辅先生因故去世，不得不寻找其他声优接手。从猛将传 and Z开始。2.战国无双 编年史的原创男女主角亦有专属声优。此模式是任天堂游戏谜之村雨城改编的新增模式。本作中共有20张战场地图（不含村雨城），后来发行的猛将传再新增3张战场地图。但游戏内战役数量繁多，部分地图会有兼用的状况，战役虚实则是以光荣发行的2本「战国无双3 人物真书」内容为主，以下是相关介绍。（注：前方加☆者为猛将传新增关卡及地图。）合并本篇和猛将传的内容，村雨城模式剔除，战国史模式可直接游玩。主打两大模式「战史演武」&「争霸演武」。系列作品外传作品
提问： 《战国无双3》是由哪两个公司合作开发的？


'光荣和ω-force'

In [16]:
# 自定义数据进行检验
doc = "勒布朗·詹姆斯是一位美国职业篮球运动员，现效力于洛杉矶湖人队。他身高 203 厘米，体重 113 公斤，司职小前锋/大前锋。詹姆斯出生于俄亥俄州阿克伦市，高中时期便展现出了惊人的篮球天赋，成为高中时期最受瞩目的篮球选手之一。2003 年，他以状元秀的身份进入 NBA 并加入克利夫兰骑士队。在骑士队期间，詹姆斯多次带领球队进入季后赛，并在 2016 年带领球队获得总冠军头衔。此后，他先后效力于迈阿密热火队和克利夫兰骑士队，均取得了显著的成绩。詹姆斯是一个多面手球员，擅长得分、助攻、篮板等多项技术，并在场上表现出很高的篮球智商。他也是一名全方位的球员，场上表现出极强的威慑力，常常成为对手眼中的难题。詹姆斯不仅在 NBA 赛场上成绩斐然，他也是体坛巨星，被誉为篮球界最伟大的球员之一。"

print(predict(doc=doc, query="詹姆斯在哪个球队？"))

段落： 勒布朗·詹姆斯是一位美国职业篮球运动员，现效力于洛杉矶湖人队。他身高 203 厘米，体重 113 公斤，司职小前锋/大前锋。詹姆斯出生于俄亥俄州阿克伦市，高中时期便展现出了惊人的篮球天赋，成为高中时期最受瞩目的篮球选手之一。2003 年，他以状元秀的身份进入 NBA 并加入克利夫兰骑士队。在骑士队期间，詹姆斯多次带领球队进入季后赛，并在 2016 年带领球队获得总冠军头衔。此后，他先后效力于迈阿密热火队和克利夫兰骑士队，均取得了显著的成绩。詹姆斯是一个多面手球员，擅长得分、助攻、篮板等多项技术，并在场上表现出很高的篮球智商。他也是一名全方位的球员，场上表现出极强的威慑力，常常成为对手眼中的难题。詹姆斯不仅在 NBA 赛场上成绩斐然，他也是体坛巨星，被誉为篮球界最伟大的球员之一。
提问： 詹姆斯在哪个球队？
洛杉矶湖人队


In [17]:
predict(doc=doc, query="詹姆斯出生于哪个城市？")

段落： 勒布朗·詹姆斯是一位美国职业篮球运动员，现效力于洛杉矶湖人队。他身高 203 厘米，体重 113 公斤，司职小前锋/大前锋。詹姆斯出生于俄亥俄州阿克伦市，高中时期便展现出了惊人的篮球天赋，成为高中时期最受瞩目的篮球选手之一。2003 年，他以状元秀的身份进入 NBA 并加入克利夫兰骑士队。在骑士队期间，詹姆斯多次带领球队进入季后赛，并在 2016 年带领球队获得总冠军头衔。此后，他先后效力于迈阿密热火队和克利夫兰骑士队，均取得了显著的成绩。詹姆斯是一个多面手球员，擅长得分、助攻、篮板等多项技术，并在场上表现出很高的篮球智商。他也是一名全方位的球员，场上表现出极强的威慑力，常常成为对手眼中的难题。詹姆斯不仅在 NBA 赛场上成绩斐然，他也是体坛巨星，被誉为篮球界最伟大的球员之一。
提问： 詹姆斯出生于哪个城市？


'俄亥俄州阿克伦市'

In [18]:
predict(
    doc='对于期货资产，投资者既可以做多也可以做空，因此"上涨趋势"和"下跌趋势"都可以作为交易信号。我们将平均最大回撤和平均最大反向回撤中较小的那一个，作为市场情绪平稳度指标。市场情绪平稳度指标越小，则上涨或者下跌的趋势越强。然后我们再根据具体是上涨还是下跌的趋势，即可判断交易方向。',
    query="什么资产既可以做多也可以做空？",
)

段落： 对于期货资产，投资者既可以做多也可以做空，因此"上涨趋势"和"下跌趋势"都可以作为交易信号。我们将平均最大回撤和平均最大反向回撤中较小的那一个，作为市场情绪平稳度指标。市场情绪平稳度指标越小，则上涨或者下跌的趋势越强。然后我们再根据具体是上涨还是下跌的趋势，即可判断交易方向。
提问： 什么资产既可以做多也可以做空？


'对于期货资产'

## 保存模型

In [19]:
model_path = '/root/workspace/model/model_bert-base-chinese/qa.pt'
# 对于单 GPU 训练的模型，直接用 .save_pretrained()
model.save_pretrained(model_path, from_pt=True)
# 对于多 GPU 训练得到的模型，要加上 .module
# model.module.save_pretrained(model_path, from_pt=True)

## 加载模型

In [20]:
my_model = BertForQuestionAnswering.from_pretrained(model_path).to(device)
