# [基于BERT预训练模型的SQuAD问答任务](https://www.ylkz.life/deeplearning/p10265968/)
# [基于 Bert 的中文问答机器人](https://fengchao.pro/blog/bert-qa/)

In [1]:
import json
import pandas as pd
from transformers import BertTokenizerFast, BertForQuestionAnswering

tran_file_path = 'dataset/cmrc2018/train.json'
test_file_path = 'dataset/cmrc2018/test.json'
dev_file_path = 'dataset/cmrc2018/dev.json'
trial_file_path = 'dataset/cmrc2018/trial.json'

## 模型

## 数据集

#### 数据集样例

In [2]:
import json

# /root/workspace/zero_ai/model_bert-base-chinese/fine-tuning/dataset/cmrc2018/train.json
with open(tran_file_path) as tran_file:
     tran_sample = json.load(tran_file)
tran_sample['data'][0]

{'paragraphs': [{'id': 'TRAIN_186',
   'context': '范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被擢升为天主教河内总教区宗座署理；1994年被擢升为总主教，同年年底被擢升为枢机；2009年2月离世。范廷颂于1919年6月15日在越南宁平省天主教发艳教区出生；童年时接受良好教育后，被一位越南神父带到河内继续其学业。范廷颂于1940年在河内大修道院完成神学学业。范廷颂于1949年6月6日在河内的主教座堂晋铎；及后被派到圣女小德兰孤儿院服务。1950年代，范廷颂在河内堂区创建移民接待中心以收容到河内避战的难民。1954年，法越战争结束，越南民主共和国建都河内，当时很多天主教神职人员逃至越南的南方，但范廷颂仍然留在河内。翌年管理圣若望小修院；惟在1960年因捍卫修院的自由、自治及拒绝政府在修院设政治课的要求而被捕。1963年4月5日，教宗任命范廷颂为天主教北宁教区主教，同年8月15日就任；其牧铭为「我信天主的爱」。由于范廷颂被越南政府软禁差不多30年，因此他无法到所属堂区进行牧灵工作而专注研读等工作。范廷颂除了面对战争、贫困、被当局迫害天主教会等问题外，也秘密恢复修院、创建女修会团体等。1990年，教宗若望保禄二世在同年6月18日擢升范廷颂为天主教河内总教区宗座署理以填补该教区总主教的空缺。1994年3月23日，范廷颂被教宗若望保禄二世擢升为天主教河内总教区总主教并兼天主教谅山教区宗座署理；同年11月26日，若望保禄二世擢升范廷颂为枢机。范廷颂在1995年至2001年期间出任天主教越南主教团主席。2003年4月26日，教宗若望保禄二世任命天主教谅山教区兼天主教高平教区吴光杰主教为天主教河内总教区署理主教；及至2005年2月19日，范廷颂因获批辞去总主教职务而荣休；吴光杰同日真除天主教河内总教区总主教职务。范廷颂于2009年2月22日清晨在河内离世，享年89岁；其葬礼于同月26日上午在天主教河内总教区总主教座堂举行。',
   'qas': [{'question': '范廷颂是什么时候被任为主教的？',
     'id': 'TRAIN_186_QUERY_0',
     'answers': [{'text': '1963年', 'answer_start': 30}]}

#### 重构样本
> 因为 input_ids 的长度为 512，如果【问题】+【上下文】的长度超过此长度，无法使用。<br/>
> 故采用滑动窗口处理样本、训练，预测时也采用滑动窗口方式预测。如下图：<br/>

<img src="https://moonhotel.oss-cn-shanghai.aliyuncs.com/images/22010353470.jpg" style="width: 400px;" align="left"/>

In [3]:
tokenizer = BertTokenizerFast.from_pretrained("bert-base-chinese")

In [4]:
# 问题 + 上下文 的编码形式：
question_context_encode = tokenizer(tran_sample['data'][0]['paragraphs'][0]['qas'][0]['question'],
                                    tran_sample['data'][0]['paragraphs'][0]['context'],
                                    return_tensors="pt",
                                    padding=True,
                                    truncation=True,
                                    max_length=512
                                   )["input_ids"][0]
print(question_context_encode)
print(tokenizer.decode(question_context_encode))

# 发现数字没有拆开，这对后面的计算起始结束位置带来了影响

tensor([ 101, 5745, 2455, 7563, 3221,  784,  720, 3198,  952, 6158,  818,  711,
         712, 3136, 4638, 8043,  102, 5745, 2455, 7563, 3364, 3322, 8020, 8024,
        8021, 8024, 1760, 1399,  924, 4882,  185, 5735, 4449, 8020, 8021, 8024,
        3221, 6632, 1298, 5384, 7716, 1921,  712, 3136, 3364, 3322,  511, 9155,
        2399, 6158,  818,  711,  712, 3136, 8039, 8431, 2399, 6158, 3091, 1285,
         711, 1921,  712, 3136, 3777, 1079, 2600, 3136, 1277, 2134, 2429, 5392,
        4415, 8039, 8447, 2399, 6158, 3091, 1285,  711, 2600,  712, 3136, 8024,
        1398, 2399, 2399, 2419, 6158, 3091, 1285,  711, 3364, 3322, 8039, 8170,
        2399,  123, 3299, 4895,  686,  511, 5745, 2455, 7563,  754, 9915, 2399,
         127, 3299, 8115, 3189, 1762, 6632, 1298, 2123, 2398, 4689, 1921,  712,
        3136, 1355, 5683, 3136, 1277, 1139, 4495, 8039, 4997, 2399, 3198, 2970,
        1358, 5679, 1962, 3136, 5509, 1400, 8024, 6158,  671,  855, 6632, 1298,
        4868, 4266, 2372, 1168, 3777, 10

In [5]:
def build_sample(sample_data):
    """
    构建样本，数据打平
    """
    id_arr, title_arr, paragraph_id_arr, context_arr, qa_id, question_arr, answer_arr, answer_start_arr = [], [], [], [], [], [], [], []
    for sample in sample_data['data']:
        for paragraph in sample['paragraphs']:
            for qa in paragraph['qas']:
                for answer in qa['answers']:
                    id_arr.append(sample['id'])
                    title_arr.append(sample['title'])
                    paragraph_id_arr.append(paragraph['id'])
                    context_arr.append(paragraph['context'])
                    qa_id.append(qa['id'])
                    question_arr.append(qa['question'])
                    answer_arr.append(answer['text'])
                    answer_start_arr.append(answer['answer_start'])
        break  # TODO
    return id_arr, title_arr, paragraph_id_arr, context_arr, qa_id, question_arr, answer_arr, answer_start_arr


def rebuild_sample(sample_data, max_length=512):
    """
    使用滑动窗口，重构样本
    """
    re_context_arr, re_question_arr, re_answer_arr, re_answer_start_arr, re_answer_end_arr = [], [], [], [], []
    
    # 1. 打平样本
    _, _, _, context_arr, _, question_arr, answer_arr, answer_start_arr = build_sample(sample_data)

    # 2. 根据长度重构样本
    space_character_length = 3
    for i in range(len(context_arr)):
        lenth = len(question_arr[i]) + len(context_arr[i]) + space_character_length
        answer_end = answer_start_arr[i] + len(answer_arr[i])  # 答案在上下文的结束下标
        # 2.1 问题+上下文+间隔符 的长度 <= 模型输入长度，则无法滑动
        if lenth <= max_length:
            re_context_arr.append(context_arr[i])
            re_question_arr.append(question_arr[i])
            re_answer_arr.append(answer_arr[i])
            re_answer_start_arr.append(answer_start_arr[i])
            re_answer_end_arr.append(answer_end)
        # 2.2 问题+上下文+间隔符 的长度 > 模型输入长度，则滑动
        else:
            context_window_max_length = max_length - len(question_arr[i]) - space_character_length  # 滑动窗口中上下文最大可用长度
            for window_start in range(len(context_arr[i])):  # 滑动下标起始位置
                window_end = window_start + context_window_max_length  # 滑动下标结束位置
                window_end = window_end if window_end <= len(context_arr[i]) else len(context_arr[i])  # 结束位置不能超过上下文的长度
                re_answer_start = answer_start_arr[i] - window_start  # 窗口中，答案的起始位置
                re_answer_end = answer_end - window_start  # 窗口中，答案的结束位置

                # 如果答案在窗口中
                re_context_arr.append(context_arr[i][window_start:window_end])
                re_question_arr.append(question_arr[i])
                re_answer_arr.append(answer_arr[i])
                if 0 <= re_answer_start <= context_window_max_length and 0 <= re_answer_end <= context_window_max_length:
                    re_answer_start_arr.append(re_answer_start)
                    re_answer_end_arr.append(re_answer_end)
                # 如果答案不在窗口中
                else:
                    re_answer_start_arr.append(0)
                    re_answer_end_arr.append(0)

    data = {'context': re_context_arr, 'question': re_question_arr, 'answer': re_answer_arr, 'answer_start': re_answer_start_arr, 'answer_end': re_answer_end_arr}
    return pd.DataFrame(data, columns=['context', 'question', 'answer', 'answer_start', 'answer_end'])


# 注意，下标从 0 开始
# build_sample(tran_sample)
df_sample = rebuild_sample(tran_sample)
print(df_sample.shape)
df_sample.head()

(4075, 5)


Unnamed: 0,context,question,answer,answer_start,answer_end
0,范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年...,范廷颂是什么时候被任为主教的？,1963年,30,35
1,廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被...,范廷颂是什么时候被任为主教的？,1963年,29,34
2,颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被擢...,范廷颂是什么时候被任为主教的？,1963年,28,33
3,枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被擢升...,范廷颂是什么时候被任为主教的？,1963年,27,32
4,机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被擢升为...,范廷颂是什么时候被任为主教的？,1963年,26,31


In [10]:
# 注意，如果直接编码，"1990"会被拆成一个 token，需要加入数字保证拆成四个 token
tokenizer.add_tokens(new_tokens=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'])

# 测试
question_context_encode = tokenizer(df_sample['question'][0],
                                    df_sample['context'][0],
                                    return_tensors="pt",
                                    padding=True,
                                    truncation=True,
                                    max_length=512
                                   )["input_ids"][0]
print(question_context_encode)
print(tokenizer.decode(question_context_encode))  # 年份被中的数字被拆开

tensor([ 101, 5745, 2455, 7563, 3221,  784,  720, 3198,  952, 6158,  818,  711,
         712, 3136, 4638, 8043,  102, 5745, 2455, 7563, 3364, 3322, 8020, 8024,
        8021, 8024, 1760, 1399,  924, 4882,  185, 5735, 4449, 8020, 8021, 8024,
        3221, 6632, 1298, 5384, 7716, 1921,  712, 3136, 3364, 3322,  511,  122,
         130,  127,  124, 2399, 6158,  818,  711,  712, 3136, 8039,  122,  130,
         130,  121, 2399, 6158, 3091, 1285,  711, 1921,  712, 3136, 3777, 1079,
        2600, 3136, 1277, 2134, 2429, 5392, 4415, 8039,  122,  130,  130,  125,
        2399, 6158, 3091, 1285,  711, 2600,  712, 3136, 8024, 1398, 2399, 2399,
        2419, 6158, 3091, 1285,  711, 3364, 3322, 8039,  123,  121,  121,  130,
        2399,  123, 3299, 4895,  686,  511, 5745, 2455, 7563,  754,  122,  130,
         122,  130, 2399,  127, 3299,  122,  126, 3189, 1762, 6632, 1298, 2123,
        2398, 4689, 1921,  712, 3136, 1355, 5683, 3136, 1277, 1139, 4495, 8039,
        4997, 2399, 3198, 2970, 1358, 56

## 训练

## 测试

## 保存模型

## 加载模型