# 自然语言处理实战 —— 问答系统

在NLP（自然语言处理）领域，与我们生活息息相关的就是问答系统（QA），它是机器与人交互最常见的方法。

针对实际生活中的各个领域，可以依靠固定领域的数据库来进行特定问题的回答。例如电商智能客服、银行智能回答等，其实质都是问答系统的流程：

- 首先对问题内容识别分析

- 再基于先验知识，找到合适的回答

在前面三期的自然语言处理的实战中，分别体验了命名实体识别、文本分类、文本相似度分析三个 NLP 领域的基础任务。在本期中，将结合命名实体识别和文本相似度这两个任务，即
[【华为云 ModelArts-Lab AI实战营】第七期：自然语言处理（I）命名实体识别](https://github.com/huaweicloud/ModelArts-Lab/issues/931)和[【华为云 ModelArts-Lab AI实战营】第九期：自然语言处理（III）文本相似度分析](https://github.com/huaweicloud/ModelArts-Lab/issues/1087)，来完成 NLP 领域的一个上层任务——问答系统（QA）。

### 进入ModelArts

点击如下链接：https://www.huaweicloud.com/product/modelarts.html ， 进入ModelArts主页。点击“立即使用”按钮，输入用户名和密码登录，进入ModelArts使用页面。

### 创建ModelArts notebook

下面，我们在ModelArts中创建一个notebook开发环境，ModelArts notebook提供网页版的Python开发环境，可以方便的编写、运行代码，并查看运行结果。

第一步：在ModelArts服务主界面依次点击“开发环境”、“创建”

![create_nb_create_button](./img/create_nb_create_button.png)

第二步：填写notebook所需的参数：

| 参数 | 说明 |
| - - - - - | - - - - - |
| 计费方式 | 按需计费  |
| 名称 | Notebook实例名称，如 text_sentiment_analysis |
| 工作环境 | Python3 |
| 资源池 | 选择"公共资源池"即可 |
| 类型 | 本案例使用较为复杂的深度神经网络模型，需要较高算力，选择"GPU" |
| 规格 | 选择"8核 &#124; 64GiB &#124; 1*p100" |
| 存储配置 | 选择EVS，磁盘规格5GB |

第三步：配置好notebook参数后，点击下一步，进入notebook信息预览。确认无误后，点击“立即创建”

![create_nb_creation_summary](./img/create_nb_creation_summary.png)

第四步：创建完成后，返回开发环境主界面，等待Notebook创建完毕后，打开Notebook，进行下一步操作。
![modelarts_notebook_index](./img/modelarts_notebook_index.png)

### 在ModelArts中创建开发环境

接下来，我们创建一个实际的开发环境，用于后续的实验步骤。

第一步：点击下图所示的“打开”按钮，进入刚刚创建的Notebook
![inter_dev_env](img/enter_dev_env.png)

第二步：创建一个Python3环境的的Notebook。点击右上角的"New"，然后创建TensorFlow 1.13.1开发环境。

第三步：点击左上方的文件名"Untitled"，并输入一个与本实验相关的名称
![notebook_untitled_filename](./img/notebook_untitled_filename.png)
![notebook_name_the_ipynb](./img/notebook_name_the_ipynb.png)


### 在Notebook中编写并执行代码

在Notebook中，我们输入一个简单的打印语句，然后点击上方的运行按钮，可以查看语句执行的结果：
![run_helloworld](./img/run_helloworld.png)


## 知识库

“第74届奥斯卡金像奖的最佳影片是《美丽心灵》”

“《鲁迅全集》这本书是1981年出版的”

“乔丹出生在美国纽约布鲁克林”。

以上就是三条**知识**，而把大量的知识汇聚起来就成为了知识库。我们可以在wiki百科，百度百科等查阅到大量的知识。然而，这些百科的知识组建形式是非结构化的自然语言，这样的组织方式很适合人们阅读但并不适合计算机去处理。为了方便计算机的处理和理解，我们需要更加形式化、简洁化的方式去表示知识——即**三元组（triple）**。知识库通常由大量的三元组组成。

“第74届奥斯卡金像奖的最佳影片是《美丽心灵》” 可以用三元组表示为（第74届奥斯卡金像奖, 最佳影片, 美丽心灵）。

这里通常把三元组理解为（实体 entity，关系属性 attribute，属性值 value），即“第74届奥斯卡金像奖”为实体, “最佳影片”为关系属性, “美丽心灵”为属性值。

进一步的，如果我们把实体看作是结点，把实体关系（包括属性，类别等等）看作是一条边，那么包含了大量三元组的知识库就成为了一个庞大的知识图。如下即为一个小型知识图。

![knowledge_graph](./img/knowledge_graph.png)

知识图谱又是一个很复杂庞大的领域，近年来也越来越受到人们的重视，在此不进行具体的介绍，感兴趣的同学可以自行学习，并分享到我们的拓展案例或者体验文章中，分享位置是[contrib](https://github.com/huaweicloud/ModelArts-Lab/tree/master/contrib)。


## 数据集

本实战使用的中文数据集来自NLPCC（自然语言处理与中文计算会议，The Conference on Natural Language Processing and Chinese Computing）2016中的[***Task5：Open Domain Question Answering***](http://tcci.ccf.org.cn/conference/2017/taskdata.php)数据集。数据集包含 14,609 个问答对的训练集和包含 9870 个问答对的测试集。并提供一个知识库，包含 6,502,738 个实体、587,875 个属性以及 43,063,796 个三元组。

- 知识库：nlpcc-iccpol-2016.kbqa.kb
- 训练集：nlpcc-iccpol-2016.kbqa.traing-data
- 测试集：nlpcc-iccpol-2016.kbqa.testing-data

知识库文件中每行存储一个事实（fact），即三元组 ( 实体、属性、属性值) 。知识库样例如下所示：

```
"希望之星"英语风采大赛|||中文名|||“希望之星”英语风采大赛
"希望之星"英语风采大赛|||主办方|||中央电视台科教节目中心
"希望之星"英语风采大赛|||别名|||"希望之星"英语风采大赛
"希望之星"英语风采大赛|||外文名|||Star of Outlook English Talent Competition
"希望之星"英语风采大赛|||开始时间|||1998
"希望之星"英语风采大赛|||比赛形式|||全国选拔
"希望之星"英语风采大赛|||节目类型|||英语比赛
计算机应用基础 ||| 别名 ||| 计算机应用基础
计算机应用基础 ||| 中文名 ||| 计算机应用基础
计算机应用基础 ||| 作者 ||| 刘晓斌、魏智荣、刘庆生
计算机应用基础 ||| 类别 ||| 计算机/网络 > 计算机理论
计算机应用基础 ||| 字数 ||| 445000
计算机应用基础 ||| ISBN ||| 9787122177513
计算机应用基础 ||| 出版社 ||| 化学工业出版社
计算机应用基础 ||| 页数 ||| 255
计算机应用基础 ||| 开本 ||| 16开
计算机应用基础 ||| 出版时间 ||| 2013年
计算机应用基础 ||| 装帧 ||| 平装
计算机应用基础 ||| 原作者 ||| 刘升贵，黄敏，庄强兵
计算机应用基础 ||| 定价 ||| 29.00元
```

由于原数据集中知识库数据量庞大（2.3G），在本实战中提供的知识库文件仅为节选示例。

训练集和测试集为经过[预处理](https://github.com/huangxiangzhou/NLPCC2016KBQA)包含三元组的数据集。

### 准备源代码和数据

准备案例所需的源代码和数据，相关资源已经保存在OBS中，我们通过ModelArts SDK将资源下载到本地。

In [1]:
from modelarts.session import Session
session = Session()

if session.region_name == 'cn-north-1':
    bucket_path = 'modelarts-labs/notebook/DL_nlp_qa/qa.tar.gz'
    
elif session.region_name == 'cn-north-4':
    bucket_path = 'modelarts-labs-bj4/notebook/DL_nlp_qa/qa.tar.gz'
else:
    print("请更换地区到北京一或北京四")
    
session.download_data(bucket_path=bucket_path, path='./qa.tar.gz')

!ls -la

Successfully download file modelarts-labs/notebook/DL_nlp_qa/qa.tar.gz from OBS to local ./qa.tar.gz
total 375464
drwxrwxrwx  3 ma-user ma-group      4096 Sep 30 17:31 .
drwsrwsr-x 20 ma-user ma-group      4096 Sep 30 17:17 ..
drwxr-x---  2 ma-user ma-group      4096 Sep 30 17:17 .ipynb_checkpoints
-rw-r-----  1 ma-user ma-group     91607 Sep 30 17:30 qa.ipynb
-rw-r-----  1 ma-user ma-group 384366229 Sep 30 17:31 qa.tar.gz


解压从obs下载的压缩包，解压后删除压缩包。

In [2]:
!tar xf ./qa.tar.gz

!rm ./qa.tar.gz

!ls -la   

total 108
drwxrwxrwx  4 ma-user ma-group  4096 Sep 30 17:31 .
drwsrwsr-x 20 ma-user ma-group  4096 Sep 30 17:17 ..
drwxr-x---  2 ma-user ma-group  4096 Sep 30 17:17 .ipynb_checkpoints
drwxr-x---  8 ma-user ma-group  4096 Sep 30 17:15 qa
-rw-r-----  1 ma-user ma-group 91607 Sep 30 17:30 qa.ipynb


基于知识库的问答（KBQA）拆分为两个主要步骤: **命名实体识别**步骤和**属性映射**步骤。

其中，实体识别步骤的目的是找到问句中询问的实体名称，而属性映射步骤的目的在于找到问句中询问的相关属性。

下面分别进行这两个步骤。


## 命名实体识别

[【华为云 ModelArts-Lab AI实战营】第七期：自然语言处理（I）命名实体识别](https://github.com/huaweicloud/ModelArts-Lab/issues/931)中，进行了中文命名实体识别的任务。

在这里，我们同样使用该方法来识别出问句中的实体内容，即知识库的实体，来找到实体对应的知识。两者的区别是，在[实战营的第七期](https://github.com/huaweicloud/ModelArts-Lab/issues/931)中，选择识别的命名实体包括人名、地名、组织机构名，而在本实战中，只需要识别包含在知识库的一个实体。

构造NER的数据集，需要根据三元组-Enitity 反向标注问题，给数据集中的Question 打标签。在这里采用BIO的标注方式，将每个元素标注为“B-X”、“I-X”或者“O”：

- “B-X”（Begin）表示此元素所在的片段属于X类型并且此元素在此片段的开头；

- “I-X”（Inside）表示此元素所在的片段属于X类型并且此元素在此片段的中间位置；

- “O”（Outside）表示不属于任何类型。

在第七期中，把“X”为“LOC”代表地名，“PER”代表人名，“ORG”代表组织机构名。由于本任务无需区分地点名、人名和组织名，只需要识别出实体，因此用B-LOC, I-LOC代替其他的标注类型，即B-LOC表示实体首字，I-LOC表示实体非首字。

使用本实践的数据集进行标注，标注前示例：

```
《机械设计基础》这本书的作者是谁？     机械设计基础

《高等数学》是哪个出版社出版的？        高等数学
 ```
 
标注后为：

![ner_tagging](./img/ner_tagging.png)

本实战已为开发者做好命名实体的数据标注工作，，储存在`data/data_ner`文件夹下的`train.txt`中.

执行下面程序，查看前50行标注。

In [3]:
with open("./qa/data/data_ner/train.txt", "r") as f:
    d = f.readlines()
    for i in range(50):
        print(d[i])

《 O

机 B-LOC

械 I-LOC

设 I-LOC

计 I-LOC

基 I-LOC

础 I-LOC

》 O

这 O

本 O

书 O

的 O

作 O

者 O

是 O

谁 O

？ O

   

《 O

高 B-LOC

等 I-LOC

数 I-LOC

学 I-LOC

》 O

是 O

哪 O

个 O

出 O

版 O

社 O

出 O

版 O

的 O

？ O

   

《 O

线 B-LOC

性 I-LOC

代 I-LOC

数 I-LOC

》 O

这 O

本 O

书 O

的 O

出 O

版 O

时 O

间 O

是 O



本实战中的命名实体识别任务与[实战营的第七期](https://github.com/huaweicloud/ModelArts-Lab/issues/931)步骤基本相同，使用**BERT**模型完成，故不在此列出，封装到`bert_ner.py`文件中。

参数设置如下：

```
max_seq_length = 128          #序列最大长度
train_batch_size = 64         #训练批尺寸
predict_batch_size = 64        #测试批尺寸
learning_rate = 5e-5          #学习率
num_train_epochs = 5.0         #训练轮数
dropout_rate = 1             #随机失活率
warmup_proportion = 0.1        #预热训练
```

执行下面程序块运行，完成命名实体识别的训练和测试。

In [4]:
#进行命名实体识别的训练、验证和测试
from qa import bert_ner

bert_ner.main(_)

INFO:tensorflow:Using config: {'_model_dir': './qa/output_ner', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
graph_options {
  rewrite_options {
    meta_optimizer_iterations: ONE
  }
}
, '_keep_checkpoint_max': 1, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': None, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_service': None, '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x7f8dc15c8940>, '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1, '_tpu_config': TPUConfig(iterations_per_loop=1000, num_shards=8, num_cores_per_replica=None, per_host_input_for_training=3, tpu_job_name=None, initial_infeed_sleep_secs=None, inpu

O B-LOC I-LOC I-LOC I-LOC I-LOC I-LOC O O O O O O O O O O


INFO:tensorflow:Writing example 5000 of 13637
INFO:tensorflow:Writing example 10000 of 13637
INFO:tensorflow:***** Running training *****
INFO:tensorflow:  Num examples = 13637
INFO:tensorflow:  Batch size = 64
INFO:tensorflow:  Num steps = 1065
Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Use `tf.data.experimental.map_and_batch(...)`.
Instructions for updating:
Use tf.cast instead.
INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Running train on CPU
Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.
Instructions for updating:
Use keras.layers.dense instead.


shape of input_ids (64, 128)


Instructions for updating:
Please use `keras.layers.RNN(cell)`, which is equivalent to this API
Instructions for updating:
Deprecated in favor of operator or tf.math.divide.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Create CheckpointSaverHook.
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Saving checkpoints for 0 into ./qa/output_ner/model.ckpt.
INFO:tensorflow:global_step/sec: 1.0474
INFO:tensorflow:examples/sec: 67.0333
INFO:tensorflow:global_step/sec: 1.12179
INFO:tensorflow:examples/sec: 71.7943
INFO:tensorflow:global_step/sec: 1.12324
INFO:tensorflow:examples/sec: 71.8874
INFO:tensorflow:global_step/sec: 1.12284
INFO:tensorflow:examples/sec: 71.8615
INFO:tensorflow:global_step/sec: 1.12351
INFO:tensorflow:examples/sec: 71.9046
INFO:tensorflow:global_step/sec: 1.12301
INFO:tensorflow:examples/sec: 71.8723
INFO:tensorflow:Saving checkpoints for 657 into ./qa/output_ner/model.ckpt.


INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label_ids: 9 1 1 1 6 7 7 7 1 1 1 1 1 1 1 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0


O O O B-LOC I-LOC I-LOC I-LOC I-LOC I-LOC I-LOC O O O O O O O O O O


INFO:tensorflow:Writing example 5000 of 9016
INFO:tensorflow:***** Running prediction*****
INFO:tensorflow:  Num examples = 9016
INFO:tensorflow:  Batch size = 64
INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Running infer on CPU


shape of input_ids (?, 128)


INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Graph was finalized.
Instructions for updating:
Use standard file APIs to check for files with this prefix.
INFO:tensorflow:Restoring parameters from ./qa/output_ner/model.ckpt-1065
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:prediction_loop marked as finished


打印测试评价指标
processed 145137 tokens with 9016 phrases; found: 9050 phrases; correct: 8639.
accuracy:  99.43%; precision:  95.46%; recall:  95.82%; FB1:  95.64
              LOC: precision:  95.46%; recall:  95.82%; FB1:  95.64  9050



至此，问答系统构建的前半部分已经完成，接下来进行后半部分的工作——属性映射。

## 属性映射

属性映射目的在于找到问句中询问的相关属性，转换成文本相似度问题，即[【华为云 ModelArts-Lab AI实战营】第九期：自然语言处理（III）文本相似度分析](https://github.com/huaweicloud/ModelArts-Lab/issues/1087)。

构造用于文本相似度分析的训练集和测试集，构造测试集的整体关系集合，通过提取和去重，获得若干关系集合；每个sample由“问题句+关系属性+label”构成，原始数据中的关系属性的label为 1；从关系集合中随机采样五个属性作为 Negative Samples，label为0。

本实战已为开发者做好属性映射的数据处理，储存在`data/data_sim`文件夹下的`train.txt`中。

打印训练集前50行的问题、三元组、答案和属性，示例如下：

In [5]:
with open("./qa/data/data_sim/train.txt", "r") as f:
    d = f.readlines()
    for i in range(50):
        print(d[i])

12005	请问有没有其他出版社出版了东京暗鸦？	信噪比	0

12006	请问有没有其他出版社出版了东京暗鸦？	职位	0

12007	请问有没有其他出版社出版了东京暗鸦？	生产年份	0

12008	请问草根金融论坛的联系方式是什么？	联络方式	1

12009	请问草根金融论坛的联系方式是什么？	设计	0

12010	请问草根金融论坛的联系方式是什么？	建置时间	0

12011	请问草根金融论坛的联系方式是什么？	原料	0

12012	请问草根金融论坛的联系方式是什么？	人口总数	0

12013	请问草根金融论坛的联系方式是什么？	产生	0

12014	请问足跟骨刺是否被纳入了医保体系?	是否进入医保	1

12015	请问足跟骨刺是否被纳入了医保体系?	外观设计	0

12016	请问足跟骨刺是否被纳入了医保体系?	初次登场	0

12017	请问足跟骨刺是否被纳入了医保体系?	定名人	0

12018	请问足跟骨刺是否被纳入了医保体系?	t(厚度)	0

12019	请问足跟骨刺是否被纳入了医保体系?	友好城市	0

12020	请问西北大学的研究生有多少人？	研究生	1

12021	请问西北大学的研究生有多少人？	cpu主频	0

12022	请问西北大学的研究生有多少人？	最大输出功率	0

12023	请问西北大学的研究生有多少人？	定价	0

12024	请问西北大学的研究生有多少人？	注释	0

12025	请问西北大学的研究生有多少人？	放大倍率	0

12026	请问生地饴糖鸡属于什么食物？	所属类型	1

12027	请问生地饴糖鸡属于什么食物？	副职	0

12028	请问生地饴糖鸡属于什么食物？	cpu主频	0

12029	请问生地饴糖鸡属于什么食物？	青年队	0

12030	请问生地饴糖鸡属于什么食物？	主板架构	0

12031	请问生地饴糖鸡属于什么食物？	配 音	0

12032	请问哪个公司出版了《忘忧草》啊？	音乐公司	1

12033	请问哪个公司出版了《忘忧草》啊？	转职业年	0

12034	请问哪个公司出版了《忘忧草》啊？	网站性质	0

12035	请问哪个公司出版了《忘忧草》啊？	专长	0

12036	请问哪个公司出版了《忘忧草》啊？	领导者	0

12037	请问哪个公司出版了《忘忧草》啊？	

下面进行属性映射的训练和测试，与[【华为云 ModelArts-Lab AI实战营】第九期：自然语言处理（III）文本相似度分析](https://github.com/huaweicloud/ModelArts-Lab/issues/1087)步骤基本相同，使用**BERT**模型完成，故不在此列出，封装到`bert_similarity.py`文件中。 

参数设置如下：

```
num_train_epochs = 5        #训练轮数
batch_size = 64           #批尺寸
learning_rate = 0.00005      #学习率
gpu_memory_fraction = 0.9     #gpu使用率
layer_indexes = [-2]        #句向量选取
max_seq_len = 64          #序列最大长度
```

执行下面程序块运行，完成属性映射（文本相似度分析）的训练和测试。

In [6]:
from qa import bert_similarity 
import tensorflow as tf

#BertSim为BERT相似度检验类
sim = bert_similarity.BertSim()

#在训练集上进行相似度模型训练
sim.set_mode(tf.estimator.ModeKeys.TRAIN)
sim.train()

#在验证集上进行相似度验证
sim.set_mode(tf.estimator.ModeKeys.EVAL)
sim.eval()

INFO:tensorflow:Using config: {'_model_dir': './qa/output_sim/', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': gpu_options {
  per_process_gpu_memory_fraction: 0.9
  allow_growth: true
}
, '_keep_checkpoint_max': 1, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_service': None, '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x7f8dc19d62e8>, '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
INFO:tensorflow:Using config: {'_model_dir': './qa/output_sim/', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': gpu_op

INFO:tensorflow:global_step/sec: 2.18275
INFO:tensorflow:loss = 0.00057690404, step = 2200 (45.814 sec)
INFO:tensorflow:global_step/sec: 2.18302
INFO:tensorflow:loss = 0.00024280635, step = 2300 (45.808 sec)
INFO:tensorflow:global_step/sec: 2.18192
INFO:tensorflow:loss = 0.0028881684, step = 2400 (45.831 sec)
INFO:tensorflow:global_step/sec: 2.18054
INFO:tensorflow:loss = 0.006113374, step = 2500 (45.860 sec)
INFO:tensorflow:Saving checkpoints for 2536 into ./qa/output_sim/model.ckpt.
INFO:tensorflow:global_step/sec: 1.68529
INFO:tensorflow:loss = 0.0013344908, step = 2600 (59.337 sec)
INFO:tensorflow:global_step/sec: 2.18049
INFO:tensorflow:loss = 0.0038962504, step = 2700 (45.861 sec)
INFO:tensorflow:global_step/sec: 2.18183
INFO:tensorflow:loss = 0.006715819, step = 2800 (45.834 sec)
INFO:tensorflow:global_step/sec: 2.17844
INFO:tensorflow:loss = 0.055857826, step = 2900 (45.904 sec)
INFO:tensorflow:global_step/sec: 2.1794
INFO:tensorflow:loss = 0.00040053533, step = 3000 (45.884 se

INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)
INFO:tensorflow:Writing example 10000 of 12005
INFO:tensorflow:***** Running evaluation *****
INFO:tensorflow:  Num examples = 12005
INFO:tensorflow:  Batch size = 64
INFO:tensorflow:Using config: {'_model_dir': './qa/output_sim/', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': gpu_options {
  per_process_gpu_memory_fraction: 0.9
  allow_growth: true
}
, '_keep_checkpoint_max': 1, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_di

接下来，整合前面两个步骤，进行完整的基于知识库的问答系统构建。

## 问答系统（QA）

整合以上两个步骤，就可以完成一个简单的基于知识库的问答系统。下面为具体说明：

####  1. 命名实体识别：输入问题，使用BERT模型得到问题中的实体，在知识库中检索出包含该实体的所有知识组合。

#### 2. 属性映射：在包含实体的知识组合中，进行文本相似度分析寻找答案，又可分为非语义匹配和语义匹配。

  - **非语义匹配**：如果一个知识三元组的关系属性是输入问题的子集（相当于字符串匹配），则该三元组对应的答案匹配为正确答案。非语义匹配步骤可以大大加速匹配。

  - **语义匹配**：即可转化为分类问题，利用BERT模型计算输入问题与知识三元组的相似度，将最相近的三元组对应的答案匹配为正确答案。

原数据集中知识库数据量庞大（2.3G），共43,063,796个三元组，在本实战中选择使用训练集的14620个问答对对应的三元组生成知识库，用于完成简易问答任务。若需要使用完整知识库，请自行下载[Task 5: Open Domain Question Answering](http://tcci.ccf.org.cn/conference/2017/taskdata.php)使用。（由于原知识库较大，建议使用数据库进行存储、查找等操作。）

本实战已为开发者做好三元组知识库的数据处理，储存在`data/data_qa`文件夹下的`triple.txt`中。

执行下面程序，读取三元组知识库，储存在`triple_data`中，并打印前50条知识。

In [7]:
import pandas as pd

triple_data = pd.read_csv('./qa/data/data_qa/triple.txt', encoding='utf-8', sep='\t', header=None)
print(triple_data[:50])

          0     1                                   2
0    机械设计基础    作者                         杨可桢，程光蕴，李仲生
1      高等数学   出版社                             武汉大学出版社
2      线性代数  出版时间                          2013/12/30
3       安德烈    国籍                                 摩纳哥
4      线性代数  isbn                   978-7-111-36843-4
5      高等数学    书名                          高等数学一（微积分）
6      万达广场   外文名                    amoy wanda plaza
7        李明  出生日期                              1963.1
8     韩娱守护力  小说进度                                  连载
9        夏想  连载网站                                潇湘书院
10  大学计算机基础    页数                                 272
11      城关镇   中文名                            城关镇[临澧县]
12       李明   出生地                                青海湟源
13  大学计算机基础    定价                                25 元
14       李军    职业                      河南省林业厅党组成员、副厅长
15       文庙  中文名称                                  文庙
16       杨明    民族                                  苗族
17      毛泽东    装帧           

建立好知识库后，即可进行基于知识库的问答系统搭建，问答步骤依次为：

1. 请提问：输入与知识库相关问题

- 打印问题token，实体标注结果，并输出识别实体

- 找到结果的可能来源知识集合并打印

- 属性映射：分别进行语义匹配（查找属性是否在问题中）和非语义匹配（相似度匹配）

- 相似度最高即为匹配答案，并打印答案来源知识及用时

- 可进行多轮问答，输入回车结束在线KBQA

#### 首先导入依赖包

In [8]:
import numpy as np
from qa.bert import tokenization
from qa.bert_similarity import BertSim
from qa.bert_qa import *

INFO:tensorflow:Using config: {'_model_dir': './qa/output_sim/', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': gpu_options {
  per_process_gpu_memory_fraction: 0.9
  allow_growth: true
}
, '_keep_checkpoint_max': 1, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_service': None, '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x7f8da77a8b38>, '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
Instructions for updating:
tf.py_func is deprecated in TF V2. Instead, use
    tf.py_function, which takes a python function which manipulates tf eager
    tensors instead of numpy arrays. It's easy to conve

checkpoint path:./qa/output_ner/checkpoint
going to restore checkpoint


INFO:tensorflow:Restoring parameters from ./qa/output_ner/model.ckpt-1065


#### 读取BERT预训练模型中文字典

In [9]:
tokenizer = tokenization.FullTokenizer(vocab_file=vocab_file, do_lower_case=True)

tokenizer.tokenize("今天的天气真好！")

INFO:tensorflow:Done calling model_fn.


['今', '天', '的', '天', '气', '真', '好', '！']

#### 分别获得每个字的字向量、位置向量、文本向量和标签

In [10]:
def convert(line):
    feature = convert_single_example(0, line, label_list, max_seq_length, tokenizer, 'p')
    input_ids = np.reshape([feature.input_ids],(batch_size, max_seq_length))
    input_mask = np.reshape([feature.input_mask],(batch_size, max_seq_length))
    segment_ids = np.reshape([feature.segment_ids],(batch_size, max_seq_length))
    label_ids =np.reshape([feature.label_ids],(batch_size, max_seq_length))
    return input_ids, input_mask, segment_ids, label_ids

### 构建问答系统

In [13]:
def kbqa():
    while True:
        print('\n\033[1;31m请提问:\033[0m\n')
        sentence = str(input())
        if len(sentence) == 0:
            print("再见啦！")
            return
        
        sentence_ = tokenizer.tokenize(sentence)
        print('\n你的问题是:{}'.format(sentence_))
        input_ids, input_mask, segment_ids, label_ids = convert(sentence_)

        feed_dict = {input_ids_p: input_ids,
                     input_mask_p: input_mask,
                     segment_ids_p:segment_ids,
                     label_ids_p:label_ids}

        pred_ids_result = sess.run([pred_ids], feed_dict)
        pred_label_result = convert_id_to_label(pred_ids_result, id2label)
        print("\n实体标注结果为：",pred_label_result)
        result = strage_combined_link_org_loc(sentence_, pred_label_result[0])
        print('\n识别的实体是：{}'.format(''.join(result)),'\n')

        ans_range = []
        for j in range(len(triple_data)):
            if triple_data[0][j] == result[0]:
                triple_range = [triple_data[0][j],triple_data[1][j],triple_data[2][j]]
                print("结果可能来自：",triple_range)
                ans_range.append(triple_range)
                
        ans = None
        ans_base = None
        score = 0

        for k in range(len(ans_range)):
            print("\n知识三元组%d："%(k+1),ans_range[k][0],ans_range[k][1],ans_range[k][2])

            #非语义匹配
            if ans_range[k][1] in sentence:
                print("属性“",ans_range[k][1],"”在问题中")
                ans_ = 1

            #语义匹配
            else:                
                ans_ = max(bs.predict(ans_range[k][0]+ans_range[k][1]+ans_range[k][2],sentence)[0])
            print("相似度为：",ans_)

            if score < ans_:
                score = ans_
                ans = ans_range[k][2]
                ans_base = ans_range[k]

        if score < 0.8:
            print("\n\033[1;31m答案不确定\033[0m")
            
        else:
            print("\n答案来自三元组：",ans_base[0],ans_base[1],ans_base[2])
            print("相似度为：", score)
            print("\n\033[1;31m答案是：{}\033[0m".format(ans))

#### 下面就可以运行`kbqa()`来进行基于知识库的多轮在线问答。

### 注意，由于使用的知识库规格限制，请先大致浏览`./qa/data/data_qa/`文件夹下`triple.txt`文件中的三元组知识，以免无关问题造成问答效果不佳。

In [16]:
kbqa()


[1;31m请提问:[0m

西游记每集多长时间？


INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 西 游 记 类 型 奇 幻 [SEP] 西 游 记 每 集 多 长 时 间 ？ [SEP]
INFO:tensorflow:input_ids: 101 6205 3952 6381 5102 1798 1936 2404 102 6205 3952 6381 3680 7415 1914 7270 3198 7313 8043 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)
INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 西 游 记 首 播 时 间 2010 年 1 月 3 日 [SEP] 西 游 记 每 集 多 长 时 间 ？ [SEP]
INFO:tensorflow:input_ids: 101 6205 3952 6381 7674 3064 3198 7313 8166 2399 122 3299 124 3189 102 6205 3952 6381 3680 7415 1914 7270 3198 7313 8043 102 


你的问题是:['西', '游', '记', '每', '集', '多', '长', '时', '间', '？']

实体标注结果为： [['B-LOC', 'I-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]

识别的实体是：西游记 

结果可能来自： ['西游记', '类型', '奇幻']
结果可能来自： ['西游记', '首播时间', '2010年1月3日']
结果可能来自： ['西游记', '国家／地区', '中国大陆']
结果可能来自： ['西游记', '每集长度', '54分钟']
结果可能来自： ['西游记', '播映', '中央电视台']

知识三元组1： 西游记 类型 奇幻
相似度为： 0.97977567

知识三元组2： 西游记 首播时间 2010年1月3日


INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 西 游 记 国 家 ／ 地 区 中 国 大 陆 [SEP] 西 游 记 每 集 多 长 时 间 ？ [SEP]
INFO:tensorflow:input_ids: 101 6205 3952 6381 1744 2157 8027 1765 1277 704 1744 1920 7355 102 6205 3952 6381 3680 7415 1914 7270 3198 7313 8043 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)
INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 西 游 记 每 集 长 度 54 分 钟 [SEP] 西 游 记 每 集 多 长 时 间 ？ [SEP]
INFO:tensorflow:input_ids: 101 6205 3952 6381 3680 7415 7270 2428 8267 1146 7164 102 6205 3952 6381 3680 7415 1914 7270 3198 7313 8043 1

相似度为： 0.9963476

知识三元组3： 西游记 国家／地区 中国大陆
相似度为： 0.675162

知识三元组4： 西游记 每集长度 54分钟
相似度为： 0.9998462

知识三元组5： 西游记 播映 中央电视台
相似度为： 0.99562705

答案来自三元组： 西游记 每集长度 54分钟
相似度为： 0.9998462

[1;31m答案是：54分钟[0m

[1;31m请提问:[0m

线性代数的出版时间是什么时候？


INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 线 性 代 数 isbn ##97 ##8 - 7 - 111 - 368 ##43 - 4 [SEP] 线 性 代 数 的 出 版 时 间 是 什 么 时 候 ？ [SEP]
INFO:tensorflow:input_ids: 101 5296 2595 807 3144 8446 9410 8156 118 128 118 8932 118 11642 9433 118 125 102 5296 2595 807 3144 4638 1139 4276 3198 7313 3221 784 720 3198 952 8043 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)
INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 线 性 代 数 书 号 368 ##43 [SEP] 线 性 代 数 的 出 版 时 间 是 什 么 时 候 ？ [SEP]
INFO:tensorflow:input_ids: 101 5296 2595 807 3144 741 1384 11642 9433 102 5


你的问题是:['线', '性', '代', '数', '的', '出', '版', '时', '间', '是', '什', '么', '时', '候', '？']

实体标注结果为： [['B-LOC', 'I-LOC', 'I-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]

识别的实体是：线性代数 

结果可能来自： ['线性代数', '出版时间', '2013/12/30']
结果可能来自： ['线性代数', 'isbn', '978-7-111-36843-4']
结果可能来自： ['线性代数', '书号', '36843']
结果可能来自： ['线性代数', '作者', '侯亚君']
结果可能来自： ['线性代数', '出版社', '清华大学出版社']
结果可能来自： ['线性代数', '定价', '26元']

知识三元组1： 线性代数 出版时间 2013/12/30
属性“ 出版时间 ”在问题中
相似度为： 1

知识三元组2： 线性代数 isbn 978-7-111-36843-4
相似度为： 0.9995728

知识三元组3： 线性代数 书号 36843


INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)
INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 线 性 代 数 作 者 侯 亚 君 [SEP] 线 性 代 数 的 出 版 时 间 是 什 么 时 候 ？ [SEP]
INFO:tensorflow:input_ids: 101 5296 2595 807 3144 868 5442 908 762 1409 102 5296 2595 807 3144 4638 1139 4276 3198 7313 3221 784 720 3198 952 8043 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)
INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [

相似度为： 0.9996922

知识三元组4： 线性代数 作者 侯亚君
相似度为： 0.97082436

知识三元组5： 线性代数 出版社 清华大学出版社
相似度为： 0.9994628

知识三元组6： 线性代数 定价 26元
相似度为： 0.98183894

答案来自三元组： 线性代数 出版时间 2013/12/30
相似度为： 1

[1;31m答案是：2013/12/30[0m

[1;31m请提问:[0m

迈克尔·杰克逊的资产是多少？


INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 迈 克 尔 · 杰 克 逊 逝 世 2009 年 6 月 25 日 （ 50 岁 ） 美 国 加 利 福 尼 亚 州 洛 杉 矶 市 荷 尔 贝 山 [SEP] 迈 克 尔 · 杰 克 逊 的 资 产 是 多 少 ？ [SEP]
INFO:tensorflow:input_ids: 101 6815 1046 2209 185 3345 1046 6849 6860 686 8170 2399 127 3299 8132 3189 8020 8145 2259 8021 5401 1744 1217 1164 4886 2225 762 2336 3821 3329 4768 2356 5792 2209 6564 2255 102 6815 1046 2209 185 3345 1046 6849 4638 6598 772 3221 1914 2208 8043 102 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)



你的问题是:['迈', '克', '尔', '·', '杰', '克', '逊', '的', '资', '产', '是', '多', '少', '？']

实体标注结果为： [['B-LOC', 'I-LOC', 'I-LOC', 'I-LOC', 'I-LOC', 'I-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]

识别的实体是：迈克尔·杰克逊 

结果可能来自： ['迈克尔·杰克逊', '逝世', '2009年6月25日（50岁） 美国加利福尼亚州洛杉矶市荷尔贝山']
结果可能来自： ['迈克尔·杰克逊', '厂牌', '钢城唱片 摩城唱片 史诗唱片 遗产唱片 mjj制作']
结果可能来自： ['迈克尔·杰克逊', '净资产', '▲ 11.78亿美元 （2009年估算）[1]']

知识三元组1： 迈克尔·杰克逊 逝世 2009年6月25日（50岁） 美国加利福尼亚州洛杉矶市荷尔贝山


INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 迈 克 尔 · 杰 克 逊 厂 牌 钢 城 唱 片 摩 城 唱 片 史 诗 唱 片 遗 产 唱 片 m ##j ##j 制 作 [SEP] 迈 克 尔 · 杰 克 逊 的 资 产 是 多 少 ？ [SEP]
INFO:tensorflow:input_ids: 101 6815 1046 2209 185 3345 1046 6849 1322 4277 7167 1814 1548 4275 3040 1814 1548 4275 1380 6408 1548 4275 6890 772 1548 4275 155 8334 8334 1169 868 102 6815 1046 2209 185 3345 1046 6849 4638 6598 772 3221 1914 2208 8043 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
INFO:tensorflow:label: 0 (id = 0)
INFO:tensorflow:*** Example ***
INFO:tensorflow:guid: test-0
INFO:tensorflow:tokens: [CLS] 迈 克 尔 · 杰 克 逊 净 资 产 ▲ 11 . 78 亿 美 元 （ 2009 年 估 算 ） [ 1 ] [SEP] 迈 克 尔 · 杰 克 逊 的 资

相似度为： 0.9995204

知识三元组2： 迈克尔·杰克逊 厂牌 钢城唱片 摩城唱片 史诗唱片 遗产唱片 mjj制作
相似度为： 0.9938148

知识三元组3： 迈克尔·杰克逊 净资产 ▲ 11.78亿美元 （2009年估算）[1]
相似度为： 0.9997197

答案来自三元组： 迈克尔·杰克逊 净资产 ▲ 11.78亿美元 （2009年估算）[1]
相似度为： 0.9997197

[1;31m答案是：▲ 11.78亿美元 （2009年估算）[1][0m

[1;31m请提问:[0m


再见啦！


至此，使用BERT进行基于知识库的问答系统搭建完毕。

本实战营系列的自然语言处理（NLP）领域的四期案例到此也告一段落。

NLP是深度学习、人工智能非常重要且复杂的领域，本实战营只是带领大家浅显地了解，有待大家持续探索！