# 基于预训练模型 ERNIE-1.0 实现文本语义匹配

# 一 、前言

文本语义匹配任务，简单来说就是给定两段文本，让模型来判断两段文本是不是语义相似，属于NLP经典任务中的分类任务。文本匹配是自然语言处理中一个重要的基础问题，可以应用于大量的NLP任务中，如信息检索、问答系统、复述问题、对话系统、机器翻译等，自然语言处理中的许多任务都可以抽象为文本匹配任务，语义匹配任务具有重要研究意义。
  
    
为对语义匹配问题进行初探索，本文采取权威的PAWS语序对抗问题匹配数据集，运用预训练模型ERINE - 1.0，进行文本语义匹配。将结果提交到[千言数据集：文本相似度比赛](https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition)，目前排名148/2179， 持续优化中。

# 二 、文本语义匹配

__2.1 文本语义匹配的研究历史__    


2.1.1 传统文本匹配方法  

>传统的文本匹配技术如信息检索中的向量空间模型 VSM、BM25 等算法，主要解决词汇层面的匹配问题，或者说词汇层面的相似度问题。而实际上，基于词汇重合度的匹配算法有很大的局限性，包括：语言的多义同义问题、语言的组合结构问题、匹配的非对称问题。这表明对于文本匹配任务，不能只停留在字面匹配层面，更需要语义层面的匹配。  
  
2.1.2 语义分析技术  
>上世纪 90 年代流行起来的潜在语义分析技术（Latent Semantic Analysis，LSA），开辟了一个新思路，将词句映射到等长的低维连续空间，可在此隐式的「潜在语义」空间上进行相似度计算。此后又有 PLSA（Probabilistic Latent Semantic Analysis）、LDA（Latent Dirichlet Allocation）等更高级的概率模型被设计出来，逐渐形成非常火热的主题模型技术方向。  
这些技术对文本的语义表示形式简洁、运算方便，较好的弥补了传统词汇匹配方法的不足。不过从效果上来看，这些技术都无法替代字面匹配技术，只能作为字面匹配的有效补充。  

2.1.3 深度语义匹配模型  

>深度学习技术兴起后，文本匹配模型层出不穷，包括DSSM, CDSSM, MV-LSTM, Match-SRNN等，虽然深度学习能够很大的提高匹配的准确率，但是同时也需要很长的计算时间，对话过程中长时间的等待会很大的降低用户体验，根据任务场景选择模型显得比较重要。
  
2.1.4 基于预训练模型的文本语义匹配
> 预训练模型(Pre-trained Models)的出现将NLP带入了一个全新时代，预训练语言模型在下游任务具有：更少的标注数据、更高的任务效果、更简单的网络结构适配等优点，使许多NLP任务获得显著的性能提升。  
  
基于预训练模型的文本语义匹配：

![](https://ai-studio-static-online.cdn.bcebos.com/e399d16bd219404f8a3dc0075f7f7e874aa6ed7e74a544299de76b2ad6d43c7e)  

__2.2 文本语义匹配的难点__   
>文本语义匹配的难点主要包括：多义同义问题，组合结构问题，表达的多样性问题，匹配的非对称性问题  

__2.3 语义匹配的分类和应用__  
  
2.3.1 短文本-短文本语义匹配
>例如，在网页搜索中，我们需要度量用户查询 (query) 和网页标题 (web page title) 的语义相关性；在query推荐中，我们需要度量query和其他query之间的相似度。这些场景都会用到短文本-短文本的语义匹配。 由于主题模型在短文本上的效果不太理想，在短文本-短文本匹配任务中词向量的应用比主题模型更为普遍。简单的任务可以使用Word2Vec这种浅层的神经网络模型训练出来的词向量。  
  
2.3.2 短文本-长文本语义匹配
  
>例如，在搜索引擎中，我们需要计算一个用户查询（query）和一个网页正文（content）的语义相关度。在计算相似度的时候，我们规避对短文本直接进行主题映射，而是根据长文本的主题分布，计算该分布生成短文本的概率，作为它们之间的相似度。  
  
2.3.3 长文本-长文本语义匹配  
  
>通过使用主题模型，我们可以得到两个长文本的主题分布，再通过计算两个多项分布的距离来衡量它们之间的相似度。衡量多项分布的距离可以利用Hellinger Distance和Jensen-Shannon Divergence (JSD)。应用案例有新闻个性化推荐，小说个性化推荐，垂类新闻CTR预估等。
  

  

# 三 、预训练模型ERINE 

__3.1 ERNIE：基于知识增强的语义理解模型__  
  
2019年，百度提出知识增强的语义表示模型 ERNIE（Enhanced Representation from kNowledge IntEgration），在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理（NLP）各类中文任务上的验证显示，模型效果全面超越 BERT。
  
Pre-training阶段:

>(1) 12层Transformer Encoder  
 (2) 交互式双向语言模型建模  
 (3) 同时训练 token-level & sentence-level task  
 (4) 自编码语言模型 ，15% mask概率
    句对预测任务，强迫模型通过全局信息去预测mask掉的内容（与BERT最大的区别)  
      
      
Fine-tuning 阶段：  
  
>基于Model-Based 方式  
    
 __3.2 其他预训练模型__  
   
 详见[NLP 前置知识3 —— 预训练模型](https://blog.csdn.net/qq_43123477/article/details/123300506?spm=1001.2014.3001.5502)  
 （本人学习过程中在CSDN输出的知识总结）


# 四、项目思路

![](https://ai-studio-static-online.cdn.bcebos.com/dd30e17318fb48fabb5701fd8a97be8176a1e372dd134cc0826e58cb5401933d)

# 五、数据准备

## 5.1 数据集介绍

本项目采取了千言数据集中的PAWS语序对抗问题匹配数据集，词汇高度重合，考察模型对句法结构的理解能力。  
该数据集的任务定义如下：给定两个问题Q，判定该问题对语义是否匹配。  



| 类型     | 句子1     | 句子2 |标签|
| -------- | -------- | -------- | --------  |
| 相似文本   |当可以保持相当的流速时，结果很高。     |当可以保持可比较的流速时，结果很高。	 |1 |
| 不相似文本 | 还有具体的讨论，公众形象辩论和项目讨论。 | 怎么最近安全老是要改密码呢好麻烦 |0|  
  
  此外，本数据集划分为了训练集、验证集和测试集，具体统计数据如下表所示：



|数据集名称	| 训练集大小	 | 开发集大小	 |测试集大小 |
| -------- | -------- | -------- | -- |
| PAWS-X(中文)	    |49401	     | 2000	   | 2000|
 
 更多请见：[千言官网](https://www.luge.ai/#/luge/dataDetail?id=16)


## 5.2 数据处理

In [4]:
# 安装 PaddleNlp 
!pip install --upgrade paddlenlp -i https://pypi.org/simple

In [5]:
import time
import os
import numpy as np

import paddle
import paddle.nn.functional as F
from paddlenlp.datasets import load_dataset
import paddlenlp
from paddlenlp.data import Stack, Pad, Tuple, Dict

### 5.2.1 数据加载与浏览

In [6]:
train_ds, dev_ds = load_dataset("paws-x", splits=["train", "dev"]) 

In [None]:
# 输出训练集的前 3 条样本
# example是字典格式的
for idx, example in enumerate(train_ds):
    if idx <= 3:
        print(example)

{'sentence1': '1560年10月，他在巴黎秘密会见了英国大使Nicolas Throckmorton，要求他通过苏格兰返回英国。', 'sentence2': '1560年10月，他在巴黎秘密会见了英国大使尼古拉斯·斯罗克莫顿，并要求他通过英格兰返回苏格兰的护照。', 'label': 0}
{'sentence1': '1975年的NBA赛季 -  76赛季是全美篮球协会的第30个赛季。', 'sentence2': '1975-76赛季的全国篮球协会是NBA的第30个赛季。', 'label': 1}
{'sentence1': '还有具体的讨论，公众形象辩论和项目讨论。', 'sentence2': '还有公开讨论，特定档案讨论和项目讨论。', 'label': 0}
{'sentence1': '当可以保持相当的流速时，结果很高。', 'sentence2': '当可以保持可比较的流速时，结果很高。', 'label': 1}


### 5.2.2 文本数据转化为Feature

>文本数据在输入ERNIE预训练模型之前，需要经过Encoder层转化为Feature,这一过程通常包括分词，token to id，add special token等步骤，输出 Position Embedding,Token Type Embedding, Token Embedding，结合为 Input Embdding，输入ERNIE模型。  
  
  
>此项目中使用预训练好的词典，作无监督表征，相比起采取RNN等方式，不需要做标注和训练，能够提高速度。但是两种方法也可以结合使用，提高准确度。

![](https://ai-studio-static-online.cdn.bcebos.com/e0e36d04ef204aa1a7f467742d075372434dbe74d4fd4a9baa768cb72bb8884d)


In [None]:
# 加载 paddlenlp.transformers.ErnieTokenizer用于数据处理
tokenizer = paddlenlp.transformers.ErnieTokenizer.from_pretrained('ernie-1.0')

In [None]:
# 调用map()方法批量处理数据
def convert_example(example, tokenizer, max_seq_length=512, is_test=False): 

    query, title = example["sentence1"], example["sentence2"]
    # 调用tokenizer的数据处理方法把文本转为id
    encoded_inputs = tokenizer(
        text=query, text_pair=title, max_seq_len=max_seq_length) #得到编码结果，作为输入

    input_ids = encoded_inputs["input_ids"]            # Token ID
    token_type_ids = encoded_inputs["token_type_ids"]  # segmeent ID

    if not is_test:
        label = np.array([example["label"]], dtype="int64")
        return input_ids, token_type_ids, label
    # 在测试阶段，不返回 label 字段
    else:
        return input_ids, token_type_ids

In [None]:
### 对训练集的第 1 条数据进行转换
input_ids, token_type_ids, label = convert_example(train_ds[0], tokenizer)
print(input_ids) # token ID
print(token_type_ids) # segment ID
print(label)

[1, 6992, 17, 530, 136, 4, 44, 11, 822, 1756, 890, 632, 32, 373, 15, 514, 20, 19, 175, 6065, 9625, 10300, 2052, 10508, 9844, 9724, 9691, 9516, 4, 41, 323, 44, 124, 93, 733, 318, 784, 1593, 381, 514, 20, 12043, 2, 6992, 17, 530, 136, 4, 44, 11, 822, 1756, 890, 632, 32, 373, 15, 514, 20, 19, 175, 919, 422, 630, 431, 17963, 431, 700, 492, 1240, 1410, 4, 145, 41, 323, 44, 124, 93, 514, 318, 784, 1593, 381, 733, 318, 784, 5, 455, 575, 12043, 2]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[0]


### 5.2.3 Batchify和数据读入

Batchify 详解：  

   
![](https://ai-studio-static-online.cdn.bcebos.com/5ca3bacbd9a847969ab21b0de01b84a4d6e811d5b6b04db29013410a117529c4)  


In [None]:
# 为了后续方便使用，使用python偏函数（partial）给 convert_example 赋予一些默认参数
from functools import partial

# 训练集和验证集的样本转换函数
trans_func = partial(
    convert_example, #返回token ID ,seg ID
    tokenizer=tokenizer,#tokenizer,分割器
    max_seq_length=512)

In [None]:
# 训练数据会返回 input_ids, token_type_ids, labels 3 个字段
# 因此针对这 3 个字段需要分别定义 3 个组 batch 操作
# 把3个功能stack,pad,tuple封装起来
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(dtype="int64")  # label
): [data for data in fn(samples)]

In [None]:
# 定义分布式 Sampler: 自动对训练数据进行切分，支持多卡并行训练  
batch_sampler = paddle.io.DistributedBatchSampler(btrain_ds, batch_size=32, shuffle=True)

# 基于 train_ds 定义 train_data_loader，加速数据读取
btrain_data_loader = paddle.io.DataLoader(
        dataset=train_ds.map(trans_func), #函数封装
        batch_sampler=batch_sampler, #分布式采样方式
        collate_fn=batchify_fn,
        return_list=True)

# 针对验证集数据加载，使用单卡进行评估，所以采用 paddle.io.BatchSampler 即可
# 定义 dev_data_loader
batch_sampler = paddle.io.BatchSampler(bdev_ds, batch_size=32, shuffle=False)
bdev_data_loader = paddle.io.DataLoader(
        dataset=dev_ds.map(trans_func),
        batch_sampler=batch_sampler,
        collate_fn=batchify_fn,
        return_list=True)

# 六、模型结构

本项目中采取**单塔结构**，模型结构如下：
![](https://ai-studio-static-online.cdn.bcebos.com/169d698057e5493a861a42281c5b1442b4dde9e209aa48daa763d09fd90d4bf7)


In [None]:
import paddle.nn as nn
# 基于 ERNIE-1.0 模型结构搭建 Point-wise 语义匹配网络
pretrained_model = paddlenlp.transformers.ErnieModel.from_pretrained('ernie-1.0')

In [None]:
# 搭建 Point-wise 语义匹配网络
class PointwiseMatching(nn.Layer):
   
    def __init__(self, pretrained_model, dropout=None):
        super().__init__()
        self.ptm = pretrained_model  #pretrain模型
        self.dropout = nn.Dropout(dropout if dropout is not None else 0.1)

        # 语义匹配任务: 相似、不相似 2 分类任务 
        self.classifier = nn.Linear(self.ptm.config["hidden_size"], 2)  #这里的输入是hidden层, hidden层是词向量，输出的是分类

    def forward(self,
                input_ids,
                token_type_ids=None,
                position_ids=None,
                attention_mask=None):

        # 此处的 Input_ids 由两条文本的 token ids 拼接而成
        # token_type_ids 表示两段文本的类型编码
        # 返回的 cls_embedding 就表示这两段文本经过模型的计算之后而得到的语义表示向量
        # position ids已经写定了，可以直接默认
        # self.ptem 返回的是所有token的输出，是没有用的，只需要cls的输出
        _, cls_embedding = self.ptm(input_ids, token_type_ids, position_ids,
                                    attention_mask)

        cls_embedding = self.dropout(cls_embedding)

        # 基于文本对的语义表示向量进行 2 分类任务
        logits = self.classifier(cls_embedding)
        probs = F.softmax(logits) #做一个概率的归一化

        return probs

model = PointwiseMatching(pretrained_model)

In [None]:
# 采用交叉熵 损失函数  
criterion = paddle.nn.loss.CrossEntropyLoss()

# 采用准确率指标
metric = paddle.metric.Accuracy()

In [None]:
# 因为训练过程中同时要在验证集进行模型评估，因此我们先定义评估函数

@paddle.no_grad()
def evaluate(model, criterion, metric, data_loader, phase="dev"):
    model.eval()
    metric.reset()
    losses = []
    for batch in data_loader:
        input_ids, token_type_ids, labels = batch
        probs = model(input_ids=input_ids, token_type_ids=token_type_ids)
        loss = criterion(probs, labels)
        losses.append(loss.numpy())
        correct = metric.compute(probs, labels)
        metric.update(correct)
        accu = metric.accumulate()
    print("eval {} loss: {:.5}, accu: {:.5}".format(phase,
                                                    np.mean(losses), accu))
    model.train()
    metric.reset()

# 七. 优化策略

>选择网络结构后，我们需要设置Fine-Tune优化策略。采取warmup的动态学习率。初始阶段步数较小，后面步数增大，否则太快会打乱预训练模型训练好的参数，影响收敛。


In [None]:
from paddlenlp.transformers import LinearDecayWithWarmup 

# LinearDecayWithWarmup 线性衰减的学习策略

epochs = 3
num_training_steps = len(train_data_loader) * epochs

# 定义 learning_rate_scheduler，负责在训练过程中对 lr 进行调度
lr_scheduler = LinearDecayWithWarmup(5E-5, num_training_steps, 0.0)

# Generate parameter names needed to perform weight decay.
# weight decay 加l2范数防止过拟合
# All bias and LayerNorm parameters are excluded.
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"]) #一般不需要对这两个参数衰减，其他都要做衰减
]

# 定义 Optimizer
optimizer = paddle.optimizer.AdamW( #优化器 把策略都加进去
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=0.0,
    apply_decay_param_fun=lambda x: x in decay_params)


In [None]:
# 开始训练
global_step = 0
tic_train = time.time()

for epoch in range(1, epochs + 1): #一次epoch保存一次模型
    for step, batch in enumerate(train_data_loader, start=1):

        input_ids, token_type_ids, labels = batch
        probs = model(input_ids=input_ids, token_type_ids=token_type_ids)
        loss = criterion(probs, labels)
        correct = metric.compute(probs, labels)
        metric.update(correct)
        acc = metric.accumulate()

        global_step += 1
        
        # 每间隔 10 step 输出训练指标 指10个batch 1>过密打印loss影响训练速度
        if global_step % 10 == 0:
            print(
                "global step %d, epoch: %d, batch: %d, loss: %.5f, accu: %.5f, speed: %.2f step/s"
                % (global_step, epoch, step, loss, acc,
                    10 / (time.time() - tic_train)))
            tic_train = time.time()
        loss.backward()
        optimizer.step()
        lr_scheduler.step()
        optimizer.clear_grad()

        # 每间隔 100 step 在验证集和测试集上进行评估
        if global_step % 100 == 0:
            evaluate(model, criterion, metric, dev_data_loader, "dev")
            
# 训练结束后，存储模型参数
save_dir = os.path.join("checkpoint", "model_%d" % global_step)
os.makedirs(save_dir)

save_param_path = os.path.join(save_dir, 'model_state.pdparams')
paddle.save(model.state_dict(), save_param_path)
tokenizer.save_pretrained(save_dir)

global step 10, epoch: 1, batch: 10, loss: 0.71157, accu: 0.55000, speed: 4.38 step/s
global step 20, epoch: 1, batch: 20, loss: 0.66835, accu: 0.51562, speed: 5.55 step/s
global step 30, epoch: 1, batch: 30, loss: 0.62239, accu: 0.52708, speed: 5.10 step/s
global step 40, epoch: 1, batch: 40, loss: 0.63320, accu: 0.52891, speed: 4.96 step/s
global step 50, epoch: 1, batch: 50, loss: 0.62328, accu: 0.52500, speed: 5.45 step/s
global step 60, epoch: 1, batch: 60, loss: 0.71221, accu: 0.52604, speed: 5.39 step/s
global step 70, epoch: 1, batch: 70, loss: 0.73870, accu: 0.51920, speed: 5.54 step/s
global step 80, epoch: 1, batch: 80, loss: 0.73815, accu: 0.52266, speed: 5.32 step/s
global step 90, epoch: 1, batch: 90, loss: 0.70009, accu: 0.53368, speed: 5.37 step/s
global step 100, epoch: 1, batch: 100, loss: 0.62974, accu: 0.53906, speed: 5.11 step/s
eval dev loss: 0.70384, accu: 0.5175
global step 110, epoch: 1, batch: 110, loss: 0.62308, accu: 0.60000, speed: 1.40 step/s
global step 1

最终结果 acc 为0.8235，模型效果不错。

# 八、模型预测

In [None]:
# 加载预测数据
test_ds = load_dataset("paws-x", splits=["test"])

In [None]:
for idx, example in enumerate(test_ds):
    if idx <= 3:
        print(example)

{'sentence1': '2005 年末至 2009 年期间是例外，当时他效力于瑞典的卡斯塔德联队、塞尔维亚的查查克足球俱乐部和俄罗斯的格罗兹尼特里克足球俱乐部。', 'sentence2': '例外情况发生于 2005 年末至 2009 年期间，当时他效力于瑞典的卡斯塔德联队、塞尔维亚的查查克足球俱乐部和俄罗斯的格罗兹尼艾卡马特足球俱乐部。', 'label': ''}
{'sentence1': 'Tabaci 河是罗马尼亚 Leurda 河的支流。', 'sentence2': 'Leurda 河是罗马尼亚境内 Tabaci 河的一条支流。', 'label': ''}
{'sentence1': '1993 年，他为 A 级的坎恩郡美洲狮队和 AA 级的波特兰海狗队效力。', 'sentence2': '1993 年，他为 A 级球队波特兰海狗队和 AA 级球队凯恩县美洲狮队效力。', 'label': ''}
{'sentence1': 'Winarsky 是 IEEE、Phi Beta Kappa、ACM 和 Sigma Xi 的成员。', 'sentence2': '温那斯基是 ACM、IEEE、Phi Beta Kappa 和 Sigma Xi 的成员。', 'label': ''}


In [None]:
tokenizer = paddlenlp.transformers.ErnieTokenizer.from_pretrained('ernie-1.0')

In [None]:
def predict(model, data_loader):
    
    batch_probs = []

    # 预测阶段打开 eval 模式，模型中的 dropout 等操作会关掉
    model.eval()

    with paddle.no_grad(): #不需要梯度下降
        for batch_data in data_loader:
            input_ids, token_type_ids = batch_data
            input_ids = paddle.to_tensor(input_ids)
            token_type_ids = paddle.to_tensor(token_type_ids)
            
            # 获取每个样本的预测概率: [batch_size, 2] 的矩阵
            batch_prob = model(
                input_ids=input_ids, token_type_ids=token_type_ids).numpy()

            batch_probs.append(batch_prob)
        batch_probs = np.concatenate(batch_probs, axis=0)

        return batch_probs

In [None]:
# 预测数据的转换函数
# predict 数据没有 label, 因此 convert_exmaple 的 is_test 参数设为 True
from functools import partial
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=512,
    is_test=True)

# 预测数据的组 batch 操作
# predict 数据只返回 input_ids 和 token_type_ids，因此只需要 2 个 Pad 对象作为 batchify_fn
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment_ids
): [data for data in fn(samples)]


In [None]:
batch_sampler = paddle.io.BatchSampler(test_ds, batch_size=32, shuffle=False)

# 生成预测数据 data_loader
predict_data_loader =paddle.io.DataLoader(
        dataset=test_ds.map(trans_func),
        batch_sampler=batch_sampler,
        collate_fn=batchify_fn,
        return_list=True)

In [None]:
pretrained_model = paddlenlp.transformers.ErnieModel.from_pretrained('ernie-1.0')
model = PointwiseMatching(pretrained_model) #模型实例化

In [None]:
# 加载已经训练好的模型参数
state_dict = paddle.load("checkpoint/model_4608/model_state.pdparams")
model.set_dict(state_dict)

In [None]:
# 执行预测函数
y_probs = predict(model, predict_data_loader)
# 根据预测概率获取预测 label
y_preds = np.argmax(y_probs, axis=1)

In [None]:
# 按照千言文本相似度竞赛的提交格式将预测结果存储在 paws-x.tsv 中，用来后续提交

test_ds = load_dataset("paws-x", splits=["test"])

with open("paws-x.tsv", 'w', encoding="utf-8") as f:
    f.write("index\tprediction\n")    
    for idx, y_pred in enumerate(y_preds):
        f.write("{}\t{}\n".format(idx, y_pred))
        text_pair = test_ds[idx]
        text_pair["label"] = y_pred
        print(text_pair)

{'sentence1': '2005 年末至 2009 年期间是例外，当时他效力于瑞典的卡斯塔德联队、塞尔维亚的查查克足球俱乐部和俄罗斯的格罗兹尼特里克足球俱乐部。', 'sentence2': '例外情况发生于 2005 年末至 2009 年期间，当时他效力于瑞典的卡斯塔德联队、塞尔维亚的查查克足球俱乐部和俄罗斯的格罗兹尼艾卡马特足球俱乐部。', 'label': 1}
{'sentence1': 'Tabaci 河是罗马尼亚 Leurda 河的支流。', 'sentence2': 'Leurda 河是罗马尼亚境内 Tabaci 河的一条支流。', 'label': 0}
{'sentence1': '1993 年，他为 A 级的坎恩郡美洲狮队和 AA 级的波特兰海狗队效力。', 'sentence2': '1993 年，他为 A 级球队波特兰海狗队和 AA 级球队凯恩县美洲狮队效力。', 'label': 0}
{'sentence1': 'Winarsky 是 IEEE、Phi Beta Kappa、ACM 和 Sigma Xi 的成员。', 'sentence2': '温那斯基是 ACM、IEEE、Phi Beta Kappa 和 Sigma Xi 的成员。', 'label': 1}
{'sentence1': '1938 年，他成为英埃苏丹的政府人类学家，并领导对努巴的实地考察工作。', 'sentence2': '1938 年，他成为英埃苏丹政府的人类学家，并与努巴一起从事野外工作。', 'label': 1}
{'sentence1': '比利·比利·贝特森出现在 2008 年末至 2009 年初出版的前四期《黑亚当》中。', 'sentence2': '黑亚当出现在 2008 年末至 2009 年初出版的前四期《比利·贝特森》中。', 'label': 0}
{'sentence1': '利用太阳能满足此项要求的方法是在常规动力飞机上使用太阳能板。', 'sentence2': '利用太阳能满足此项要求的方法是在常规动力飞机上使用太阳能板。', 'label': 1}
{'sentence1': '在调查进行期间，警察还质询了歌手梨美·托米和演员卡薇雅·马德哈万，两人均为西迪基及其妻子迪利普的好友。', 'sentence2': '作为持续进行的

# 九、总结和优化

> 同时用数据集LCQMC, BQ Corpus进行训练和预测，将结果提交到[千言数据集：文本相似度比赛](https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition)
目前排名145/2157 持续优化中

**后续优化方向为**：  
1. 调整参数，多做尝试  
2. 结合其他神经网络结构，优化结果

# 十、资料参考

[1] [机器之心 百度NLP | 神经网络语义匹配技术](https://baijiahao.baidu.com/s?id=1570247207721372&wfr=spider&for=pc)  

[2] 百度飞桨基于深度学习的自然语言处理课程

请点击[此处](https://ai.baidu.com/docs#/AIStudio_Project_Notebook/a38e5576)查看本环境基本用法.  <br>
Please click [here ](https://ai.baidu.com/docs#/AIStudio_Project_Notebook/a38e5576) for more detailed instructions. 