In [1]:
#前期的工作在于构建3个嵌入矩阵

In [2]:
#使用pytorch构建深度学习模型有4步
#1.定义网络的各个层
#2.定义各个对层的操作
#3.定义损失函数
#4.更新网络参数

In [3]:
import argparse
import torch
import time
import json
import numpy as np
import math
import random
import codecs
import os
from utils_train import load_data, generate_repositioning, generate_repositioning_data, predict_aspects_nums
from utils_train import generate_start_index, train_as, merge_data, merge_data_final, save_batch, clean_batch
from utils_train import return_predicted_nums
from generate_train_data import generate_aspects_nums_train_data, merge_aspects_nums_data, merge_aspects_nums_final_data
from process_batch_data import generate_aspects_nums_batch_data
from json_to_csv import json_to_csv

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [4]:
np.random.seed(1337)
random.seed(1337)
torch.manual_seed(1337)
torch.cuda.manual_seed(1337)

In [5]:
"""
输入：训练集或者验证集的数据和标签，batch_size，
输出：
代码思路：
"""
def batch_generator(X, y, batch_size=128, return_idx=False, crf=True):
    #以batch_size为步长
    for offset in range(0, X.shape[0], batch_size):
        batch_X_len=np.sum(X[offset:offset+batch_size]!=0, axis=1)
        batch_idx=batch_X_len.argsort()[::-1]
        batch_X_len=batch_X_len[batch_idx]
        batch_X_mask=(X[offset:offset+batch_size]!=0)[batch_idx].astype(np.uint8)
        batch_X=X[offset:offset+batch_size][batch_idx]
        batch_y=y[offset:offset+batch_size][batch_idx]
        batch_X = torch.autograd.Variable(torch.from_numpy(batch_X).long().cuda())
        batch_X_mask=torch.autograd.Variable(torch.from_numpy(batch_X_mask).long().cuda())
        batch_y = torch.autograd.Variable(torch.from_numpy(batch_y).long().cuda())
        if len(batch_y.size())==2 and not crf:
            batch_y=torch.nn.utils.rnn.pack_padded_sequence(batch_y, batch_X_len, batch_first=True)
        if return_idx: #in testing, need to sort back.
            yield (batch_X, batch_y, batch_X_len, batch_X_mask, batch_idx)
        else:
            yield (batch_X, batch_y, batch_X_len, batch_X_mask)

In [6]:
"""
输入：通用领域嵌入，特定领域嵌入，3个参数，分类个数、dropout率、是否使用CRF
输出：3个标签的概率
代码思路：
"""
class Model(torch.nn.Module):
    #定义神经网络层
    def __init__(self, gen_emb, domain_emb, num_classes=3, dropout=0.55, crf=True):
        super(Model, self).__init__()
        #构建通用领域嵌入矩阵，先生成相应大小的空间，再将参数传进去
        self.gen_embedding = torch.nn.Embedding(gen_emb.shape[0], gen_emb.shape[1])
        self.gen_embedding.weight=torch.nn.Parameter(torch.from_numpy(gen_emb), requires_grad=False)
        #构建特定领域嵌入矩阵，先生成相应大小的空间，再将参数传进去
        
        #设定模型的卷积层参数
        #第一层第一种卷积核,输入维度是400，输出维度是128，跨步是5，填充是2
        self.conv1=torch.nn.Conv1d(gen_emb.shape[1], 128, 5, padding=2)
        self.conv2=torch.nn.Conv1d(gen_emb.shape[1], 128, 3, padding=1)
        self.dropout=torch.nn.Dropout(dropout)
        
        #剩下三层的参数相同，输入维度是256，输出维度是128，跨步是5，填充是2
        self.conv3=torch.nn.Conv1d(256, 256, 5, padding=2)
        self.conv4=torch.nn.Conv1d(256, 256, 5, padding=2)
        self.conv5=torch.nn.Conv1d(256, 256, 5, padding=2)
        #设置解码层1：就是一个全连接层进行分类，分为3类
        self.linear_ae=torch.nn.Linear(256, num_classes)
        self.crf_flag=crf
        #设置解码层2：CRF
        if self.crf_flag:
            from allennlp.modules import ConditionalRandomField
            self.crf=ConditionalRandomField(num_classes)
        
    #定义操作
    def forward(self, x, x_len, x_mask, x_tag=None, testing=False):
        #cat是拼接的意思，0是竖着拼，1是横着拼，2是（3维的情况）
        #这段代码好像是传入batchsize的单词的编号，然后去除这些单词嵌入
        x_emb=self.gen_embedding(x)
        x_emb=self.dropout(x_emb).transpose(1, 2)
        x_conv=torch.nn.functional.relu(torch.cat((self.conv1(x_emb), self.conv2(x_emb)), dim=1))
        
        #3个相同的卷积层
        x_conv=self.dropout(x_conv)
        x_conv=torch.nn.functional.relu(self.conv3(x_conv))
        x_conv=self.dropout(x_conv)
        x_conv=torch.nn.functional.relu(self.conv4(x_conv))
        x_conv=self.dropout(x_conv)
        x_conv=torch.nn.functional.relu(self.conv5(x_conv))
        x_conv=x_conv.transpose(1, 2)
        x_logit=self.linear_ae(x_conv)
        if testing:
            if self.crf_flag:
                score=self.crf.viterbi_tags(x_logit, x_mask)
            else:
                x_logit=x_logit.transpose(2, 0)
                score=torch.nn.functional.log_softmax(x_logit).transpose(2, 0)
        else:
            if self.crf_flag:
                score=-self.crf(x_logit, x_tag, x_mask)
            else:
                x_logit=torch.nn.utils.rnn.pack_padded_sequence(x_logit, x_len, batch_first=True)
                score=torch.nn.functional.nll_loss(torch.nn.functional.log_softmax(x_logit.data), x_tag.data)
        return score

In [7]:
def valid_loss(model, valid_X, valid_y, crf=True):
    model.eval()
    losses=[]
    for batch in batch_generator(valid_X, valid_y, crf=crf):
        batch_valid_X, batch_valid_y, batch_valid_X_len, batch_valid_X_mask=batch
        loss=model(batch_valid_X, batch_valid_X_len, batch_valid_X_mask, batch_valid_y)
        losses.append(loss.item())
    model.train()
    return sum(losses)/len(losses)

In [8]:
word_idx_fn = 'data/prep_data/word_idx.json'
with open(word_idx_fn) as f:
    word_idx=json.load(f)
idx_word={}
for key,val in word_idx.items():
    idx_word[val]=key

In [9]:
def train(train_X, train_y, valid_X, valid_y, model, model_fn, optimizer, parameters, run_epoch, epochs, batch_size, crf, generate_data, add_num_loss):
    best_loss=float("inf")
    valid_history=[]
    train_history=[]
    for epoch in range(epochs):
        pred_y=np.zeros((train_X.shape[0], train_X.shape[1]), np.int16)
        offset = range(0, train_X.shape[0], batch_size)
        i_th = 0
        results = []
        for batch in batch_generator(train_X, train_y, batch_size, crf=crf):
            batch_train_X, batch_train_y, batch_train_X_len, batch_train_X_mask=batch
            
            #最开始的时候loss变化很大，等稳定了再加入，而且太慢了。。。。。。
            if add_num_loss and epoch >= 250:
                results_num = []
                #先按照之前的格式输出每个batch，然后识别出预测的方面，再组成csv格式
                model.eval()
                batch_pred_y=model(batch_train_X, batch_train_X_len, batch_train_X_mask, testing=True)
                model.train()
                
                for j_th in range(len(batch_train_X)):
                    result = []
                    #需要把tensor转成np
                    words_num = [i for i in batch_train_X[j_th].cpu().numpy()]
                    words_str = []
                    #把数字转换成单词
                    for w in words_num:
                        if(w != 0):
                            words_str.append(idx_word[w])
                    #需要把tensor转成np
                    gold = [i for i in batch_train_y[j_th].cpu().numpy()]
                    #预测的原始原始输出需要处理
                    pred = batch_pred_y[j_th][0]
                    for words_str, gold, pred in zip(words_str, gold, pred):
                        result.append(" ".join([words_str, str(gold), str(pred)]))
                    results_num.append(result)
                save_batch(results_num)
                #从原始输出中找出提取的方面
                pred_aspects_nums = generate_aspects_nums_batch_data()
                total_pred_aspects_nums = 0
                #print('len of pred_aspects_nums', len(pred_aspects_nums))
                #print('pred_aspects_nums', pred_aspects_nums)
                
                for i in pred_aspects_nums:
                    total_pred_aspects_nums += i
                if total_pred_aspects_nums != 0:
                    json_to_csv()
                    #调用bert进行预测，返回预测的每个句子的结果
                    predict_aspects_nums()
                    predicted_nums = return_predicted_nums()
                    num_loss = 0
                    not_zero_pred_aspects_nums = []
                    for i in range(len(pred_aspects_nums)):
                        if pred_aspects_nums[i] != 0:
                            not_zero_pred_aspects_nums.append(pred_aspects_nums[i])
                    """
                    print('len of not_zero_pred_aspects_nums', len(not_zero_pred_aspects_nums))
                    print('not_zero_pred_aspects_nums', not_zero_pred_aspects_nums)
                    print('len of predicted_nums', len(predicted_nums))
                    print('predicted_nums', predicted_nums)
                    if len(not_zero_pred_aspects_nums) != len(predicted_nums):
                        print('len of not_zero_pred_aspects_nums', len(not_zero_pred_aspects_nums))
                        print('not_zero_pred_aspects_nums', not_zero_pred_aspects_nums)
                        print('len of predicted_nums', len(predicted_nums))
                        print('predicted_nums', predicted_nums)
                        assert len(not_zero_pred_aspects_nums) == len(predicted_nums)
                    """
                    #存在一个BUG--predicted_nums和not_zero_pred_aspects_nums长度可能不等
                    for i in range(len(predicted_nums)):
                        num_loss += (predicted_nums[i] - not_zero_pred_aspects_nums[i]) ** 2
                    num_loss = (num_loss / len(predicted_nums)) * 10
                    print('bert计算的loss是：', num_loss)
                else:
                    #因为所有的句子长度为83
                    num_loss = 83
                #生成bert需要的输入格式
                #clean_batch('output_data/batch_result.utf8')
                #clean_batch('output_data/batch_result.json')
                #clean_batch('output_data/batch_result.csv')
                
            #开始训练
            #这里的model是Model里面的forward函数
            if add_num_loss and epoch >= 250:
                loss=model(batch_train_X, batch_train_X_len, batch_train_X_mask, batch_train_y) + num_loss
                print('loss是：', loss)
            else:
                loss=model(batch_train_X, batch_train_X_len, batch_train_X_mask, batch_train_y)
            #print('loss是：', loss)
            optimizer.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm(parameters, 1.)
            optimizer.step()
            
            if generate_data:
                """
                输出预测标签
                作用：输出每行句子的每个单词的预测标签
                """
                model.eval()
                batch_print_X_len=np.sum(train_X[offset[i_th]:offset[i_th]+batch_size]!=0, axis=1)
                batch_idx=batch_print_X_len.argsort()[::-1]
                batch_print_X_len=batch_print_X_len[batch_idx]
                batch_print_X_mask=(train_X[offset[i_th]:offset[i_th]+batch_size]!=0)[batch_idx].astype(np.uint8)
                batch_print_X=train_X[offset[i_th]:offset[i_th]+batch_size][batch_idx]
                batch_print_X_mask=torch.autograd.Variable(torch.from_numpy(batch_print_X_mask).long().cuda())
                batch_print_X=torch.autograd.Variable(torch.from_numpy(batch_print_X).long().cuda())
                batch_pred_y=model(batch_print_X, batch_print_X_len, batch_print_X_mask, testing=True)
                r_idx=batch_idx.argsort()
                if crf:
                    batch_pred_y=[batch_pred_y[idx] for idx in r_idx]
                    for ix in range(len(batch_pred_y)):
                        for jx in range(len(batch_pred_y[ix][0])):
                            pred_y[offset[i_th]+ix,jx]=batch_pred_y[ix][0][jx]
                else:
                    batch_pred_y=batch_pred_y.data.cpu().numpy().argmax(axis=2)[r_idx]
                    pred_y[offset[i_th]:offset[i_th]+batch_size,:batch_pred_y.shape[1]]=batch_pred_y
                model.train()
                i_th += 1
            
        if generate_data:
            #写入句子、真实标签、预测标签
            #要求：一行句子一行句子地读，然后一个单词一个单词地写，每个句子读完后以回车标志结束
            for j_th in range(len(train_X)):
                result = []
                words_num = train_X[j_th]
                words_str = []
                #把数字转换成单词
                for w in words_num:
                    if(w != 0):
                        words_str.append(idx_word[w])
                gold = train_y[j_th]
                pred = pred_y[j_th]
                for words_str, gold, pred in zip(words_str, gold, pred):
                    result.append(" ".join([words_str, str(gold), str(pred)]))
                results.append(result)
            train_as(results, epoch, run_epoch)

            context, query, answer, answer_start_index = load_data(epoch, run_epoch)
            update_index = generate_start_index(context, answer_start_index, answer)
            generate_repositioning_data(context, query, answer, update_index, epoch, run_epoch)
            generate_aspects_nums_train_data(run_epoch, epoch)
            """
            输出预测标签结束
            """
        
        #一轮训练完了，计算loss
        loss=valid_loss(model, train_X, train_y, crf=crf)
        train_history.append(loss)
        loss=valid_loss(model, valid_X, valid_y, crf=crf)
        valid_history.append(loss)
        if loss<best_loss:
            best_loss=loss
            torch.save(model, model_fn)
        shuffle_idx=np.random.permutation(len(train_X))
        train_X=train_X[shuffle_idx]
        train_y=train_y[shuffle_idx]
        if(epoch % 10 == 0):
            print(str(epoch) + '/' + str(epochs))
    model=torch.load(model_fn)
    return train_history, valid_history

In [10]:
def run(domain, data_dir, model_dir, valid_split, runs, epochs, lr, dropout, batch_size, crf, generate_data, add_num_loss):
    #2个单词嵌入
    gen_emb=np.load(data_dir+"gen.vec.npy")
    domain_emb=np.load(data_dir+domain+"_emb.vec.npy")
    #训练集
    ae_data=np.load(data_dir+domain+".npz")
    
    #分割训练集，此处是固定分割
    valid_X=ae_data['train_X'][-valid_split:]
    valid_y=ae_data['train_y'][-valid_split:]
    train_X=ae_data['train_X'][:-valid_split]
    train_y=ae_data['train_y'][:-valid_split]

    print("数据集总大小：", len(ae_data['train_X']))
    print("训练集大小：", len(train_X))
    print("验证集大小：", len(valid_X))

    if add_num_loss:
        model_dir = 'model_num/'
    
    for r in range(runs):
        print('正在训练第 ' + str(r + 1) + '轮')
        #初始化model
        model=Model(gen_emb, domain_emb, 3, dropout, crf)
        model.cuda()
        print(model)
        parameters = [p for p in model.parameters() if p.requires_grad]
        optimizer=torch.optim.Adam(parameters, lr=lr)
        #调用train模块
        train_history, valid_history=train(train_X, train_y, valid_X, valid_y, model, model_dir+domain+str(r), 
                                           optimizer, parameters, r, epochs, batch_size, crf, generate_data, add_num_loss)
        if generate_data:
            merge_data(r, epochs)
            merge_aspects_nums_data(r, epochs)
    if generate_data:
        merge_data_final(runs, epochs)
        merge_aspects_nums_final_data(runs, epochs)

In [11]:
if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('--model_dir', type=str, default="model/")
    parser.add_argument('--batch_size', type=int, default=128)
    parser.add_argument('--epochs', type=int, default=300)
    parser.add_argument('--runs', type=int, default=5)
    parser.add_argument('--domain', type=str, default="laptop")
    parser.add_argument('--data_dir', type=str, default="data/prep_data/")
    parser.add_argument('--valid', type=int, default=150) #number of validation data.
    parser.add_argument('--lr', type=float, default=0.0001)
    parser.add_argument('--dropout', type=float, default=0.55)
    parser.add_argument('--crf', type=bool, default=True)
    parser.add_argument('--generate_data', type=bool, default=False)
    parser.add_argument('--add_num_loss', type=bool, default=True)
    args = parser.parse_known_args()[0]

    run(args.domain, args.data_dir, args.model_dir, args.valid, args.runs, args.epochs, args.lr, args.dropout, args.batch_size, args.crf, args.generate_data, args.add_num_loss)

数据集总大小： 3045
训练集大小： 2895
验证集大小： 150
正在训练第 1轮
Model(
  (gen_embedding): Embedding(8518, 300)
  (conv1): Conv1d(300, 128, kernel_size=(5,), stride=(1,), padding=(2,))
  (conv2): Conv1d(300, 128, kernel_size=(3,), stride=(1,), padding=(1,))
  (dropout): Dropout(p=0.55, inplace=False)
  (conv3): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
  (conv4): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
  (conv5): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
  (linear_ae): Linear(in_features=256, out_features=3, bias=True)
  (crf): ConditionalRandomField()
)




0/300
10/300
20/300
30/300
40/300
50/300
60/300
70/300
80/300
90/300
100/300
110/300
120/300
130/300
140/300
150/300
160/300
170/300
180/300
190/300
200/300
210/300
220/300
230/300
240/300
bert计算的loss是： 36.271186440677965
loss是： tensor(83.1781, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.52542372881356
loss是： tensor(98.1197, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.68115942028985
loss是： tensor(111.1966, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.14285714285714
loss是： tensor(99.3063, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.3125
loss是： tensor(98.4859, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.333333333333336
loss是： tensor(83.0194, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.84615384615385
loss是： tensor(109.2029, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.77777777777778
loss是： tensor(106.9251, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.333333333333336
loss是： tensor(8

bert计算的loss是： 44.39393939393939
loss是： tensor(113.6517, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 5.737704918032787
loss是： tensor(57.5522, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 44.34210526315789
loss是： tensor(120.6564, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.301886792452827
loss是： tensor(86.9473, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.61764705882353
loss是： tensor(82.0013, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.352941176470587
loss是： tensor(105.8284, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 11.35593220338983
loss是： tensor(68.5929, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.6875
loss是： tensor(55.8830, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.07692307692307
loss是： tensor(102.0371, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.771929824561404
loss是： tensor(114.3759, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.0
loss是： tensor(89.5088, 

bert计算的loss是： 38.10344827586207
loss是： tensor(96.1845, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.0
loss是： tensor(72.6549, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.420289855072465
loss是： tensor(111.7428, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.36363636363636
loss是： tensor(96.5018, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.074626865671643
loss是： tensor(104.8165, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.5
loss是： tensor(95.8905, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.666666666666664
loss是： tensor(76.1473, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.06779661016949
loss是： tensor(87.3670, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 43.52112676056338
loss是： tensor(93.2779, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 15.714285714285714
loss是： tensor(73.7798, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 14.571428571428571
loss是： tensor(57.3866, devi

bert计算的loss是： 41.21212121212121
loss是： tensor(110.2995, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.714285714285715
loss是： tensor(102.4692, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 8.548387096774194
loss是： tensor(70.8489, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.60606060606061
loss是： tensor(97.3765, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.75
loss是： tensor(81.7994, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 14.210526315789473
loss是： tensor(91.9696, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.33333333333333
loss是： tensor(87.0280, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.65079365079365
loss是： tensor(83.1721, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.32835820895522
loss是： tensor(95.0290, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.18181818181818
loss是： tensor(84.3285, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 4.0983606557377055
loss是： tensor(6

bert计算的loss是： 36.55172413793104
loss是： tensor(87.8144, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.729729729729726
loss是： tensor(75.7928, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 48.61111111111111
loss是： tensor(115.8215, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 56.875
loss是： tensor(111.7659, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.548387096774196
loss是： tensor(78.5679, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.615384615384613
loss是： tensor(84.7354, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.98245614035088
loss是： tensor(121.5893, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.71014492753623
loss是： tensor(121.0539, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.5
loss是： tensor(103.6003, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.113207547169814
loss是： tensor(89.8344, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.83333333333333
loss是： tensor(70.8671, 

bert计算的loss是： 45.0
loss是： tensor(102.9349, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 15.862068965517242
loss是： tensor(68.1430, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.0
loss是： tensor(88.6323, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.0
loss是： tensor(81.5224, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.278688524590166
loss是： tensor(101.9393, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.147058823529413
loss是： tensor(92.5109, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.93939393939394
loss是： tensor(51.9044, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.163934426229506
loss是： tensor(91.9481, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.833333333333336
loss是： tensor(72.0485, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.47222222222222
loss是： tensor(100.3100, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 15.074626865671641
loss是： tensor(82.9270, device='cuda:0'

bert计算的loss是： 25.59322033898305
loss是： tensor(84.2851, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 58.45070422535211
loss是： tensor(125.3017, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.130434782608695
loss是： tensor(102.7300, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.732394366197184
loss是： tensor(117.5639, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.15789473684211
loss是： tensor(99.2254, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.96078431372549
loss是： tensor(86.1404, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.93939393939394
loss是： tensor(95.6847, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.484848484848484
loss是： tensor(101.0497, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.0
loss是： tensor(73.1797, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.911764705882355
loss是： tensor(80.6193, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.516129032258064
loss是： tenso

bert计算的loss是： 31.836734693877553
loss是： tensor(71.0749, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 43.125
loss是： tensor(108.8625, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 44.705882352941174
loss是： tensor(115.1590, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.666666666666664
loss是： tensor(92.0819, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.0
loss是： tensor(99.6063, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.365079365079364
loss是： tensor(84.3575, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.126984126984127
loss是： tensor(87.5820, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.75
loss是： tensor(71.7813, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.473684210526315
loss是： tensor(57.2287, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.0
loss是： tensor(113.8183, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.714285714285715
loss是： tensor(97.7421, device='cuda:0', grad_fn

bert计算的loss是： 24.86111111111111
loss是： tensor(84.3609, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.32142857142857
loss是： tensor(97.2821, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.80952380952381
loss是： tensor(98.9919, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 5.294117647058823
loss是： tensor(60.3805, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 52.0
loss是： tensor(122.0020, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.774193548387096
loss是： tensor(80.6107, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.551724137931036
loss是： tensor(63.2512, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 11.311475409836065
loss是： tensor(71.2390, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 6.129032258064516
loss是： tensor(69.7098, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.11111111111111
loss是： tensor(55.0849, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.57575757575758
loss是： tensor(70.

bert计算的loss是： 58.36363636363636
loss是： tensor(121.2495, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.807692307692307
loss是： tensor(105.9478, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 61.40625
loss是： tensor(107.5275, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.393939393939394
loss是： tensor(57.8127, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.23076923076923
loss是： tensor(100.5361, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.66101694915254
loss是： tensor(92.5251, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.53846153846154
loss是： tensor(95.2855, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.0
loss是： tensor(119.4446, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.5
loss是： tensor(71.7714, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.681159420289852
loss是： tensor(84.4564, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.518518518518515
loss是： tensor(77.0580, device='cud

bert计算的loss是： 35.3125
loss是： tensor(90.2882, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.68627450980392
loss是： tensor(77.0073, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.357142857142854
loss是： tensor(84.0882, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 60.81967213114754
loss是： tensor(129.9419, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.46153846153846
loss是： tensor(91.0982, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.93939393939394
loss是： tensor(89.5624, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.186440677966104
loss是： tensor(93.2637, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.5
loss是： tensor(91.1071, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.38888888888889
loss是： tensor(44.4425, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.58620689655173
loss是： tensor(90.7837, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.205882352941174
loss是： tensor(88.5398, devi

bert计算的loss是： 25.5
loss是： tensor(64.8048, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.084745762711865
loss是： tensor(68.2457, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.0
loss是： tensor(114.6081, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.82758620689655
loss是： tensor(82.6216, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 52.77777777777778
loss是： tensor(108.0944, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.27272727272727
loss是： tensor(70.8130, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.454545454545457
loss是： tensor(75.9863, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.46153846153846
loss是： tensor(84.6718, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.38888888888889
loss是： tensor(116.7766, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.52777777777778
loss是： tensor(87.4742, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.41935483870967
loss是： tensor(90.7934, device

bert计算的loss是： 28.19672131147541
loss是： tensor(77.7369, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.5
loss是： tensor(116.7274, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.0
loss是： tensor(85.4936, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.69230769230769
loss是： tensor(79.4017, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 12.580645161290322
loss是： tensor(80.1784, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.620689655172416
loss是： tensor(74.2699, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.72727272727273
loss是： tensor(79.6352, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.72727272727273
loss是： tensor(85.5757, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.166666666666664
loss是： tensor(108.4663, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.48275862068965
loss是： tensor(85.5776, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.18181818181818
loss是： tensor(92.7444, device

bert计算的loss是： 41.96969696969697
loss是： tensor(83.8932, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.15942028985507
loss是： tensor(95.0325, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.629629629629626
loss是： tensor(90.2284, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.46153846153846
loss是： tensor(73.4336, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.49295774647887
loss是： tensor(81.4244, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.088235294117645
loss是： tensor(76.5756, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.90625
loss是： tensor(74.4837, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.93548387096774
loss是： tensor(65.6601, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.029411764705884
loss是： tensor(63.7271, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 45.07692307692308
loss是： tensor(125.7689, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.96551724137931
loss是： tensor

bert计算的loss是： 38.5
loss是： tensor(106.5049, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.013698630136986
loss是： tensor(112.3630, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 43.71428571428571
loss是： tensor(103.7194, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 61.04477611940298
loss是： tensor(155.5894, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 15.857142857142856
loss是： tensor(97.4113, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.34615384615385
loss是： tensor(90.0054, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.29032258064516
loss是： tensor(98.1524, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.92957746478873
loss是： tensor(116.0994, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 15.660377358490567
loss是： tensor(84.2691, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.625
loss是： tensor(118.0525, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 7.241379310344827
loss是： tensor(42.2431, 

bert计算的loss是： 26.779661016949152
loss是： tensor(87.2351, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.57142857142857
loss是： tensor(137.0072, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.694915254237287
loss是： tensor(82.2227, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.383561643835616
loss是： tensor(79.2757, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.61538461538461
loss是： tensor(113.1601, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.3125
loss是： tensor(146.3810, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.875
loss是： tensor(93.1754, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.64516129032258
loss是： tensor(110.2287, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.548387096774196
loss是： tensor(102.6593, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.15384615384615
loss是： tensor(116.8369, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.81818181818181
loss是： tensor(90.58

bert计算的loss是： 28.243243243243242
loss是： tensor(92.2942, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.904761904761905
loss是： tensor(76.7003, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.205882352941174
loss是： tensor(108.0634, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 7.910447761194029
loss是： tensor(84.3302, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.44117647058823
loss是： tensor(101.6440, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.6140350877193
loss是： tensor(107.7024, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.40677966101695
loss是： tensor(118.1555, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.81159420289855
loss是： tensor(129.1801, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.719298245614034
loss是： tensor(107.6233, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.5
loss是： tensor(85.6372, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.389830508474574
loss是： tens

bert计算的loss是： 41.0344827586207
loss是： tensor(102.1952, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.846153846153843
loss是： tensor(94.1479, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.090909090909093
loss是： tensor(79.2196, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 19.838709677419356
loss是： tensor(88.6447, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.53846153846154
loss是： tensor(124.6657, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 69.32203389830508
loss是： tensor(136.3479, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.666666666666668
loss是： tensor(76.9511, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.27659574468085
loss是： tensor(80.0675, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 19.047619047619047
loss是： tensor(78.3985, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.37704918032787
loss是： tensor(100.0198, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.21875
loss是： te

bert计算的loss是： 33.90625
loss是： tensor(92.1464, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 48.793103448275865
loss是： tensor(106.6023, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.78787878787879
loss是： tensor(105.5643, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.275862068965516
loss是： tensor(99.0212, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.833333333333332
loss是： tensor(107.8992, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.714285714285715
loss是： tensor(135.1404, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.8125
loss是： tensor(110.6289, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.28813559322034
loss是： tensor(120.7427, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.855072463768117
loss是： tensor(99.3490, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.786885245901644
loss是： tensor(125.4619, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 6.833333333333334
loss是： tensor(

bert计算的loss是： 26.911764705882355
loss是： tensor(106.3199, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.83870967741935
loss是： tensor(115.9755, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.6231884057971
loss是： tensor(96.0230, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.10144927536232
loss是： tensor(94.3757, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.54838709677419
loss是： tensor(89.2071, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.82456140350877
loss是： tensor(93.2498, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.420289855072465
loss是： tensor(105.4640, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.607142857142854
loss是： tensor(101.8595, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.861111111111114
loss是： tensor(159.5936, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.450704225352116
loss是： tensor(96.3825, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 49.26470588235294

bert计算的loss是： 29.523809523809526
loss是： tensor(79.8059, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 12.063492063492063
loss是： tensor(88.0487, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.454545454545453
loss是： tensor(110.2929, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.40298507462686
loss是： tensor(88.4319, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.333333333333332
loss是： tensor(120.9814, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.449275362318836
loss是： tensor(106.1758, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.576923076923073
loss是： tensor(93.8906, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.16666666666667
loss是： tensor(72.3506, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.88235294117647
loss是： tensor(97.9597, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.088607594936708
loss是： tensor(123.7638, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.96875
loss是：

bert计算的loss是： 33.859649122807014
loss是： tensor(90.1079, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 20.123456790123456
loss是： tensor(67.5198, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 62.0
loss是： tensor(130.6809, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.538461538461537
loss是： tensor(79.8673, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 4.827586206896552
loss是： tensor(52.4935, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.57142857142857
loss是： tensor(108.3210, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 8.235294117647058
loss是： tensor(45.0009, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.42857142857143
loss是： tensor(160.9434, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.30769230769231
loss是： tensor(97.2780, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 18.11320754716981
loss是： tensor(99.9559, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.3125
loss是： tensor(97.4095, de

bert计算的loss是： 43.278688524590166
loss是： tensor(120.4298, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.885245901639344
loss是： tensor(108.9615, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.07547169811321
loss是： tensor(92.8438, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.03225806451613
loss是： tensor(97.2791, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 3.114754098360656
loss是： tensor(71.0641, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.296296296296298
loss是： tensor(92.3424, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.5
loss是： tensor(108.3712, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 52.1875
loss是： tensor(137.1581, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.9622641509434
loss是： tensor(87.1270, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.12698412698413
loss是： tensor(86.8077, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.095238095238095
loss是： tensor(97.2045, d

bert计算的loss是： 24.76923076923077
loss是： tensor(93.2723, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.714285714285715
loss是： tensor(64.4163, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.015873015873012
loss是： tensor(105.3113, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.217391304347828
loss是： tensor(96.1426, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.66666666666667
loss是： tensor(94.8715, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.63636363636364
loss是： tensor(100.9108, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.87301587301587
loss是： tensor(90.9561, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.78787878787879
loss是： tensor(84.5640, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.825396825396822
loss是： tensor(77.7423, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.419354838709676
loss是： tensor(80.3739, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 0.0
loss是： tensor(6

bert计算的loss是： 53.5
loss是： tensor(102.2705, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.0
loss是： tensor(88.7428, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 19.43661971830986
loss是： tensor(100.5318, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.23076923076923
loss是： tensor(125.5832, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.63636363636364
loss是： tensor(99.7075, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.61904761904762
loss是： tensor(96.1893, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.49180327868853
loss是： tensor(103.1863, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.307692307692307
loss是： tensor(90.5470, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.05555555555556
loss是： tensor(115.7387, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.07017543859649
loss是： tensor(91.9039, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 17.258064516129032
loss是： tensor(72.3103, devi

bert计算的loss是： 30.0
loss是： tensor(110.8630, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.26086956521739
loss是： tensor(87.1143, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.833333333333336
loss是： tensor(73.5176, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.10526315789474
loss是： tensor(109.5245, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.2063492063492
loss是： tensor(98.8047, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.666666666666664
loss是： tensor(110.0938, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.093023255813954
loss是： tensor(66.6059, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.19672131147541
loss是： tensor(109.5546, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.166666666666664
loss是： tensor(96.9393, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.60317460317461
loss是： tensor(109.7355, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.084745762711865
loss是： tenso

bert计算的loss是： 33.529411764705884
loss是： tensor(108.5231, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.540983606557376
loss是： tensor(105.3879, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.30769230769231
loss是： tensor(103.7233, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.29032258064516
loss是： tensor(110.9715, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.515151515151516
loss是： tensor(90.7600, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 44.91525423728813
loss是： tensor(122.4815, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.14705882352941
loss是： tensor(111.6702, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.578947368421055
loss是： tensor(99.4149, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.666666666666668
loss是： tensor(69.9974, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.925925925925924
loss是： tensor(93.4792, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 3.484848484848

bert计算的loss是： 22.878787878787882
loss是： tensor(83.5034, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 10.0
loss是： tensor(52.1123, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.61290322580645
loss是： tensor(99.2023, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 51.0344827586207
loss是： tensor(93.6181, device='cuda:0', grad_fn=<AddBackward0>)
250/300
bert计算的loss是： 35.96491228070175
loss是： tensor(86.1263, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 46.849315068493155
loss是： tensor(118.1313, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.400000000000002
loss是： tensor(88.2551, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.421052631578945
loss是： tensor(72.8125, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.07017543859649
loss是： tensor(91.7441, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.90566037735849
loss是： tensor(69.5533, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.5
loss是： tensor(76.5830,

bert计算的loss是： 34.09090909090909
loss是： tensor(86.7223, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.285714285714285
loss是： tensor(94.6894, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 50.149253731343286
loss是： tensor(141.7996, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 16.08108108108108
loss是： tensor(83.2196, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.74193548387097
loss是： tensor(88.2793, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 9.84126984126984
loss是： tensor(77.7008, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.35294117647059
loss是： tensor(112.0238, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 8.571428571428571
loss是： tensor(81.3927, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.5
loss是： tensor(63.0509, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 60.0
loss是： tensor(104.6115, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 1.206896551724138
loss是： tensor(67.7775, device=

bert计算的loss是： 30.151515151515152
loss是： tensor(91.5860, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.03125
loss是： tensor(89.4404, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.13793103448276
loss是： tensor(69.3738, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.60377358490566
loss是： tensor(92.2126, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.54237288135593
loss是： tensor(93.4682, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 48.10344827586207
loss是： tensor(128.8796, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.911764705882355
loss是： tensor(87.1253, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.694444444444446
loss是： tensor(83.7963, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.833333333333336
loss是： tensor(81.9966, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.15384615384615
loss是： tensor(100.5072, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.193548387096776
loss是： ten

bert计算的loss是： 22.033898305084744
loss是： tensor(82.0666, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.30769230769231
loss是： tensor(96.3115, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.603174603174605
loss是： tensor(71.9934, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.559322033898304
loss是： tensor(75.9956, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 49.242424242424235
loss是： tensor(106.9796, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.074074074074076
loss是： tensor(100.5441, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.84375
loss是： tensor(91.2933, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.58730158730159
loss是： tensor(109.1841, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.885245901639344
loss是： tensor(93.1835, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.846153846153847
loss是： tensor(97.8514, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.77049180327869
loss是： 

bert计算的loss是： 30.46875
loss是： tensor(106.2792, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.43661971830986
loss是： tensor(104.2549, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.058823529411768
loss是： tensor(50.2849, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.42857142857143
loss是： tensor(112.4799, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.22033898305085
loss是： tensor(99.8623, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.52238805970149
loss是： tensor(73.8711, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.33333333333333
loss是： tensor(95.8306, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.321428571428573
loss是： tensor(66.3244, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.424242424242422
loss是： tensor(83.2504, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.57142857142857
loss是： tensor(82.4564, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.42465753424658
loss是： tens

bert计算的loss是： 30.806451612903224
loss是： tensor(84.5803, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.82456140350877
loss是： tensor(93.3149, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.026315789473685
loss是： tensor(109.9291, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.223880597014926
loss是： tensor(91.9370, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.267605633802816
loss是： tensor(93.5051, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.0
loss是： tensor(87.9599, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.357142857142854
loss是： tensor(72.3567, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 4.507042253521127
loss是： tensor(64.5919, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.76923076923077
loss是： tensor(68.9709, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 52.42424242424242
loss是： tensor(118.4821, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 51.864406779661024
loss是： tensor

bert计算的loss是： 21.403508771929825
loss是： tensor(61.7226, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.384615384615387
loss是： tensor(84.4057, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.5
loss是： tensor(116.1334, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.682539682539684
loss是： tensor(70.6992, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.538461538461537
loss是： tensor(88.6279, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.557377049180324
loss是： tensor(108.4889, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.78947368421053
loss是： tensor(100.0645, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.4375
loss是： tensor(77.7630, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.73134328358209
loss是： tensor(90.3828, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.208955223880594
loss是： tensor(109.3070, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.74193548387097
loss是： tensor(112.801

bert计算的loss是： 26.71428571428571
loss是： tensor(90.3034, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.866666666666667
loss是： tensor(90.8315, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.6764705882353
loss是： tensor(89.7859, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.142857142857146
loss是： tensor(71.5612, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.75
loss是： tensor(83.8983, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.6875
loss是： tensor(77.0919, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.22077922077922
loss是： tensor(98.6742, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.90909090909091
loss是： tensor(82.8145, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.44776119402985
loss是： tensor(103.3342, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 55.0
loss是： tensor(118.8102, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.81818181818181
loss是： tensor(103.8786, device='cuda:0',

bert计算的loss是： 46.52173913043478
loss是： tensor(87.1068, device='cuda:0', grad_fn=<AddBackward0>)
280/300
bert计算的loss是： 21.607142857142854
loss是： tensor(71.0651, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.88888888888889
loss是： tensor(66.3854, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.97222222222222
loss是： tensor(100.7965, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.454545454545453
loss是： tensor(86.8451, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.952380952380953
loss是： tensor(96.6965, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.322033898305087
loss是： tensor(85.5300, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.03174603174603
loss是： tensor(96.2624, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.15789473684211
loss是： tensor(96.0793, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.163934426229506
loss是： tensor(88.7710, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.878787878

bert计算的loss是： 0.9090909090909092
loss是： tensor(63.7997, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 50.0
loss是： tensor(112.3524, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.0
loss是： tensor(79.9995, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.35483870967742
loss是： tensor(98.4175, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.8
loss是： tensor(78.7518, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 45.0
loss是： tensor(117.9526, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.470588235294116
loss是： tensor(61.9244, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.28358208955224
loss是： tensor(102.0748, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.714285714285715
loss是： tensor(78.0292, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 14.133333333333333
loss是： tensor(78.2054, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.719298245614038
loss是： tensor(80.9333, device='cuda:0', grad_fn=<Add

bert计算的loss是： 23.70967741935484
loss是： tensor(60.4137, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.28358208955224
loss是： tensor(82.9505, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.131147540983605
loss是： tensor(113.1297, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.38709677419355
loss是： tensor(106.0750, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.151515151515152
loss是： tensor(95.2094, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 19.18032786885246
loss是： tensor(69.4744, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.80327868852459
loss是： tensor(82.2556, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.44117647058823
loss是： tensor(105.8078, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.73076923076923
loss是： tensor(105.1951, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.253968253968257
loss是： tensor(86.0110, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 43.63636363636363
l

bert计算的loss是： 24.137931034482758
loss是： tensor(61.8338, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 58.833333333333336
loss是： tensor(86.1593, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.35483870967742
loss是： tensor(67.2259, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.0
loss是： tensor(89.2326, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.76190476190476
loss是： tensor(81.3988, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.363636363636363
loss是： tensor(81.5193, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.57142857142857
loss是： tensor(89.6726, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.285714285714285
loss是： tensor(84.0469, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.295081967213115
loss是： tensor(57.3252, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.39682539682539
loss是： tensor(83.6960, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.81818181818182
loss是： tensor(80

bert计算的loss是： 32.41935483870967
loss是： tensor(77.0862, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 44.375
loss是： tensor(107.8715, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.92307692307692
loss是： tensor(71.9724, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.846153846153847
loss是： tensor(72.8680, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.096774193548384
loss是： tensor(94.1147, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.425531914893615
loss是： tensor(65.8626, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.73529411764706
loss是： tensor(81.6777, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 57.213114754098356
loss是： tensor(113.3928, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 45.81818181818182
loss是： tensor(79.8793, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.074074074074076
loss是： tensor(78.3334, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.295774647887324
loss是： tens

bert计算的loss是： 26.25
loss是： tensor(98.1120, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.476190476190474
loss是： tensor(89.3540, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.694915254237287
loss是： tensor(80.2506, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.32258064516129
loss是： tensor(123.3907, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.588235294117645
loss是： tensor(98.7277, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.11111111111111
loss是： tensor(65.3824, device='cuda:0', grad_fn=<AddBackward0>)
正在训练第 4轮
Model(
  (gen_embedding): Embedding(8518, 300)
  (conv1): Conv1d(300, 128, kernel_size=(5,), stride=(1,), padding=(2,))
  (conv2): Conv1d(300, 128, kernel_size=(3,), stride=(1,), padding=(1,))
  (dropout): Dropout(p=0.55, inplace=False)
  (conv3): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
  (conv4): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
  (conv5): Conv1d(256, 256, kernel_size=

bert计算的loss是： 28.64406779661017
loss是： tensor(60.1818, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.34782608695652
loss是： tensor(119.8105, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.523809523809526
loss是： tensor(88.7456, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 62.0
loss是： tensor(135.7702, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.5
loss是： tensor(71.1132, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.38461538461539
loss是： tensor(89.5786, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.125
loss是： tensor(77.8381, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.166666666666664
loss是： tensor(78.9287, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.40983606557377
loss是： tensor(88.2325, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.30769230769231
loss是： tensor(92.1369, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 43.6231884057971
loss是： tensor(110.0093, device='cuda:0', g

bert计算的loss是： 30.151515151515152
loss是： tensor(114.2469, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.72463768115942
loss是： tensor(100.5324, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 14.324324324324325
loss是： tensor(35.2297, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.77777777777778
loss是： tensor(104.6749, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.61904761904762
loss是： tensor(74.6237, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 16.714285714285715
loss是： tensor(81.8823, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.161290322580644
loss是： tensor(90.1739, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.03125
loss是： tensor(94.1180, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 69.84126984126985
loss是： tensor(140.5409, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.35087719298246
loss是： tensor(94.9609, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.07692307692307
loss是： te

bert计算的loss是： 29.70149253731343
loss是： tensor(97.8065, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.405405405405403
loss是： tensor(93.7974, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.11764705882353
loss是： tensor(129.9253, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.5
loss是： tensor(68.3923, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.714285714285715
loss是： tensor(70.0576, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.5
loss是： tensor(92.4444, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 67.94117647058823
loss是： tensor(147.4639, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.70967741935484
loss是： tensor(76.2010, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.61702127659575
loss是： tensor(85.0198, device='cuda:0', grad_fn=<AddBackward0>)
260/300
bert计算的loss是： 36.76056338028169
loss是： tensor(105.9016, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.27272727272727
loss是： tensor(105.114

bert计算的loss是： 24.84375
loss是： tensor(84.5751, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.77358490566038
loss是： tensor(80.9170, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.863013698630137
loss是： tensor(88.4292, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.01694915254237
loss是： tensor(80.8635, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 44.333333333333336
loss是： tensor(87.0586, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 58.75
loss是： tensor(110.1001, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.76923076923077
loss是： tensor(72.3922, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.81081081081081
loss是： tensor(113.5117, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.741935483870968
loss是： tensor(95.5071, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.131147540983605
loss是： tensor(95.9498, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.833333333333336
loss是： tensor(80.0820,

bert计算的loss是： 41.29032258064516
loss是： tensor(107.0585, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.607843137254903
loss是： tensor(68.8741, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.903225806451616
loss是： tensor(100.4273, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 47.69230769230769
loss是： tensor(106.0842, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.96969696969697
loss是： tensor(79.0135, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.384615384615387
loss是： tensor(95.2275, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.3943661971831
loss是： tensor(72.6778, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.166666666666668
loss是： tensor(86.6876, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.78571428571429
loss是： tensor(81.1689, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.114754098360656
loss是： tensor(87.1598, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.384615384615383


bert计算的loss是： 40.0
loss是： tensor(131.3324, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.714285714285715
loss是： tensor(81.4315, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 20.444444444444443
loss是： tensor(55.6927, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.671641791044774
loss是： tensor(61.3347, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.0
loss是： tensor(65.5840, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 52.03125
loss是： tensor(94.3024, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 16.91176470588235
loss是： tensor(74.5481, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.285714285714285
loss是： tensor(70.8482, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.32876712328767
loss是： tensor(109.7911, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.241379310344826
loss是： tensor(78.7156, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.370370370370374
loss是： tensor(123.7680, device='cud

bert计算的loss是： 22.8125
loss是： tensor(98.5099, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.18032786885246
loss是： tensor(71.1797, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.53846153846154
loss是： tensor(97.3791, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.88888888888889
loss是： tensor(83.0420, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.242424242424242
loss是： tensor(78.2069, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.23728813559322
loss是： tensor(94.1452, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.80821917808219
loss是： tensor(108.7145, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.363636363636363
loss是： tensor(54.0752, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.14285714285714
loss是： tensor(112.4799, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.454545454545453
loss是： tensor(88.8989, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.821917808219176
loss是： tenso

bert计算的loss是： 26.43835616438356
loss是： tensor(66.7896, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.28985507246377
loss是： tensor(79.9704, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.90909090909091
loss是： tensor(107.5672, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.38709677419355
loss是： tensor(118.6894, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.262295081967213
loss是： tensor(69.3778, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.857142857142854
loss是： tensor(92.3169, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 49.28571428571429
loss是： tensor(91.4108, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.03389830508475
loss是： tensor(102.1091, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.60606060606061
loss是： tensor(74.7638, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.0
loss是： tensor(110.4153, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 48.833333333333336
loss是： tensor(

bert计算的loss是： 33.19444444444444
loss是： tensor(70.1536, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.65384615384615
loss是： tensor(81.8863, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.529411764705884
loss是： tensor(88.3805, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.0
loss是： tensor(68.0162, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.07692307692308
loss是： tensor(103.9061, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.27272727272727
loss是： tensor(101.3381, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.25
loss是： tensor(90.6295, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.444444444444446
loss是： tensor(76.6362, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.16949152542373
loss是： tensor(60.2715, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.0
loss是： tensor(137.0369, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.93150684931507
loss是： tensor(81.4256, device='cuda:0', g

bert计算的loss是： 44.57142857142857
loss是： tensor(85.7774, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.12903225806451
loss是： tensor(96.1601, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 61.875
loss是： tensor(118.0400, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.516129032258064
loss是： tensor(72.1596, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.694915254237294
loss是： tensor(82.6816, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.0
loss是： tensor(104.2917, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.93548387096774
loss是： tensor(76.8629, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.524590163934427
loss是： tensor(71.7685, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.726027397260275
loss是： tensor(79.4200, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.0
loss是： tensor(85.7670, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.457627118644066
loss是： tensor(62.1645, device='cuda:0'

bert计算的loss是： 53.38461538461538
loss是： tensor(101.5175, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.3448275862069
loss是： tensor(107.2907, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.741935483870968
loss是： tensor(67.8871, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.228070175438596
loss是： tensor(102.7816, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.03030303030303
loss是： tensor(90.1128, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.51724137931035
loss是： tensor(90.9072, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.62162162162162
loss是： tensor(81.1673, device='cuda:0', grad_fn=<AddBackward0>)
290/300
bert计算的loss是： 35.072463768115945
loss是： tensor(125.6829, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.73015873015873
loss是： tensor(74.4654, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.142857142857142
loss是： tensor(95.4004, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.10526315

bert计算的loss是： 28.73015873015873
loss是： tensor(97.5685, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.0
loss是： tensor(78.5110, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.31506849315069
loss是： tensor(89.9778, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.18867924528302
loss是： tensor(97.9669, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.72727272727273
loss是： tensor(71.1551, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.28571428571429
loss是： tensor(99.9525, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.11320754716981
loss是： tensor(64.4610, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.375
loss是： tensor(83.4759, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.0625
loss是： tensor(90.2370, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.125
loss是： tensor(74.9392, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.285714285714285
loss是： tensor(90.3458, device='cuda:0', grad_fn=<Add

bert计算的loss是： 23.571428571428573
loss是： tensor(62.3730, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.852459016393443
loss是： tensor(88.6499, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.484848484848484
loss是： tensor(89.5650, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 45.19230769230769
loss是： tensor(79.2830, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.30769230769231
loss是： tensor(93.4094, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.785714285714285
loss是： tensor(115.1703, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.46153846153846
loss是： tensor(87.2502, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.424242424242422
loss是： tensor(90.8827, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.071428571428573
loss是： tensor(83.2434, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.25806451612903
loss是： tensor(87.0009, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.76923076923077
l

bert计算的loss是： 30.9375
loss是： tensor(107.9564, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.806451612903224
loss是： tensor(100.8529, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.035714285714285
loss是： tensor(84.9421, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.103448275862068
loss是： tensor(81.4450, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.57142857142857
loss是： tensor(123.4716, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.333333333333336
loss是： tensor(67.1453, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.172413793103445
loss是： tensor(82.4611, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.824561403508774
loss是： tensor(139.4014, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.400000000000002
loss是： tensor(97.3676, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.09090909090909
loss是： tensor(101.7287, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.5
loss是： tensor(111.9

bert计算的loss是： 37.22222222222222
loss是： tensor(105.8970, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 56.25
loss是： tensor(104.4261, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.696969696969695
loss是： tensor(122.6830, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.9016393442623
loss是： tensor(104.1140, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.955223880597014
loss是： tensor(93.6514, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.5
loss是： tensor(77.0168, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.30769230769231
loss是： tensor(124.7982, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.732394366197184
loss是： tensor(75.2683, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.507462686567166
loss是： tensor(93.6273, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.74193548387097
loss是： tensor(117.1407, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.451612903225804
loss是： tensor(109.4473,

bert计算的loss是： 38.208955223880594
loss是： tensor(130.6218, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 10.476190476190476
loss是： tensor(80.5411, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 40.8955223880597
loss是： tensor(140.4198, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.523809523809526
loss是： tensor(90.8720, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.11764705882353
loss是： tensor(113.1714, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.46153846153846
loss是： tensor(87.2660, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.515151515151516
loss是： tensor(103.6577, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 42.16666666666667
loss是： tensor(127.1905, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.55882352941177
loss是： tensor(114.5329, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.526315789473685
loss是： tensor(97.9687, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 59.0322580645161

bert计算的loss是： 39.710144927536234
loss是： tensor(98.8420, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.25806451612903
loss是： tensor(108.3755, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.205882352941174
loss是： tensor(108.3937, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.526315789473685
loss是： tensor(55.6019, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.166666666666664
loss是： tensor(101.9640, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.24657534246575
loss是： tensor(114.6479, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.357142857142854
loss是： tensor(99.0494, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 7.230769230769231
loss是： tensor(61.1191, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 16.166666666666668
loss是： tensor(71.9490, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.0
loss是： tensor(86.9361, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 12.537313432835822
loss是： ten

bert计算的loss是： 29.18032786885246
loss是： tensor(80.0299, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.69230769230769
loss是： tensor(105.8889, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.372549019607842
loss是： tensor(87.2449, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.37313432835821
loss是： tensor(105.8566, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 18.307692307692307
loss是： tensor(100.2243, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 49.726027397260275
loss是： tensor(137.5322, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.84375
loss是： tensor(104.4832, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.591549295774648
loss是： tensor(100.2224, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.884057971014492
loss是： tensor(108.9823, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.0
loss是： tensor(53.5929, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.46478873239437
loss是： tensor(116.

bert计算的loss是： 3.870967741935484
loss是： tensor(68.8344, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.121212121212118
loss是： tensor(103.1424, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.37704918032787
loss是： tensor(119.1722, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 14.406779661016948
loss是： tensor(109.5194, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.06896551724138
loss是： tensor(72.6779, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.459016393442624
loss是： tensor(97.0100, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.79661016949153
loss是： tensor(109.6343, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.21052631578947
loss是： tensor(81.4328, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 58.92857142857143
loss是： tensor(140.8898, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 6.323529411764706
loss是： tensor(68.5166, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.327868852459016

bert计算的loss是： 31.228070175438596
loss是： tensor(88.6276, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.16666666666667
loss是： tensor(98.9815, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 43.07692307692307
loss是： tensor(90.6525, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.90909090909091
loss是： tensor(99.4523, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.85507246376812
loss是： tensor(122.8882, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 1.3157894736842104
loss是： tensor(80.2933, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.846153846153843
loss是： tensor(109.8000, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.904761904761905
loss是： tensor(77.5473, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.74193548387097
loss是： tensor(119.5383, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 22.5
loss是： tensor(62.7512, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 45.0
loss是： tensor(122.9739, dev

bert计算的loss是： 20.666666666666668
loss是： tensor(59.6380, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.51724137931035
loss是： tensor(109.3043, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 68.80952380952381
loss是： tensor(109.4120, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.18181818181818
loss是： tensor(116.8490, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.0983606557377
loss是： tensor(81.6723, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.166666666666664
loss是： tensor(79.1215, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.52542372881356
loss是： tensor(93.1612, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.935483870967744
loss是： tensor(118.0879, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.38709677419355
loss是： tensor(89.1603, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 35.714285714285715
loss是： tensor(94.4317, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.205882352941174


bert计算的loss是： 32.27272727272727
loss是： tensor(108.9231, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.75324675324675
loss是： tensor(96.9188, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.12903225806451
loss是： tensor(86.0440, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.46153846153846
loss是： tensor(103.1172, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.59259259259259
loss是： tensor(82.8325, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.611940298507463
loss是： tensor(102.0593, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 18.985507246376812
loss是： tensor(78.5396, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.096774193548384
loss是： tensor(100.7866, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.0
loss是： tensor(79.6254, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.96551724137931
loss是： tensor(90.4429, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 64.84375
loss是： tensor(150.3075,

bert计算的loss是： 32.57575757575758
loss是： tensor(103.9164, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 20.434782608695656
loss是： tensor(86.1718, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 37.5
loss是： tensor(104.6207, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.475409836065573
loss是： tensor(67.5080, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 58.305084745762706
loss是： tensor(117.1223, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.516129032258064
loss是： tensor(90.5670, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.14814814814815
loss是： tensor(88.2178, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 21.311475409836067
loss是： tensor(65.0454, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.442622950819676
loss是： tensor(106.5871, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.4375
loss是： tensor(93.4784, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 44.516129032258064
loss是： tensor(100.57

bert计算的loss是： 27.89473684210526
loss是： tensor(72.7650, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.535714285714285
loss是： tensor(75.6266, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 59.26470588235294
loss是： tensor(153.1609, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.38095238095238
loss是： tensor(69.1493, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 28.676470588235293
loss是： tensor(71.9388, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.193548387096776
loss是： tensor(75.7451, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 41.25
loss是： tensor(97.4629, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.21212121212121
loss是： tensor(107.8355, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.923076923076923
loss是： tensor(87.3143, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 32.72727272727273
loss是： tensor(90.6492, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.208955223880594
loss是： tensor

bert计算的loss是： 30.806451612903224
loss是： tensor(82.2319, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 25.0
loss是： tensor(73.5348, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 26.73913043478261
loss是： tensor(75.0752, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.1764705882353
loss是： tensor(105.3326, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.285714285714285
loss是： tensor(117.2055, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 23.484848484848484
loss是： tensor(67.6938, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.92957746478873
loss是： tensor(118.2343, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 16.785714285714285
loss是： tensor(88.6550, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 27.666666666666664
loss是： tensor(76.6938, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 30.0
loss是： tensor(99.2759, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 31.71875
loss是： tensor(92.4071, device='cuda:

bert计算的loss是： 22.80701754385965
loss是： tensor(66.0438, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.30769230769231
loss是： tensor(90.6456, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 34.42622950819672
loss是： tensor(111.4881, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 38.80597014925373
loss是： tensor(89.9778, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 29.18918918918919
loss是： tensor(103.9123, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.93939393939394
loss是： tensor(92.3221, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 39.25373134328358
loss是： tensor(84.6911, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 24.75
loss是： tensor(44.6801, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 36.98412698412699
loss是： tensor(87.5853, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 43.89830508474576
loss是： tensor(104.0552, device='cuda:0', grad_fn=<AddBackward0>)
bert计算的loss是： 33.492063492063494
loss是： tensor(99