In [1]:
# 挂载Google Drive
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
# 安装bert4keras
! pip3 install bert4keras
! pip3 install rouge

In [None]:
# tensorflow2.x才能用GPU!!!
! pip3 install tensorflow==2.4.1
! pip3 install keras==2.3.1

In [None]:
# 下载Bert模型
! wget https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
! unzip chinese_L-12_H-768_A-12.zip

In [None]:
# 解压数据集
! unzip /content/nlpcc2017.zip

In [8]:
! nvidia-smi

Fri May  7 08:22:45 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 465.19.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   36C    P0    25W / 250W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [None]:
from __future__ import print_function
import os
os.environ['TF_KERAS'] = '1'
import json
import random
import numpy as np
from tqdm import tqdm
from bert4keras.backend import keras, K
from bert4keras.layers import Loss
from bert4keras.models import build_transformer_model
from bert4keras.tokenizers import Tokenizer, load_vocab
from bert4keras.optimizers import Adam
from bert4keras.snippets import sequence_padding, open
from bert4keras.snippets import DataGenerator, AutoRegressiveDecoder
from keras.models import Model
from rouge import Rouge
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

# 基本参数
maxlen = 512
batch_size = 8
epochs = 40

# bert配置
config_path = '/content/chinese_L-12_H-768_A-12/bert_config.json'
checkpoint_path = '/content/chinese_L-12_H-768_A-12/bert_model.ckpt'
dict_path = '/content/chinese_L-12_H-768_A-12/vocab.txt'

def load_data(filename):
    D = []
    with open(filename) as f:
        for l in f:
            l = json.loads(l)
            if 'summarization' in l: 
              title = l['summarization']
            else:
              title = None
            content = l['article'].replace('<Paragraph>','\r\n')
            if len(content) + len(title) > maxlen or len(title) > 64: continue
            D.append((title, content))
    return D


# 加载数据集
train_data = load_data('/content/train_with_summ.json')
valid_data = load_data('/content/evaluation_with_ground_truth.json')
random.shuffle(train_data)
train_data = train_data[:16000]
valid_data = valid_data[:100]

# 加载并精简词表，建立分词器
token_dict, keep_tokens = load_vocab(
    dict_path=dict_path,
    simplified=True,
    startswith=['[PAD]', '[UNK]', '[CLS]', '[SEP]'],
)
tokenizer = Tokenizer(token_dict, do_lower_case=True)


class data_generator(DataGenerator):
    """数据生成器
    """
    def __iter__(self, random=False):
        batch_token_ids, batch_segment_ids = [], []
        for is_end, (title, content) in self.sample(random):
            token_ids, segment_ids = tokenizer.encode(
                content, title, maxlen=maxlen
            )
            batch_token_ids.append(token_ids)
            batch_segment_ids.append(segment_ids)
            if len(batch_token_ids) == self.batch_size or is_end:
                batch_token_ids = sequence_padding(batch_token_ids)
                batch_segment_ids = sequence_padding(batch_segment_ids)
                yield [batch_token_ids, batch_segment_ids], None
                batch_token_ids, batch_segment_ids = [], []


class CrossEntropy(Loss):
    """交叉熵作为loss，并mask掉输入部分
    """
    def compute_loss(self, inputs, mask=None):
        y_true, y_mask, y_pred = inputs
        y_true = y_true[:, 1:]  # 目标token_ids
        y_mask = y_mask[:, 1:]  # segment_ids，刚好指示了要预测的部分
        y_pred = y_pred[:, :-1]  # 预测序列，错开一位
        loss = K.sparse_categorical_crossentropy(y_true, y_pred)
        loss = K.sum(loss * y_mask) / K.sum(y_mask)
        return loss


model = build_transformer_model(
    config_path, # 模型的配置文件
    checkpoint_path, # 模型的预训练权重
    application='unilm', # 模型的用途
    keep_tokens=keep_tokens,  # 只保留keep_tokens中的字，精简原字表
)

output = CrossEntropy(2)(model.inputs + model.outputs)

model = Model(model.inputs, output)
model.compile(optimizer=Adam(1e-6))
model.summary()


class AutoTitle(AutoRegressiveDecoder):
    """seq2seq解码器
    """
    @AutoRegressiveDecoder.wraps(default_rtype='probas')
    def predict(self, inputs, output_ids, states):
        token_ids, segment_ids = inputs
        token_ids = np.concatenate([token_ids, output_ids], 1)
        segment_ids = np.concatenate([segment_ids, np.ones_like(output_ids)], 1)
        return self.last_token(model).predict([token_ids, segment_ids])

    def generate(self, text, topk=1):
        max_c_len = maxlen - self.maxlen
        token_ids, segment_ids = tokenizer.encode(text, maxlen=max_c_len)
        output_ids = self.beam_search([token_ids, segment_ids],
                                      topk=topk)  # 基于beam search
        return tokenizer.decode(output_ids)


autotitle = AutoTitle(start_id=None, end_id=tokenizer._token_end_id, maxlen=64)


def just_show():
    s1 = u'资料图：空军苏27/歼11编队，日方称约40架中国军机在23日8艘海监船驱赶日本船队期间出现在钓鱼岛附近空域日本《产经新闻》4月27日报道声称，中国8艘海监船相继进入钓鱼岛12海里执法的4月23日当天，曾有40多架中国军机出现在钓鱼岛海域周边空域，且中方军机中多半为战斗机，包括中国空军新型战机苏-27和苏-30。日本《产经新闻》声称中国军机是想通过不断的逼近，让日本航空自卫队的战机飞行员形成疲劳。日本政府高官还称：“这是前所未有的威胁。”针对日本媒体的报道，国防部官员在接受环球网采访时称，中国军队飞机在本国管辖海域上空进行正常战备巡逻，日方却颠倒黑白、倒打一耙，肆意渲染“中国威胁”。国防部官员应询表示：4月23日，日方出动多批次F-15战斗机、P3C反潜巡逻机等，对中方正常战备巡逻的飞机进行跟踪、监视和干扰，影响中方飞机正常巡逻和飞行安全。中方对此坚决采取了应对措施。中国军队飞机在本国管辖海域上空进行正常战备巡逻，日方却颠倒黑白、倒打一耙，肆意渲染“中国威胁”。国防部官员称，需要指出的是，今年年初以来，日方不断挑衅，制造事端，并采取“恶人先告状”的手法，抹黑中国军队。事实证明，日方才是地区和平稳定的麻烦制造者。我们要求日方切实采取措施，停止故意制造地区紧张局势的做法。'
    s2 = u'中新网5月26日电/r/n据外媒报道，世界卫生组织日前发布了一份报告，指出自杀已经取代难产，成为全球年轻女性的头号杀手。报道称，根据报告提供的数据显示，东南亚平均每10万名年龄介于15至19岁的女性死者中，就有27.92人死于自杀，男性则为21.41人；欧洲和美洲分别为6.15人及4.72人，全球平均值则是11.73人。报道指出，多年来，难产死亡一直是这个年龄层女性丧命的最主要原因，然而在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因。报告将全球分为美洲、东南亚、中东、欧洲、非洲及西太平洋6大地区，自杀唯独在非洲未有列入5大杀手之内，原因是当地难产和艾滋病死因占绝大多数。在东南亚，自杀占少女死因的比率也较其他死因高两倍。专家分析指出，造成这种结果的原因是当地性别歧视较严重。'
    for s in [s1, s2]:
        print(u'生成标题:', autotitle.generate(s))
    print()


class Evaluator(keras.callbacks.Callback):
    """评估与保存
    """
    def __init__(self):
        self.rouge = Rouge()
        self.smooth = SmoothingFunction().method1
        self.best_bleu = 0.

    def on_epoch_end(self, epoch, logs=None):
        metrics = self.evaluate(valid_data)  # 评测模型
        if metrics['bleu'] > self.best_bleu:
            self.best_bleu = metrics['bleu']
            model.save_weights('./gdrive/MyDrive/UniLM_Bert4Keras/best_model.weights')  # 保存模型
        metrics['best_bleu'] = self.best_bleu
        print('valid_data:', metrics)
        just_show()

    def evaluate(self, data, topk=1):
        total = 0
        rouge_1, rouge_2, rouge_l, bleu = 0, 0, 0, 0
        for title, content in tqdm(data):
            total += 1
            title = ' '.join(title).lower()
            pred_title = ' '.join(autotitle.generate(content, topk)).lower()
            if pred_title.strip():
                scores = self.rouge.get_scores(hyps=pred_title, refs=title)
                rouge_1 += scores[0]['rouge-1']['f']
                rouge_2 += scores[0]['rouge-2']['f']
                rouge_l += scores[0]['rouge-l']['f']
                bleu += sentence_bleu(
                    references=[title.split(' ')],
                    hypothesis=pred_title.split(' '),
                    smoothing_function=self.smooth
                )
        rouge_1 /= total
        rouge_2 /= total
        rouge_l /= total
        bleu /= total
        return {
            'rouge-1': rouge_1,
            'rouge-2': rouge_2,
            'rouge-l': rouge_l,
            'bleu': bleu,
        }


if __name__ == '__main__':
    model.load_weights('./gdrive/MyDrive/UniLM_Bert4Keras/best_model.weights')
    evaluator = Evaluator()
    train_generator = data_generator(train_data, batch_size)

    model.fit(
        train_generator.forfit(),
        steps_per_epoch=len(train_generator),
        epochs=epochs,
        callbacks=[evaluator]
    )

else:

    model.load_weights('./gdrive/MyDrive/UniLM_Bert4Keras/best_model.weights')

Model: "model_1"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
Input-Token (InputLayer)        [(None, None)]       0                                            
__________________________________________________________________________________________________
Input-Segment (InputLayer)      [(None, None)]       0                                            
__________________________________________________________________________________________________
Embedding-Token (Embedding)     multiple             10432512    Input-Token[0][0]                
                                                                 MLM-Norm[0][0]                   
__________________________________________________________________________________________________
Embedding-Segment (Embedding)   (None, None, 768)    1536        Input-Segment[0][0]        

100%|██████████| 100/100 [06:54<00:00,  4.15s/it]


valid_data: {'rouge-1': 0.7598465417562683, 'rouge-2': 0.6699473362389265, 'rouge-l': 0.7425656757442383, 'bleu': 0.595303267406197, 'best_bleu': 0.595303267406197}
生成标题: 日媒：中国军机在钓鱼岛附近空域执法时出现中国威胁，日本政府称是想通过不断的逼近，让日本航空自卫队的战机飞行员形成疲劳。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 2/40


100%|██████████| 100/100 [06:52<00:00,  4.12s/it]


valid_data: {'rouge-1': 0.7588136249021322, 'rouge-2': 0.6716320565310638, 'rouge-l': 0.7436741748140779, 'bleu': 0.6034186017017756, 'best_bleu': 0.6034186017017756}
生成标题: 日媒：中国军机在钓鱼岛水域上空对日本新型战机苏-27和苏-30，日本政府称是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 3/40


100%|██████████| 100/100 [06:53<00:00,  4.14s/it]


valid_data: {'rouge-1': 0.7620781415111537, 'rouge-2': 0.6772953520971525, 'rouge-l': 0.7497758542015973, 'bleu': 0.6059365851877466, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：中国8艘中国军机昨日进入钓鱼岛附近空域，日本高官称日机似有战斗机，给日本航空自卫队的战机形成疲劳。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 4/40


100%|██████████| 100/100 [06:48<00:00,  4.09s/it]


valid_data: {'rouge-1': 0.7636025243559027, 'rouge-2': 0.6779074385501849, 'rouge-l': 0.7531920274070916, 'bleu': 0.6051343860332309, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：日媒称中国8艘中国军机昨日进入钓鱼岛附近空域，日本政府称已颠倒黑白、倒打一耙，肆意渲染中国威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 5/40


100%|██████████| 100/100 [06:59<00:00,  4.19s/it]


valid_data: {'rouge-1': 0.7575948513693528, 'rouge-2': 0.6727055380667681, 'rouge-l': 0.7490486747785465, 'bleu': 0.6002362096547965, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：上海空军出动40架中国军机，在钓鱼岛附近空域遭日本军机跟踪、监视和干扰，日方称是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 6/40


100%|██████████| 100/100 [06:47<00:00,  4.08s/it]


valid_data: {'rouge-1': 0.7585788827718721, 'rouge-2': 0.6712989899032493, 'rouge-l': 0.7411707870378335, 'bleu': 0.6013859001898327, 'best_bleu': 0.6059365851877466}
生成标题: 日媒称，中国8艘中国军机昨日出现钓鱼岛附近空域，日本高官称是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 7/40


100%|██████████| 100/100 [06:40<00:00,  4.01s/it]


valid_data: {'rouge-1': 0.7590688794248104, 'rouge-2': 0.6738902031880383, 'rouge-l': 0.7495464245394396, 'bleu': 0.6039767275250612, 'best_bleu': 0.6059365851877466}
生成标题: 日媒称，中国8艘海监船驱赶日本船队时，出现在钓鱼岛附近空域空域，日军机多半为战斗机，给日本航空自卫队的战机造成疲劳。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 8/40


100%|██████████| 100/100 [06:51<00:00,  4.11s/it]


valid_data: {'rouge-1': 0.756538100507036, 'rouge-2': 0.6728432462340217, 'rouge-l': 0.7446582231760922, 'bleu': 0.6044084917474778, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：上海空军24日出动8艘舰队，空军苏27/歼11编队，日本舰艇遭日本拦截，日军称是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 9/40


100%|██████████| 100/100 [06:53<00:00,  4.13s/it]


valid_data: {'rouge-1': 0.7582853211896479, 'rouge-2': 0.6683678309818408, 'rouge-l': 0.7428695018097247, 'bleu': 0.5974444421072185, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：中国军机在钓鱼岛附近空域遭日本海监船驱赶，日方称是想通过不断的逼近让日本航空自卫队的战机成为疲劳。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 10/40


100%|██████████| 100/100 [06:29<00:00,  3.89s/it]


valid_data: {'rouge-1': 0.7618673366332013, 'rouge-2': 0.6707917881437077, 'rouge-l': 0.7430364800119692, 'bleu': 0.5971720998416693, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：上海美菲等8艘中国军机昨在钓鱼岛附近空域执法，日媒称日方出动多批f-15战机跟踪巡逻，日方对中方军机进行跟踪、监视和干扰。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 11/40


100%|██████████| 100/100 [06:49<00:00,  4.09s/it]


valid_data: {'rouge-1': 0.7579421795412428, 'rouge-2': 0.6699025389179937, 'rouge-l': 0.7379771796743083, 'bleu': 0.6010551365122534, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：上海美菲等8艘军机昨在钓鱼岛附近空域执法，日媒称日方出动多批次f-15战斗机、p3c反潜巡逻机等，影响中方正常巡逻和飞行安全。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 12/40


100%|██████████| 100/100 [06:53<00:00,  4.14s/it]


valid_data: {'rouge-1': 0.762434512048835, 'rouge-2': 0.6750024875582838, 'rouge-l': 0.7434317313028949, 'bleu': 0.6004496198029929, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：中国军机在钓鱼岛水域上空，出现各种战机，日本高官称是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 13/40


100%|██████████| 100/100 [06:49<00:00,  4.10s/it]


valid_data: {'rouge-1': 0.7569573297378633, 'rouge-2': 0.669877584593975, 'rouge-l': 0.7466706809600204, 'bleu': 0.5969941056480372, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：中国8艘海监船驱赶日本船队时，出现在钓鱼岛附近空域，日方称是想通过不断的逼近，让日方飞机形成疲劳。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 14/40


100%|██████████| 100/100 [06:50<00:00,  4.11s/it]


valid_data: {'rouge-1': 0.7588663861585172, 'rouge-2': 0.6729925245269848, 'rouge-l': 0.7489267182863738, 'bleu': 0.6024772869524017, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：中国军机在钓鱼岛水域上空，8艘海监船驱赶日本船队时，出现中国威胁，日军对其实施了骚扰。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 15/40


100%|██████████| 100/100 [06:19<00:00,  3.79s/it]


valid_data: {'rouge-1': 0.7533821183805414, 'rouge-2': 0.6645283409849886, 'rouge-l': 0.7391841198532716, 'bleu': 0.5910684753329284, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：日媒称8架中国军机昨日进入钓鱼岛12海里执法的时候，出现40多架中国军机在钓鱼岛附近空域上空横行巡逻。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 16/40


100%|██████████| 100/100 [06:20<00:00,  3.80s/it]


valid_data: {'rouge-1': 0.7604806844346607, 'rouge-2': 0.6745341427256628, 'rouge-l': 0.7465087062934862, 'bleu': 0.6029614487545937, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：日媒称8艘中国军机在钓鱼岛附近空域遭日本军机跟踪、监视和干扰，日方称是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 17/40


100%|██████████| 100/100 [06:24<00:00,  3.84s/it]


valid_data: {'rouge-1': 0.7564297496247991, 'rouge-2': 0.6704338344196222, 'rouge-l': 0.7433187419085976, 'bleu': 0.6012923418740037, 'best_bleu': 0.6059365851877466}
生成标题: 日媒：中国8艘海监船驱赶日本船队时，出现中国威胁，日本对日军机进行跟踪、监视和干扰，日方称多架中国军机进行跟踪、监视和干扰。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 18/40


100%|██████████| 100/100 [06:27<00:00,  3.87s/it]


valid_data: {'rouge-1': 0.7682184227538336, 'rouge-2': 0.6805369117520111, 'rouge-l': 0.7507436976317545, 'bleu': 0.6091930967287951, 'best_bleu': 0.6091930967287951}
生成标题: 日媒称，日本出动多批次f-15战斗机、p3c反潜巡逻机等，日方却颠倒黑白、倒打一耙，肆意渲染中国威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 19/40


100%|██████████| 100/100 [06:30<00:00,  3.91s/it]


valid_data: {'rouge-1': 0.7569239055844647, 'rouge-2': 0.6700976691962157, 'rouge-l': 0.746195639713488, 'bleu': 0.5969092979478555, 'best_bleu': 0.6091930967287951}
生成标题: 日媒：日媒称8艘中国军机昨日进入钓鱼岛附近空域，日方曾有40多架中国军机出现在钓鱼岛附近空域空域。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 20/40


100%|██████████| 100/100 [06:29<00:00,  3.89s/it]


valid_data: {'rouge-1': 0.7519271338891538, 'rouge-2': 0.6660282163222244, 'rouge-l': 0.7394613950705329, 'bleu': 0.5943644706281586, 'best_bleu': 0.6091930967287951}
生成标题: 日媒：中国8艘中国军机昨日进入钓鱼岛附近空域，日方称多数为战斗机，日方称是想通过不断的逼近使日本航空自卫队的战机发现疲劳。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 21/40


100%|██████████| 100/100 [06:28<00:00,  3.89s/it]


valid_data: {'rouge-1': 0.7554919975038339, 'rouge-2': 0.6677060905401965, 'rouge-l': 0.7415626678480741, 'bleu': 0.5943557681358388, 'best_bleu': 0.6091930967287951}
生成标题: 日媒：中国军机昨日出动钓鱼岛附近空域，出现40多架中国军机昨日驱赶日本船队时出现在钓鱼岛附近空域空域。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 22/40


100%|██████████| 100/100 [06:29<00:00,  3.90s/it]


valid_data: {'rouge-1': 0.7520694785344569, 'rouge-2': 0.6683601453574444, 'rouge-l': 0.7436797822462954, 'bleu': 0.5980925553588772, 'best_bleu': 0.6091930967287951}
生成标题: 日媒：中国8艘中国军机昨在钓鱼岛附近空域驱赶日本船队时，出现在钓鱼岛附近空域，此前媒体称日方是想借助日方航空自卫队的战机训练。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 23/40


100%|██████████| 100/100 [06:32<00:00,  3.93s/it]


valid_data: {'rouge-1': 0.7672544803272568, 'rouge-2': 0.6819988882311097, 'rouge-l': 0.7520563694803193, 'bleu': 0.6064851364418808, 'best_bleu': 0.6091930967287951}
生成标题: 日媒：中国军机昨日进入钓鱼岛附近空域，日媒称，日方出动多批次f-15战斗机、p3c反潜巡逻机等，日方却颠倒黑白、倒打一耙。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 24/40


100%|██████████| 100/100 [06:38<00:00,  3.99s/it]


valid_data: {'rouge-1': 0.759738135103341, 'rouge-2': 0.67406080186342, 'rouge-l': 0.7480411856331926, 'bleu': 0.6035697488504299, 'best_bleu': 0.6091930967287951}
生成标题: 日媒称，中国8艘中国军机昨日进入钓鱼岛附近空域，日本政府高官称此举是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 25/40


100%|██████████| 100/100 [06:33<00:00,  3.94s/it]


valid_data: {'rouge-1': 0.7536514776607034, 'rouge-2': 0.6680353807337887, 'rouge-l': 0.7433453532756816, 'bleu': 0.5964023636762592, 'best_bleu': 0.6091930967287951}
生成标题: 日媒：中国军机在钓鱼岛附近空域活动，遭日方军机跟踪、倒打一耙，日方称是想借此宣示。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 26/40


100%|██████████| 100/100 [06:27<00:00,  3.88s/it]


valid_data: {'rouge-1': 0.7743595447204906, 'rouge-2': 0.6858888580893574, 'rouge-l': 0.757173857042648, 'bleu': 0.6112313322142541, 'best_bleu': 0.6112313322142541}
生成标题: 日媒：中国军机昨日进入钓鱼岛附近空域，日媒称，日方出动多批次f-15战机、p3c反潜巡逻机等，日方却颠倒黑白、倒打一耙。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 27/40


100%|██████████| 100/100 [06:25<00:00,  3.86s/it]


valid_data: {'rouge-1': 0.7662593572361837, 'rouge-2': 0.6849364841043816, 'rouge-l': 0.7558122896643101, 'bleu': 0.6093040177167641, 'best_bleu': 0.6112313322142541}
生成标题: 日媒：中国8艘海监船驱赶日本船队时，出现在钓鱼岛附近空域，日军虽仍颠倒黑白、倒打一耙，肆意渲染中国威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 28/40


100%|██████████| 100/100 [06:32<00:00,  3.92s/it]


valid_data: {'rouge-1': 0.7554453096647351, 'rouge-2': 0.6642210199452491, 'rouge-l': 0.7353236524825562, 'bleu': 0.5892808465036223, 'best_bleu': 0.6112313322142541}
生成标题: 日媒：中国军机在钓鱼岛附近空域活动，遭日方军机跟踪、倒打一耙，日本政府称是前所未有的威胁。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 29/40


100%|██████████| 100/100 [06:29<00:00,  3.89s/it]


valid_data: {'rouge-1': 0.7626204980173951, 'rouge-2': 0.6736467677343189, 'rouge-l': 0.7478071942289346, 'bleu': 0.6004770664405067, 'best_bleu': 0.6112313322142541}
生成标题: 日媒：中国军机在钓鱼岛附近空域驱赶日本船队时，出现40多架中国军机昨进入钓鱼岛附近空域，日方称多为战斗机，造成中国航空自卫队的飞机
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 30/40


100%|██████████| 100/100 [06:25<00:00,  3.85s/it]


valid_data: {'rouge-1': 0.7553241636754043, 'rouge-2': 0.6717751595852762, 'rouge-l': 0.7461744797959078, 'bleu': 0.5963930571532501, 'best_bleu': 0.6112313322142541}
生成标题: 日媒：中国军机在钓鱼岛附近空域驱赶日本船队时，出现在钓鱼岛附近空域，此前媒体称日方对日机进行跟踪、监视和干扰，日方对此应对采取了
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 31/40


100%|██████████| 100/100 [06:08<00:00,  3.69s/it]


valid_data: {'rouge-1': 0.7555514222145773, 'rouge-2': 0.6701303339066113, 'rouge-l': 0.7408630328946783, 'bleu': 0.6007185816583697, 'best_bleu': 0.6112313322142541}
生成标题: 日媒：上午40架中国军机昨在钓鱼岛附近空域驱逐日本船队时，出现40多架中国军机出现在钓鱼岛附近空域。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 32/40


100%|██████████| 100/100 [06:30<00:00,  3.91s/it]



valid_data: {'rouge-1': 0.7632323948698948, 'rouge-2': 0.68218584243747, 'rouge-l': 0.7508838492129152, 'bleu': 0.607425130931269, 'best_bleu': 0.6112313322142541}
valid_data: {'rouge-1': 0.7632323948698948, 'rouge-2': 0.68218584243747, 'rouge-l': 0.7508838492129152, 'bleu': 0.607425130931269, 'best_bleu': 0.6112313322142541}
生成标题: 日媒：中国军机在钓鱼岛入境多次进行跟踪、监视和干扰，日方称日方对日机进行正常战备巡逻，影响中方飞机正常巡逻和飞行安全。
生成标题: 日媒：中国军机在钓鱼岛入境多次进行跟踪、监视和干扰，日方称日方对日机进行正常战备巡逻，影响中方飞机正常巡逻和飞行安全。
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 33/40
生成标题: 世界卫生组织发布报告称，在过去10年，自杀取代难产死亡，成为全球年轻女性死亡的最主要原因

Epoch 33/40