# Encoder And Decoder Model

# 0. GPU测试

In [38]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [39]:
import warnings
warnings.filterwarnings("ignore")
import sys
sys.path.append('/home/roger/kaikeba/03_lecture/code')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from utils.data_loader import build_dataset,load_dataset,preprocess_sentence,load_test_dataset
from utils.wv_loader import load_embedding_matrix,load_vocab
from utils.config import *
from gensim.models.word2vec import LineSentence, Word2Vec
from utils.params_utils import *
from utils.gpu_utils import config_gpu
config_gpu()
import tensorflow as tf
from utils.plot_utils import plot_attention
from tqdm import tqdm
import time
from seq2seq_tf2.batcher import train_batch_generator

1 Physical GPUs, 1 Logical GPUs


# 0. 预处理数据

In [40]:
%%time
# build_dataset(train_data_path,test_data_path)

Wall time: 0 ns


# 1. 加载数据

## 1.1 加载数据集

In [41]:
max_length_inp = 200
max_length_targ = 41
units = 128
dataset, steps_per_epoch = train_batch_generator(batch_size=64,
                                                 max_enc_len=params["max_enc_len"],
                                                 max_dec_len=params["max_dec_len"])
test_X = load_test_dataset(params["max_dec_len"])

## 1.2. 加载vocab

In [42]:
vocab,reverse_vocab=load_vocab(vocab_path)

## 1.3 加载预训练权重

In [43]:
embedding_matrix=load_embedding_matrix()

# 2. 模型训练

## 2.1 基本参数设置

In [44]:
params = {}
params["vocab_size"] = len(vocab)
params["embed_size"] = 500
params["enc_units"] = 128
params["attn_units"] = 128
params["dec_units"] = 128
params["batch_size"] = 64
params["epochs"] = 5
params["max_enc_len"] = 200
params["max_dec_len"] = 41


def config_gpu():
    """
    RNN在跑并行的时候，它需要很大的GPU显存，所以跑的时候经常会报错或者跑着跑着就崩了，它这里下边是由这些选项，
    在跑模型的时候要配置一下下边的这些选项
    :return:
    """
    gpus = tf.config.experimental.list_physical_devices('GPU')
    if gpus:
        try:
            for gpu in gpus:
                tf.config.experimental.set_memory_growth(gpu, True)
                # 设置GPU的memory为可以增长的模型
                logical_gpus = tf.config.experimental.list_logical_devices('GPU')
                print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
        except RuntimeError as e:
            print(e)

config_gpu()


1 Physical GPUs, 1 Logical GPUs


In [45]:
help(tf.config.experimental.set_memory_growth)

Help on function set_memory_growth in module tensorflow.python.framework.config:

set_memory_growth(device, enable)
    Set if memory growth should be enabled for a `PhysicalDevice`.
    
    If memory growth is enabled for a `PhysicalDevice`, the runtime initialization
    will not allocate all memory on the device. Memory growth cannot be configured
    on a `PhysicalDevice` with virtual devices configured.
    
    For example:
    
    >>> physical_devices = tf.config.list_physical_devices('GPU')
    >>> try:
    ...   tf.config.experimental.set_memory_growth(physical_devices[0], True)
    ... except:
    ...   # Invalid device or cannot modify virtual devices once initialized.
    ...   pass
    
    Args:
      device: `PhysicalDevice` to configure
      enable: (Boolean) Whether to enable or disable memory growth
    
    Raises:
      ValueError: Invalid `PhysicalDevice` specified.
      RuntimeError: Runtime is already initialized.



## 2.2 构建Encoder

In [46]:
from seq2seq_tf2.seq2seq_model import Seq2Seq

In [47]:
model=Seq2Seq(params)

# 2 读取训练好的模型

In [48]:
from utils.config import checkpoint_dir,checkpoint_prefix

In [49]:
ckpt = tf.train.Checkpoint(Seq2Seq=model)
ckpt_manager = tf.train.CheckpointManager(ckpt, checkpoint_dir, max_to_keep=5)

In [50]:
ckpt.restore(ckpt_manager.latest_checkpoint)
print("Model restored")

Model restored


# 3. 训练

In [13]:
optimizer = tf.keras.optimizers.Adam(name='Adam',learning_rate=0.001)
loss_object = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction='none')


pad_index=vocab['<PAD>']
nuk_index=vocab['<UNK>']

def loss_function(real, pred):
    pad_mask = tf.math.equal(real, pad_index)
    nuk_mask = tf.math.equal(real, nuk_index)
    mask = tf.math.logical_not(tf.math.logical_or(pad_mask,nuk_mask))
    
    loss_ = loss_object(real, pred)

    mask = tf.cast(mask, dtype=loss_.dtype)
    loss_ *= mask

    return tf.reduce_mean(loss_)

In [14]:
@tf.function
def train_step(inp, targ):
    loss = 0
    
    with tf.GradientTape() as tape:
        # 1. 构建encoder
        enc_output, enc_hidden = model.call_encoder(inp)
        # 2. 复制
        dec_hidden = enc_hidden
        # 3. <START> * BATCH_SIZE 
        dec_input = tf.expand_dims([vocab['<START>']] * params["batch_size"], 1)
        
        # 逐个预测序列
        predictions, _ = model(dec_input, dec_hidden, enc_output, targ)
        
        batch_loss = loss_function(targ[:, 1:], predictions)

        variables = model.encoder.trainable_variables + model.decoder.trainable_variables+ model.attention.trainable_variables
    
        gradients = tape.gradient(batch_loss, variables)

        optimizer.apply_gradients(zip(gradients, variables))

        return batch_loss

In [15]:
epochs = params["epochs"]
# 如果检查点存在，则恢复最新的检查点。
if ckpt_manager.latest_checkpoint:
    ckpt.restore(ckpt_manager.latest_checkpoint)
    print ('Latest checkpoint restored!!')
    
for epoch in range(epochs):
    start = time.time()
    total_loss = 0

    for (batch, (inp, targ)) in enumerate(dataset.take(steps_per_epoch)):
        batch_loss = train_step(inp, targ)
        total_loss += batch_loss

        if batch % 1 == 0:
            print('Epoch {} Batch {} Loss {:.4f}'.format(epoch + 1,
                                                         batch,
                                                         batch_loss.numpy()))
    # saving (checkpoint) the model every 2 epochs
    if (epoch + 1) % 2 == 0:
        ckpt_save_path = ckpt_manager.save()
        print ('Saving checkpoint for epoch {} at {}'.format(epoch+1,
                                                             ckpt_save_path))

    print('Epoch {} Loss {:.4f}'.format(epoch + 1,
                                      total_loss / steps_per_epoch))
    print('Time taken for 1 epoch {} sec\n'.format(time.time() - start))

Latest checkpoint restored!!
Epoch 1 Batch 0 Loss 1.8252
Epoch 1 Batch 1 Loss 1.5432
Epoch 1 Batch 2 Loss 1.4231
Epoch 1 Batch 3 Loss 1.7461
Epoch 1 Batch 4 Loss 1.7218
Epoch 1 Batch 5 Loss 1.4459
Epoch 1 Batch 6 Loss 1.6312
Epoch 1 Batch 7 Loss 1.5241
Epoch 1 Batch 8 Loss 1.5643
Epoch 1 Batch 9 Loss 1.5545
Epoch 1 Batch 10 Loss 1.7141
Epoch 1 Batch 11 Loss 1.7046
Epoch 1 Batch 12 Loss 1.6287
Epoch 1 Batch 13 Loss 1.5508
Epoch 1 Batch 14 Loss 1.8698
Epoch 1 Batch 15 Loss 1.5294
Epoch 1 Batch 16 Loss 1.7857
Epoch 1 Batch 17 Loss 1.5140
Epoch 1 Batch 18 Loss 1.6466
Epoch 1 Batch 19 Loss 1.4922
Epoch 1 Batch 20 Loss 1.7568
Epoch 1 Batch 21 Loss 1.6999
Epoch 1 Batch 22 Loss 1.4504
Epoch 1 Batch 23 Loss 1.7029
Epoch 1 Batch 24 Loss 1.7064
Epoch 1 Batch 25 Loss 1.7025
Epoch 1 Batch 26 Loss 1.8397
Epoch 1 Batch 27 Loss 1.5824
Epoch 1 Batch 28 Loss 1.6488
Epoch 1 Batch 29 Loss 1.8088
Epoch 1 Batch 30 Loss 1.7434
Epoch 1 Batch 31 Loss 1.7653
Epoch 1 Batch 32 Loss 1.6805
Epoch 1 Batch 33 Loss 1.

KeyboardInterrupt: 

Time taken for 1 epoch 524.4936063289642 sec

# 载入模型

In [16]:
# 如果检查点存在，则恢复最新的检查点。
ckpt.restore(ckpt_manager.latest_checkpoint)
print("Model restored")

Model restored


# 预测

In [17]:
max_length_targ = 41
max_length_inp = 200
units = 128

In [18]:
def evaluate(model,inputs):
    attention_plot = np.zeros((max_length_targ, max_length_inp))
    
    inputs = tf.convert_to_tensor(inputs)

    result = ''
    
    hidden = [tf.zeros((1, units))]
    enc_output, enc_hidden = model.encoder(inputs, hidden)

    dec_hidden = enc_hidden
    
    dec_input = tf.expand_dims([vocab['<START>']], 0)
    
    context_vector, _ = model.attention(dec_hidden, enc_output)

    for t in range(max_length_targ):
        # max_length_targ：要预测的这句话的最大的长度，如果是40，就会执行40个循环
        # 要么遇到结尾符，要么运行至整个循环结束
        
        context_vector, attention_weights = model.attention(dec_hidden, enc_output)
        
        # 预测的时候也是一样，拿到model以后，一步一步的进行decode
        # 这里输入三个参数之后，得到结果中依旧会有一个dec_hidden,这是这个时间步的隐藏层的输出
        # 而第一次传进去的dec_hidden是encoder层输出的隐藏层信息（输入为<START>时）
        # 再往后就是decoder层中的当前进行预测的时间步的上一个时间步输出的隐藏状态
        # 实现了dec_hidden这个变量的复用，就是实现了每循环一次就对dec_hidden进行更新，下一次循环
        # 的时候，把更新后的dec_hidden传进去
        predictions, dec_hidden = model.decoder(dec_input,
                                         dec_hidden,
                                         enc_output,
                                         context_vector)

        # storing the attention weights to plot later on
        attention_weights = tf.reshape(attention_weights, (-1, ))
        
        attention_plot[t] = attention_weights.numpy()
        # 拿到预测结果之后来取概率值最大的ID
        predicted_id = tf.argmax(predictions[0]).numpy()

        result += reverse_vocab[predicted_id] + ' '
        # 如果概率值最大的ID对应的是<STOP>，表示到达句尾，就直接返回这句话
        if reverse_vocab[predicted_id] == '<STOP>':
            return result, sentence, attention_plot

        # the predicted ID is fed back into the model
        dec_input = tf.expand_dims([predicted_id], 0)

    return result, sentence, attention_plot

In [19]:
def translate(sentence):
    sentence = preprocess_sentence(sentence,max_length_inp,vocab)
    
    result, sentence, attention_plot = evaluate(model,sentence)

    print('Input: %s' % (sentence))
    print('Predicted translation: {}'.format(result))

    attention_plot = attention_plot[:len(result.split(' ')), :len(sentence.split(' '))]
    plot_attention(attention_plot, sentence.split(' '), result.split(' '))

## Restore the latest checkpoint and test

单个的进行调试

In [20]:
sentence='北京 汽车 BJ 20 自动挡 最低 配 <UNK> 速 续航 技师说'

In [21]:
translate(sentence)

Input: 北京 汽车 BJ 20 自动挡 最低 配 <UNK> 速 续航 技师说
Predicted translation: 建议 使用 专用 电脑 进行 维修 <STOP> 


FileNotFoundError: [Errno 2] No such file or directory: 'data/TrueType/simhei.ttf'

<Figure size 1440x1440 with 1 Axes>

上边是一句话预测的过程，接下来看一下，批量进行的话如何批量进行

# 批量预测

这里先写了一个批量预测的函数

In [22]:
def batch_predict(inps):
    """
    这里的输入就是一个batch_size大小的输入，比如说有32句话，句子长度为200，那么这里就是32*200为
    大小的输入
    """
    # 判断输入长度
    batch_size=len(inps)
    # 开辟结果存储list
    preidicts=[''] * batch_size
    
    inps = tf.convert_to_tensor(inps)
    # 0. 初始化隐藏层输入
    hidden = [tf.zeros((batch_size, units))]
    # 1. 构建encoder
    enc_output, enc_hidden = model.encoder(inps, hidden)
    # 2. 复制
    dec_hidden = enc_hidden
    # 3. <START> * BATCH_SIZE   为传进来的batch_size大小的句子集填充<START>
    # 训练的时候也一样，会初始化很多的<START>
    dec_input = tf.expand_dims([vocab['<START>']] * batch_size, 1)
    
    context_vector, _ = model.attention(dec_hidden, enc_output)
    # Teacher forcing - feeding the target as the next input
    for t in range(max_length_targ):
        # 计算上下文
        context_vector, attention_weights = model.attention(dec_hidden, enc_output)
        # 单步预测
        # 拿到一个batch所有的<START>之后，全部输入到decoder里边
        predictions, dec_hidden = model.decoder(dec_input,
                                         dec_hidden,
                                         enc_output,
                                         context_vector)
        
        # id转换 贪婪搜索  拿到预测的结果，取预测结果的概率最大值
        # 这里的axis=1表示横向取最大值，相当于每一个句子里边取概率最大的那一个词
        # 这里由于是一个batch一个batch的预测，一次预测的是32个句子，则第一步输入32个<START>
        # 这里就会得到32个概率最高的词对应的index
        predicted_ids = tf.argmax(predictions,axis=1).numpy()
        
        # 将这里得到的32index分别赋值到不同的句子里边去，用一个字典来保存32个句子
        for index,predicted_id in enumerate(predicted_ids):
            preidicts[index]+= reverse_vocab[predicted_id] + ' '
            # 这里就是把预测出来的index对应的词放到字典中来
        
        # using teacher forcing
        dec_input = tf.expand_dims(predicted_ids, 1)

    results=[]  # 最后返回结果
    for preidict in preidicts:
        # 去掉句子前后空格
        preidict=preidict.strip()
        # 句子小于max len就结束了 截断
        if '<STOP>' in preidict:
            # 截断stop
            preidict=preidict[:preidict.index('<STOP>')]
        # 保存结果
        results.append(preidict)
    return results

In [23]:
from tqdm import tqdm
import math

In [24]:
# 这里是预测结果的代码，就是将要预测的data_X(测试集，有20000个),和batch大小传进去
# 进行一个batch一个batch的预测
# 将预测出来的结果拼接在一起，预测结束后会拿到20000个句子
def model_predict(data_X,batch_size):
    # 存储结果
    results=[]
    # 样本数量
    sample_size=len(data_X)
    # batch 操作轮数 math.ceil向上取整 小数 +1
    # 因为最后一个batch可能不足一个batch size 大小 ,但是依然需要计算  
    steps_epoch = math.ceil(sample_size/batch_size)
    # [0,steps_epoch)
    for i in tqdm(range(steps_epoch)):
        batch_data = data_X[i*batch_size:(i+1)*batch_size]
        results+=batch_predict(batch_data)
    return results

In [25]:
%%time
results=model_predict(test_X,batch_size=64)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [02:24<00:00,  2.16it/s]


Wall time: 2min 24s


In [26]:
results[1005]  
# 随便挑一句，查看预测结果，结果中有空格，是因为前边在batch_predict(inps):里边是用空格做的拼接

'建议 使用 '

In [27]:
# 读入提交数据’
# 拿到测试的数据，使用pandas将这个csv文件读进来
test_df=pd.read_csv(test_data_path)
test_df.head()

Unnamed: 0,QID,Brand,Model,Question,Dialogue
0,Q1,大众(进口),高尔夫(进口),我的帕萨特烧机油怎么办怎么办？,技师说：你好，请问你的车跑了多少公里了，如果在保修期内，可以到当地的4店里面进行检查维修。如...
1,Q2,一汽-大众奥迪,奥迪A6,修一下多少钱是换还是修,技师说：你好师傅！抛光处理一下就好了！50元左右就好了，希望能够帮到你！祝你生活愉快！
2,Q3,上汽大众,帕萨特,帕萨特领域 喇叭坏了 店里说方向盘里线坏了 换一根两三百不等 感觉太贵,技师说：你好，气囊油丝坏了吗，这个价格不贵。可以更换。
3,Q4,南京菲亚特,派力奥,发动机漏气会有什么征兆？,技师说：你好！一：发动机没力，并伴有“啪啪”的漏气声音。二：发动机没力，并伴有排气管冒黑烟。...
4,Q5,东风本田,思铂睿,请问 那天右后胎扎了订，补了胎后跑高速80多开始有点抖，110时速以上抖动明显，以为是未做动...,技师说：你好师傅！可能前轮平衡快脱落或者不平衡造成的！建议前轮做一下动平衡就好了！希望能够帮...


In [28]:
# 最后结果的补救措施，就是把结果中，！。去掉，把所有的空格删掉
def submit_proc(sentence):
    sentence=sentence.lstrip(' ，！。')
    sentence=sentence.replace(' ','')
    if sentence=='':
        sentence='随时联系'
    return sentence

# 判断是否有空值

In [29]:
for idx,result in enumerate(results):
    if result=='':print(idx)

104
903
1603
1710
2452
2557
5121
5439
5487
6372
6934
7944
9581
10669
11875
11934
15282
16039
18347
19918


In [30]:
# 赋值结果  将前边得到结果赋值给预测的这一列
test_df['Prediction']=results
#　提取ID和预测结果两列  再从上边导入的测试集中拿到QID这一列
test_df=test_df[['QID','Prediction']]

In [31]:
test_df.head()

Unnamed: 0,QID,Prediction
0,Q1,这种 情况 ， 建议 去 4s店 维修 。
1,Q2,， 建议 去 修理厂 ， 建议 去 修理厂 ， 建议 去 修理厂 ， 建议 去 修理厂 ， ...
2,Q3,， 更换 。
3,Q4,， 检查 发动机 缸 压 ， 发动机 缸 压 ， 发动机 缸 压 ， 发动机 缸 压 ， 发...
4,Q5,，


# 结果处理

In [32]:
# 判断是否有空值
# for predic in test_df['Prediction']:
#     if type(predic) != str:
#         print(predic)

In [33]:
test_df['Prediction']=test_df['Prediction'].apply(submit_proc)  # 进行一下预处理

In [34]:
test_df.head()

Unnamed: 0,QID,Prediction
0,Q1,这种情况，建议去4s店维修。
1,Q2,建议去修理厂，建议去修理厂，建议去修理厂，建议去修理厂，建议去修理厂，建议去修理厂，建议去修...
2,Q3,更换。
3,Q4,检查发动机缸压，发动机缸压，发动机缸压，发动机缸压，发动机缸压，发动机缸压，发动机缸压，发动...
4,Q5,随时联系


# 保存结果

In [35]:
from utils.file_utils import get_result_filename

In [36]:
# 获取结果存储路径  随机生成函数名的方法，防止多次生成结果，会搞混，这里在文件名中加上时间戳，batch大小，
# 训练了多少轮，最大长度，embedding_size这些信息，这样的话好处就是，经过不断地修改，发现结果一直不如
# 之前的某一轮的结果好，这样的话就可以直接找到，并且看到当时的参数设置信息
result_save_path = get_result_filename(params["batch_size"],params["epochs"] , params["max_enc_len"], params["embedding_dim"],commit='_4_1_submit_proc_add_masks_loss_seq2seq_code')

KeyError: 'embedding_dim'

In [37]:
# 保存结果.
test_df.to_csv(result_save_path,index=None,sep=',')

NameError: name 'result_save_path' is not defined

In [109]:
result_save_path

'/home/roger/kaikeba/03_lecture/code/result/2019_12_08_22_30_23_batch_size_64_epochs_5_max_length_inp_200_embedding_dim_500_4_1_submit_proc_add_masks_loss_seq2seq_code.csv'

In [110]:
# 读取结果
test_df=pd.read_csv(result_save_path)
# 查看格式
test_df.head(10)

Unnamed: 0,QID,Prediction
0,Q1,现在行驶一千公里，保修期内，4s店内4s店进行维修，检查机油消耗过大，更换机油消耗过大，检查...
1,Q2,描述，没有等到回复，需要300元左右！
2,Q3,描述情况分析事故车，价格不贵。
3,Q4,分析诊断电脑读取发动机缸垫。
4,Q5,描述，这种情况，轮胎问题，轮胎问题，轮胎问题，轮胎问题，轮胎问题，轮胎问题，轮胎问题，轮胎问...
5,Q6,描述，这种情况，描述，这种情况，描述，这种情况，描述，这种情况，描述，这种情况，描述，这种情...
6,Q7,添加，添加防冻液，添加防冻液，添加防冻液，添加防冻液，添加防冻液，添加防冻液，添加防冻液，添...
7,Q8,机油灯亮，需要使用5w30机油，需要检查机油灯亮，需要使用5w30机油，需要检查机油灯亮，需...
8,Q9,图片来看，轮胎磨损严重，这种情况，轮胎磨损严重，这种情况，轮胎磨损严重，这种情况，轮胎磨损严...
9,Q10,这种情况可能天气凉情况下，长时间停放时间长以后，时间长以后，时间长以后，时间长以后，时间长以...


提交须知
请在提交之前仔细阅读“提交须知”。

1. 自动评审
系统根据选手提交的结果自动评分，提供每天5次的评测与排名机会，实时更新排行榜并按照评测分数从高到低排序。若一天内多次提交结果，新结果版本将覆盖原版本。

2. 评分标准
评测用到的核心算法为ROUGE(Recall-Oriented Understudy for Gisting Evaluation)，详见Wikipedia；具体用到的指标为ROUGE_L，即：Longest Common Subsequence (LCS) based statistics，关于LCS问题，详见Wikipedia。

所有参与评审的模型必须使用飞桨PaddlePaddle。所有参赛个人可无限使用基于AI Studio平台提供的训练资源。

3. 特别注意
选手需确认输出结果的总行数为20001（含表头），且QID ≤ Q20000，否则成绩无效。

# ROUGE

# 角度1：QA 问题

# 角度2： 摘要问题

# 角度3： 阅读理解问题

> 如果看成是阅读理解问题， 那么就是从Conversation中找出能回答Problem的答案， 由于目前的阅读理解数据集的答案长度通常比较短（一般是几个单词），所以state of the art的作法是根据Problem，从Context中选择一段作为答案，模型只要输出答案的开始和结束位置即可。 但是这个任务的report有点长，常常出现几十个甚至上百个词， 而且report中的词好像并不完全是来自于Conversation。 Report中67.7%的词来自于Conversation.

## Next steps

* [Download a different dataset](http://www.manythings.org/anki/) to experiment with translations, for example, English to German, or English to French.
* Experiment with training on a larger dataset, or using more epochs
* [Neural Machine Translation (seq2seq) Tutorial](https://github.com/tensorflow/nmt)
