In [19]:
from utils.config import save_wv_model_path
from utils.wv_loader import get_vocab, load_word2vec_file
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.layers import GRU, Input, Dense, TimeDistributed, Activation
from tensorflow.keras.layers import RepeatVector, Bidirectional, Embedding
import tensorflow as tf


import os
os.environ['CUDA_VISIBLE_DEVICES'] = '1'# gpu报错 使用cpu运行
# os.environ["TF_CPP_MIN_LOG_LEVEL"] = '3'


## 使用方式

这里的所有的模块都可以直接拿去使用，都是官方的写法，不一样的就是Encoder和Decoder里边的matrix参数，这一部分的意思就是将预训练好的词向量矩阵拿进来直接使用，不用模型再单独训练了

## Encoder编码层

In [20]:
class Encoder(tf.keras.Model):
    def __init__(self, vocab_size, embedding_dim, matrix, enc_units, batch_sz):
        super(Encoder, self).__init__()
        self.batch_sz = batch_sz
        self.enc_units = enc_units
        self.embedding = tf.keras.layers.Embedding(vocab_size, 
                                                   embedding_dim, 
                                                   weights=[matrix], 
                                                   trainable=False)
        # 将整数索引转化为固定大小的向量  [[4], [20]] -> [[0.25, 0.1], [0.6, -0.2]]
        # vocab_size: 词汇量，即词表中词的数量
        # embedding_dim: 每一个词转换为一个多少维的向量
        
        self.gru = tf.keras.layers.GRU(self.enc_units,
                                       return_sequences=True,
                                       return_state=True,
                                       recurrent_initializer='glorot_uniform')
        # self.enc_units: 经过GRU层后输出的维度，也就是单元数 
        # recurrent_initializer： 初始化权重矩阵
        # return_sequences: 布尔类型. 是否返回最后的输出
        # return_state：布尔类型，是否返回输出之外的最后一个状态。

    def call(self, x, hidden):
        # 通过embedding获得要输入的词向量
        x = self.embedding(x)
        # print(x)  # 这里的x:一个batch是64个句子，每个句子35个词，每个词对应的词向量的维度为256
        # 将词向量输入GRU模型中
        output, state = self.gru(x, initial_state=hidden)
        return output, state
        # 这里的output应该就是整个序列的输出，这里的state就是最后一组返回的状态

    def initialize_hidden_state(self):
        return tf.zeros((self.batch_sz, self.enc_units))


### Encoder层解析：  


模型框架定义部分：  
参数解析：  
embedding层：  
- vocab_size：词表大小，即总共有多少个词，词向量矩阵的行数
- embedding_dim：要将一个词表示为多少维的向量，词向量矩阵的列数
上边的两个参数就是用来embdedding的，即将得到一个和词表对应的矩阵。
- embedding_matrix：自己预训练好的矩阵
- weights=[embedding_matrix]  


gru层：  
只需要设置gru单元个数即可  



模型执行部分：  
参数解析：  
- x：这里往模型中输入的数据是从dataset里边一个batch一个batch取出来的数据，每一个batch都包括着inp,targ
- hidden: 传入的是encoder层隐藏层的初始化状态，通常为一个全1或者0的tensor，对于encoder层来说，它的每一个epoch都是重新初始化的




## 构建Attention

In [21]:
class BahdanauAttention(tf.keras.layers.Layer):
    def __init__(self, units):
        # 这里设置注意力层的输出单元为units
        super(BahdanauAttention, self).__init__()
        # 经过Dense层实现1024 -> 10
        self.W1 = tf.keras.layers.Dense(units)
        # 这里的Dense层不是第一层，所以不用设置输入的大小，只需要指定输出的维度即可，和之前一样的
        self.W2 = tf.keras.layers.Dense(units)
        # 这里最后得到的分数是一个值，所以要设置输出为1
        self.V = tf.keras.layers.Dense(1)
    def call(self, query, values):
        # query：sample_hidden: hidden_state [64, 1024]  
        # values：sample_output：encoder_output [64, 35, 1024] 
        # 由于query和values之间维度不同，所以这里为了使得它们在计算score时可以相加，所以增加query的维度
        hidden_with_time_axis = tf.expand_dims(query, 1)
        

        # 注意力权重值
        # 分数的形状 == （batch_size，max_len，1）  64个句子，每个句子35个词，每个词打一个分
        score = self.V(tf.nn.tanh(self.W1(values) + self.W2(hidden_with_time_axis)))
        print('socre的内容是： {}'.format(score[1]))
        print('socre的形状是： {}'.format(score.shape))

        # 注意力权重 （attention_weights） 的形状 == （batch_size，max_len，1）
        # 在35个词的维度上进行softmax
        attention_weights = tf.nn.softmax(score, axis=1)
        # 35个词，每个词一个softmax输出,一般的和为1
        print('attention_weights的内容是： {}'.format(attention_weights[1]))
        print('attention_weights的形状是： {}'.format(attention_weights.shape))


        # 上下文向量 （context_vector） 求和之后的形状 == （批大小，隐藏层大小）
        context_vector = attention_weights * values
        print('context_vector1的内容是： {}'.format(context_vector[1]))
        print('context_vector1的形状是： {}'.format(context_vector.shape))
        # context_vector1的形状是： (64, 35, 1024)
        context_vector = tf.reduce_sum(context_vector, axis=1)
        # 将35个词的注意力合并
        # context_vector2的形状是： (64, 1024)
        print('context_vector2的内容是： {}'.format(context_vector[1]))
        print('context_vector2的形状是： {}'.format(context_vector.shape))

        return context_vector, attention_weights

### Attention层解析

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 构建解码器

In [22]:
class Decoder(tf.keras.Model):
    def __init__(self, vocab_size, embedding_dim, matrix, dec_units, batch_sz):
        super(Decoder, self).__init__()
        self.batch_sz = batch_sz
        self.dec_units = dec_units
        # 这里在Decoder里边也有一个embedding，主要是因为在decoder里也有自己的输入，用翻译模型来说的话
        # 它的输入就是另一种语言（也可以理解为target）
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim, weights=[matrix], trainable=False)
        self.gru = tf.keras.layers.GRU(self.dec_units,
                                       return_sequences=True,
                                       return_state=True,
                                       recurrent_initializer='glorot_uniform')
        self.fc = tf.keras.layers.Dense(vocab_size)

        # used for attention
        self.attention = BahdanauAttention(self.dec_units)

    def call(self, x, hidden, enc_output):
        # 编码器输出（enc_output）的形状 == [batch_size, max_len, 隐藏层大小（hidden）]
        # 这里的hidden就相当于上边的query，enc_output就相当于上边的values
        # 这里的x就是解码器层的输入
        context_vector, attention_weights = self.attention(hidden, enc_output)

        # x 在通过嵌入层后的形状 == [batch_size, 1, embedding_dim]
        x = self.embedding(x)

        # x 在拼接（concatenation）后的形状 == [batch_size, 1, embedding_dim+隐藏层大小]
        # 上边attention输出的context_vector的形状 == (batch_size, units) (64, 1024)
        x = tf.concat([tf.expand_dims(context_vector, 1), x], axis=-1)

        # 将合并后的向量传送到GRU
        output, state = self.gru(x)

        # 输出的形状 == [batch_size * 1, 隐藏层大小]
        output = tf.reshape(output, (-1, output.shape[2]))

        # 输出的形状 == [batch_size, vocab]
        x = self.fc(output)

        return x, state, attention_weights    
        

### Decoder层解析

In [23]:
# help(tf.concat)

In [24]:
# t1 = [[1, 2, 3], [4, 5, 6]]
# t2 = [[7, 8, 9], [10, 11, 12]]
# tf.concat([t1, t2], -1)

In [25]:
if __name__ == '__main__':
    # 读取vocab训练
    vocab, reverse_vocab = get_vocab(save_wv_model_path)
    # 计算vocab size
    vocab_size = len(vocab)
    # 使用GenSim训练好的embedding matrix
    embedding_matrix = load_word2vec_file(save_wv_model_path)

    input_sequence_len = 35
    BATCH_SIZE = 64
    embedding_dim = 300
    units = 1024

    # 编码器结构
    encoder = Encoder(vocab_size, embedding_dim, embedding_matrix, units, BATCH_SIZE)
    # example_input
    example_input_batch = tf.ones(shape=(BATCH_SIZE, input_sequence_len), dtype=tf.int32)
    # sample input
    sample_hidden = encoder.initialize_hidden_state()
    sample_output, sample_hidden = encoder(example_input_batch, sample_hidden)
    # 打印结果
    print('Encoder output shape: (batch size, sequence length, units) {}'.format(sample_output.shape))
    print('Encoder Hidden state shape: (batch size, units) {}'.format(sample_hidden.shape))

    attention_layer = BahdanauAttention(10)
    attention_result, attention_weights = attention_layer(sample_hidden, sample_output)

    print("Attention result shape: (batch size, units) {}".format(attention_result.shape))
    print("Attention weights shape: (batch_size, sequence_length, 1) {}".format(attention_weights.shape))
    decoder = Decoder(vocab_size, embedding_dim, embedding_matrix, units, BATCH_SIZE)

    sample_decoder_output, _, _ = decoder(tf.random.uniform((64, 1)),
                                          sample_hidden, sample_output)

    print('Decoder output shape: (batch_size, vocab size) {}'.format(sample_decoder_output.shape))


2020-03-10 18:18:56,553 : INFO : loading Word2Vec object from D:\Learning\Project\Q&A\Myself\Demo2-Encoder-Decoder-Model-Translation\data\wv\word2vec.model
2020-03-10 18:18:57,034 : INFO : loading wv recursively from D:\Learning\Project\Q&A\Myself\Demo2-Encoder-Decoder-Model-Translation\data\wv\word2vec.model.wv.* with mmap=None
2020-03-10 18:18:57,034 : INFO : setting ignored attribute vectors_norm to None
2020-03-10 18:18:57,035 : INFO : loading vocabulary recursively from D:\Learning\Project\Q&A\Myself\Demo2-Encoder-Decoder-Model-Translation\data\wv\word2vec.model.vocabulary.* with mmap=None
2020-03-10 18:18:57,036 : INFO : loading trainables recursively from D:\Learning\Project\Q&A\Myself\Demo2-Encoder-Decoder-Model-Translation\data\wv\word2vec.model.trainables.* with mmap=None
2020-03-10 18:18:57,036 : INFO : setting ignored attribute cum_table to None
2020-03-10 18:18:57,037 : INFO : loaded D:\Learning\Project\Q&A\Myself\Demo2-Encoder-Decoder-Model-Translation\data\wv\word2vec.mo

Encoder output shape: (batch size, sequence length, units) (64, 35, 1024)
Encoder Hidden state shape: (batch size, units) (64, 1024)
socre的内容是： [[ 0.35145766]
 [ 0.21077946]
 [ 0.10917501]
 [ 0.0393456 ]
 [-0.00538841]
 [-0.03249202]
 [-0.04825001]
 [-0.0571393 ]
 [-0.06205088]
 [-0.06473558]
 [-0.06620538]
 [-0.06702491]
 [-0.06749954]
 [-0.06779036]
 [-0.06798036]
 [-0.06811237]
 [-0.06820814]
 [-0.06827968]
 [-0.06833331]
 [-0.06837401]
 [-0.06840433]
 [-0.06842714]
 [-0.0684438 ]
 [-0.06845592]
 [-0.06846455]
 [-0.0684707 ]
 [-0.0684753 ]
 [-0.06847838]
 [-0.06848055]
 [-0.0684821 ]
 [-0.06848304]
 [-0.06848395]
 [-0.06848443]
 [-0.06848475]
 [-0.06848496]]
socre的形状是： (64, 35, 1)
attention_weights的内容是： [[0.0419209 ]
 [0.03641957]
 [0.03290096]
 [0.03068189]
 [0.02933961]
 [0.02855508]
 [0.02810864]
 [0.02785988]
 [0.02772338]
 [0.02764905]
 [0.02760844]
 [0.02758582]
 [0.02757273]
 [0.02756472]
 [0.02755948]
 [0.02755584]
 [0.0275532 ]
 [0.02755123]
 [0.02754975]
 [0.02754863]
 [0.