# CNN Building Process
    
    基于TensorFlow构建指定的网络结构
    这里使用卷积神经网络，是为了综合上下文信息，给出一句话中每个单词（token）对应的标签（tags）概率分布。使用CNN分析单词附近的文本,将在顶部使用密集层进行标签分类

## 预备知识
    
    1.环境：Tensorflow-gpu 的安装、配置（cuda，cudnn）以及使用，unfinished
    2.深度学习、CNN相关知识，嫉妒欠缺！！！
    3.Dataset的准备（之前所做）

In [2]:
import tensorflow as tf
import numpy as np

np.random.seed(42)
tf.set_random_seed(42)

  return f(*args, **kwds)
  from ._conv import register_converters as _register_converters


    几乎所有的自然语言处理网络结构都拥有一个必不可少的部分——单词嵌入。我们将文本分解为一系列tokens传入网络当中，每一个token又由他们的数字索引进行表示。每一个token（索引），都拥有一个向量，所有的向量形成嵌入矩阵（embedding matrix）。该矩阵可以使用一些常用算法（如Skip-Gram或CBOW）进行预训练，也可以通过随机值进行初始化，并与网络的其他参数一起进行训练。 在本教程中，我们将遵循第二种选择。
    
    我们下面需要构建一个函数，其采用[batch_size, num_tokens]形状的标记索引的张量，并且对于这个矩阵中的每个索引，它从嵌入矩阵中检索对应于该索引的张量。这会产生一个新的张量，形状为[batch_size,num_tokens,emb_dim]。

In [3]:
def get_embeddings(indices, vocabulary_size, emb_dim):
    # Initialize the random gaussian matrix with dimensions [vocabulary_size, embedding_dimension]
    # np.random.randn()初始化一个矩阵，形状为[vocabulary_size, embedding_dimension]，内部元素服从标准高斯分布，类型为np.float32
    # The **VARIANCE** of the random samples must be 1 / embedding_dimension
    # 随机样本的方差是 1/embedding_dimension??
    #np.random.randn()返回一组符合指定维度的样本方差为1(标准正态分布),这里是词嵌入矩阵,列数代表词向量的维度,行数代表词的个数,输入的独热向量代表id,根据词的下标选择矩阵中对应行,对应一个词向量,获得的方差为1/emb_dim
    emb_mat = np.random.randn(vocabulary_size, emb_dim).astype(np.float32) / np.sqrt(emb_dim) 
    
    # 构造一个能用Tensorflow计算的变量 ↓
    # 参考 http://www.cnblogs.com/nowornever-L/p/6908775.html
    emb_mat = tf.Variable(emb_mat, name='Embeddings', trainable=True)
    
    # 在emb_mat中检索indices所表示的内容
    emb = tf.nn.embedding_lookup(emb_mat, indices)
    return emb

    神经网络的主体是卷积层(convolutional layers)，即对每n个连续tokens，应用相同的全连接层(dense layer)。
    
    致密层是指每个神经元从前一层的所有神经元获得输入进而实现密集连接。层应该拥有一个权重矩阵 W 和一个偏差矩阵 b。
    致密层就像是实现了矩阵的乘法。
    
    简化情况如下。

![convolution.png](attachment:convolution.png)


In [40]:
import tensorflow as tf

# Create a tensor with shape [batch_size, number_of_tokens, number_of_features]
x = tf.random_normal(shape=[2, 10, 100]) # 输入矩阵，由服从标准正态分布的数值填充.矩阵的长为2,宽为10,每一个元素为长度为100的词向量
#这里的长为之前处理的每次选取的句子数目,宽为每一个句子最长的单词数,假定10,batch_size代表选取了多少个句子,number_of_tokens代表一个句子选
#取了多少个单词(按最长的取),number_of_features对应一个单词的向量长度也是特征数

# 生成卷积核，filter对应的是卷积核的数目和输出的特征数目.kernel对应的是卷积核的长度(默认宽度为1),默认步长为1
#卷积核与输入矩阵进行卷积运算,得到一个长度为3(10-8+1),宽度为2的特征矩阵,矩阵的每一个元素为一个特征值(注意:卷积核的每一个元素也是长度为100的
#向量,卷积运算后每一个矩阵元素为一个数值)
#对于200个卷积核,产生200个这样的矩阵,200个特征元素对应合并,产生输出
y = tf.layers.conv1d(x, filters=200, kernel_size=8)
print(y) # Tensor("conv1d/BiasAdd:0", shape=(2, 3, 200), dtype=float32)

sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)

print(sess.run(y))
#print(sess.run(x))

# 因为输出的矩阵和输入的矩阵维数不一致,这里主要是列数不一样,所以在输入的列的左右两边均匀填充0,使得指定步长输出的矩阵维数和输入相同,如果左右两边填充的0不一样,多的在右边
y_with_padding = tf.layers.conv1d(x, filters=4, kernel_size=4, padding='same')
print(y_with_padding)
init = tf.global_variables_initializer()
sess.run(init)
print(sess.run(y_with_padding))

#从输入层到隐藏层,并对隐藏层神经元激活,输入一个矩阵,矩阵里的每一个元素都相当于一个神经元,通过卷积核处理输入,减少不必要的参数,给定隐藏层神经元数目
#每一个隐藏层神经元的数目对应这么些特征,输出了含有这么多特征的神经元(需要填充),并对它们激活
def conv_net(units, n_hidden_list, cnn_filter_width, activation=tf.nn.relu):
    
    for n_hidden in n_hidden_list:
        units = tf.layers.conv1d(units,#输入的神经元组成的矩阵
                                 n_hidden,#卷积核数目,对应隐藏层神经元数目
                                 cnn_filter_width,#卷积核宽度
                                 padding='same')
        units = activation(units) # Use activation(units) to apply activation to units
    return units

Tensor("conv1d_65/BiasAdd:0", shape=(2, 1, 4), dtype=float32)
[[[ 0.68451625 -0.7336482   0.6349019   0.7051464 ]]

 [[-0.40903646 -1.122493    1.5121546  -1.158229  ]]]
Tensor("conv1d_66/BiasAdd:0", shape=(2, 4, 4), dtype=float32)
[[[-0.7090908   0.87662524  0.29203832 -0.04696733]
  [-1.7563785   0.87192655  0.887757   -0.4190999 ]
  [-1.7277592  -0.11560304  1.3207011  -0.19842358]
  [-1.2169678   0.94567394  0.74884206  1.012012  ]]

 [[-1.2547774  -0.8168962  -1.2380726   0.5443822 ]
  [ 1.0448523  -2.2862523   0.09620607  0.68375206]
  [-0.14910609  2.1582818  -0.14271723  0.53514   ]
  [ 1.0534745  -0.9864275  -1.081663   -1.0389143 ]]]


    实现分类工作的一个常用损失函数是‘交叉熵’。为什么要分类呢？因为对于每个token，神经网络必须决定到底如何预测它的tag。
    交叉熵函数格式如下：

$$ H(P, Q) = -E_{x \sim P} log Q(x) $$

交叉熵衡量了真实分布与预测分布之间的差异。而通常真实分布是独热向量。交叉熵损失函数已经 [集成](https://www.tensorflow.org/api_docs/python/tf/nn/softmax_cross_entropy_with_logits_v2) 在TensorFlow中了。

In [28]:
import tensorflow as tf
# The logits分类评定模型

# shape [batch_size, number_of_tokens, number of classes]
l = tf.random_normal([1, 4, 3])

# TensorFlow的占位符，此函数可以理解为形参，用于定义过程，在执行的时候再赋具体的值,定义了一个1x4的矩阵,需要自己填充值
indices = tf.placeholder(tf.int32, [1, 4])
p = tf.one_hot(indices, depth=3)

# Make one-hot distribution from indices for 3 types of tag
# 根据indices的值，返回一个矩阵，矩阵中有和下标个数一致的独热向量，每个向量对应含有depth个元素(代表了depth个类)token，反映其tag
# 参考 https://www.w3cschool.cn/tensorflow_python/tensorflow_python-fh1b2fsm.html
"""
indices = [1,2,3,4,5,6,6]
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)
print(sess.run(p))
"""

# 计算 logits 与 labels 的 softmax 交叉熵
loss_tensor = tf.nn.softmax_cross_entropy_with_logits_v2(labels=p, logits=l)
print(loss_tensor)

Tensor("softmax_cross_entropy_with_logits_9/Reshape_2:0", shape=(1, 4), dtype=float32)


    我们把每一个句子的长度变为最长的那一个后，每一批样本的所有句子都是一样长的。所以句子的末尾常常有填充的内容，而令神经网络去预测这些填充内容常常会使预测质量下降。所以我们需要用之前的二进制表示的面具（Mask）向量乘以损失向量，来防止梯度沿填充内容下降。

In [None]:
mask = tf.placeholder(tf.float32, shape=[1, 4])
loss_tensor *= mask

    现在定义返回去除填充部分的损失函数：

In [34]:
def masked_cross_entropy(logits, label_indices, number_of_tags, mask):
    ground_truth_labels = tf.one_hot(label_indices, depth=number_of_tags)#真实的token下标对应的tag的独热向量
    loss_tensor = tf.nn.softmax_cross_entropy_with_logits_v2(labels=ground_truth_labels, logits=logits)#通过交叉熵计算损失度
    loss_tensor *= mask#填充的向量乘以损失度防止梯度沿着填充内容下降
    
    # 最后一步是计算损失向量的均值
    loss = tf.reduce_mean(loss_tensor)
    return loss

    以上所有的步骤封装成 NerNetwork类：

In [32]:
import numpy as np
import tensorflow as tf

class NerNetwork:
    def __init__(self,
                 n_tokens,
                 n_tags,
                 token_emb_dim=100,
                 n_hidden_list=(128,),
                 cnn_filter_width=7,
                 use_batch_norm=False,
                 embeddings_dropout=False,
                 top_dropout=False,
                 **kwargs):
        """
        n_tokens:词的数量
        n_tags:标签的数量
        token_emb_dim:词向量的长度,词嵌入矩阵的列数
        cnn_filter_width:卷积核的宽度
        """
        
        # ================ Building inputs =================
        """
        learning_rate_ph:学习率
        dropout_keep_ph:设置某个神经元的激活值以一定的概率停止工作,防止过拟合
        token_ph:token的下标向量
        mask_ph:mask向量
        y_ph:
        """
        
        self.learning_rate_ph = tf.placeholder(tf.float32, [])
        self.dropout_keep_ph = tf.placeholder(tf.float32, [])
        self.token_ph = tf.placeholder(tf.int32, [None, None], name='token_ind_ph')
        self.mask_ph = tf.placeholder(tf.float32, [None, None], name='Mask_ph')
        self.y_ph = tf.placeholder(tf.int32, [None, None], name='y_ph')
        
        # ================== Building the network ==================
        
        """
        初始化词嵌入矩阵(vocabulary_size x emb_dim),宽为vocabulary_size(词的个数),长为emb_dim(词向量的长度)
        每一个矩阵元素服从高斯分布(正态分布),方差为1/emb_dim
        将矩阵初始化为图变量(用于之后的训练)
        返回indices中索引的元素,这里用到了词嵌入矩阵的知识,一个独热向量乘以词嵌入矩阵,假设独热向量中的1所在列为x,返回的就是矩阵里的第x行
        每一个下标对应一个词向量
        
        每一个indices为一个矩阵,矩阵的宽度为batches(批处理的句子数量),矩阵的长度为number of tokens(每一句话包含的最多的单词的数量)
        每一个元素为对应单词的id,每一个id都在emb矩阵里找到对应的词向量,取出来,(相当于填充到indices矩阵里),得到了一个batches,number of
        tokens ,dim_emb(词向量维数)三维矩阵
        """
        def get_embeddings(indices, vocabulary_size, emb_dim):
            emb_mat = np.random.randn(vocabulary_size, emb_dim).astype(np.float32) / np.sqrt(emb_dim) 
            emb_mat = tf.Variable(emb_mat, name='Embeddings', trainable=True)
            emb = tf.nn.embedding_lookup(emb_mat, indices)
            return emb
      
        
        """
        输入词的下标向量,词的数量,词向量的长度
        """
        emb = get_embeddings(self.token_ph, n_tokens, token_emb_dim)
       
       
        """
        在训练的时候随机丢掉一些神经元,防止过拟合
        (tf.shape(emb)[0], 1, tf.shape(emb)[2]) <==> (batch_size, number_of_tokens, number_of_features)
        选定的元素对应位置为1
        """
        emb = tf.nn.dropout(emb, self.dropout_keep_ph, (tf.shape(emb)[0], 1, tf.shape(emb)[2]))
        
        """
        建立一个词嵌入矩阵的多层卷积神经网络,每一层的神经元数目必须和隐藏层的神经元数目匹配,使用ReLU函数激活神经元
        输入词嵌入矩阵,隐藏层的神经元数目列表(对应特征数),卷积核的宽度
        通过卷积核与emb矩阵进行卷积运算,得到和输入一致的(因为填充),长为batch_sizes,宽为number_of_tokens,每一个元素为
        n_hidden数目的特征的张量
        并对每一个神经元激活
        """
        
        def conv_net(units, n_hidden_list, cnn_filter_width, activation=tf.nn.relu):
            for n_hidden in n_hidden_list:
                units = tf.layers.conv1d(units,
                                         n_hidden, #128
                                         cnn_filter_width,  # 7
                                         padding='same')
                units = activation(units)
            return units
        
        units = conv_net(emb, n_hidden_list, cnn_filter_width) # 得到隐藏层，唯一
        
        """
        同上,在训练的时候丢掉一些神经元,防止过拟合
        又建立了一个之前激活的神经元
        """
        units = tf.nn.dropout(units, self.dropout_keep_ph, (tf.shape(units)[0], 1, tf.shape(units)[2]))
        # units做为输入，得到全连接的致密层，致密层矩阵最后一维即n_tags=3
        logits = tf.layers.dense(units, n_tags, activation=None)
        # 返回logits矩阵的最后一维上的最大数的位置索引
        self.predictions = tf.argmax(logits, 2)
        
        # ================= Loss and train ops =================
        # Use cross-entropy loss. check the tf.nn.softmax_cross_entropy_with_logits_v2 function
        
        def masked_cross_entropy(logits, label_indices, number_of_tags, mask):
            ground_truth_labels = tf.one_hot(label_indices, depth=number_of_tags)
            loss_tensor = tf.nn.softmax_cross_entropy_with_logits_v2(labels=ground_truth_labels, logits=logits)
            loss_tensor *= mask
            loss = tf.reduce_mean(loss_tensor)
            return loss      
        
        self.loss = masked_cross_entropy(logits, self.y_ph, n_tags, self.mask_ph)

        # Create a training operation to update the network parameters.
        # We purpose to use the Adam optimizer as it work fine for the
        # most of the cases. Check tf.train to find an implementation.
        # Put the train operation to the attribute self.train_op
        
        optimizer = tf.train.AdamOptimizer(self.learning_rate_ph)
        self.train_op = optimizer.minimize(self.loss)
        
        # ================= Initialize the session =================
        
        self.sess = tf.Session()
        self.sess.run(tf.global_variables_initializer())

    def __call__(self, tok_batch, mask_batch):
        feed_dict = {self.token_ph: tok_batch,
                     self.mask_ph: mask_batch,
                     self.dropout_keep_ph: 1.0}
        return self.sess.run(self.predictions, feed_dict)

    def train_on_batch(self, tok_batch, tag_batch, mask_batch, dropout_keep_prob, learning_rate):
        feed_dict = {self.token_ph: tok_batch,
                     self.y_ph: tag_batch,
                     self.mask_ph: mask_batch,
                     self.dropout_keep_ph: dropout_keep_prob,
                     self.learning_rate_ph: learning_rate}
        self.sess.run(self.train_op, feed_dict)


NameError: name 'token_vocab' is not defined

In [9]:
"""
import tensorflow as tf
em = tf.constant([[1,2,3],[2,3,4],[4,5,6],[1,3,4]])
em.shape.as_list()
#print(tf.shape(em)[0])
"""

128


In [31]:
# 使用之前的token_vocab和tag_vocab，创建一个实例
nernet = NerNetwork(len(token_vocab),
                    len(tag_vocab),
                    n_hidden_list=[100, 100])

NameError: name 'token_vocab' is not defined