- 1 张量、变量、运算
- 2 通过继承Layer类来建立自定义的神经网络层
- 3 手写循环来更好地自定义对神经网络训练过程。
- 4  使用add_loss()方法来自定义神经网络层的损失函数
- 5 在手写循环训练过程中对评估标准（metrics）进行追踪。
- 6 使用tf.function来编译并加速神经网络的执行过程。
- 7 神经网络层的运行：训练模式 vs 推断（inference）模式。
Keras的函数式API。



## 1 张量、变量、运算、梯度

In [1]:
# 1 张量、变量、运算、梯度
import tensorflow as tf
from tensorflow import keras
print(tf.__version__)

# 1.1 创建一个2维固定张量constant, numpy() can convert tensor to array
x = tf.constant([[1,2],[5,3]])
x
print(f"type & shape : {x.dtype,x.shape}\n")
x.numpy()

# create tensors use ones,zero,random
print(tf.ones(shape=(2,1)))
print(tf.zeros(shape=(2,1)))

x = tf.random.normal(shape=(2,2),mean =0.0,stddev=1.0)
# x = tf.random.uniform(shape=(2,2),minval=0,maxval=10,dtype="int32")
x


# 1.2 张量 Varibale is a special tensor, which is adaptable, using  tf.Varibale(x) to convert
inital_value = tf.random.normal(shape=(2,2))
a =  tf.Variable(inital_value)
b= tf.Variable(x)
print(f"\na&b：{a}&{b}")

# using .assgin/assgin_add/assign_sub()来指定新的值，加减值
new_value = tf.random.normal(shape=(2,2))
a.assign(new_value)
print(f"\nthe new a is {a}")
# check if the computation is correct？
for i in range(2):
    for j in range(2):
        assert a[i,j]==new_value[i,j]

subbed_value = tf.random.normal(shape=(2,2))
a.assign_sub(subbed_value)
for i in range(2):
    for j in range(2):
        assert a[i,j] == new_value[i,j]-subbed_value[i,j]

# 1.3 computation
c = a+b
print(f"\n c is {c}")
d = tf.square(c)
d
e =tf.exp(d)
d

# 1.4 gradient 梯度计算
del a,b,c
a = tf.random.normal(shape=(2,2))
b = tf.random.normal(shape=(2,2))
with tf.GradientTape() as tape:
    tape.watch(a)
    c= tf.sqrt(tf.square(a)+tf.square(b))
    # calculate gradien c to a
    dc_da = tape.gradient(c,a)
    print(f"\n gradien c to a : {dc_da}")

a = tf.Variable(a)  # when no tape.watch,set a to Variable type is significant
with tf.GradientTape() as outer_tape:
    with tf.GradientTape() as tape:
        c = tf.sqrt(tf.square(a)+tf.square(b))
        dc_da = tape.gradient(c,a)
    d2c_d2a = outer_tape.gradient(dc_da,a)
    print(f"\n gradient d2c to d2a is {d2c_d2a}")

2.3.0
type & shape : (tf.int32, TensorShape([2, 2]))

tf.Tensor(
[[1.]
 [1.]], shape=(2, 1), dtype=float32)
tf.Tensor(
[[0.]
 [0.]], shape=(2, 1), dtype=float32)

a&b：<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[-0.48557258,  0.1765048 ],
       [-0.11463156, -0.12760173]], dtype=float32)>&<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[-2.9563994 ,  0.46518046],
       [-0.67977923,  2.0084083 ]], dtype=float32)>

the new a is <tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[ 1.8382372 ,  0.21799925],
       [-2.3676453 ,  0.9096812 ]], dtype=float32)>

 c is [[-1.0976415  1.2751701]
 [-4.0345764  4.051833 ]]

 gradien c to a : [[-0.515997    0.41984028]
 [-0.23810868 -0.8262035 ]]

 gradient d2c to d2a is [[1.1605387  0.46659344]
 [2.4311388  0.13421854]]


## 2  通过继承Layer类来建立自定义的神经网络层
- TensorFlow是可微分编程的基础框架，主要用于处理张量、变量和梯度
- Keras是深度学习的用户接口，主要用于处理神经网络层、模型、优化器、损失函数、评估标准等等。
    - Keras作为TensorFlow的上层API，使得TensorFlow更加简单用，以提高工程师们的生产力。
    - Layer类是Keras中最基础的一种抽象，表示神经网络的层。 它对权重和一些（在call()方法中定义的）计算表达式进行了封装。

### 2.1 layer的继承与调用
- 初始化后，可以把Layer的对象当成一个Python函数来用。
- 在__init__函数中简历的权重变量会自动被追踪，它们都被放在了weights这个属性里面

In [2]:
class Linear(keras.layers.Layer):
    """y = w.x + b"""

    def __init__(self,units=32,input_dim=32):
        super(Linear, self).__init__()  # make Linear callable
        w_init = tf.random_normal_initializer()  # 均匀分布uniform, 高斯分布normal
        self.w = tf.Variable(
            initial_value=w_init(shape =(input_dim,units),dtype = "float32"),
                                 trainable = True,
        )
        b_init = tf.random_normal_initializer()
        self.b = tf.Variable(
            initial_value = b_init(shape=(units,),dtype="float32"),
                                 trainable=True,
        )


    def call(self, inputs, **kwargs):
        return tf.matmul(inputs, self.w) + self.b

# init layer
linear_layer =Linear(units=4,input_dim=2)

# input some data
y = linear_layer(tf.ones((2,2)))
assert y.shape == (2,4)

assert linear_layer.weights == [linear_layer.w,linear_layer.b]
print(f"linear layer' weights: {linear_layer.weights}")

linear layer' weights: [<tf.Variable 'Variable:0' shape=(2, 4) dtype=float32, numpy=
array([[ 0.04057386, -0.04837519, -0.0169137 , -0.03372589],
       [-0.04266707,  0.01906256,  0.10583218, -0.09750512]],
      dtype=float32)>, <tf.Variable 'Variable:0' shape=(4,) dtype=float32, numpy=array([-0.00361824, -0.0066523 ,  0.02731263,  0.01057839], dtype=float32)>]


### 2.2 给layer添加权重
- 一种直接在init里定义（如上），第二种即通过define build函数就可以（如下），方便地添加权重
- ♥♥♥当网络复杂后，权重如何添加？---定义灭一层layer中的网络权重即可，复杂网络也是由一层层layer组成的


In [3]:
class Linear(keras.layers.Layer):
    """y = wx+b"""

    def __init__(self,units=784):  # units是设定输出的神经元数量，input_shape是自动获取的输入维度
        super(Linear, self).__init__()
        self.units = units

    def build(self,input_shape):
        self.w = self.add_weight(
            shape=(input_shape[-1],self.units),
            initializer="random_normal",
            trainable=True,
        )
        self.b = self.add_weight(
            shape=(self.units,), initializer="random_normal", trainable=True
        )

    def call(self, inputs, **kwargs):
        return tf.matmul(inputs,self.w)+self.b

### 2.3 layer的梯度 (以单层FCN训练Mnist为例)
- 通过GradientTape调用一个layer来自动获取梯度
- 通过梯度进而可以更新一个layer的权重
- 更新可以通过优化器自动进行，也可以自己写代码更新
- 有必要的话，你也可以在更新前修改梯度


In [4]:
# 1 数据准备 Minst  60000*32*32*1-> 60000*784
(x_train, y_train),_ = tf.keras.datasets.mnist.load_data()
dataset = tf.data.Dataset.from_tensor_slices(
    (x_train.reshape(60000,784).astype("float32")/255,y_train)
)
dataset = dataset.shuffle(buffer_size=1024).batch(64) # 数据集划分batch,

# 2 初始化上述线性layer，有10个神经元
linear_layer = Linear(10)
# 初始化一个逻辑损失函式，接受整数值的标签
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
# 初始化一个优化器
optimizer = tf.keras.optimizers.SGD(learning_rate=1e-3)

# 循环数据集中所有的batch
for step,(x,y) in enumerate(dataset):

    # 创建一个GradientTape
    with tf.GradientTape() as tape:
        
        # feedword
        logits = linear_layer(x)

        # 获取对于当前batch的损失
        loss = loss_fn(y,logits)

    # 求损失函式关于权重的梯度
    gradients = tape.gradient(loss, linear_layer.trainable_weights)

    # update weights
    optimizer.apply_gradients(zip(gradients,linear_layer.trainable_weights))

    # output
    if step % 100 == 0:
        print(f"Step：{step} Loss: {loss}")

Step：0 Loss: 2.3591556549072266
Step：100 Loss: 2.3170151710510254
Step：200 Loss: 2.1400370597839355
Step：300 Loss: 2.0045042037963867
Step：400 Loss: 1.9647746086120605
Step：500 Loss: 1.9063069820404053
Step：600 Loss: 1.7791277170181274
Step：700 Loss: 1.7752561569213867
Step：800 Loss: 1.6594003438949585
Step：900 Loss: 1.610144853591919


### 2.4 可训练与不可训练的权重

In [5]:
class ComputeSum(keras.layers.Layer):
    """Compute the sum of inputs"""

    def __init__(self, input_dim):
        super(ComputeSum,self).__init__()
        # build an untrainable weight and weight is the return
        self.total = tf.Variable(initial_value=tf.zeros((input_dim,)),trainable=False)

    def call(self, inputs):
        self.total.assign_add(tf.reduce_sum(inputs,axis = 0 ))
        return self.total

my_sum = ComputeSum(2)
x = tf.ones((2, 2))

y = my_sum(x)
print(y.numpy())

y = my_sum(x)    
print(y.numpy())

assert my_sum.weights == [my_sum.total]
assert my_sum.non_trainable_weights == [my_sum.total]
assert my_sum.trainable_weights == []

[2. 2.]
[4. 4.]


### 2.5 layer的嵌套使用

In [6]:
# build a MLP, which includes multi linear layers

class MLP(keras.layers.Layer):
    """Simple stack of Linear Layers"""

    def __init__(self):
        super(MLP, self).__init__()
        self.linear_1 = Linear(32)
        self.linear_2 = Linear(32)
        self.linear_3 = Linear(10)

    def call(self, inputs, **kwargs):
        x = self.linear_1(inputs)
        x = tf.nn.relu(x)
        x = self.linear_2(x)
        x =tf.nn.relu(x)
        return self.linear_3(x)

mlp = MLP()

# 下面这句首次调用了MLP，也就是添加了所有权重
y =mlp(tf.ones(shape = (3,64)))
assert len(mlp.weights)  == 6  # 3 layers, each layer has w&b # print(f"mlp weights : {mlp.weights}")

# above eequal to
mlp = keras.Sequential(
    [
        keras.layers.Dense(32,activation=tf.nn.relu),
        keras.layers.Dense(32,activation=tf.nn.relu),
        keras.layers.Dense(10)
    ]
)

### 2.6 给layer添加loss并追踪layer产生的损失函数
    Layer可是在正向传播过程中使用add_loss()方法来添加损失函数。 一种很好的把正则化加入损失函数的方法。 子Layer所添加的损失函数也会自动被母Layer所追踪。下面的例子是把activity正则化加入了损失函数。
- 在layer 的 call() 里面用self.add_loss
- ♥如何添加自定义loss？

In [7]:
class ActivityRegularization(keras.layers.Layer):
    """一个把activity稀疏正则化加入损失函数的Layer。本身应该没有新增结构"""
    
    def __init__(self, rate = 1e-2):
        super(ActivityRegularization, self).__init__()
        self.rate = rate
    
    def call(self, inputs):
        #  使用`add_loss`来添加正则化损失函数，用输入的张量计算
        self.add_loss(self.rate * tf.reduce_sum(inputs))
        return inputs

一个模型只要使用了这个Layer，就会自动把这个正则化的损失函数加入到整体损失函数中。

In [8]:
class SparseMLP(keras.layers.Layer):
    
    def __init__(self):
        super(SparseMLP,self).__init__()
        self.linear_1 = Linear(32)
        self.regulariztion = ActivityRegularization(1e-2)
        self.linear_2 = Linear(10)
        
    def call(self, inputs):
        x = self.linear_1(inputs)
        x = tf.nn.relu(x)
        x = self.regulariztion(x)
        return self.linear_2(x)
    
mlp = SparseMLP()
y = mlp(tf.ones((10,10)))
print(mlp.losses)  # 一个模型只要使用了这个Layer，就会自动把这个正则化的损失函数加入到整体损失函数中。        
                    

[<tf.Tensor: shape=(), dtype=float32, numpy=0.16962673>]


In [9]:
mlp = SparseMLP()

mlp(tf.ones((10,10)))
assert len(mlp.losses) == 1
print(mlp.losses)

mlp(tf.ones((10,10)))
assert len(mlp.losses) == 1
print(mlp.losses)

[<tf.Tensor: shape=(), dtype=float32, numpy=0.17540042>]
[<tf.Tensor: shape=(), dtype=float32, numpy=0.17540042>]


在每次正向传播开始，最外层的Layer会先把损失函数值清空，以防止把上一次正向传播产生的损失函数加进来。layer.loss永远只包含最近一次完成的正向传播所产生的的损失函数。你在自己写训练循环的时候，在用这些损失函数来计算梯度之前，你需要先把他们加起来求和。

### 2.7 追踪训练的评估标准（Metrics）
- Keras有很多的内置评估标准，比如tf.keras.metrics.AUC和tf.keras.metrics.PrecisionAtRecall。 
- 你也可以写一个你自己的评估标准，几行代码就能搞定。
- 在一个手写的训练循环里面使用评估标准，你要做如下几件事：
    - 初始化评估标准，比如tf.keras.metrics.AUC()。
    - 在每个batch中调用函数metric.update_state(targets, predictions)来更新评估标准的统计值。 =
    - 用metric.results()来查询评估标准当前的值。
    - 在每个epoch结尾或者开始时用metric.reset_states()来重置评估标准的值。
- 下面是一个简单的例子

In [19]:
# 1 init
accuracy = tf.keras.metrics.SparseCategoricalAccuracy()

# prepare layer,loss function, optimzer
model = keras.Sequential(
    [
        keras.layers.Dense(32, activation = "relu"),
        keras.layers.Dense(32, activation = "relu"),
        keras.layers.Dense(10),
    ]
)
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits = True)
optimzer = tf.keras.optimizers.Adam(learning_rate=1e-3)

for epoch in range(2):
    # traverse over batches
    for step, (x,y) in enumerate(dataset):
        with tf.GradientTape() as tape:
            logits = model(x)
            loss_value = loss_fn(y,logits)
        
        # 2 update accuracy(metrics)
        accuracy.update_state(y,logits)
        
        gradients = tape.gradient(loss_value, model.trainable_weights)
        optimzer.apply_gradients(zip(gradients,model.trainable_weights))
        
        if step % 200 == 0:
            print("Epoch:", epoch, "Step:", step)
            # print metrics result
            print("Total running accuracy so far: %.3f" % accuracy.result())

        # reser metrics in the end of every epoch
        accuracy.reset_states()

Epoch: 0 Step: 0
Total running accuracy so far: 0.094
Epoch: 0 Step: 200
Total running accuracy so far: 0.922
Epoch: 0 Step: 400
Total running accuracy so far: 0.969
Epoch: 0 Step: 600
Total running accuracy so far: 0.938
Epoch: 0 Step: 800
Total running accuracy so far: 0.922
Epoch: 1 Step: 0
Total running accuracy so far: 0.906
Epoch: 1 Step: 200
Total running accuracy so far: 0.953
Epoch: 1 Step: 400
Total running accuracy so far: 0.953
Epoch: 1 Step: 600
Total running accuracy so far: 0.938
Epoch: 1 Step: 800
Total running accuracy so far: 0.922


#### self.add_loss() & self.add_metrics()
和self.add_loss()类似，你也可以使用self.add_metric()来添加任何一个变量进去作为评估标准。
可以用layer.reset_metrics()来重置某一层或整个模型的评估标准的值。

## 3 函数编译、训练与推断
### 3.1 编译加速
- 执行时我们使用的是Eager模式，调试程序比较方便。
- 与之对应的静态图模式则在执行时更快。
- 你只要把一个函数用`@tf.function`这个装饰器装饰一下，那个函数就会以静态图模式执行了。

In [24]:

# prepare model 
model = keras.Sequential(
        [
            keras.layers.Dense(32,activation = "relu"),
            keras.layers.Dense(32,activation = "relu"),
            keras.layers.Dense(10),
        ]
)
loss_fn = keras.losses.SparseCategoricalCrossentropy(from_logits=True)
optimizer = keras.optimizers.Adam(learning_rate=1e-3)

# build a function to execute one batch
@tf. function # use this to boost speed
def train_on_batch(x,y):
    with tf.GradientTape() as tape:
        logits = model(x)
        loss = loss_fn(y, logits)
        gradients = tape.gradient(loss, model.trainable_weights)
    optimzer.apply_gradients(zip(gradients,model.trainable_weights))
    return loss

# prepare data
(x_train, y_train), _ = tf.keras.datasets.mnist.load_data()
dataset = tf.data.Dataset.from_tensor_slices(
    (x_train.reshape(60000,784).astype("float32")/255, y_train)
)
dataset = dataset.shuffle(buffer_size = 1024).batch(64)

for step, (x,y) in enumerate(dataset):
    loss = train_on_batch(x,y)
    if step % 100 ==0:
        loss =train_on_batch(x,y)
        if step % 100 ==0:
            print("Step:",step, "Loss:", float(loss))    

Step: 0 Loss: 2.1089882850646973
Step: 100 Loss: 0.6745302677154541
Step: 200 Loss: 0.20523759722709656
Step: 300 Loss: 0.19360283017158508
Step: 400 Loss: 0.16870474815368652
Step: 500 Loss: 0.2925932705402374
Step: 600 Loss: 0.12460373342037201
Step: 700 Loss: 0.1298626959323883
Step: 800 Loss: 0.10817199945449829
Step: 900 Loss: 0.19529452919960022


### 3.2 训练和推断
- 某些神经网络的层在训练和推断的时候采用的是不同的计算公式，也就是说，他们在训练和推断的时候做的事情是不一样的。
- 对于这种情况，我们有一种标准操作来帮你拿到现在究竟是在训练还是在推断这个信息。 
- 那就是在call函数里面有一个布尔型参数叫training。
- 在你自定义层的call函数里面使用这个参数，可以帮你正确地实现好该层在训练和推断时候的不同表现。

In [30]:
class Dropout(keras.layers.Layer):
    def __init__(self,rate):
        super(Dropout,self).__init__()
        self.rate = rate
        
    def call(self, inputs, training =None):
        if training:
            return tf.nn.dropout(inputs, rate = self.rate)
        return inputs

class MLPwithDropout(keras.layers.Layer):
    def __init__(self):
        super(MLPwithDropout, self).__init__()
        self.linear_1 = Linear(32)
        self.dropout = Dropout(0.5)
        self.linear_3 = Linear(10)
        
    def call(self, inputs,training =None):
        x = self.linear_1(inputs)
        x = tf.nn.relu(x)
        x = self.dropout(x, training = training)
        return self.linear_3(x)

mlp = MLPwithDropout()
y_train = mlp(tf.ones((2, 2)), training=True)
y_test = mlp(tf.ones((2, 2)), training=False)

### 3.3 用函数式API建立模型

- 要建立模型的话，你不一定非要用面向对象的方法（即把模型定义为完整的一个类）。
- 我们之前所看到的Layer是可以用函数式的方法来组合到一起的，我们称之为函数式API。

In [32]:
# 用`Input`对象来指定输入的尺寸和类型，就像我们给变量定义一个类型一样
# `shape`是用来描述单个样本的尺寸的，不包含batch大小这个维度
# 函数式API旨在定义单个样本在模型里面的变化过程
# 模型会自动把这些对单个样本的操作打包成对batch的操作，然后按batch来处理数据
inputs = tf.keras.Input(shape = (16,), dtype = "float32")

# 我们把这些Layer当函数调用，并输入这些标记着变量类型和尺寸的对象
# 我们会收到一个标记着新的尺寸和类型的对象
x = Linear(32)(inputs)
x = Dropout(0.5)(x)
outputs = Linear(10)(x)

# 一个函数式的`Model`对象可以用它的输入和输出来进行定义
# 一个`Model`对象本身也是一个`Layer`
model = tf.keras.Model(inputs, outputs)


# 一个函数式的模型在我们用数据调用它之前就已经有了权重
# 因为我们建立模型时就定义了它的输入尺寸，它也就可以推理出所有权重的尺寸了
assert len(model.weights)==4

y = model(tf.ones((2,16)))
assert y.shape == (2,10)

y = model(tf.ones((2,16)),training = True)

- 函数式API比继承的方式更简洁，并且还有一些别的优势，即函数式编程相比于面向对象编程的一些优势。 
- 但是，函数式API只能用来定义一些有向无环图（DAG），对于循环神经网络来讲，我们就必须使用继承的方式来实现。

[这里](https://keras.io/guides/functional_api/)有更详尽的函数式API教程。

- 在你建立模型的过程中，可能通常要使用函数式和继承这两种建模方法的结合。

- Model类的另一个比较好的特性是有fit()和evaluate()这些内置的函数。
你可以继承Model类，就像我们继承Layer类一样，然后重载这些函数来实现你自己的训练和评估循环。

## 4 完整例子 

### 例子1：变分自编码器
我们先来总结一下我们已经学到的内容：
- 一个`Layer`对象可以封装一些状态值（在`__init__`或者`build`里面定义的权重等等）和一些计算式（在`call`里面定义的）。
- Layer可以递归式地组合在一起来构建更大的包含更多计算的Layer。
- 你可以自定义的训练循环，你只需要开启`GradientTape`，在其内部调用你的模型来获取梯度，并传递给优化器即可。
- 你可以用`@tf.function`装饰器来给你的训练循环加速。
- 可以用`self.add_loss()`来给Layer添加损失函数，一般是用来添加正则化的。

我们接下来就把这些内容一起放进一个完整的例子里。我们来写一变分自编码器（Variational Autoencoder, VAE），并且使用MNIST数据集来进行训练。

VAE会继承Layer类，并嵌套调用其他Layer。还会使用KL散度作为正则化的损失函数。

首先，我们需要一个Encoder编码器类，它把一个MNIST手写数字图片来对应到一个在潜在空间（latent space）里面的三元组(z_mean, z_log_var, z)，过程中使用了一个Sampling采样层

In [49]:
from tensorflow.keras import layers

class Sampling(layers.Layer):
    """使用`(z_mean, z_log_var)`来采样获得对一个数字的编码z"""
    
    def call(self, inputs):
        z_mean, z_log_var = inputs
        batch = tf.shape(z_mean)[0]
        dim = tf.shape(z_mean)[1]
        epsilon = tf.keras.backend.random_normal(shape=(batch,dim))
        return z_mean +tf.exp(0.5 * z_log_var) * epsilon
    
class Encoder(layers.Layer):
    def __init__(self, latent_dim=32, intermediate_dim=64, **kwargs):
        super(Encoder,self).__init__(**kwargs)
        self.dense_proj = layers.Dense(intermediate_dim, activation = tf.nn.relu)
        self.dense_mean = layers.Dense(latent_dim)
        self.dense_log_var = layers.Dense(latent_dim)
        self.sampling = Sampling()
        
    def call(self,inputs):
        x = self.dense_proj(inputs)
        z_mean = self.dense_mean(x)
        z_log_var = self.dense_log_var(x)
        z = self.sampling((z_mean, z_log_var))
        return z_mean, z_log_var, z

In [50]:
class Decoder(layers.Layer):
    """把编码成的向量z转化回原来的数字图片"""

    def __init__(self, original_dim, intermediate_dim=64, **kwargs):
        super(Decoder, self).__init__(**kwargs)
        self.dense_proj = layers.Dense(intermediate_dim, activation=tf.nn.relu)
        self.dense_output = layers.Dense(original_dim, activation=tf.nn.sigmoid)

    def call(self, inputs):
        x = self.dense_proj(inputs)
        return self.dense_output(x)

最后，我们的VariationalAutoEncoder变分自编码器类会把编码器和解码器串起来，然后用add_loss()来加入KL散度正则化的损失函数。

In [51]:
class VariationalAutoEncoder(layers.Layer):
    """把编码器和解码器串起来形成一个完成的模型用于训练"""
    
    def __init__(self, original_dim, intermediate_dim=64, latent_dim=32, **kwargs):
        super(VariationalAutoEncoder, self).__init__(**kwargs)
        self.original_dim = original_dim
        self.encoder = Encoder(latent_dim=latent_dim, intermediate_dim=intermediate_dim)
        self.decoder = Decoder(original_dim, intermediate_dim=intermediate_dim)
    
    def call(self, inputs):
        z_mean, z_log_var, z = self.encoder(inputs)
        reconstructed = self.decoder(z)
        # 把KL散度正则化加入损失函数
        kl_loss = -0.5 * tf.reduce_mean(
            z_log_var - tf.square(z_mean) - tf.exp(z_log_var) + 1
        )
        self.add_loss(kl_loss)
        return reconstructed

In [52]:
# 初始化模型
vae = VariationalAutoEncoder(original_dim=784, intermediate_dim=64, latent_dim=32)

# 损失函数和优化器
loss_fn = tf.keras.losses.MeanSquaredError()
optimizer = tf.keras.optimizers.Adam(learning_rate=1e-3)

# 准备数据
(x_train, _), _ = tf.keras.datasets.mnist.load_data()
dataset = tf.data.Dataset.from_tensor_slices(
    x_train.reshape(60000, 784).astype("float32") / 255
)
dataset = dataset.shuffle(buffer_size=1024).batch(32)


@tf.function
def training_step(x):
    with tf.GradientTape() as tape:
        reconstructed = vae(x)  # 计算出重建的输入图片
        # 计算损失函数值
        loss = loss_fn(x, reconstructed)
        loss += sum(vae.losses)  # 加上KL散度的损失函数
    # 更新VAE的权重
    grads = tape.gradient(loss, vae.trainable_weights)
    optimizer.apply_gradients(zip(grads, vae.trainable_weights))
    return loss


losses = []  # 用于记录过程中产生的损失函数值
for step, x in enumerate(dataset):
    loss = training_step(x)
    # 输出日志
    losses.append(float(loss))
    if step % 100 == 0:
        print("Step:", step, "Loss:", sum(losses) / len(losses))

    # 1000步之后停止
    # 把模型训练至收敛就当成留给你的练习题了
    if step >= 1000:
        break

Step: 0 Loss: 0.35167396068573
Step: 100 Loss: 0.12733835992541645
Step: 200 Loss: 0.10050324391369796
Step: 300 Loss: 0.09021177672567558
Step: 400 Loss: 0.08513512817255577
Step: 500 Loss: 0.08186289471036898
Step: 600 Loss: 0.07945196085087274
Step: 700 Loss: 0.07803974776248448
Step: 800 Loss: 0.07677401215786792
Step: 900 Loss: 0.07583355329327128
Step: 1000 Loss: 0.07487215196246748


### 函数式API快捷实现
- 由此可见，用Keras来建立和训练这样的模型是很快很容易实现的。

- 现在你可能觉得上面的代码还是有点啰嗦，这是因为我们每个细节都是亲自用代码实现的。这让我们有了最大的自由度，但同时也增加了我们的工作量。

- 我们看看用函数式API来实现的话怎么样。

In [None]:
original_dim = 784
intermediate_dim = 64
latent_dim = 32

# 编码器

# 解码器

# VAE模型

# 添加KL散度正则化损失函数

另外，Keras还有内置的训练和评估循环，是Model类的方法（fit()和evaluate()）。代码如下：

### 例子2：超网络
- 超网络是一种特殊的深度神经网络，它的权重是用另一个神经网络生成出来的。（通常另一个神经网络要更小一些）。

- 我们来实现一个非常简单的超网络。我们用一个两层的神经网络来输出另一个三层的神经网络的权重。

Keras是一个强有力的生产力工具，让你能轻松实现任何的科研想法。试想一下，你可能可以在一天之内尝试25个不同的想法（每20分钟一个）！

Keras的宗旨之一就是从以最快的速度把想法变成结果，我们相信这是做出伟大科研成果的关键。