### 模型构造
- 除了Sequential类构造模型
- 还有另外一种基于tf.keras.Model类的模型构造：模型构造更加灵活

In [3]:
import tensorflow as tf
import numpy as np
print(tf.__version__)

2.13.0


In [5]:
# 定义的MLP类重载了tf.keras.Model类的__init__函数和call函数。
# 它们分别用于创建模型参数和定义前向计算。前向计算也即正向传播。
class MLP(tf.keras.Model):
    # MLP类中无须定义反向传播函数
    # 系统将通过自动求梯度而自动生成反向传播所需的backward函数
    def __init__(self):
        super().__init__()
        self.flatten = tf.keras.layers.Flatten()    # Flatten层将除第一维（batch_size）以外的维度展平
        # 第一层的输出大小为256，即隐藏层单元个数是256
        self.dense1 = tf.keras.layers.Dense(units=256, activation=tf.nn.relu)
        # 第二层的输出大小为10，即输出层单元个数是10。
        self.dense2 = tf.keras.layers.Dense(units=10)

    def call(self, inputs):         
        x = self.flatten(inputs)   
        x = self.dense1(x)    
        output = self.dense2(x)     
        return output

In [7]:
# 实例化MLP类得到模型变量net
net = MLP()

In [8]:
# 初始化net并传入输入数据X做一次前向计算
X = tf.random.uniform((2,20))
net(X)

<tf.Tensor: shape=(2, 10), dtype=float32, numpy=
array([[ 0.2518911 ,  0.27268562,  0.13767868, -0.27104917, -0.23116493,
        -0.41052836,  0.44719112,  0.06317401,  0.15378079,  0.03549479],
       [ 0.10313252,  0.40641448, -0.04446249, -0.15867701, -0.49835414,
        -0.3246387 ,  0.42912585,  0.3107004 ,  0.20189673, -0.05804705]],
      dtype=float32)>

In [9]:
# 事实上，Sequential类继承自tf.keras.Model类
# 当模型的前向计算为简单串联各个层的计算时，可以通过更加简单的方式定义模型
# Sequential类的目的：它提供add函数来逐一添加串联的Block子类实例，
# 而模型的前向计算就是将这些实例按添加的顺序逐一计算。
# 用Sequential类来实现前面描述的MLP类：
model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(256, activation=tf.nn.relu),
    tf.keras.layers.Dense(10),
])

model(X)

<tf.Tensor: shape=(2, 10), dtype=float32, numpy=
array([[ 0.12892115,  0.01318432,  0.25992852, -0.08442985,  0.11952689,
        -0.34600514,  0.03692832,  0.24611673, -0.1143194 , -0.35195005],
       [ 0.02514953, -0.11116829,  0.23285188, -0.06632587, -0.09636828,
        -0.10517096,  0.12811762,  0.25564653, -0.19398734, -0.2895373 ]],
      dtype=float32)>

In [10]:
net.call(X)

<tf.Tensor: shape=(2, 10), dtype=float32, numpy=
array([[ 0.2518911 ,  0.27268562,  0.13767868, -0.27104917, -0.23116493,
        -0.41052836,  0.44719112,  0.06317401,  0.15378079,  0.03549479],
       [ 0.10313252,  0.40641448, -0.04446249, -0.15867701, -0.49835414,
        -0.3246387 ,  0.42912585,  0.3107004 ,  0.20189673, -0.05804705]],
      dtype=float32)>

In [11]:
# 虽然Sequential类可以使模型构造更加简单，且不需要定义call函数，
# 但直接继承tf.keras.Model类可以极大地拓展模型构造的灵活性。
# 构造一个稍微复杂点的网络FancyMLP:
class FancyMLP(tf.keras.Model):
    def __init__(self):
        super().__init__()
        self.flatten = tf.keras.layers.Flatten()
        # 常数权重rand_weight（注意它不是模型参数）
        self.rand_weight = tf.constant(
            tf.random.uniform((20,20)))
        self.dense = tf.keras.layers.Dense(units=20, activation=tf.nn.relu)

    def call(self, inputs):         
        x = self.flatten(inputs)   
        # 做了矩阵乘法操作（tf.matmul）
        x = tf.nn.relu(tf.matmul(x, self.rand_weight) + 1)
        # 重复使用了相同的Dense层
        x = self.dense(x)    
        while tf.norm(x) > 1:
            x /= 2
        if tf.norm(x) < 0.8:
            x *= 10
        return tf.reduce_sum(x)

In [13]:
# 测试该模型的随机初始化和前向计算
net = FancyMLP()
net(X)

<tf.Tensor: shape=(), dtype=float32, numpy=25.65099>

In [14]:
# 因为FancyMLP和Sequential类都是tf.keras.Model类的子类，所以我们可以嵌套调用它们
class NestMLP(tf.keras.Model):
    def __init__(self):
        super().__init__()
        self.net = tf.keras.Sequential()
        self.net.add(tf.keras.layers.Flatten())
        self.net.add(tf.keras.layers.Dense(64, activation=tf.nn.relu))
        self.net.add(tf.keras.layers.Dense(32, activation=tf.nn.relu))
        self.dense = tf.keras.layers.Dense(units=16, activation=tf.nn.relu)


    def call(self, inputs):         
        return self.dense(self.net(inputs))

net = tf.keras.Sequential()
net.add(NestMLP())
net.add(tf.keras.layers.Dense(20))
net.add(FancyMLP())

net(X)

<tf.Tensor: shape=(), dtype=float32, numpy=22.954666>