In [3]:
import tensorflow as tf
#导入keras模型，不能使用import keras，它导入的是标准的Keras库
from tensorflow import keras
from tensorflow.keras import layers#导入常见网络层类
#创建Softmax层，并调用__call__方法完成前向计算
x = tf.constant([2.,1.,0.1])
layer = layers.Softmax(axis=-1)#创建Softmax层
layer(x)#调用softmax前向计算
#经过softmax网络层后，得到概率分布

<tf.Tensor: shape=(3,), dtype=float32, numpy=array([0.6590012 , 0.24243298, 0.09856589], dtype=float32)>

In [5]:
#通过Keras提供的网络容器Sequential将多个网络层封装成一个大网络模型，只需要调用网络模型的实例一次即可完成数据从第一层到最末层的顺序运算
#例如，将2层的全连接层加上单独的激活函数层，可以通过Sequential容器封装为一个网络
#导入Swquential容器
from tensorflow.keras import layers,Sequential
network = Sequential([#封装为一个网络
    layers.Dense(3,activation=None),#全连接层，3是输出节点个数
    layers.ReLU(),#激活函数层
    layers.Dense(2,activation=None),#全连接层
    layers.ReLU()#激活函数层
])
x = tf.random.normal([4,3])
network(x)

<tf.Tensor: shape=(4, 2), dtype=float32, numpy=
array([[0.00389306, 0.        ],
       [0.        , 0.        ],
       [0.        , 0.        ],
       [0.        , 0.11099126]], dtype=float32)>

In [8]:
#Sequential容器也可以通过add()方法继续追加新的网络层，实现动态创建网络的功能
layers_num = 2#堆叠次数
network = Sequential([])#先创建空的网络
for _ in range(layers_num):
    network.add(layers.Dense(3))#添加全连接层
    network.add(layers.ReLU())#添加激活函数层
network.build(input_shape=(None,4))#创建网络参数
network.summary()
#打印出网络的待优化参数名与shape
for p in network.trainable_variables:
    print(p.name,p.shape)

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_4 (Dense)              multiple                  15        
_________________________________________________________________
re_lu_4 (ReLU)               multiple                  0         
_________________________________________________________________
dense_5 (Dense)              multiple                  12        
_________________________________________________________________
re_lu_5 (ReLU)               multiple                  0         
Total params: 27
Trainable params: 27
Non-trainable params: 0
_________________________________________________________________
dense_4/kernel:0 (4, 3)
dense_4/bias:0 (3,)
dense_5/kernel:0 (3, 3)
dense_5/bias:0 (3,)


#### 准备mnist数据，用于基于Keras的神经网络模型的实现

In [18]:
from    tensorflow.keras import datasets, layers, optimizers, Sequential, metrics
batchsz = 128
(x,y),(x_val,y_val)=datasets.mnist.load_data()
print('datasets:',x.shape,y.shape,x.min(),x.max())

def preprocess(x,y):
      """
      x is a simple image, not a batch
      """
      x = tf.cast(x,dtype=tf.float32)/255.
      x = tf.reshape(x,[28*28])
      y = tf.cast(y,dtype=tf.int32)
      y = tf.one_hot(y,depth=10)
      return x,y

db = tf.data.Dataset.from_tensor_slices((x,y))
db = db.map(preprocess).shuffle(60000).batch(batchsz)
ds_val=tf.data.Dataset.from_tensor_slices((x_val,y_val))
ds_val = ds_val.map(preprocess).batch(batchsz)

sample = next(iter(db))
print(sample[0].shape,sample[1].shape)
        

datasets: (60000, 28, 28) (60000,) 0 255
(128, 784) (128, 10)


#### 在训练网络时，一般的流程是通过前向计算获得网络的输出值，再通过损失函数计算网络误差，然后通过自动求导工具计算梯度并更新，同时间隔性地测试网络的性能。对于这种常用的训练逻辑，可以直接通过Keras提供的模型装配与训练高层接口实现，简洁清晰。
#### keras.Model类：网络的母类，除了具有Layer类的功能，还添加了保存、加载模型、训练与测试模型等便捷功能。Sequential也是Model的子类，因此具有Model类的所有功能。
#### keras.layers.Layer类，网络层的母类，定义了网络层的一些常见功能，如添加权值，管理权值列表等。

In [19]:
#Model及其子类的模型装配与训练功能。以Sequential容器封装的网络为例，首先创建5层的
#全连接网络用于MNIST手写数字图片识别
network = Sequential([layers.Dense(256,activation='relu'),
                     layers.Dense(128,activation='relu'),
                     layers.Dense(64,activation='relu'),
                     layers.Dense(32,activation='relu'),
                     layers.Dense(10)])
network.build(input_shape=(None,28*28))
network.summary()

Model: "sequential_7"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_21 (Dense)             multiple                  200960    
_________________________________________________________________
dense_22 (Dense)             multiple                  32896     
_________________________________________________________________
dense_23 (Dense)             multiple                  8256      
_________________________________________________________________
dense_24 (Dense)             multiple                  2080      
_________________________________________________________________
dense_25 (Dense)             multiple                  330       
Total params: 244,522
Trainable params: 244,522
Non-trainable params: 0
_________________________________________________________________


#### keras中提供的compile（）和fit（）函数，方便的实现前向计算与反向传播。compile函数指定网络使用的优化器对象，损失函数，评价指标等。

In [20]:
#导入优化器、损失函数模块
from tensorflow.keras import optimizers,losses
#采用Adam优化器，学习率为0.01；采用交叉熵损失函数，包含Softmax
network.compile(optimizer = optimizers.Adam(lr=0.01),
                loss=losses.CategoricalCrossentropy(from_logits=True),
                metrics=['accuracy']#设置测量指标为准确率
               )

#### 模型装配完成后，即可以通过fit()函数送入待训练的数据和验证用的数据集：

In [23]:
#指定训练集为train_db,验证集为val_db,训练5个epochs，每2个epoch验证一次
#返回训练信息保存在history中
history = network.fit(db,epochs=5,validation_data=ds_val,validation_freq=2)
history.history
network.evaluate(ds_val)
sample = next(iter(ds_val))
x = sample[0]
y = sample[1]#one-hot
pred = network.predict(x)#[b,10]
#convert back to number
y = tf.argmax(y,axis=1)
pred = tf.argmax(pred,axis=1)

print(pred)
print(y)

Train for 469 steps, validate for 79 steps
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
tf.Tensor(
[7 2 1 0 4 1 4 9 5 9 0 6 9 0 1 5 9 7 3 4 9 6 6 5 4 0 7 4 0 1 3 1 3 4 7 2 7
 1 2 1 1 7 4 2 3 5 1 2 4 4 6 3 5 5 6 0 4 1 9 5 7 8 9 3 7 4 6 4 3 0 7 0 2 9
 1 7 3 2 9 7 7 6 2 7 8 4 7 3 6 1 3 6 9 3 1 4 1 7 6 9 6 0 5 4 9 9 2 1 9 4 8
 7 3 9 7 9 4 4 9 2 5 4 7 6 4 9 0 5], shape=(128,), dtype=int64)
tf.Tensor(
[7 2 1 0 4 1 4 9 5 9 0 6 9 0 1 5 9 7 3 4 9 6 6 5 4 0 7 4 0 1 3 1 3 4 7 2 7
 1 2 1 1 7 4 2 3 5 1 2 4 4 6 3 5 5 6 0 4 1 9 5 7 8 9 3 7 4 6 4 3 0 7 0 2 9
 1 7 3 2 9 7 7 6 2 7 8 4 7 3 6 1 3 6 9 3 1 4 1 7 6 9 6 0 5 4 9 9 2 1 9 4 8
 7 3 9 7 4 4 4 9 2 5 4 7 6 7 9 0 5], shape=(128,), dtype=int64)


In [27]:
#网络的保存，未防止训练过程中断，定时对网络训练结果进行保存，以便恢复


#方法一：张量方式：保存weights张量
#保存模型参数到文件上
network.save_weights('weights.ckpt')
print('saved weights')
del network#删除网络对象
#重新创建相同的网络结构
network = Sequential([layers.Dense(256,activation='relu'),
                     layers.Dense(128,activation='relu'),
                     layers.Dense(64,activation='relu'),
                     layers.Dense(32,activation='relu'),
                     layers.Dense(10)])
network.compile(optimizer = optimizers.Adam(lr=0.01),
                loss=losses.CategoricalCrossentropy(from_logits=True),
                metrics=['accuracy']#设置测量指标为准确率
               )
#从参数文件中读取数据并写入当前网络
network.load_weights('weights.ckpt')
print('loaded weights!')


#方法二：网络方式：利用Model.save（path）函数将模型的结构以及模型的参数保存到path
#文件上，不需要网络源文件的情况下恢复出网络结构和参数
#保存模型的结构与模型的参数到文件
network.save('model.h5')
print('saved total model.')
del network#删除网络对象
#通过model.h5文件即可恢复出网络的结构和状态
network = tf.keras.models.load_model('model.h5')

##方法三：SavedModel方式:通过tf.keras.experimental.export_saved_model(network,path)
#即可将模型保存再path目录中，方便各个平台（移动端和网页端）能够无缝对接训练好的网络模型
tf.keras.experimental.export_saved_model(network,'model-savedmodel')
del network
#从文件恢复网络结构与网络参数

ValueError: Weights for model sequential_9 have not yet been created. Weights are created when the Model is first called on inputs or `build()` is called with an `input_shape`.

#### 创建自定义网络层，需要继承自layers.Layer基类;创建自定义网络类，需要继承自Keras.Model基类，这样产生的基类才能够方便利用Layer/Model基类提供的参数管理功能，同时也能与其他的标准网络层类交互使用

In [30]:
#自定义网络层
#对于自定义的网络层，需要实现初始化__init__方法和前向传播逻辑call方法
class MyDense(layers.Layer):
    #自定义网络层
    def __init__(self,inp_dim,outp_dim):
        super(MyDense,self).__init__()
        #创建权值张量并添加到类管理列表中，设置为需要优化
        self.kernel = self.add_weight('w',[inp_dim,outp_dim],trainable=True)
        #通过tf.Variable创建的类成员也会自动加入类参数列表
        self.kernel = tf.Variable(tf.random.normal([inp_dim,outp_dim]),trainable=False)
    #完成自定义类的初始化工作后，设计自定义类的前向运算逻辑
    def call(self,inpputs,training=None):#training为True时执行训练模式，False测试模式，莫默认None，测试模式
        #实现自定义类的前向计算逻辑
        #X@W
        out = input@self.kernel
        #执行激活函数运算
        out = tf.nn.relu(out)
        return out
    
net = MyDense(4,3)#创建输入为4，输出为3节点的自定义层
net.variables,net.trainable_variables

([<tf.Variable 'Variable:0' shape=(4, 3) dtype=float32, numpy=
  array([[ 0.5229539 , -0.63890463,  0.37991267],
         [-1.1160955 , -0.24662398,  0.903859  ],
         [ 0.03559241, -1.2720702 , -0.5865275 ],
         [-0.70018685,  0.9511368 ,  0.45431098]], dtype=float32)>],
 [])

In [31]:
#自定义网络：基于上述“无偏置的全连接层”实现MNIST手写数字图片模型的创建
network = Sequential([MyDense(784,256),#使用自定义的层
                     MyDense(256,128),
                     MyDense(128,64),
                     MyDense(64,32),
                     MyDense(32,10)])
network.build(input_shape=(None,28*28))
network.summary()

Model: "sequential_10"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
my_dense_3 (MyDense)         multiple                  200704    
_________________________________________________________________
my_dense_4 (MyDense)         multiple                  32768     
_________________________________________________________________
my_dense_5 (MyDense)         multiple                  8192      
_________________________________________________________________
my_dense_6 (MyDense)         multiple                  2048      
_________________________________________________________________
my_dense_7 (MyDense)         multiple                  320       
Total params: 244,032
Trainable params: 0
Non-trainable params: 244,032
_________________________________________________________________


In [32]:
#更普遍地，可以继承基类来实现任意逻辑的自定义网络类。
class MyModel(keras.Model):
    #自定义网络类，继承自Model基类
    def __init__(self):
        super(MyModel,self).__init__()
        #完成网络内需要的网络层的创建工作
        self.fc1 = MyDense(28*28,256)
        self.fc2 = MyDense(256,128)
        self.fc3 = MyDense(128,64)
        self.fc4 = MyDense(64,32)
        self.fc5 = MyDense(32,10)
    #然后实现自定义网络的前运算逻辑,自定义网络的前向逻辑可以任意定制，不像Swquential
    #包裹的一次调用每个网络的前向传播函数，各有优缺点。
    def call(self,inputs,training=None):
        #自定义前向运算逻辑
        x = self.fc1(inputs)
        x = self.fc2(x)
        x = self.fc3(x)
        x = self.fc4(x)
        x = self.fc5(x)
        return x

In [34]:
#kears.application子模块下的常用网络模型；
#以ResNet50迁移学习为例，即利用ImageNet上面预训练的特征提取方法迁移到自定义的数据集上，
#并根据自定义任务的类别追加一个对应数据类别数的全连接分类层，从而可以再与训练的网络的基础上可以
#快速、高效的学习新任务。

#首先利用Keras模型乐园加载ImageNet预训练的ResNet50网络，并去掉最后一层
resnet = keras.applications.ResNet50(weights = 'imagenet', include_top=False)
resnet.summary()
#测试网络的输出
x = tf.random.normal([4,224,224,3])
out = resnet(x)
out.shape

Downloading data from https://github.com/keras-team/keras-applications/releases/download/resnet/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
Model: "resnet50"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, None, None,  0                                            
__________________________________________________________________________________________________
conv1_pad (ZeroPadding2D)       (None, None, None, 3 0           input_1[0][0]                    
__________________________________________________________________________________________________
conv1_conv (Conv2D)             (None, None, None, 6 9472        conv1_pad[0][0]                  
__________________________________________________________________________________________________
conv1_bn (BatchNormalization)   (None, No

TensorShape([4, 7, 7, 2048])

In [38]:
#对于某个具体任务，需要设置自定义的输出节点数，以100类的分类任务为例，
#在ResNet50的基础上重新构建新网络。
#新建一个池化层（维度缩减功能），将特征从[b,7,7,2018]降维到[b,2048]
#新建池化层
global_average_layer = layers.GlobalAveragePooling2D()
#利用上一层的输出作为本层的输入，测试其输出
x = tf.random.normal([4,7,7,2048])
out = global_average_layer(x)#池化层降维
print(out.shape)

#最后新建一个全连接层，并设置输出节点数为100
fc = layers.Dense(100)
#利用上一层的输出作为本层的输入，测试其输出
x = tf.random.normal([4,2048])
out = fc(x)
print(out.shape)


#在得到预训练的ResNet50特征层和我们新建的池化层、全连接层后，重新利用Sequentil容器封装程
#一个心电网络
mynet = Sequential([resnet,global_average_layer,fc])
mynet.summary()


(4, 2048)
(4, 100)
Model: "sequential_11"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
resnet50 (Model)             (None, None, None, 2048)  23587712  
_________________________________________________________________
global_average_pooling2d_3 ( (None, 2048)              0         
_________________________________________________________________
dense_37 (Dense)             (None, 100)               204900    
Total params: 23,792,612
Trainable params: 23,739,492
Non-trainable params: 53,120
_________________________________________________________________


####                               8.6 测试工具
#### keras.metrics，专门用于统计训练过程中需要的指标数据
#### keras的测量工具的使用一般有4个基本操作流程：新建测量器，写入数据，读取统计数据和清零测量器

In [None]:
#新建测量器：统计平均值的Mean类，统计准确率的Accuracy类，统计余弦相似度的CosineSimilarity类
#新建一个平均测量器，适合Loss数据
loss_meter = metrics.Mean()

#通过测量器的update_state函数可以写入新数据
#记录采样的数据
loss_meter.update_state(float(loss))#防止在每个batch运算完成后，测量器会自动根据采样的数据来统计平均值

#读取统计信息：在采样多次后，可以用测量器的result()函数获取统计值
#打印统计的平均loss
print(step,'loss:',loss_meter.result())

#清除，reset_staets(),每次读取完平均误差后，清零统计信息，以便下一轮统计的开始
if step % 100 == 0:
    #打印统计的平均loss
    print(step,'loss:',loss_meter.result())
    loss_meter.rest_states()#清零测量器


In [None]:
#准确率统计实战
import  tensorflow as tf
from    tensorflow.keras import datasets, layers, optimizers, Sequential, metrics


def preprocess(x, y):

    x = tf.cast(x, dtype=tf.float32) / 255.
    y = tf.cast(y, dtype=tf.int32)

    return x,y


batchsz = 128
(x, y), (x_val, y_val) = datasets.mnist.load_data()
print('datasets:', x.shape, y.shape, x.min(), x.max())



db = tf.data.Dataset.from_tensor_slices((x,y))
db = db.map(preprocess).shuffle(60000).batch(batchsz).repeat(10)

ds_val = tf.data.Dataset.from_tensor_slices((x_val, y_val))
ds_val = ds_val.map(preprocess).batch(batchsz) 




network = Sequential([layers.Dense(256, activation='relu'),
                     layers.Dense(128, activation='relu'),
                     layers.Dense(64, activation='relu'),
                     layers.Dense(32, activation='relu'),
                     layers.Dense(10)])
network.build(input_shape=(None, 28*28))
network.summary()

optimizer = optimizers.Adam(lr=0.01)

acc_meter = metrics.Accuracy()
loss_meter = metrics.Mean()


for step, (x,y) in enumerate(db):

    with tf.GradientTape() as tape:
        # [b, 28, 28] => [b, 784]
        x = tf.reshape(x, (-1, 28*28))
        # [b, 784] => [b, 10]
        out = network(x)
        # [b] => [b, 10]
        y_onehot = tf.one_hot(y, depth=10) 
        # [b]
        loss = tf.reduce_mean(tf.losses.categorical_crossentropy(y_onehot, out, from_logits=True))

        loss_meter.update_state(loss)

 

    grads = tape.gradient(loss, network.trainable_variables)
    optimizer.apply_gradients(zip(grads, network.trainable_variables))


    if step % 100 == 0:

        print(step, 'loss:', loss_meter.result().numpy()) 
        loss_meter.reset_states()


    # evaluate
    if step % 500 == 0:
        total, total_correct = 0., 0
        acc_meter.reset_states()

        for step, (x, y) in enumerate(ds_val): 
            # [b, 28, 28] => [b, 784]
            x = tf.reshape(x, (-1, 28*28))
            # [b, 784] => [b, 10]
            out = network(x) 


            # [b, 10] => [b] 
            pred = tf.argmax(out, axis=1) 
            pred = tf.cast(pred, dtype=tf.int32)
            # bool type 
            correct = tf.equal(pred, y)
            # bool tensor => int tensor => numpy
            total_correct += tf.reduce_sum(tf.cast(correct, dtype=tf.int32)).numpy()
            total += x.shape[0]

            acc_meter.update_state(y, pred)


        print(step, 'Evaluate Acc:', total_correct/total, acc_meter.result().numpy())

datasets: (60000, 28, 28) (60000,) 0 255
Model: "sequential_13"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_43 (Dense)             multiple                  200960    
_________________________________________________________________
dense_44 (Dense)             multiple                  32896     
_________________________________________________________________
dense_45 (Dense)             multiple                  8256      
_________________________________________________________________
dense_46 (Dense)             multiple                  2080      
_________________________________________________________________
dense_47 (Dense)             multiple                  330       
Total params: 244,522
Trainable params: 244,522
Non-trainable params: 0
_________________________________________________________________
0 loss: 2.2945707
78 Evaluate Acc: 0.1062 0.1062
100 loss: 0.52816534
