## 神经网络

### 1- 全连接层

#### 1.1- 张量方式实现

In [22]:
import tensorflow as tf
print(tf.__version__)
x = tf.random.normal([2,784])
w1 = tf.Variable(tf.random.truncated_normal([784, 256], stddev=0.1))
b1 = tf.Variable(tf.zeros([256]))
o1 = tf.matmul(x,w1) + b1 # 线性变换
o1 = tf.nn.relu(o1) # 激活函数

2.0.0


#### 1.2- 层方式实现

In [14]:
x = tf.random.normal([4,28*28])
from tensorflow.keras import layers # 导入层模块
# 创建全连接层，指定输出节点数和激活函数
fc = layers.Dense(512, activation=tf.nn.relu) 
h1 = fc(x) # 通过 fc 类完成一次全连接层的计算

In [15]:
fc.kernel

<tf.Variable 'dense_5/kernel:0' shape=(784, 512) dtype=float32, numpy=
array([[ 0.05714419, -0.02811417,  0.01908521, ...,  0.00929815,
         0.03124575, -0.06222722],
       [-0.03664676, -0.0166553 , -0.02162648, ..., -0.00096591,
        -0.01241062, -0.00783542],
       [ 0.01572664, -0.06064038,  0.01768085, ...,  0.04989342,
         0.03935904,  0.04896101],
       ...,
       [-0.0269527 , -0.03488012,  0.0387957 , ...,  0.05052072,
         0.04425357,  0.05030335],
       [ 0.04757797,  0.01114049,  0.00188792, ..., -0.0235111 ,
         0.04451576,  0.04620074],
       [-0.02588462, -0.04048719,  0.00287332, ..., -0.04479849,
         0.02461453,  0.05672096]], dtype=float32)>

In [16]:
fc.bias

<tf.Variable 'dense_5/bias:0' shape=(512,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 

### 2- 神经网络

#### 2.1- 张量方式实现

In [17]:
# 隐藏层 1 张量
w1 = tf.Variable(tf.random.truncated_normal([784, 256], stddev=0.1))
b1 = tf.Variable(tf.zeros([256]))
# 隐藏层 2 张量
w2 = tf.Variable(tf.random.truncated_normal([256, 128], stddev=0.1))
b2 = tf.Variable(tf.zeros([128]))
# 隐藏层 3 张量
w3 = tf.Variable(tf.random.truncated_normal([128, 64], stddev=0.1))
b3 = tf.Variable(tf.zeros([64]))
# 输出层张量
w4 = tf.Variable(tf.random.truncated_normal([64, 10], stddev=0.1))
b4 = tf.Variable(tf.zeros([10]))

In [18]:
# 在使用 TensorFlow 自动求导功能计算梯度时，需要将前向计算过程放置在tf.GradientTape()环境中，
# 从而利用 GradientTape 对象的 gradient()方法自动求解参数的梯度，并利用 optimizers 对象更新参数
with tf.GradientTape() as tape: # 梯度记录器
    # x: [b, 28*28]
    # 隐藏层 1 前向计算，[b, 28*28] => [b, 256]
    h1 = x@w1 + tf.broadcast_to(b1, [x.shape[0], 256])
    h1 = tf.nn.relu(h1)
    # 隐藏层 2 前向计算，[b, 256] => [b, 128]
    h2 = h1@w2 + b2
    h2 = tf.nn.relu(h2)
    # 隐藏层 3 前向计算，[b, 128] => [b, 64] 
    h3 = h2@w3 + b3
    h3 = tf.nn.relu(h3)
    # 输出层前向计算，[b, 64] => [b, 10] 
    h4 = h3@w4 + b4

#### 2.2- 层方式实现

In [19]:
fc1 = layers.Dense(256, activation=tf.nn.relu) # 隐藏层 1
fc2 = layers.Dense(128, activation=tf.nn.relu) # 隐藏层 2
fc3 = layers.Dense(64, activation=tf.nn.relu) # 隐藏层 3
fc4 = layers.Dense(10, activation=None) # 输出层
# 在前向计算时，依序通过各个网络层即可：
x = tf.random.normal([4,28*28])
h1 = fc1(x) # 通过隐藏层 1 得到输出
h2 = fc2(h1) # 通过隐藏层 2 得到输出
h3 = fc3(h2) # 通过隐藏层 3 得到输出
h4 = fc4(h3) # 通过输出层得到网络输出

In [23]:
# 也可以通过 Sequential 容器封装成一个网络大类对象，调用大类的前向计算函数
from tensorflow.keras import Sequential
model = Sequential([
     layers.Dense(256, activation=tf.nn.relu) , # 创建隐藏层 1
     layers.Dense(128, activation=tf.nn.relu) , # 创建隐藏层 2
     layers.Dense(64, activation=tf.nn.relu) , # 创建隐藏层 3
     layers.Dense(10, activation=None) , # 创建输出层
])

### 3- 激励函数

tf.nn.sigmoid  
tf.nn.relu  
tf.nn.leaky_relu  
tf.nn.tanh  

### 4- [0,1]区间，和为 1

In [24]:
# 输出层添加 Softmax 函数实现。
z = tf.constant([2.,1.,0.1])
tf.nn.softmax(z) # 通过 Softmax 函数

<tf.Tensor: id=634, shape=(3,), dtype=float32, numpy=array([0.6590012, 0.242433 , 0.0985659], dtype=float32)>

In [25]:
"""在 Softmax 函数的数值计算过程中，容易因输入值偏大发生数值溢出现象；在计算交
叉熵时，也会出现数值溢出的问题。为了数值计算的稳定性，TensorFlow 中提供了一个统
一的接口，将 Softmax 与交叉熵损失函数同时实现，同时也处理了数值不稳定的异常，一
般推荐使用，避免单独使用 Softmax 函数与交叉熵损失函数。"""
z = tf.random.normal([2,10]) # 构造输出层的输出
y_onehot = tf.constant([1,3]) # 构造真实值
y_onehot = tf.one_hot(y_onehot, depth=10) # one-hot 编码
# 输出层未使用 Softmax 函数，故 from_logits 设置为 True
loss = keras.losses.categorical_crossentropy(y_onehot,z,from_logits=True)
loss = tf.reduce_mean(loss) # 计算平均交叉熵损失
loss

<tf.Tensor: id=680, shape=(), dtype=float32, numpy=2.456634>

### 5- 误差计算

#### 5.1 均方差

#### 5.2 交叉熵
熵越大，代表不确定性越大，信息量也就越大。 tf.math.log  
交叉熵可以很好地衡量 2 个分布之间的差别，