## 2.4 变量
	深度学习在训练模型时，用变量来存储和更新参数。建模时它们需要被明确地初始化，模型训练后它们必须被存储到磁盘。这些变量的值可在之后模型训练和分析时被加载。变量通过tf.Variable类进行创建和跟踪，对变量执行运算可以改变其值。可以利用特定运算读取和修改变量的值，也可以通过使用张量或者数组的形式创建新的变量:

In [1]:
import tensorflow as tf

#用tf.Variable生成变量
var = tf.Variable([[1, 2, 3],[4, 5, 6]])
print(var,'\n')

tensor = tf.constant([[1, 2, 3],[4, 5, 6]])
var=tf.Variable(tensor)
print(var)

<tf.Variable 'Variable:0' shape=(2, 3) dtype=int32, numpy=
array([[1, 2, 3],
       [4, 5, 6]])> 

<tf.Variable 'Variable:0' shape=(2, 3) dtype=int32, numpy=
array([[1, 2, 3],
       [4, 5, 6]])>


变量与常量的定义方式以及操作行为都十分相似，实际上，它们都是tf.Tensor支持的一种数据结构。与常量类似，变量也有数据类型 dtype 和形状 shape，以及和NumPy数组相互交换。并且大部分能够作用于常量的运算操作都可以应用于变量，除了进行形状变形（变量的reshape方法会生成一个新的常量），示例如下：

In [2]:
import tensorflow as tf

var = tf.Variable([[1, 2, 3],[4, 5, 6]])

# 变量类型
print(type(var),"\n") 

# 变量可以转换成NumPy数组
print(var.numpy(),"\n") 

# 对变量执行reshape操作不会改变变量，而是生成一个新的常量
print(type(tf.reshape(var, [3,2])),"\n")  
#原变量属性不变
print(var)


<class 'tensorflow.python.ops.resource_variable_ops.ResourceVariable'> 

[[1 2 3]
 [4 5 6]] 

<class 'tensorflow.python.framework.ops.EagerTensor'> 

<tf.Variable 'Variable:0' shape=(2, 3) dtype=int32, numpy=
array([[1, 2, 3],
       [4, 5, 6]])>


## 2.5 NumPy与tf.tensor比较

前文提到， NumPy数组与TenosrFlow中的张量（即tf.tensor）有很多相似地方，而且可以互相转换。表2-1总结了NumPy与tf.tensor的异同点。

|表2-1 NumPy与tf.tensor的异同点|
|------------------------------|

|操作类别	|NumPy	|TensorFlow 2+|
|:-------|:----------|:----------------------------|
|数据类型|	np.ndarray	|tf.Tensor|
|	|np.float32	|tf.float32|
|	|np.float64	|tf.double|
|	|np.int64	|tf.int64|
|从已有数据构建|np.array([3.2, 4.3], dtype=np.float16)	|a=tf.constant([3.2, 4.3], dtype=tf.float16)#常量 v=tf.Variable([3.2, 4.3], type=tf.float16)#变量|
|	|x.copy()	|tf.identity(x)；tf.tile(a,(n,m))# 元组里的每个数值对应该轴复制次数|
|	|np.concatenate	|tf.concat((a,b),axis)# 待拼接的轴对应的维度数值可以不等，但其他维度形状需一致|tf.stack((a,b),axis)# 带堆叠张量的所有维度数值必须相等|
|线性代数	|np.dot #内积 np.multiply（*）#逐元素相乘或哈达玛积|tf.matmul(x, y, name=None) 或(@)#内积tf.multiply(x, y, name=None)，或(*)#逐元素相乘或哈达玛积|
|属性	|x.ndim	|x.ndim  #查看rank|
|	|x.shape|	x.shape|
|	|x.size	|tf.size(x)|
|改变形状|	x.reshape	|tf.reshape(x,(n,(-1)))#-1表示自动计算其他维度|
|	|np.transpose(x, [新的轴顺序] )|	tf.transpose(x, [新的轴顺序] )|
|	|x.flatten()	|tf.reshape(x,[-1])；tf.keras.layers.Flatten()|
|维度增减|	np.expand_dims(arr, axis)|	tf.expend_dims(a,axis)|
|	|np.squeeze(arr, axis)	|tf.squeeze(a,axis)，#如果不声明axis，那么将压缩所有数值为1的维度。|
|类型转换|	np.floor(x)|x=tf.cast(x,dtype=XX) x=x.numpy()=>np.array|
|比较|	np.less	|tf.less(x,threshold)|
|	|np.less_equal	|tf.less_equal(x, threshold)|
|	|np.greater_equal	|tf.greater_equal(x, threshold)|
|随机种子|	np.random.seed	|tf.random.set_seed(n)|

它们可以互相转换，具体分析如下：
- 通过使用 np.array 或 tensor.numpy 方法，可以将TensorFlow张量转换为 NumPy 数组；
- tf.convert_to_tensor把Python对象（NumPy，list、tuple等），或使用tf.constant、tf.Variable把Python对象转换为TensorFlow张量。

## 2.6 动态计算图
TensorFlow有3种计算图：TensorFlow1.0时代的静态计算图，TensorFlow 2.0时代的动态计算图和Autograph。静态计算图，需要先使用TensorFlow的各种算子创建计算图，再开启一个会话（Session）执行计算图。 而在TensorFlow 2.0时代，默认采用的是动态计算图，即每使用一个算子后，该算子会被动态加入隐含的默认计算图中立即执行并获取返回结果，而无须执行Session。 
	使用动态计算图（即Eager Excution立即执行）的好处是方便调试程序，执行TensorFlow代码犹如执行Python代码一样，而且可以使用Python，非常便捷。不过使用动态计算图的坏处是运行效率相对会低一些，因为在执行动态图期间会有许多次Python进程和TensorFlow的C++进程之间的通信。而静态计算图不通过Python这个中间环节，基本在TensorFlow内核上使用C++代码执行，效率更高。
	为了兼顾速度与性能，在TensorFlow 2.0中可以使用@tf.function装饰器将普通Python函数转换成对应的TensorFlow计算图构建代码。与执行静态图方式类似，使用@tf.function构建静态图的方式叫作Autograph（自动图），更多详细内容将在2.7节介绍。


### 2.6.1 静态计算图
在TensorFlow1.0中，使用静态计算图分两步，第一步定义计算图，第二步在会话中执行计算图。

在TensorFlow2环境中考虑到对老版本tensorflow1的兼容性，在tf.compat.v1子模块中保留了对TensorFlow1.0那种静态计算图构建风格的支持。可以加上tf.compat.v1，已经不推荐使用了

In [4]:
import tensorflow as tf

#定义计算图
grap = tf.compat.v1.Graph()
with grap.as_default():
    #placeholder为占位符，执行会话时候指定填充对象
    x = tf.compat.v1.placeholder(tf.float32,shape=[],name='x')  
    y = tf.compat.v1.placeholder(tf.float32,shape=[],name='y')  
    b = tf.compat.v1.Variable(15.0,dtype=tf.float32) 
    z=tf.multiply(x,y,name='c')+b
    #初始化参数
    init_op = tf.compat.v1.global_variables_initializer()

#执行计算图
with tf.compat.v1.Session(graph = grap) as sess:
    sess.run(init_op)
    print(sess.run(fetches = z,feed_dict = {x:20,y:36}))

735.0


### 2.6.2 动态计算图

以上代码如果采用动态计算图的方式实现，需要做如下处理。  
1）把占位符改为其他张量，如tf.constant或tf.Variable。  
2）无须显式创建计算图。  
3）无须变量的初始化。  
4）无须执行Session，把sess.run中的feed_dict改为传入函数的参数，fetches改为执行函数即可。  
采用TensorFlow 2.0动态图执行的方式，代码如下：

In [6]:
import tensorflow as tf

#定义常量或变量
x=tf.constant(20,dtype=tf.float32)
y=tf.constant(36,dtype=tf.float32)

#定义函数
def mul(x,y):  
    #定义常量或变量
    b=tf.Variable(15 ,dtype=tf.float32) 
    z=tf.multiply(x,y,name='c')+b
    return z

#执行函数
print(mul(x,y).numpy())    
    

735.0


## 2.7 自动图
	与静态计算图相比，动态计算图虽然调试编码效率高但是执行效率偏低，TensorFlow 2.0 之后的自动图（AutoGraph）可以将动态计算图转换成静态计算图，兼顾开发效率和执行效率。通过给函数添加@tf.function装饰器就可以实现AutoGraph功能，但是在编写函数时需要遵循一定的编码规范，否则可能达不到预期的效果，这些编码规范主要包括如下几点。
- 避免在函数内部定义变量(tf.Variable)。
- 函数体内应尽可能使用TensorFlow中的函数而不是Python语言自有函数。比如使用tf.print而不是print，使用tf.range而不是range，使用tf.constant(True)而不是True。
- 函数体内不可修改该函数外部的Python列表或字典等数据结构变量。

用@tf.fuction装饰2.6.2节的函数，把动态计算图转换为自动图。


In [7]:
import tensorflow as tf

#定义常量或变量
x=tf.constant(20,dtype=tf.float32)
y=tf.constant(36,dtype=tf.float32)

#定义函数
@tf.function
def mul(x,y):  
    #定义常量或变量
    b=tf.Variable(15 ,dtype=tf.float32) 
    z=tf.multiply(x,y,name='c')+b
    return z

#执行函数
print(mul(x,y).numpy())     

ValueError: in user code:

    <ipython-input-7-71c9c79bb5c2>:11 mul  *
        b=tf.Variable(15 ,dtype=tf.float32)
    C:\Users\wumgapp\Anaconda3\lib\site-packages\tensorflow\python\ops\variables.py:262 __call__  **
        return cls._variable_v2_call(*args, **kwargs)
    C:\Users\wumgapp\Anaconda3\lib\site-packages\tensorflow\python\ops\variables.py:256 _variable_v2_call
        shape=shape)
    C:\Users\wumgapp\Anaconda3\lib\site-packages\tensorflow\python\ops\variables.py:67 getter
        return captured_getter(captured_previous, **kwargs)
    C:\Users\wumgapp\Anaconda3\lib\site-packages\tensorflow\python\eager\def_function.py:731 invalid_creator_scope
        "tf.function-decorated function tried to create "

    ValueError: tf.function-decorated function tried to create variables on non-first call.


<font size=4 color=blue>运行代码，出现如下错误信息：ValueError: tf.function-decorated function tried to create variables on non-first call</font>  
	这是为什么呢？  
	报错是因为函数定义中定义了一个tf.Variable变量。实际上，在动态模式中，这个对象就是一个普通的Python对象，在定义范围之外会被自动回收，然后在下次运行时被重新定义，因此不会有错误。但是现在tf.Variable定义了一个持久的对象，如果函数被@tf.function修饰，动态模型被禁止，tf.Variable定义的实际上是图中的一个节点，而这个节点不会被自动回收，且图一旦编译成功，不能再创建变量。故执行函数时会报这个错误。
那么，如何避免这样的错误呢？方法有多种，列举如下。  
1）把tf.Variable变量移到被@tf.function装饰的函数外面。


In [8]:
import tensorflow as tf

#定义常量或变量
x=tf.constant(20,dtype=tf.float32)
y=tf.constant(36,dtype=tf.float32)
#定义常量或变量
b=tf.Variable(15 ,dtype=tf.float32) 
#定义函数
@tf.function
def mul(x,y):      
    z=tf.multiply(x,y,name='c')+b
    return z

#执行函数
print(mul(x,y).numpy())     

735.0


在函数外部定义tf.Variable变量，你可能会感觉这个函数有外部变量依赖，封装不够完美。那么，是否有两全其美的方法呢？利用类的封装性就可以完美解决这个问题，即创建一个包含该函数的类，并将相关的tf.Variable创建放在类的初始化方法中。  
2）通过封装成类方法来解决这个问题。


In [9]:
import tensorflow as tf

#定义一个类
class Test_Mul:
    def __init__(self):
        super(Test_Mul, self).__init__()
        self.b=tf.Variable(15 ,dtype=tf.float32) 

    @tf.function
    def mul(self,x,y):      
        z=tf.multiply(x,y,name='c')+self.b
        return z

#执行函数
x=tf.constant(20,dtype=tf.float32)
y=tf.constant(36,dtype=tf.float32)
Test=Test_Mul()
print(Test.mul(x,y).numpy())     

735.0


## 2.8 自动微分
	机器学习，尤其是其中的深度学习，通常依赖反向传播求梯度来更新网络参数，求梯度通常非常复杂且容易出错。 可喜的是TensorFlow深度学习架构帮助我们自动地完成了求梯度运算。 Tensorflow一般使用梯度磁带tf.GradientTape来记录正向运算过程，然后使用反播磁带自动得到梯度值。 这种利用tf.GradientTape求微分的方法叫作Tensorflow的自动微分机制，其基本流程如图2-7所示。
![image.png](attachment:image.png)
<center> 图2-7 TensorFlow自动微分的流程图 </center>
以下通过一些示例进行说明：

In [10]:
import tensorflow as tf
import numpy as np 

# f(x) = a*x**2 + b*x + c的导数
#缺省情况，张量tf.constant为常量，只有变量tf.Variable作为参数更新
x = tf.Variable(0.0,name = "x",dtype = tf.float32)
a = tf.constant(1.0)
b = tf.constant(5.0)
c = tf.constant(2.0)

#对函数y实现自动求导
with tf.GradientTape() as tape:
    y = a*tf.pow(x,2) + b*x + c    
dy_dx = tape.gradient(y,x)
print(dy_dx)

tf.Tensor(5.0, shape=(), dtype=float32)


对常量张量也可以求导，需要增加watch。例如：

In [11]:
with tf.GradientTape() as tape:
    tape.watch([a,b,c])
    y = a*tf.pow(x,2) + b*x + c
    
dy_dx,dy_da,_,dy_dc = tape.gradient(y,[x,a,b,c])
print(dy_da)
print(dy_dc)

tf.Tensor(0.0, shape=(), dtype=float32)
tf.Tensor(1.0, shape=(), dtype=float32)


利用tape嵌套方法，可以求二阶导数。

In [12]:
with tf.GradientTape() as tape2:
    with tf.GradientTape() as tape1:   
        y = a*tf.pow(x,2) + b*x + c
    dy_dx = tape1.gradient(y,x)   
dy2_dx2 = tape2.gradient(dy_dx,x)

print(dy2_dx2)

tf.Tensor(2.0, shape=(), dtype=float32)


默认情况下，只要调用GradientTape.gradient方法，系统将自动释放 GradientTape保存的资源。要在同一计算中计算多个梯度，可创建一个 persistent=True 的梯度磁带，这样便可以对 gradient 方法进行多次调用。最后用del显式方式删除梯度磁带，例如

In [13]:
x = tf.constant([1, 2.0])
with tf.GradientTape(persistent=True) as tape:
  tape.watch(x)
  y = x * x
  z = y * y

print(tape.gradient(y, x).numpy())  
print(tape.gradient(z, x).numpy())  

[2. 4.]
[ 4. 32.]


In [24]:
del tape  #释放内存

梯度磁带会自动监视 tf.Variable，但不会监视 tf.Tensor。如果无意中将变量（tf.Variable）变为常量（tf.Tensor）（如tf.Variable 与一个tf.Tensor相加，其和就变成常量了），梯度磁带将不再监控tf.Tensor。 为避免这种情况，可使用 Variable.assign 给tf.Variable赋值，示例如下：

In [14]:
x = tf.Variable(2.0)

for epoch in range(2):
  with tf.GradientTape() as tape:
    y = x+1

  dy_x=tape.gradient(y, x)
  #print(type(x).__name__, ":", tape.gradient(y, x))
  print(dy_x)
  #变量变为常量tf.Tensor
  x = x + 1   # This should be `x.assign_add(1)`

tf.Tensor(1.0, shape=(), dtype=float32)
None


故第2次循环时，因x为常量，故dy_x为None

In [15]:
x = tf.Variable(2.0)

for epoch in range(2):
  with tf.GradientTape() as tape:
    y = x+1

  dy_x=tape.gradient(y, x)
  #print(type(x).__name__, ":", tape.gradient(y, x))
  print(dy_x)
  #改为assign赋值方式，变量属性不变
  x.assign_add(1)   

tf.Tensor(1.0, shape=(), dtype=float32)
tf.Tensor(1.0, shape=(), dtype=float32)


如在函数的计算中有退出TensorFlow 之外（如使用NumPy算法）进行了计算，梯度带将无法记录梯度路径；
或变量的值为整数，也无法求导。例如：

In [16]:
x = tf.Variable([[1.0, 2.0],
                 [3.0, 4.0]], dtype=tf.float32)

with tf.GradientTape() as tape:
  x2 = x**2

  # 使用TensorFlow之外的算子np.mean,它将把结果变为常量，梯度带将无法记录梯度路径
  y = np.mean(x2, axis=0)
  y1 = tf.reduce_mean(y, axis=0)

print(tape.gradient(y1, x))

None
