# Tensorflow 学习

## 1. 环境安装

python 版本

In [1]:
import sys
print(sys.version)
print(sys.version_info)

3.7.4 (default, Aug 13 2019, 20:35:49) 
[GCC 7.3.0]
sys.version_info(major=3, minor=7, micro=4, releaselevel='final', serial=0)


安装命令:

```python
pip install tensorflow
```

安装出错：

 - https://blog.csdn.net/weixin_41923658/article/details/96127770

In [2]:
import tensorflow as tf
print(tf.__version__)

2.1.0


## 2. 数据操作
在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。

在tensorflow中，tensor是一个类，也是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现tensor和NumPy的多维数组非常类似。然而，tensor提供GPU计算和自动求梯度等更多功能，这些使tensor更加适合深度学习。

### 2.1 创建 Tensor

我们先介绍tensor的最基本功能，我们用arange函数创建一个行向量

In [3]:
x = tf.constant(range(12))

print(x.shape)

(12,)


In [4]:
x

<tf.Tensor: shape=(12,), dtype=int32, numpy=array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11], dtype=int32)>

这时返回了一个tensor实例，其中包含了从0开始的12个连续整数。

我们可以通过shape属性来获取tensor实例的形状。

In [5]:
x.shape

TensorShape([12])

也能够通过len得到tensor实例中元素（element）的总数。

In [6]:
len(x)

12

下面使用reshape函数把行向量x的形状改为(3, 4)，也就是一个3行4列的矩阵，并记作X。除了形状改变之外，X中的元素保持不变。

In [7]:
X = tf.reshape(x, (3,4))

In [8]:
X

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]], dtype=int32)>

注意X属性中的形状发生了变化。上面`x.reshape((3, 4))`也可写成`x.reshape((-1, 4))`或`x.reshape((3, -1))`。由于x的元素个数是已知的，这里的-1是能够通过元素个数和其他维度的大小推断出来的。

接下来，我们创建一个各元素为0，形状为(2, 3, 4)的张量。实际上，之前创建的向量和矩阵都是特殊的张量

In [9]:
tf.zeros((2,3,4))

<tf.Tensor: shape=(2, 3, 4), dtype=float32, numpy=
array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]], dtype=float32)>

类似地，我们可以创建各元素为1的张量。

In [10]:
tf.ones((3,4))

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]], dtype=float32)>

我们也可以通过Python的列表（list）指定需要创建的tensor中每个元素的值。

In [12]:
Y = tf.constant([[2,1,4,3], [1,2,3,4], [2,4,5,1]])
Y

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[2, 1, 4, 3],
       [1, 2, 3, 4],
       [2, 4, 5, 1]], dtype=int32)>

有些情况下，我们需要随机生成`tensor`中每个元素的值。下面我们创建一个形状为(3, 4)的`tensor`。它的每个元素都随机采样于均值为0、标准差为1的正态分布。

In [13]:
tf.random.normal(shape=[3, 4], mean=0, stddev=1)

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 0.26122263,  0.28844306,  1.2615929 ,  0.7848086 ],
       [ 1.7299489 , -0.8968201 , -0.43280393, -2.0164573 ],
       [ 0.92278224,  1.0007961 , -0.6423327 , -0.7194047 ]],
      dtype=float32)>

### 2.2 运算

`tensor`支持大量的运算符（operator）。例如，我们可以对之前创建的两个形状为(3, 4)的`tensor`做按元素加法。所得结果形状不变。

In [14]:
X + Y

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[ 2,  2,  6,  6],
       [ 5,  7,  9, 11],
       [10, 13, 15, 12]], dtype=int32)>

In [15]:
X * Y

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[ 0,  1,  8,  9],
       [ 4, 10, 18, 28],
       [16, 36, 50, 11]], dtype=int32)>

In [16]:
X / Y

<tf.Tensor: shape=(3, 4), dtype=float64, numpy=
array([[ 0.  ,  1.  ,  0.5 ,  1.  ],
       [ 4.  ,  2.5 ,  2.  ,  1.75],
       [ 4.  ,  2.25,  2.  , 11.  ]])>

按元素做指数运算：

In [17]:
Y = tf.cast(Y, tf.float32)
tf.exp(Y)

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[  7.389056 ,   2.7182817,  54.598152 ,  20.085537 ],
       [  2.7182817,   7.389056 ,  20.085537 ,  54.598152 ],
       [  7.389056 ,  54.59815  , 148.41316  ,   2.7182817]],
      dtype=float32)>

除了按元素计算外，我们还可以使用`matmul`函数做矩阵乘法。下面将`X`与`Y`的转置做矩阵乘法。由于`X`是3行4列的矩阵，`Y`转置为4行3列的矩阵，因此两个矩阵相乘得到3行3列的矩阵。

In [18]:
Y = tf.cast(Y, tf.int32)
tf.matmul(X, tf.transpose(Y))

<tf.Tensor: shape=(3, 3), dtype=int32, numpy=
array([[ 18,  20,  17],
       [ 58,  60,  65],
       [ 98, 100, 113]], dtype=int32)>

我们也可以将多个`tensor`连结（concatenate）。下面分别在行上（维度0，即形状中的最左边元素）和列上（维度1，即形状中左起第二个元素）连结两个矩阵。可以看到，输出的第一个`tensor`在维度0的长度（ 6 ）为两个输入矩阵在维度0的长度之和（ 3+3 ），而输出的第二个`tensor`在维度1的长度（ 8 ）为两个输入矩阵在维度1的长度之和（ 4+4 ）。

In [19]:
tf.concat([X, Y], axis=0), tf.concat([X, Y], axis=1)

(<tf.Tensor: shape=(6, 4), dtype=int32, numpy=
 array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [ 2,  1,  4,  3],
        [ 1,  2,  3,  4],
        [ 2,  4,  5,  1]], dtype=int32)>,
 <tf.Tensor: shape=(3, 8), dtype=int32, numpy=
 array([[ 0,  1,  2,  3,  2,  1,  4,  3],
        [ 4,  5,  6,  7,  1,  2,  3,  4],
        [ 8,  9, 10, 11,  2,  4,  5,  1]], dtype=int32)>)

使用条件判断式可以得到元素为0或1的新的`tensor`。以X == Y为例，如果X和Y在相同位置的条件判断为真（值相等），那么新的`tensor`在相同位置的值为1；反之为0。

In [20]:
tf.equal(X, Y)

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[False,  True, False,  True],
       [False, False, False, False],
       [False, False, False, False]])>

对`tensor`中的所有元素求和得到只有一个元素的`tensor`。

In [21]:
tf.reduce_sum(X)

<tf.Tensor: shape=(), dtype=int32, numpy=66>

In [22]:
X = tf.cast(X, tf.float32)
tf.norm(X)

<tf.Tensor: shape=(), dtype=float32, numpy=22.494444>

### 2.3 广播机制

前面我们看到如何对两个形状相同的`tensor`做按元素运算。当对两个形状不同的`tensor`按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个`tensor`形状相同后再按元素运算。

定义两个`tensor`：

In [23]:
A = tf.reshape(tf.constant(range(3)), (3,1))
B = tf.reshape(tf.constant(range(2)), (1,2))
A, B

(<tf.Tensor: shape=(3, 1), dtype=int32, numpy=
 array([[0],
        [1],
        [2]], dtype=int32)>,
 <tf.Tensor: shape=(1, 2), dtype=int32, numpy=array([[0, 1]], dtype=int32)>)

由于`A`和`B`分别是3行1列和1行2列的矩阵，如果要计算`A + B`，那么A中第一列的3个元素被广播（复制）到了第二列，而B中第一行的2个元素被广播（复制）到了第二行和第三行。如此，就可以对2个3行2列的矩阵按元素相加。

In [24]:
A + B

<tf.Tensor: shape=(3, 2), dtype=int32, numpy=
array([[0, 1],
       [1, 2],
       [2, 3]], dtype=int32)>

### 2.4 索引

在`tensor`中，索引（index）代表了元素的位置。`tensor`的索引从0开始逐一递增。例如，一个3行2列的矩阵的行索引分别为0、1和2，列索引分别为0和1。

在下面的例子中，我们指定了`tensor`的行索引截取范围[1:3]。依据左闭右开指定范围的惯例，它截取了矩阵`X`中行索引为1和2的两行。

In [26]:
X

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)>

In [25]:
X[1:3]

<tf.Tensor: shape=(2, 4), dtype=float32, numpy=
array([[ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)>

我们可以指定`tensor`中需要访问的单个元素的位置，如矩阵中行和列的索引，并为该元素重新赋值。

为了区分需要计算梯度信息的张量与不需要计算梯度信息的张量，TensorFlow 增加了
一种专门的数据类型来支持梯度信息的记录：tf.Variable。tf.Variable 类型在普通的张量类
型基础上添加了name，trainable 等属性来支持计算图的构建。由于梯度运算会消耗大量的
计算资源，而且会自动更新相关参数，对于不需要的优化的张量，如神经网络的输入𝑿，
不需要通过tf.Variable 封装；相反，对于需要计算梯度并优化的张量，如神经网络层的𝑾
和𝒃，需要通过tf.Variable 包裹以便TensorFlow 跟踪相关梯度信息。

In [27]:
X = tf.Variable(X)

In [28]:
X[1,2].assign(9)

<tf.Variable 'UnreadVariable' shape=(3, 4) dtype=float32, numpy=
array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  9.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)>

当然，我们也可以截取一部分元素，并为它们重新赋值。在下面的例子中，我们为行索引为1的每一列元素重新赋值。

In [32]:
X = tf.Variable(X)
X

<tf.Variable 'Variable:0' shape=(3, 4) dtype=float32, numpy=
array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  9.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)>

In [33]:
X[1:2, :].assign(tf.ones(X[1:2, :].shape, dtype = tf.float32)*12)

<tf.Variable 'UnreadVariable' shape=(3, 4) dtype=float32, numpy=
array([[ 0.,  1.,  2.,  3.],
       [12., 12., 12., 12.],
       [ 8.,  9., 10., 11.]], dtype=float32)>

### 2.5 运算的内存开销

在前面的例子里我们对每个操作新开内存来存储运算结果。举个例子，即使像`Y = X + Y`这样的运算，我们也会新开内存，然后将`Y`指向新内存。为了演示这一点，我们可以使用Python自带的`id`函数：如果两个实例的ID一致，那么它们所对应的内存地址相同；反之则不同。

In [36]:
X = tf.Variable(X)
Y = tf.cast(Y, dtype=tf.float32)

before = id(Y)
Y = Y + X
id(Y) == before

False

如果想指定结果到特定内存，我们可以使用前面介绍的索引来进行替换操作。在下面的例子中，我们先通过`zeros_like`创建和`Y`形状相同且元素为0的`tensor`，记为`Z`。接下来，我们把`X + Y`的结果通过`[:]`写进`Z`对应的内存中。

In [37]:
Z = tf.Variable(tf.zeros_like(Y))
before = id(Z)
Z[:].assign(X+Y)
id(Z) == before

True

实际上，上例中我们还是为`X + Y`开了临时内存来存储计算结果，再复制到`Z`对应的内存。如果想避免这个临时内存开销，我们可以使用`assign_{运算符全名}`函数。

In [38]:
Z = tf.add(X, Y)
id(Z) == before

False

In [39]:
before = id(X)
X.assign_add(Y)
id(X) == before

True

### 2.6 tensor 和 numpy 相互转换

我们可以通过 convert_to_tensor 函数和 numpy() 函数令数据在 tensor 和 Numpy 格式之间相互变换。下面将NumPy实例变换成tensor实例。

In [40]:
import numpy as np

In [41]:
P = np.ones((2,3))
D = tf.constant(P)
D

<tf.Tensor: shape=(2, 3), dtype=float64, numpy=
array([[1., 1., 1.],
       [1., 1., 1.]])>

In [46]:
tf.convert_to_tensor(P)

<tf.Tensor: shape=(2, 3), dtype=float64, numpy=
array([[1., 1., 1.],
       [1., 1., 1.]])>

再将 tensor 实例变换成NumPy实例。

In [42]:
np.array(D)

array([[1., 1., 1.],
       [1., 1., 1.]])

In [44]:
D.numpy()

array([[1., 1., 1.],
       [1., 1., 1.]])

## 3. 自动求梯度

在深度学习中，我们经常需要对函数求梯度（gradient）。本节将介绍如何使用tensorflow2.0提供的GradientTape来自动求梯度。

### 3.1 简单示例

我们先看一个简单例子：对函数 $y = 2\boldsymbol{x}^{\top}\boldsymbol{x}$ 求关于列向量 $\boldsymbol{x}$ 的梯度。我们先创建变量`x`，并赋初值。

In [50]:
x = tf.reshape(tf.Variable(range(4), dtype=tf.float32), (4,1))
x

<tf.Tensor: shape=(4, 1), dtype=float32, numpy=
array([[0.],
       [1.],
       [2.],
       [3.]], dtype=float32)>

函数 $y = 2\boldsymbol{x}^{\top}\boldsymbol{x}$ 关于$\boldsymbol{x}$ 的梯度应为$4\boldsymbol{x}$。现在我们来验证一下求出来的梯度是正确的。

In [51]:
with tf.GradientTape() as t:
    t.watch(x)
    y = 2 * tf.matmul(tf.transpose(x), x)

dy_dx = t.gradient(y, x)
dy_dx

<tf.Tensor: shape=(4, 1), dtype=float32, numpy=
array([[ 0.],
       [ 4.],
       [ 8.],
       [12.]], dtype=float32)>

In [57]:
with tf.GradientTape(persistent=True) as g:
    g.watch(x)
    y = x * x
    z = y * y  # x^ 4 
    dz_dx = g.gradient(z, x)  
    dy_dx = g.gradient(y, x)  
dz_dx,dy_dx



(<tf.Tensor: shape=(4, 1), dtype=float32, numpy=
 array([[  0.],
        [  4.],
        [ 32.],
        [108.]], dtype=float32)>,
 <tf.Tensor: shape=(4, 1), dtype=float32, numpy=
 array([[0.],
        [2.],
        [4.],
        [6.]], dtype=float32)>)

## 3.2 对Python控制流求梯度

即使函数的计算图包含了Python的控制流（如条件和循环控制），我们也有可能对变量求梯度。

考虑下面程序，其中包含Python的条件和循环控制。需要强调的是，这里循环（while循环）迭代的次数和条件判断（if语句）的执行都取决于输入a的值。

In [97]:
def f(a):
    b = a * 2
    # 不断对 b * 2
    while tf.norm(b) < 1000: 
        b = b * 2
    if tf.reduce_sum(b) > 0:
        c = b
    else:
        c = 100 * b
    return c

我们来分析一下上面定义的f函数。事实上，给定任意输入a，其输出必然是 f(a) = x * a的形式，其中标量系数x的值取决于输入a。由于c = f(a)有关a的梯度为x，且值为c / a，我们可以像下面这样验证对本例中控制流求梯度的结果的正确性。

In [82]:
a = tf.random.normal((1,1), dtype=tf.float32)
with tf.GradientTape() as t:
    t.watch(a)
    c = f(a)

t.gradient(c,a) == c / a

In [88]:
b = tf.constant([[1,2,3], [0,1,0]])
b= tf.cast(b, dtype=tf.float32)
b

<tf.Tensor: shape=(2, 3), dtype=float32, numpy=
array([[1., 2., 3.],
       [0., 1., 0.]], dtype=float32)>

In [98]:
b = tf.constant([[1,2,3], [0,1,0]])
b = tf.cast(b, dtype=tf.float32)

with tf.GradientTape() as t:
    t.watch(b)
    c = f(b)

t.gradient(c,b)

<tf.Tensor: shape=(2, 3), dtype=float32, numpy=
array([[512., 512., 512.],
       [512., 512., 512.]], dtype=float32)>

In [109]:
d = tf.constant([2,2,1])
d= tf.cast(d, dtype=tf.float32)
tf.norm(d)

<tf.Tensor: shape=(), dtype=float32, numpy=3.0>