In [1]:
import tensorflow as tf

# 数据操作

## 创建Tensor

- 零维的tensor是标量(数字)
- 一维的tensor是向量
- 二维的tensor是矩阵
- tensorflow使用tensor这个容器来储存数据

In [2]:
# 创建一维tensor

x = tf.constant(range(12))
x

<tf.Tensor: shape=(12,), dtype=int32, numpy=array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11], dtype=int32)>

In [3]:
# 查看tensor的形状

x.shape

TensorShape([12])

In [4]:
# 查看tensor的元素总数

len(x)

12

In [4]:
# 将x改为3行4列的矩阵


X = tf.reshape(x, (-1,4))    # 使用-1的话，会通过元素个数和其他维度的大小来自动推断
# X = tf.reahspe(x, (3, 4))
X

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]], dtype=int32)>

In [6]:
# 相似的, 可以通过 tf.zeros / tf.ones/ tf.constant 来创建tensor

print('zeros: \n{}'.format(
    tf.zeros((2,3,4))
))
print('\n')

print('ones: \n{}'.format(
    tf.ones((3,4))
))
print('\n')

print('constant: \n{}'.format(
    tf.constant([[2,1,4,3],[1,2,3,4],[4,3,2,1]])
))

zeros: 
[[[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]


ones: 
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


constant: 
[[2 1 4 3]
 [1 2 3 4]
 [4 3 2 1]]


In [7]:
# 某些时候, 需要随机生成tensor中的元素值
# 以下例子随机采样与N(0, 1)

tf.random.normal(shape=[3,4], mean=0, stddev=1)

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[-0.14646564, -0.9500828 , -0.53091   , -0.11448529],
       [ 0.5844938 ,  0.22938538,  0.8368168 , -1.6815757 ],
       [ 1.7194144 ,  0.8377842 ,  1.7099742 ,  0.20503172]],
      dtype=float32)>

In [8]:
# 创建一个被某一scalar充满的tensor

tf.fill([3,4], 3)

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[3, 3, 3, 3],
       [3, 3, 3, 3],
       [3, 3, 3, 3]], dtype=int32)>

## 运算

In [9]:
# 创建3行4列的两个tensor

X = tf.reshape(tf.constant(range(12)), (-1,4))
Y = tf.constant([[2,1,4,3],[1,2,3,4],[4,3,2,1]])
print('X:{}'.format(X))
print('\n')
print('Y:{}'.format(Y))

X:[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


Y:[[2 1 4 3]
 [1 2 3 4]
 [4 3 2 1]]


In [10]:
# 加法(相同位置的元素直接相加)

X + Y

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[ 2,  2,  6,  6],
       [ 5,  7,  9, 11],
       [12, 12, 12, 12]], dtype=int32)>

In [11]:
# 乘法(相同位置的元素直接相乘)

X*Y

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[ 0,  1,  8,  9],
       [ 4, 10, 18, 28],
       [32, 27, 20, 11]], dtype=int32)>

In [12]:
# 除法(相同位置的元素直接相除)

X/Y

<tf.Tensor: shape=(3, 4), dtype=float64, numpy=
array([[ 0.  ,  1.  ,  0.5 ,  1.  ],
       [ 4.  ,  2.5 ,  2.  ,  1.75],
       [ 2.  ,  3.  ,  5.  , 11.  ]])>

In [13]:
# 按元素做指数运算

Y = tf.cast(Y, tf.float32)    # 先把Y的元素从int转为float
tf.exp(Y)

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 7.389056 ,  2.7182817, 54.598152 , 20.085537 ],
       [ 2.7182817,  7.389056 , 20.085537 , 54.598152 ],
       [54.59815  , 20.085537 ,  7.389056 ,  2.7182817]], dtype=float32)>

In [14]:
# 用 `matmul` 做矩阵乘法
# 因为X为3*4, Y的转置为4*3, 所以两矩阵相乘结果为3*3

Y = tf.cast(Y, tf.int32)
tf.matmul(X, tf.transpose(Y))

<tf.Tensor: shape=(3, 3), dtype=int32, numpy=
array([[ 18,  20,  10],
       [ 58,  60,  50],
       [ 98, 100,  90]], dtype=int32)>

In [15]:
# 使用tf.concat将tensor进行连接
# axis=0即在行上连接(一个tensor加到一个tensor的下面)
# axis=1即在列上连接(一个tensor加到一个tensor的左边)

tf.concat([X,Y], axis=0), tf.concat([X,Y], axis=1)

(<tf.Tensor: shape=(6, 4), dtype=int32, numpy=
 array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [ 2,  1,  4,  3],
        [ 1,  2,  3,  4],
        [ 4,  3,  2,  1]], dtype=int32)>,
 <tf.Tensor: shape=(3, 8), dtype=int32, numpy=
 array([[ 0,  1,  2,  3,  2,  1,  4,  3],
        [ 4,  5,  6,  7,  1,  2,  3,  4],
        [ 8,  9, 10, 11,  4,  3,  2,  1]], dtype=int32)>)

In [16]:
# 使用tf.equal判断tensor内每个元素是否相同
# 判断内容的shape必须相同

tf.equal(X, Y)

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[False,  True, False,  True],
       [False, False, False, False],
       [False, False, False, False]])>

In [12]:
# 对所有元素求和, 获得只有一个元素的tensor

tf.reduce_sum(X, axis=[0,1])

<tf.Tensor: shape=(), dtype=int32, numpy=66>

In [18]:
# 求一个tensor的范数
# 可以通过`ord`这个参数来规定求什么范数, 默认为euclidean

X = tf.cast(X, tf.float32)
tf.norm(X, ord='euclidean')

<tf.Tensor: shape=(), dtype=float32, numpy=22.494444>

## 广播机制

当形状不同的tensor做元素运算时，可能会触发broadcasting机制: 先适当复制元素，使这两个tensor形状相同后再按元素运算

<img src="img/class1_1.3.png" style="zoom:50%">

**机制:**
1. 当某一维度dim=1时，可以进行广播
2. 若没有当前维度, 则插入一个维度, 进行广播
3. 除上述外, 均不可以广播

**例子:**
1. shape(4,32,14,14) + shape(1,32,1,1) -> shape(4,32,14,14) | 相当于在第1、3、4个维度触发了第一条机制
2. shape(4,32,14,14) + shape(14,14) -> shape(4,32,14,14) | 相当于触发了在第1、2个维度触发第二条机制，形成shape(1,1,14,14)。然后再触发第一条机制形成shape(4,32,14,14), 再进行相加
3. shape(4,32,14,14) + shape(2,32,14,14) | 不能触发广播机制, 因为没有维度不存在或者某一维度为1
4. shape(4,32,14,14) + shape(2,1,1,1) | 不能触发广播机制, 因为要broadcast的那一个维度不等于1

In [19]:
A = tf.reshape(tf.constant(range(3)), (3,1))
B = tf.reshape(tf.constant(range(2)), (1,2))
A, B 

(<tf.Tensor: shape=(3, 1), dtype=int32, numpy=
 array([[0],
        [1],
        [2]], dtype=int32)>,
 <tf.Tensor: shape=(1, 2), dtype=int32, numpy=array([[0, 1]], dtype=int32)>)

In [20]:
A + B

<tf.Tensor: shape=(3, 2), dtype=int32, numpy=
array([[0, 1],
       [1, 2],
       [2, 3]], dtype=int32)>

## 索引

In [21]:
# 创建tensor

X = tf.reshape(tf.constant(range(12)), (-1,4))
X

<tf.Tensor: shape=(3, 4), dtype=int32, numpy=
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]], dtype=int32)>

In [22]:
# 两式相同

X[1:3], X[1:3, :]

(<tf.Tensor: shape=(2, 4), dtype=int32, numpy=
 array([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]], dtype=int32)>,
 <tf.Tensor: shape=(2, 4), dtype=int32, numpy=
 array([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]], dtype=int32)>)

In [23]:
# 可以访问单个元素的位置, 并重新赋值

X = tf.Variable(X)
X[1,2].assign(9)

<tf.Variable 'UnreadVariable' shape=(3, 4) dtype=int32, numpy=
array([[ 0,  1,  2,  3],
       [ 4,  5,  9,  7],
       [ 8,  9, 10, 11]], dtype=int32)>

In [24]:
# 可以截取一部分元素, 并重新赋值

X = tf.Variable(X)
X[1:2,:].assign(tf.ones(X[1:2,:].shape, dtype=tf.int32)*12)

<tf.Variable 'UnreadVariable' shape=(3, 4) dtype=int32, numpy=
array([[ 0,  1,  2,  3],
       [12, 12, 12, 12],
       [ 8,  9, 10, 11]], dtype=int32)>

## 运算的内存开销

使用python自带的`id`函数, 如果两个实例的ID一致，则表明其内存地址一致

In [25]:
# 创建tensor

X = tf.reshape(tf.constant(range(12)), (-1,4))
X = tf.cast(X, dtype=tf.float32)
X = tf.Variable(X)
Y = tf.constant([[2,1,4,3],[1,2,3,4],[4,3,2,1]])
Y = tf.cast(Y, dtype=tf.float32)

In [27]:
# 使用Y=X+Y这种形式, 其实原有的Y和之后的Y的内存地址是不一致的

before = id(Y)
Y += X
id(Y) == before

False

In [30]:
# 使用.assign()进行赋值, 则内存是一致的
# 但是其实还是新开了一个临时的内存来储存X+Y的结果, 再赋值到Z对应的内存中
# 但是相比直接相加，还是减少了内存开销

Z = tf.Variable(tf.zeros_like(Y))
before = id(Z)
Z[:].assign(X+Y)
id(Z) == before

True

In [31]:
# 使用`assign_{运算符全名}`来避免临时内存的开销

before = id(X)
X.assign_add(Y)
id(X) == before

True

## Tensor和NumPy相互变换

In [32]:
import numpy as np

P = np.ones((2,3))
D = tf.constant(P)
D

<tf.Tensor: shape=(2, 3), dtype=float64, numpy=
array([[1., 1., 1.],
       [1., 1., 1.]])>

In [33]:
np.array(D)

array([[1., 1., 1.],
       [1., 1., 1.]])

# 自动求梯度

## 简单示例

求 $y = 2 x ^T x$, 关于向量$x$的梯度。 其正确梯度结果应为$4x$

In [34]:
# 创建tensor

x = tf.reshape(tf.constant(range(4), dtype=tf.float32), (4,1))
x

<tf.Tensor: shape=(4, 1), dtype=float32, numpy=
array([[0.],
       [1.],
       [2.],
       [3.]], dtype=float32)>

In [35]:
# 求y的梯度
# tf.GradientTape() 默认只监听由tf.Variable创建且`trainable=True`(默认为True)的变量.
# 下例中因为x是一个constant, 不是Variable, 所以需要使用.watch()将其加入监听

with tf.GradientTape() as t:
    t.watch(x)
    y = 2 * tf.matmul(tf.transpose(x), x)
    
dy_dx = t.gradient(y, x)
dy_dx

<tf.Tensor: shape=(4, 1), dtype=float32, numpy=
array([[ 0.],
       [ 4.],
       [ 8.],
       [12.]], dtype=float32)>

## 训练模式和预测模式

In [36]:
# 在默认情况`persistent=False`的情况下, GradientTape的资源在调用一次gradient()函数之后就被释放了
# 所以如果需要进行多次梯度计算, 需要开启`persistent=True`属性

with tf.GradientTape(persistent=True) as g:
    g.watch(x)
    y = x * x
    z = y * y
    
dz_dx = g.gradient(z, x) # (4*x^3 at x = 3)
dy_dx = g.gradient(y, x) # (4*x at x = 3)

dz_dx, dy_dx

(<tf.Tensor: shape=(4, 1), dtype=float32, numpy=
 array([[  0.],
        [  4.],
        [ 32.],
        [108.]], dtype=float32)>,
 <tf.Tensor: shape=(4, 1), dtype=float32, numpy=
 array([[0.],
        [2.],
        [4.],
        [6.]], dtype=float32)>)

## 对Python控制流求梯度

该f函数的输出必然是f(a) = x * a = c; 其对a求梯度, 结果为x。可以得出, f(a)的梯度 = x = c / a

In [37]:
def f(a):
    b = a * 2
    while tf.norm(b) < 1000:
        b = b * 2
    if tf.reduce_sum(b) > 0:
        c = b
    else:
        c = 100 * b
    return c

In [38]:
a = tf.random.normal((1,1), dtype=tf.float32)
with tf.GradientTape() as t:
    t.watch(a)
    c = f(a)
t.gradient(c, a) == c / a

<tf.Tensor: shape=(1, 1), dtype=bool, numpy=array([[ True]])>