In [1]:
import tensorflow as tf
import numpy as np

# 创建tensor

# constant是历史遗留问题，不是常量的意思，就是普通的tensor定义
# constant与convert_to_tensor功能一样
tf.constant(1)

tf.constant(1.)

tf.constant(2., dtype = tf.double)

tf.constant([True, False])

tf.constant("hello world")

tf.constant(np.ones([2, 3]))

# from numpy list
tf.convert_to_tensor(np.ones([2, 3]))
tf.convert_to_tensor([1, 2])
tf.convert_to_tensor([[1], [2]])

# tf.zeros 参数是shape
a = tf.zeros([2, 2])
# 生成一个和a一样的zeros tensor
tf.zeros_like(a)

# tf.ones 参数是shape
a = tf.ones([2, 2])
tf.ones_like(a)

# 填充为指定shape的值
a = tf.fill([2, 3], 1.1)

# 随机 shape 默认正太分布  均值    方差
tf.random.normal([2, 2], mean=1, stddev=1)
# 在原来分布基础上截去某部分，使用剩余部分重新采样截取部分
# 这是为了应对Gradient Vanish（梯度消失）的情况，比如sigmoid函数
# 左右两端的梯度几乎为0，不利于做梯度优化，可以截取掉
# 截取的是more than two standard deviations from the mean.
# 性能更好
tf.random.truncated_normal([2, 2], mean=0, stddev=1)

# 随机均匀分布
tf.random.uniform([2, 2], minval=0, maxval=1)

# 数据随机打散
# 准备需要打散的数据
a = tf.random.normal([10, 784])
b = tf.random.uniform([10], maxval=10, dtype=tf.int32)
# 准备用来打散的index
idx = tf.range(10)
# 打乱
idx = tf.random.shuffle(idx)
# 从a,b中，按照idx取数据
a = tf.gather(a, idx)
b = tf.gather(b, idx)

In [3]:
# 属性

# 在指定类型的硬件下声明tensor，该tensor只能在该类型硬件下运算
with tf.device("cpu"):
    a = tf.constant([1])

with tf.device("gpu"):
    b = tf.range(4)

a.device
b.device

# tensor硬件类型转换
# aa = a.gpu()  # 如果不支持，会报错
# aa.device

# tensor 转换为numpy
b.numpy()

# numpy 转换为tensor
tf.convert_to_tensor(b.numpy())


# 维度，返回int32
b.ndim
# 也是维度，返回tensor, value是维度
tf.rank(b)

# 历史遗留 无用
# b.name

<tf.Tensor: shape=(), dtype=int32, numpy=1>

In [4]:
# 类型判断与转换

tf.is_tensor(b)

b.dtype

b.dtype == tf.float32

tf.cast(a, dtype = tf.double)

c = tf.constant([0, 1])
tf.cast(c, dtype=tf.bool)

<tf.Tensor: shape=(2,), dtype=bool, numpy=array([False,  True])>

In [5]:
# tf.Variable, 需要优化的参数变量一般使用Variable
a = tf.range(5)
b = tf.Variable(a)

In [6]:
# 应用

# Scalar类型 一般用在 loss  accuracy等
# Vector 一般用在Bias，经常初始化从zeros开始
# Matrix 一般用在input和weight 
# Dim=3 Tensor 在自然语言学习中使用非常广泛
# Dim=4 Tensor 常用来表示图片，或者其他多维特征映射
# Dim=5 Tensor 常用作多任务中[task_b, b, h, w, 3]

In [7]:
# 索引和切片

# 传统索引方式
a = tf.ones([1, 5, 5, 3])
a[0][0] # shape=(5, 3)

# numpy风格索引
a[0, 0]

# 切片
a[:-1, 2:5] # shape=(0, 3, 5, 3)

# 带步长的切片[start:end:step]
a[0, 0::2] # shape=(3, 5, 3)

# 逆序步长
a[0, 5:0:-1]# shape=(4, 5, 3)

# ...  其余全要
a[0, ..., 0] # shape=(5, 5)

<tf.Tensor: shape=(5, 5), dtype=float32, numpy=
array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]], dtype=float32)>

In [8]:
# Selective Indexing

# tf.gather
a = tf.zeros([4, 35, 8])
# 等于 a[2:4, ...]
tf.gather(a, axis=0, indices=[2, 3]) # shape = [2, 35, 8]
# 选择指定维度的指定索引，其他全要
tf.gather(a, axis=1, indices=[2, 3, 7, 9, 16]) # shape = [4, 5, 8]


<tf.Tensor: shape=(4, 5, 8), dtype=float32, numpy=
array([[[0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.]]], dtype=float32)>

In [9]:
# gather_nd 同时选择多维数据
a = tf.zeros([4, 35, 8])
# 这里[0]等同于[[0]]
tf.gather_nd(a, [0]) # 选择第一维的0号  shape=[35, 8]

tf.gather_nd(a, [1, 2, 3]) # 返回标量

# 对于外层数组，里面每一个元素（这里是[1, 2, 3]), 都是一个选择结果，最后会合并到一起
tf.gather_nd(a, [[1, 2, 3]]) # shape=[1] 就是把上面那个标量结果变成了数组

tf.gather_nd(a, [[0, 0], [1, 1]]) # shape = [2, 8]

# tf.gather_nd(a, [[0], [1, 1]]) # 报错，选择的结果必须同维可合并

<tf.Tensor: shape=(2, 8), dtype=float32, numpy=
array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>

In [10]:
# tf.boolean_mask 通过boolean取数据
# mask的shape需要和被选择数据前面部分必须一一匹配，剩余部分默认为True
a = tf.zeros([4, 28, 28, 3])

# 取第一维的前两个
tf.boolean_mask(a, mask=[True, True, False, False]) # shape=[2, 28, 28, 3]

a = tf.zeros([2, 4, 28, 3]) 
tf.boolean_mask(a, mask=[[True, True, False, False], [True, False, False, False]]) # shape=[3, 28, 3]


<tf.Tensor: shape=(3, 28, 3), dtype=float32, numpy=
array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],


In [11]:
# Reshape  
a = tf.random.normal([4, 28, 28, 3])
# 注意自己要计算好reshape之后的大小 28 * 28 = 784
tf.reshape(a, [4, 784, 3])
# 自动计算
tf.reshape(a, [4, -1, 3])
# 少变多  size对应即可
tf.reshape(tf.reshape(a, [4, -1, 3]), [4, 14, 56, 3])

<tf.Tensor: shape=(4, 14, 56, 3), dtype=float32, numpy=
array([[[[ 1.03382349e-01,  3.78631830e-01,  9.27680969e-01],
         [-3.37328166e-01, -1.47686195e+00,  1.52661240e+00],
         [-1.33779836e+00,  4.78335202e-01,  1.09406114e+00],
         ...,
         [ 8.64131331e-01,  8.27117860e-02,  3.41694653e-01],
         [-1.21855581e+00,  8.51485208e-02, -9.34185565e-01],
         [ 1.61974835e+00,  7.97268569e-01, -6.70044124e-01]],

        [[ 3.29101980e-01,  1.33328414e+00, -2.22276115e+00],
         [-2.66947132e-02, -2.29775861e-01,  1.69420868e-01],
         [-1.73789084e-01, -3.03734094e-01, -7.26129830e-01],
         ...,
         [-2.07212687e+00, -1.75776348e-01,  1.01878631e+00],
         [-8.39054883e-01, -3.62023972e-02, -1.71052530e-01],
         [ 8.52244318e-01,  9.78794098e-01,  1.13390617e-01]],

        [[-5.45761883e-01,  1.04898870e+00, -5.81692532e-02],
         [-8.38464141e-01, -8.52202594e-01, -3.11570972e-01],
         [-6.55691683e-01,  1.35386384e+00, 

In [12]:
# transpose
a = tf.random.normal((4, 3, 2, 1))
tf.transpose(a)
# 指定维度索引  可以任意交换
tf.transpose(a, perm=[0, 1, 3, 2])
tf.transpose(a, perm=[0, 2, 1, 3])
tf.transpose(a, perm=[3, 1, 2, 0])
tf.transpose(a, perm=[2, 1, 0, 3])


<tf.Tensor: shape=(2, 3, 4, 1), dtype=float32, numpy=
array([[[[-0.58035177],
         [-1.4169061 ],
         [ 1.7271621 ],
         [ 0.42954794]],

        [[-1.2919784 ],
         [-0.07505352],
         [ 1.1952171 ],
         [-1.5278852 ]],

        [[ 0.56546307],
         [ 1.6869338 ],
         [-0.6958819 ],
         [-0.4694792 ]]],


       [[[ 0.31659147],
         [ 1.0487946 ],
         [-0.24663568],
         [ 0.06496384]],

        [[ 1.9085512 ],
         [-0.0539696 ],
         [-0.26888496],
         [ 0.9041332 ]],

        [[-0.4234201 ],
         [-0.06152235],
         [ 0.6107788 ],
         [ 1.4078987 ]]]], dtype=float32)>

In [13]:
# expand
a = tf.random.normal([4, 35, 8])
# 在第一维左侧扩展1维
tf.expand_dims(a, axis=0) # shape=[1, 4, 35, 8]
# 在最后一维右侧扩展1维
tf.expand_dims(a, axis=-1) # shape=[4, 35, 8, 1]

<tf.Tensor: shape=(4, 35, 8, 1), dtype=float32, numpy=
array([[[[-9.5695280e-02],
         [-1.1846492e+00],
         [-6.1886483e-01],
         ...,
         [ 1.6625385e+00],
         [-4.4551307e-01],
         [-2.5218001e-01]],

        [[ 1.6013453e+00],
         [ 1.1858669e-01],
         [-4.6176624e-01],
         ...,
         [-1.4035736e+00],
         [ 1.3376285e+00],
         [ 1.6886280e+00]],

        [[ 1.4687287e+00],
         [ 4.0634418e-01],
         [-3.9369121e-01],
         ...,
         [ 7.2865468e-01],
         [ 1.6348627e+00],
         [-3.7888911e-01]],

        ...,

        [[-9.3686306e-01],
         [ 1.5157517e+00],
         [-1.0635929e+00],
         ...,
         [ 5.0904006e-01],
         [ 1.8571318e+00],
         [-5.2319688e-01]],

        [[-9.7765940e-01],
         [-1.4136938e+00],
         [-2.1675227e+00],
         ...,
         [-3.8831267e-01],
         [-8.1954277e-01],
         [-5.1758093e-01]],

        [[-2.3112144e+00],
         [ 6.5

In [14]:
# squeeze 去除shpae=1的维度
a = tf.random.normal([1, 2, 1, 1, 3])
tf.squeeze(a) # shape = (2, 3)
tf.squeeze(a, axis=0) # shape=[2, 1, 1, 3]

<tf.Tensor: shape=(2, 1, 1, 3), dtype=float32, numpy=
array([[[[ 0.5526769 ,  0.40023252, -0.24634816]]],


       [[[ 0.67354494,  0.10918097, -0.03884691]]]], dtype=float32)>

### Broadcasting
在运算时，自动重复扩展tensor维度，使之可以计算。broadcast是计算时扩展，不会真的耗用内存。

Broadcasting是在计算时自动使用的，不需要调用函数

注意只有在缺少维度或者维度为1时才可以用，维度右对齐
![broadcast](images/broadcast.png)

In [15]:
# Broadcasting
# a = tf.random.normal([4, 4]) 报错
a = tf.random.normal([4, 4, 1])
b = tf.random.normal([4, 4, 3])
c = a + b
d = tf.constant([1, 2, 3, 4], dtype=tf.float32)
c = a + d
# # 显式扩展  需要右对齐 
e = tf.broadcast_to(a, [2, 4, 4, 1])
e = tf.broadcast_to(a, [4, 4, 2])
# e = tf.broadcast_to(a, [4, 4, 2, 3]) # 报错


In [16]:
# 计算
b = tf.fill([2, 2], 2.)
a = tf.ones([2, 2])

a + b
a - b
a * b # 对应相乘
a / b
b // a  # 整除
b % a #  取模
tf.math.log(a)
tf.exp(a)
# loga(c) * logc(b) = loga(b)
tf.math.log(8.) / tf.math.log(2.) # log2(8)

tf.pow(b, 3)
b**3
tf.sqrt(b)

a = tf.ones([4, 2, 3])
b = tf.fill([4, 3, 5], 2.)
a @ b # 叉乘

tf.reduce_sum(a)
tf.reduce_min(a)
tf.reduce_max(a)
tf.reduce_mean(a)

<tf.Tensor: shape=(), dtype=float32, numpy=1.0>

In [12]:
# 分割与拼接
a = tf.ones([4, 35, 8])
b = tf.ones([2, 35, 8])
# 拼接 其他维度size需要对应
c = tf.concat([a, b], axis=0) # shape = [6, 35, 8]

# stack 添加新维度, 其他维度同样需要size对应
a = tf.ones([4, 35, 8])
b = tf.ones([4, 35, 8])
c = tf.ones([4, 35, 8])
d = tf.stack([a, b, c], axis=0) # shape = [3, 4, 35, 8]
print("d shape:", d.shape)

# unstack 是 stack的逆操作
aa, bb, cc = tf.unstack(d, axis=0) # 输出与a, b, c相同
res = tf.unstack(d, axis=-1) # res有8个元素
res[7].shape # shape = [2, 4, 35]

# split  也是打散，打散为两个，每个均分（这里是4， 4），unstack只能默认打散为单个元素
res = tf.split(d, axis=3, num_or_size_splits=2)
res[0].shape
# 也支持指定具体划分的元素个数
res = tf.split(d, axis=3, num_or_size_splits=[2, 2, 4])

d shape: (3, 4, 35, 8)


In [18]:
# 数据统计

# 范数

# L2
a = tf.ones([2, 2])
tf.norm(a)
tf.sqrt(tf.reduce_sum(tf.square(a)))
# 可以指定ord, 表示L1或L2 , axis指定计算维度
tf.norm(a, ord=2, axis=1)
# output: <tf.Tensor: shape=(2,), dtype=float32, numpy=array([1.4142135, 1.4142135], dtype=float32)>

# L1
b = tf.ones([2, 2])
tf.norm(b, ord=1)

<tf.Tensor: shape=(2,), dtype=float32, numpy=array([1.4142135, 1.4142135], dtype=float32)>

In [None]:
# reduce_min/max/mean
a = tf.random.normal([4, 10])
tf.reduce_min(a)
tf.reduce_max(a)
tf.reduce_mean(a, axis = 1)

In [21]:
# argmax/argmin
a = tf.random.normal([4, 10])
print(a)
tf.argmax(a)  # 返回最大值的索引
# tf.argmax(a, axis=1)
tf.argmin(a)

tf.Tensor(
[[-0.05867646 -0.64204836  0.1763418  -0.07991748 -0.33094028  0.5517897
   1.2023951   0.17386363  0.35201925  0.7029319 ]
 [ 1.5775161   1.2917932   1.3159267  -1.8427761   1.0871787   0.02201064
  -0.10793854  0.7934641   0.62942845  0.09249011]
 [ 0.5220268  -1.5268722  -0.78689927 -0.0916415  -0.01834467 -1.504326
   0.5970509  -0.79951453  1.372252    0.302151  ]
 [ 1.337887   -0.12260935 -1.0658687   0.7733593  -0.4001968  -0.5283268
   1.0009756  -0.7635526   0.80160993 -1.177064  ]], shape=(4, 10), dtype=float32)


<tf.Tensor: shape=(10,), dtype=int64, numpy=array([1, 1, 1, 3, 1, 0, 0, 1, 2, 0], dtype=int64)>

In [None]:
# tf.equal  元素分别判断是否相等
a = tf.constant([1, 2, 3, 4, 5])
b = tf.range(5)
tf.equal(a, b)
tf.reduce_sum(tf.equal(a, b))

In [22]:
# tf.unique  排除重复元素
a = tf.range(5)
tf.unique(a)
a = tf.constant([4, 2, 2, 4, 3])
tf.unique(a)

Unique(y=<tf.Tensor: shape=(3,), dtype=int32, numpy=array([4, 2, 3])>, idx=<tf.Tensor: shape=(5,), dtype=int32, numpy=array([0, 1, 1, 0, 2])>)

In [None]:
# 排序
a = tf.random.shuffle(tf.range(5))
tf.sort(a, direction='DESCENDING')
# 返回排序后的索引
tf.argsort(a, direction='DESCENDING')

# top_k  常用作top-k accuracy
res = tf.math.top_k(a, 2) # 返回前两个 降序

In [24]:
# 填充

# pad 常用在图片和NLP
# pad填充的维度和目标数据一致
a = tf.reshape(tf.range(9), [3, 3])
# [上, 下] [左, 右]  各补0  不变
tf.pad(a, [[0, 0], [0, 0]])
tf.pad(a, [[1, 1], [1, 1]])
a = tf.random.normal([4, 28, 28, 3])
# [batch] [上, 下] [左, 右] [channel]
b = tf.pad(a, [[0, 0], [2, 2], [2, 2], [0, 0]])

# tile  重复填充
# 对[1, 2]shape的每一维填充a的对应维度，重复n次
tf.tile(a, [1, 1, 1, 2])

<tf.Tensor: shape=(4, 28, 28, 6), dtype=float32, numpy=
array([[[[ 0.10184436,  1.3941342 ,  0.30495882,  0.10184436,
           1.3941342 ,  0.30495882],
         [ 0.9633363 , -1.1735337 ,  0.13424675,  0.9633363 ,
          -1.1735337 ,  0.13424675],
         [ 1.4979811 ,  0.7593902 ,  0.35184157,  1.4979811 ,
           0.7593902 ,  0.35184157],
         ...,
         [-0.03552921, -1.0890055 ,  2.2608302 , -0.03552921,
          -1.0890055 ,  2.2608302 ],
         [ 0.7267494 ,  0.75925994, -1.8333805 ,  0.7267494 ,
           0.75925994, -1.8333805 ],
         [-0.72797203, -0.924185  , -1.8029569 , -0.72797203,
          -0.924185  , -1.8029569 ]],

        [[-0.44262668, -0.48167565,  0.3030205 , -0.44262668,
          -0.48167565,  0.3030205 ],
         [ 0.25028878,  1.1765306 ,  0.5807843 ,  0.25028878,
           1.1765306 ,  0.5807843 ],
         [ 0.6733307 , -1.0573034 , -2.3435066 ,  0.6733307 ,
          -1.0573034 , -2.3435066 ],
         ...,
         [ 0.33815154, 

In [28]:
# 张量限幅
a = tf.range(10)
tf.maximum(a, 2) # 大于2的不变，其余都变成2
tf.minimum(a, 8)
tf.clip_by_value(a, 2, 8) # 相当于上面俩的组合

tf.nn.relu(a) # 相当于 tf.maximum(a, 0)

a = tf.random.normal([2, 2], mean = 10)
tf.norm(a)
# 根据范数进行限制，这不会影响梯度方向，同时还能做到值得放缩
aa = tf.clip_by_norm(a, 15)
# 可以对多个参数做统一的范数缩放，保证所有参数的梯度方向不受影响
# 返回新的参数数组，缩放前的norm  范数一般在0~20之间比较能接受
new_grads, total_norm = tf.clip_by_global_norm([], 15)
# 示例参考forward.ipynb

<tf.Tensor: shape=(), dtype=float32, numpy=20.440294>

In [35]:
# 其他高级操作

# where
a = tf.reshape(tf.range(9), [3, 3])
mask = a > 5
tf.boolean_mask(a, mask)
indices = tf.where(mask) # 返回indices
tf.gather_nd(a, indices) # 结果与boolean_mask相同
# where还可以对两个tensor进行对比选择
a = tf.ones([3, 3])
b = tf.zeros([3, 3])
tf.where(mask, a, b)

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[0., 0., 0.],
       [0., 0., 0.],
       [1., 1., 1.]], dtype=float32)>

In [36]:
# scatter_nd(indices, updates, shape)
# 把shape上indices对应的位置使用udpates更新
# 支持多维
indices = tf.constant([[4], [3], [1], [7]])
updates = tf.constant([9, 10, 11, 12])
shape = tf.constant([8])
tf.scatter_nd(indices, updates, shape)

<tf.Tensor: shape=(8,), dtype=int32, numpy=array([ 0, 11,  0, 10,  9,  0,  0, 12])>

In [44]:
# meshgrid
y = tf.linspace(-2., 2, 5) # -2， 2平均等分为5个点
x = tf.linspace(-4., 4, 5)
# points_x, points_y对应组合起来，就是points
points_x, points_y = tf.meshgrid(x, y)
points_x
points_y

points = tf.stack([points_x, points_y], axis=2)
points

<tf.Tensor: shape=(5, 5, 2), dtype=float32, numpy=
array([[[-4., -2.],
        [-2., -2.],
        [ 0., -2.],
        [ 2., -2.],
        [ 4., -2.]],

       [[-4., -1.],
        [-2., -1.],
        [ 0., -1.],
        [ 2., -1.],
        [ 4., -1.]],

       [[-4.,  0.],
        [-2.,  0.],
        [ 0.,  0.],
        [ 2.,  0.],
        [ 4.,  0.]],

       [[-4.,  1.],
        [-2.,  1.],
        [ 0.,  1.],
        [ 2.,  1.],
        [ 4.,  1.]],

       [[-4.,  2.],
        [-2.,  2.],
        [ 0.,  2.],
        [ 2.,  2.],
        [ 4.,  2.]]], dtype=float32)>