In [1]:
import tensorflow as tf

In [2]:
tf.constant(1)  # constant在1.0代表这常量，现在概念得到了扩展，constant就可以代表一个tensor

<tf.Tensor: id=0, shape=(), dtype=int32, numpy=1>

In [3]:
tf.constant(1.1)  # 输入不同类型的数据可以看到这个tensor的数据类型是不一样的

<tf.Tensor: id=1, shape=(), dtype=float32, numpy=1.1>

In [4]:
tf.constant(1.1, dtype=tf.int32)  # 这种强制转换就会报错

TypeError: Cannot convert 1.1 to EagerTensor of dtype int32

In [5]:
tf.constant(2., dtype=tf.double)  # 也可以在创建tensor时指定数据类型

<tf.Tensor: id=3, shape=(), dtype=float64, numpy=2.0>

In [6]:
tf.constant([True, False])  # 也支持bool型

<tf.Tensor: id=4, shape=(2,), dtype=bool, numpy=array([ True, False])>

In [7]:
tf.constant('hello world')  # 支持字符串

<tf.Tensor: id=5, shape=(), dtype=string, numpy=b'hello world'>

In [8]:
# 在cpu的环境下创建tensor a
with tf.device('cpu'):
    a = tf.constant(1)
# 在cpu的环境下创建tensor b
with tf.device('gpu'):
    b = tf.range(4)

In [9]:
a.device  # tensor a使用cpu进行计算，如果两个tensor之间要进行运算，应该都属于cpu或者都属于gpu

'/job:localhost/replica:0/task:0/device:CPU:0'

In [10]:
b.device

'/job:localhost/replica:0/task:0/device:GPU:0'

In [11]:
b.numpy()  # 将tensor转化成numpy的方法

array([0, 1, 2, 3], dtype=int32)

In [12]:
b.shape  # 查看tensor的shape

TensorShape([4])

In [13]:
b.ndim  # 查看tensor的维度

1

In [14]:
tf.rank(b)  # 另外一个查看tensor维度的方法

<tf.Tensor: id=11, shape=(), dtype=int32, numpy=1>

In [15]:
tf.rank(tf.ones([3,2,5]))

<tf.Tensor: id=15, shape=(), dtype=int32, numpy=3>

In [16]:
tf.is_tensor(b)  # 判断某个数据类型是不是tensor

True

In [17]:
import numpy as np

In [18]:
a = np.arange(4)  # 生成一个np的数组
a.dtype

dtype('int64')

In [19]:
aa = tf.convert_to_tensor(a)  # 将np数据转换成tensor，数据类型和之前的np保持一致
aa

<tf.Tensor: id=16, shape=(4,), dtype=int64, numpy=array([0, 1, 2, 3])>

In [20]:
tf.cast(aa, dtype=tf.float32)  # 使用cast方法对tensor的数据类型进行转换

<tf.Tensor: id=17, shape=(4,), dtype=float32, numpy=array([0., 1., 2., 3.], dtype=float32)>

In [21]:
a = tf.range(4)
b = tf.Variable(a, name='input_data')  
# 将tensor转化为一个variable，那么tensorflow在求导过程中会观察和记录这个tensor的变化，这个类型是专门为w和b设计的

In [22]:
b.name

'input_data:0'

In [23]:
b.trainable  # b是可训练的变量，也就是w

True

In [24]:
a = tf.ones([])
a

<tf.Tensor: id=29, shape=(), dtype=float32, numpy=1.0>

In [25]:
a.numpy()  # tensor转化成numpy

1.0

In [26]:
int(a)  # 也可以用更简单的int和float直接转化tensor，前提是tensor是个标量

1

In [27]:
float(a)

1.0

# 创建Tensor

In [28]:
# 通过numpy和list生成tensor
tf.convert_to_tensor(np.ones([2, 3]))  # np.ones中的[2，3]指的是这个全是1的numpy array的shape

<tf.Tensor: id=30, shape=(2, 3), dtype=float64, numpy=
array([[1., 1., 1.],
       [1., 1., 1.]])>

In [29]:
# 也可以通过list生成tensor
tf.convert_to_tensor([1, 2, 3])

<tf.Tensor: id=31, shape=(3,), dtype=int32, numpy=array([1, 2, 3], dtype=int32)>

In [30]:
# 通过tf.zeros创建全0 tensor，注意这里的参数是shape，而不是数据
tf.zeros([2,3])

<tf.Tensor: id=34, shape=(2, 3), dtype=float32, numpy=
array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)>

In [31]:
# zeros_like生成一个和参数传入的tensor一样shape的tensor
a = tf.zeros([2,3])
tf.zeros_like(a)

<tf.Tensor: id=38, shape=(2, 3), dtype=float32, numpy=
array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)>

In [32]:
# 效果等同于
tf.zeros(a.shape)

<tf.Tensor: id=41, shape=(2, 3), dtype=float32, numpy=
array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)>

In [33]:
# 全1和全0类似
tf.ones([]) # 0维，标量

<tf.Tensor: id=42, shape=(), dtype=float32, numpy=1.0>

In [34]:
# 其他的和zeros类似
a = tf.ones([2,3,2])

In [35]:
tf.ones_like(a)

<tf.Tensor: id=48, shape=(2, 3, 2), dtype=float32, numpy=
array([[[1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.]]], dtype=float32)>

In [36]:
# 使用tf.fill可以填充想要的任意值
tf.fill([2,2], 3)  # 生成一个2维，全为3的tensor

<tf.Tensor: id=51, shape=(2, 2), dtype=int32, numpy=
array([[3, 3],
       [3, 3]], dtype=int32)>

In [37]:
# 生成一个符合正态分布的tensor
tf.random.normal([3,3], mean=0, stddev=1)  # 生成一个均值为0方差为1的tensor

<tf.Tensor: id=57, shape=(3, 3), dtype=float32, numpy=
array([[-0.6471571 , -0.75640047,  0.32862723],
       [-0.25665334,  1.1526947 , -0.78752023],
       [ 2.528621  , -0.3117622 , -0.8237221 ]], dtype=float32)>

In [38]:
# 截断的正态分布，就是正太分布钟形两端被截断，可以更好的控制梯度消失或者梯度弥散的情况
tf.random.truncated_normal([3,3], mean=0, stddev=1)

<tf.Tensor: id=63, shape=(3, 3), dtype=float32, numpy=
array([[-0.02154184,  1.2642413 , -0.09281835],
       [ 0.84378964,  0.24529667,  0.07580519],
       [-1.3535789 ,  0.42000017, -0.7193709 ]], dtype=float32)>

In [39]:
# 在min和max之间生成一个均匀分布的tensor
tf.random.uniform([3,3], minval=0, maxval=10)

<tf.Tensor: id=70, shape=(3, 3), dtype=float32, numpy=
array([[3.6038804 , 6.403823  , 1.9428456 ],
       [7.1298575 , 5.1035204 , 7.812749  ],
       [0.25856376, 3.1956518 , 5.9639883 ]], dtype=float32)>

## 1.随机打散示例

In [40]:
# 生成打散数据的index
idx = tf.range(10)
idx = tf.random.shuffle(idx)
idx

<tf.Tensor: id=75, shape=(10,), dtype=int32, numpy=array([9, 5, 4, 7, 6, 2, 3, 0, 1, 8], dtype=int32)>

In [41]:
# 模拟训练数据x和y
x = tf.random.normal([10, 784])  # 生成10张，28*28的图片数据
y = tf.random.uniform([10], minval=0, maxval=10, dtype=tf.int32)  # 生成10张图片的label
y

<tf.Tensor: id=85, shape=(10,), dtype=int32, numpy=array([3, 0, 5, 5, 3, 0, 9, 4, 0, 2], dtype=int32)>

In [42]:
# 按照idx中的顺序，打乱x和y中的顺序
x = tf.gather(x, idx)
y = tf.gather(y, idx)
y

<tf.Tensor: id=89, shape=(10,), dtype=int32, numpy=array([2, 0, 3, 4, 9, 5, 5, 3, 0, 0], dtype=int32)>

---------------------------------------------------------------------------------------------------------

In [43]:
tf.constant(1)  # 创建标量
tf.constant([2,3])  # 基于list创建tensor
tf.constant([[2,3],[3,4]]) # 基于array创建tensor

<tf.Tensor: id=92, shape=(2, 2), dtype=int32, numpy=
array([[2, 3],
       [3, 4]], dtype=int32)>

## 不同类型的tensor对应的常见场景

* 零维，标量，一般用于表示loss或者accuracy等
* 1维，向量，bias是一个向量
* 2维，矩阵，w权重是矩阵的应用场景
* 3维，自然语言处理的数据
* 4维，彩色图片

### loss -- 标量

In [44]:
# 模拟一个图像数据经过神经网路计算出来的out，batch为4，10种图像的分类
out = tf.random.uniform([4, 10])
out

<tf.Tensor: id=99, shape=(4, 10), dtype=float32, numpy=
array([[0.9009037 , 0.491099  , 0.11222684, 0.8388792 , 0.0382998 ,
        0.07786667, 0.04154062, 0.43900943, 0.52076685, 0.23543525],
       [0.83475673, 0.2510594 , 0.5441202 , 0.1895535 , 0.81888735,
        0.70424175, 0.13402808, 0.70369375, 0.7292924 , 0.5603734 ],
       [0.95362747, 0.01422775, 0.4395548 , 0.75687563, 0.4772532 ,
        0.69536746, 0.7056904 , 0.59150136, 0.54440236, 0.04641569],
       [0.36815977, 0.01336694, 0.42110777, 0.39152312, 0.09848773,
        0.32353485, 0.24431205, 0.4377017 , 0.8057051 , 0.79111767]],
      dtype=float32)>

In [45]:
# 模拟y值，并进行one-hot编码
y = tf.range(4)  # [0,1,2,3]
y = tf.one_hot(y, depth=10)  # depth代表分类的数量，根据label的值，将对应索引上的值设置为1，如第一个label的值为0，那么onehot后就是索引为0的数值为1
y

<tf.Tensor: id=107, shape=(4, 10), dtype=float32, numpy=
array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.]], dtype=float32)>

In [46]:
# 计算这个batch的out和对应label之间的偏差（loss）
loss = tf.keras.losses.mse(y, out)
loss

<tf.Tensor: id=110, shape=(4,), dtype=float32, numpy=array([0.14959243, 0.41152954, 0.36542752, 0.23239699], dtype=float32)>

In [47]:
# 通过reduce方法把这些loss合并成一个平均的差值，类型为scalar(shape=())
loss = tf.reduce_mean(loss)
loss

<tf.Tensor: id=112, shape=(), dtype=float32, numpy=0.28973663>

### 向量 --- bias

* out = x@w + b
* x 为 [784]
* w 为 [784, 10]
* x和w点乘的结果就是[10], 每个数据都需要加bias
* 因此b的shape是[10]

In [48]:
from tensorflow.keras import layers

In [49]:
net = layers.Dense(10)

In [50]:
net.build(input_shape=(4,8))  # 定义网络的input shape，也就是4个batch，长度为8的数据，经过dense层升维到10

In [51]:
net.kernel  # kernel就代表w，kernel应该为[8, 10]，w随机初始化

<tf.Variable 'kernel:0' shape=(8, 10) dtype=float32, numpy=
array([[-0.36762255, -0.40234473,  0.14707667,  0.3068149 ,  0.29096687,
        -0.56495684, -0.5493475 ,  0.4664991 ,  0.3740704 ,  0.08597529],
       [ 0.16336298, -0.05311072,  0.28782773,  0.16551393,  0.12968367,
        -0.3326549 ,  0.17083842,  0.32927376,  0.3273965 , -0.39370495],
       [-0.47713506, -0.20890498, -0.01845926,  0.22738075, -0.5685625 ,
         0.47974062,  0.1435861 , -0.14752722, -0.260614  ,  0.28868145],
       [ 0.07531053, -0.02855474, -0.2450509 , -0.5104139 ,  0.31834346,
         0.2326082 , -0.31403762, -0.2615781 , -0.2610374 ,  0.48345625],
       [ 0.22568232, -0.16163534,  0.2705713 , -0.19822821, -0.1915363 ,
         0.08196634,  0.54698896, -0.49034655, -0.15472114,  0.41734952],
       [-0.23846456,  0.09396815,  0.51563823,  0.00149918, -0.29706427,
        -0.10834485,  0.39740652, -0.10874212,  0.1254381 ,  0.21266383],
       [-0.18162653,  0.563465  ,  0.23032486,  0.32660323

In [52]:
net.bias  # 因为x@w为[10], 每个数据都要+bias，所以bias就是[10],这里初始化为了0

<tf.Variable 'bias:0' shape=(10,) dtype=float32, numpy=array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>

### 矩阵

* input: [batch, data_dim]
* weight: [input_dim, output_dim]
* input@weight: [batch, output_dim]

In [53]:
x = tf.random.normal([4, 784])  # 四个样本，每个样本784维
x

<tf.Tensor: id=144, shape=(4, 784), dtype=float32, numpy=
array([[-0.10737687,  0.7357879 ,  0.8955191 , ...,  0.20486528,
        -0.76882577,  2.1671863 ],
       [-0.08595582, -0.49655247,  0.81240743, ..., -0.00590105,
        -0.30398244, -1.1876712 ],
       [ 0.42948797,  0.14905247, -0.76047176, ..., -0.02321016,
        -0.3696737 ,  0.5026917 ],
       [-0.22531568,  0.41857755, -0.47800097, ...,  0.3747404 ,
         0.21463205,  0.8423281 ]], dtype=float32)>

In [54]:
net = layers.Dense(10)  # 全连接层，output_dim为10
net.build([4, 784])  # 创建神经网络，输入的shape为[4, 784]

In [55]:
net.kernel  # kernel就是w，他的shape是[input_dim, output_dim]

<tf.Variable 'kernel:0' shape=(784, 10) dtype=float32, numpy=
array([[-0.01537811,  0.02898147,  0.05171487, ..., -0.05733489,
        -0.03761344,  0.02921578],
       [-0.00643191, -0.06343535,  0.06614535, ..., -0.07584047,
        -0.07752047, -0.03561525],
       [ 0.05309122,  0.05905093,  0.0541139 , ...,  0.05284291,
         0.07353561, -0.03689518],
       ...,
       [-0.06798427,  0.0413749 , -0.02310529, ...,  0.04963029,
         0.02444092,  0.01763151],
       [ 0.03367899, -0.06071454, -0.07234892, ...,  0.03883918,
        -0.05440686, -0.07022546],
       [ 0.02688614,  0.03468146,  0.06225447, ...,  0.01673573,
        -0.00866447, -0.04295488]], dtype=float32)>

In [56]:
net.bias  # bias的shape=output_dim

<tf.Variable 'bias:0' shape=(10,) dtype=float32, numpy=array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>

### 3维

常见与nlp领域，[b, seq_len, word_dim], b代表有几个句子，seq_len是每个句子的长度， word_dim是句子中每个单词的向量

### 4维tensor ---- 图像

图像的shape一般是4维：[batch, height, width, color], 图片数，高度，宽度，RGB三色数据

# 索引和切片

## 索引

In [57]:
# numpy风格的索引，tensor[idx1, idx2, idx3, idx4], 每个idx代表那一维的索引
import tensorflow as tf
x = tf.random.normal([4,28,28,3])  # 模拟一个图片的batch

In [58]:
x[1].shape  # 第二张照片的shape

TensorShape([28, 28, 3])

In [59]:
x[1, 2].shape  # 以此类推，第二张图片第三行的像素的shape

TensorShape([28, 3])

In [60]:
x[1, 2, 3].shape  # 第二张照片第三行第四个像素的RGB数据的shape

TensorShape([3])

In [61]:
x[1, 2, 3, 2].shape  # 第二张照片第三行第四个像素的blue通道的shape，是个标量

TensorShape([])

## 切片

In [62]:
# start:end,[2:3), 前闭后开，包括冒号前的索引值的数据，不包括冒号后的
x = tf.range(10)
x

<tf.Tensor: id=196, shape=(10,), dtype=int32, numpy=array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)>

In [63]:
x[2:9]  # 前闭后开

<tf.Tensor: id=200, shape=(7,), dtype=int32, numpy=array([2, 3, 4, 5, 6, 7, 8], dtype=int32)>

In [64]:
x[2:]  # 冒号后为空，表示从index 2的位置到最后一个元素的切片

<tf.Tensor: id=204, shape=(8,), dtype=int32, numpy=array([2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)>

In [65]:
x[:2]  # 冒号前为空表示从第一个元素到index 2（不包括）的切片

<tf.Tensor: id=208, shape=(2,), dtype=int32, numpy=array([0, 1], dtype=int32)>

In [66]:
x[-1:]  # 负号表示倒序的索引，-1表示倒数第一个元素

<tf.Tensor: id=212, shape=(1,), dtype=int32, numpy=array([9], dtype=int32)>

In [67]:
# 多维切片
x = tf.random.normal([4,28,28,3])

In [68]:
x[2,:,:,:].shape  # 冒号两边留空，代表这个维度多有的元素都包括，可以用这种方式进行更灵活的索引

TensorShape([28, 28, 3])

In [69]:
x[2,3,:,:].shape  # 这种很好理解，普通的numpy风格索引也可以很好的完成

TensorShape([28, 3])

In [70]:
x[2,:,3,:].shape  # 但是这种隔着维度的索引就只能这么完成

TensorShape([28, 3])

In [71]:
x[:,:14,:14,:].shape  # 如果是图片，这个代表取左上角的取片区域

TensorShape([4, 14, 14, 3])

In [72]:
# start:end:step, 设置step，定义取数据的步长
x[:,2:26:2,2:26:2,:].shape  # 图像的行和列，每2行取1行

TensorShape([4, 12, 12, 3])

In [73]:
# ::-1倒序排列
x = tf.range(10)

In [74]:
x[::-1]  # 倒序排列

<tf.Tensor: id=246, shape=(10,), dtype=int32, numpy=array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0], dtype=int32)>

In [75]:
x[3:1:-1]  # 当step为-1时，start index=3，end index =1，这时候索引值就需要逆向的看，从index 3开始往回切片，到index 1处（不包含）

<tf.Tensor: id=250, shape=(2,), dtype=int32, numpy=array([3, 2], dtype=int32)>

In [76]:
x[9:1:-2]  # 倒序跳着取

<tf.Tensor: id=254, shape=(4,), dtype=int32, numpy=array([9, 7, 5, 3], dtype=int32)>

In [77]:
# ...表示没有定义的索引或者切片的维度，都按:::处理，就是保留这些维度的所有数据，...只能出现一次，需要能明确...代表哪些维度才可以用
x = tf.random.normal([2,4,28,28,3])  # 多一维，2表示task

In [78]:
x[1,...,2].shape  # 取第二个task中，所有图片的B通道

TensorShape([4, 28, 28])

In [79]:
x[1,...].shape  # 取第二个task,所有图片数据

TensorShape([4, 28, 28, 3])

In [80]:
x[1,2,...,2].shape  # 取第二个task，第三个图片，B通道的数据

TensorShape([28, 28])

### 选择性的索引

上边这些索引和切片的方式还是具有一定的规律的，如果是无规律的取样本，比如这样的tensor [班级，学生，科目]，描述学生成绩的tensor，我想取第一个班级的第2、3、7、5号学生的成绩，上边的所以方式是不能满足要求的，所以需要选择性索引。如果要对某一个维度进行选择性索引，可以使用tf.gather,如果要做更复杂的索引，比如取第一个班级第二个学生的第7个科目，取第三个班级第10个学生的第七个科目的成绩就需要tf.gather_nd

In [81]:
# 模拟班级数据
import tensorflow as tf
x = tf.random.normal([4, 35, 8])  # 模拟4个班级，35个学生，8门科目

In [82]:
# 从某个维度，选择indices，获取数据
tf.gather(x, axis=0, indices=[3,2]).shape  # 选择第4和第3个班级, axis代表从那个维度（轴）选取索引，0代表第一个维度

TensorShape([2, 35, 8])

In [83]:
tf.gather(x, axis=1, indices=[2,3,8,15,7]).shape  # 选取学生

TensorShape([4, 5, 8])

In [84]:
# 复杂的索引用gather_nd
# 下面的例子是选取：第二个班级的第六个学生的成绩，以及第四个班级的第十一个学生的成绩
# 得到的结果分别是一个一维的数组，shape是[8]
# 2个组合到一起就是[2,8]的tensor
tf.gather_nd(x, [[1,5],[3,10]]).shape  

TensorShape([2, 8])

In [85]:
# 同理，下面的例子是分别得到某个学生的某科成绩，那么就是一个标量，两个标量就是一个一维的数组
tf.gather_nd(x, [[1,5,2],[3,10,7]]).shape 

TensorShape([2])

In [86]:
# 如果再包一层[]，就相当于再数组的基础上再增加一个维度
tf.gather_nd(x, [[[1,5,2],[3,10,7]]]).shape 

TensorShape([1, 2])

In [87]:
# 也可以通过boolean数组，来控制对tensor数据的选取
x = tf.random.normal([4, 28, 28, 3])

In [88]:
tf.boolean_mask(x, mask=[True,False,True,False]).shape  # 默认在axis=0的维度选取, mask的length要等于要选取那个维度的length

TensorShape([2, 28, 28, 3])

In [89]:
tf.boolean_mask(x, mask=[True,False,True], axis=3).shape  # 选取RGB通道

TensorShape([4, 28, 28, 2])

In [90]:
x = tf.ones([2,3,4])
# 如果mask是这种多维的数据，那么用法就跟gather_nd类似
# mask的维度要跟你要选取的tensor的维度一样
# 比如下面这个mask的维度[2,3],对应的就是x的维度[2,3,4]的前两维
# 因此对应的[True,False,False],[False,True,True]
# index_0=0的数据第一个数据要，后两个不要
# index_0=1的第一个数据不要，后两个要
# 他们返回的数据的shape都是[4]，一共取了3个数据，所以最终的结果的shape是[3,4]
tf.boolean_mask(x, mask=[[True,False,False],[False,True,True]]) 

<tf.Tensor: id=383, shape=(3, 4), dtype=float32, numpy=
array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]], dtype=float32)>

# 维度变换

**View**  
每个content都可以通过不同的view进行展现，比如一个batch的图片数据[4,28,28,3]
* view1: [4,28,28,3] 最原始的图片视图，4张照片，height长度为28个像素，width长度为28个像素，每个像素3个通道
* view2: [4,784,3] 抹掉宽和高的信息，把每行的数据尾首向连，打平，784个像素展开存储，每个像素3个通道
* view3: [4,2,14,28,3]  增加一维的信息，将图片上下坎成2张照片，宽和通道的信息不变  

所以一个数据可以有不同的view

## Reshape

In [92]:
x = tf.random.normal([4,28,28,3])

In [94]:
tf.reshape(x,shape=[4,28*28,3]).shape  # 打平图片数据,通过维度长度相乘的方式

TensorShape([4, 784, 3])

In [96]:
tf.reshape(x,shape=[4,784,3]).shape  # 直接写数字

TensorShape([4, 784, 3])

In [97]:
tf.reshape(x,shape=[4,-1,3]).shape  # 写-1，tf自己帮你计算出结果

TensorShape([4, 784, 3])

In [98]:
tf.reshape(x,shape=[4,2,14,28,3]).shape  # 增加一维

TensorShape([4, 2, 14, 28, 3])

In [101]:
tf.reshape(tf.reshape(x, [4,-1]), shape=[4,1,784,3]).shape  # 只要前后的shape的维度数可以匹配就都可以变换

TensorShape([4, 1, 784, 3])

## transpose 转置

In [102]:
# 模拟一个tensor，每个维度的长度分别为1、2、3、4
x = tf.random.normal([1,2,3,4])

In [103]:
# 如果直接转置的化，数据会沿着一个轴旋转180度，如果是[h,w]，就是相当与高度变宽度，宽度变高度
tf.transpose(x).shape

TensorShape([4, 3, 2, 1])

In [104]:
# 也可以传入perm参数，指定哪些维度的数据进行转置（交换），这里传入的list代表维度对应的索引值
tf.transpose(x, perm=[0,2,1,3]).shape  # 两端的维度不变，中间两个维度转置

TensorShape([1, 3, 2, 4])

In [105]:
# 转置一个场景是进行pytorch和tensorflow数据格式的转换，pytorch表示一组图片的格式是[b,c,h,w],而tensorflow是[b,h,w,c]
x = tf.random.normal([4,28,28,3])
tf.transpose(x, perm=[0,3,1,2]).shape  # c前提到第二个位置，h和w的位置向后平移

TensorShape([4, 3, 28, 28])

## Squeeze（挤压）& Expand_dims（扩展维度）

In [106]:
# 对于长度为1的维度，squeeze会挤压掉这些维度
tf.squeeze(tf.ones([1,2,1,1,3])).shape

TensorShape([2, 3])

In [108]:
# 也可以通过axis参数指定挤压掉哪个维度
tf.squeeze(tf.ones([1,2,1,1,3]), axis=2).shape

TensorShape([1, 2, 1, 3])

In [109]:
x = tf.random.normal([4, 35, 8])
# 当axis为正数时，会再axis索引值的位置之前增加一个维度
tf.expand_dims(x, axis=0).shape

TensorShape([1, 4, 35, 8])

In [110]:
# 没有索引值为3的维度，所以会在3的位置之前，2的位置之后增加一个维度
tf.expand_dims(x, axis=3).shape

TensorShape([4, 35, 8, 1])

In [111]:
# 如果axis值为负值时，会再索引值坐在的位置之后增加一个维度
tf.expand_dims(x, axis=-1).shape

TensorShape([4, 35, 8, 1])

In [112]:
# 由于第一个维度的索引值为-3，axis=-4维度会在第一个维度之前，所以新增加的维度会在-4之后，-3之前
tf.expand_dims(x, axis=-4).shape

TensorShape([1, 4, 35, 8])

## Broadcasting

当两个tensor之间要进行运算时，如果两个tensor的shape不一样，那么其中一个tensor会进行自动的broadcasting，将tensor进行类似extention的操作，但是没有真正的进行数据的复制，不会占用不必要的内存空间，如下例：  
x = [b,784]  
w = [784,10]  
bias = [10]  
x@w + b ==> [b,10] + [10]  
[b,10]和[10]的shape是不同的，那么[10]就会自动进行broadcasting  
broadingcasting的原则是，将两个tensor右对齐  
  [10]  
[b,10]  
右边的维度常称为小维度， 左边的维度常称为大维度，一般大维度和小维度之间都有包含关系  
* 如果两个tensor的对应的小维度，长度相同，那么我们就向左扩展大维度,使得维度相同 
[1,10]  
[b,10]  
* 之后，将大维度复制成和另外一个tensor一样的shape
[b,10]  
[b,10]  
  
不是任意的两个tensor都可以自动的进行broadcasting：  
* 如果shape小的tensor的维度长度是非1，且和另一个tensor对应的维度长度不同，那么就不能broadcasting  
   [3]  
[b,10]

In [113]:
x = tf.random.normal([4,28,28,3])
# 自动会进行broadcasting
(x + tf.random.normal([3])).shape

TensorShape([4, 28, 28, 3])

In [114]:
# 自动会进行broadcasting
(x + tf.random.normal([1,1,3])).shape

TensorShape([4, 28, 28, 3])

In [115]:
# 自动会进行broadcasting
(x + tf.random.normal([28,1,3])).shape

TensorShape([4, 28, 28, 3])

In [117]:
# 这样就会报错
(x + tf.random.normal([2,28,28,3])).shape

InvalidArgumentError: Incompatible shapes: [4,28,28,3] vs. [2,28,28,3] [Op:AddV2] name: add/

In [118]:
# 也可以手动对tensor进行broadcasting
tf.broadcast_to(tf.random.normal([1,1,3]), [4,28,28,3]).shape

TensorShape([4, 28, 28, 3])

### broadcasting vs tile  
broadcasting不会真正的复制数据，只是方便tensor之间的运算  
我们也可以使用expand_dim和tile的方式，扩展tensor的shape，但这种操作是真的占用内存空间

In [120]:
# broadcasting方式
a = tf.ones([3,4])
a1 = tf.broadcast_to(a, [2,3,4])
a1.shape

TensorShape([2, 3, 4])

In [121]:
# expand_dim + tile 方式
a2 = tf.expand_dims(a, axis=0)
a2.shape

TensorShape([1, 3, 4])

In [123]:
a2 = tf.tile(a2, [2,1,1])  # 在索引为0的维度上，length * 2的复制
a2.shape

TensorShape([2, 3, 4])

## 基本运算操作

* element-wise 对位运算   
   * \+ \- \* / //（整除） %（取余）\**或者pow（几次方）sqrt(开方) log exp，两个tensor进行这些运算是，两个tensor中相同index的元素会进行对应的运算
* matrix-wise 矩阵运算
   * @ matmul，矩阵乘法，点乘，矩阵乘法
* dim-wise 维度运算
   * reduce_mean/max/min/sum， 对于某个维度（axis）的数据进行reduce操作，平均数、最大值、最小值和总和等运算

In [129]:
# 加法，元素一一对应相加
a = tf.fill([2,2], 2.)
b = tf.ones([2,2])
a + b

<tf.Tensor: id=545, shape=(2, 2), dtype=float32, numpy=
array([[3., 3.],
       [3., 3.]], dtype=float32)>

In [130]:
# log运算，tf只支持以e为底的log运算
a = tf.ones([2,2])
tf.math.log(a)  # e为底，1的log结果为0

<tf.Tensor: id=549, shape=(2, 2), dtype=float32, numpy=
array([[0., 0.],
       [0., 0.]], dtype=float32)>

In [134]:
# 如果要计算非e为底的log，需要做一下转换 log_a^b / log_a^c = log_c^b
# 下例为，要计算以10为底，100的log值，应该为2
a = tf.fill([2,2],100.)
b = tf.fill([2,2],10.)
tf.math.log(a) / tf.math.log(b)

<tf.Tensor: id=577, shape=(2, 2), dtype=float32, numpy=
array([[2., 2.],
       [2., 2.]], dtype=float32)>

In [136]:
# exp，计算自然数e的几次方
a = tf.fill([2,2],2.)
tf.exp(a)

<tf.Tensor: id=582, shape=(2, 2), dtype=float32, numpy=
array([[7.389056, 7.389056],
       [7.389056, 7.389056]], dtype=float32)>

In [140]:
# @和matmul, 矩阵乘法
a = tf.fill([2,3], 2.)
b = tf.ones([3,5])
(a@b).shape

TensorShape([2, 5])

In [141]:
tf.matmul(a, b)  #matmul和@效果一样

<tf.Tensor: id=609, shape=(2, 5), dtype=float32, numpy=
array([[6., 6., 6., 6., 6.],
       [6., 6., 6., 6., 6.]], dtype=float32)>

In [143]:
# 如果增加一个维度，代表batch，那么会对batch维度之后的矩阵进行矩阵乘法，保留batch维度，这样可以并行的计算
a = tf.fill([4,2,3], 2.)
b = tf.ones([4,3,5])
(a@b).shape

TensorShape([4, 2, 5])

In [144]:
# 如果其中一个tensor和另一方的维度不一致，tf会自动的尝试broadcasting，然后进行运算
a = tf.fill([4,2,3], 2.)
b = tf.ones([3,5])
(a@b).shape

TensorShape([4, 2, 5])

In [146]:
# 当然你也可以自己手动的broadcasting
(a@tf.broadcast_to(b, [4,3,5])).shape

TensorShape([4, 2, 5])

In [148]:
# 线性回归 + relu函数的例子
x = tf.fill([4,3], 2.0)
w = tf.ones([3,1])
b = tf.constant(0.1)

out = x@w + b
print(out)

from tensorflow import nn

tf.nn.relu(out)  # relu函数会保留大于0的数据，小于0的都置为0

tf.Tensor(
[[6.1]
 [6.1]
 [6.1]
 [6.1]], shape=(4, 1), dtype=float32)


<tf.Tensor: id=656, shape=(4, 1), dtype=float32, numpy=
array([[6.1],
       [6.1],
       [6.1],
       [6.1]], dtype=float32)>