In [16]:
import tensorflow as tf
import numpy as np

## 1. 合并
### 1.1 拼接

In [2]:
# 使用concat方法拼接
a = tf.random.normal([3,5,10])
b = tf.random.normal([4,5,10])
c = tf.concat([a,b], axis = 0)
c.shape

TensorShape([7, 5, 10])

注意拼接的维度的长度可以不同，但是其它维度必须相同

### 1.2 堆叠

In [7]:
# 使用stack方式进行拼接
a = tf.random.normal([3,4])
b = tf.random.normal([3,4])
c = tf.stack([a, b], axis = 0)
d = tf.stack([a, b], axis = 1)
e = tf.stack([a, b], axis = 2)
c.shape, d.shape, e.shape

(TensorShape([2, 3, 4]), TensorShape([3, 2, 4]), TensorShape([3, 4, 2]))

stack方式中，进行拼接的数据的形状必须相同。


- concat方式不产生新的维度
- stack方式产生新的维度

## 2. 分割

In [12]:
# 使用tf.split方式分割，可以指定分割的维度和分割方式
x = tf.random.normal([10,35,7])
result_1 = tf.split(x, axis = 0, num_or_size_splits = 2)
result_2 = tf.split(x, axis = 1, num_or_size_splits = [20, 15])
result_1[0].shape, result_1[1].shape, result_2[0].shape, result_2[1].shape

(TensorShape([5, 35, 7]),
 TensorShape([5, 35, 7]),
 TensorShape([10, 20, 7]),
 TensorShape([10, 15, 7]))

axis指定分割维度，num_or_size_splits中，如果是整数，则表示等分成几份，如果是列表，则表示按照列表中的长度对该维度进行分割

In [14]:
# 使用tf.unstack方式切割
result_3 = tf.unstack(x, axis = 0)
result_4 = tf.unstack(x, axis = 1)
len(result_3), len(result_4)

(10, 35)

tf.unstack方式将指定维度按照长度为1进行切分

## 3. 数据统计
### 3.1 范数计算

In [20]:
# 使用tf.norm进行范数计算
x = tf.ones([2,2])
L1 = tf.norm(x, ord = 1)
L2 = tf.norm(x, ord = 2)
Linf = tf.norm(x, ord = np.inf)
L1, L2, Linf

(<tf.Tensor: id=282, shape=(), dtype=float32, numpy=4.0>,
 <tf.Tensor: id=287, shape=(), dtype=float32, numpy=2.0>,
 <tf.Tensor: id=291, shape=(), dtype=float32, numpy=1.0>)

- ord = 1，计算L1范数
- ord = 2，计算L2范数
- ord = np.inf，计算无穷范数

### 3.2 最大最小值

In [28]:
# tf.reduce_max, tf.reduce_min
x = tf.random.normal([4, 10])
x_max_0 = tf.reduce_max(x, axis = 0)
x_max_1 = tf.reduce_max(x, axis = 1)
x_min_0 = tf.reduce_min(x, axis = 0)
x_max = tf.reduce_max(x)
x_max_0.shape, x_max_1.shape, x_min_0.shape, x_max

(TensorShape([10]),
 TensorShape([4]),
 TensorShape([10]),
 <tf.Tensor: id=361, shape=(), dtype=float32, numpy=2.7056465>)

- 参数axis表示计算在哪个维度上的最大值或最小值
- 不指定axis时，计算全局的最大值或最小值

### 3.3 均值与和

In [33]:
# tf.reduce_mean
x_mean_0 = tf.reduce_mean(x, axis = 0)
x_mean = tf.reduce_mean(x)
x_sum_0 = tf.reduce_sum(x, axis = 0)
x_sum = tf.reduce_sum(x)
x_mean_0.shape, x_mean, x_sum_0.shape, x_sum

(TensorShape([10]),
 <tf.Tensor: id=375, shape=(), dtype=float32, numpy=0.19448729>,
 TensorShape([10]),
 <tf.Tensor: id=379, shape=(), dtype=float32, numpy=7.7794914>)

- 参数axis表示计算在哪个维度上的均值与和
- 不指定axis时，计算全局的均值与和

### 3.4 最大值与最小值的索引

In [37]:
# tf.argmax, tf.argmin
max_index_1 = tf.argmax(x, axis = 0)
min_index_1 = tf.argmin(x, axis = 0)
max_index_2 = tf.argmax(x, axis = 1)
max_index_1, min_index_1, max_index_2

(<tf.Tensor: id=389, shape=(10,), dtype=int64, numpy=array([2, 2, 0, 0, 3, 3, 1, 3, 1, 1], dtype=int64)>,
 <tf.Tensor: id=391, shape=(10,), dtype=int64, numpy=array([3, 3, 1, 3, 1, 1, 0, 0, 0, 3], dtype=int64)>,
 <tf.Tensor: id=393, shape=(4,), dtype=int64, numpy=array([2, 6, 1, 4], dtype=int64)>)

### 3.5 张量比较

In [40]:
# 伪预测值
# 得到100个预测样本，对10个类进行预测
predict = tf.random.normal([100, 10])

# 转换成概率
predict = tf.nn.softmax(predict, axis = 1)

# 哪个类概率越大，则归为该类
predict = tf.argmax(predict, axis = 1)
predict

<tf.Tensor: id=419, shape=(100,), dtype=int64, numpy=
array([1, 7, 9, 0, 6, 9, 5, 2, 8, 6, 5, 7, 1, 0, 7, 4, 0, 2, 5, 8, 2, 4,
       0, 8, 4, 6, 4, 1, 1, 2, 3, 6, 1, 1, 3, 5, 1, 7, 8, 8, 9, 8, 5, 1,
       2, 9, 1, 7, 9, 1, 0, 1, 8, 3, 7, 7, 8, 0, 6, 6, 8, 5, 3, 4, 6, 7,
       0, 6, 5, 5, 8, 9, 3, 8, 7, 5, 3, 5, 9, 7, 7, 2, 7, 4, 2, 8, 4, 3,
       3, 1, 6, 2, 5, 1, 6, 1, 9, 9, 3, 7], dtype=int64)>

In [43]:
# 伪真实值
true_value = tf.random.uniform([100], dtype = tf.int64, maxval = 10)
true_value

<tf.Tensor: id=427, shape=(100,), dtype=int64, numpy=
array([0, 2, 4, 5, 0, 7, 2, 7, 4, 7, 1, 1, 8, 3, 4, 9, 1, 1, 7, 8, 0, 4,
       2, 3, 9, 5, 3, 4, 6, 3, 3, 1, 0, 5, 3, 0, 0, 6, 4, 8, 2, 5, 7, 0,
       8, 4, 9, 8, 5, 0, 5, 2, 7, 8, 1, 0, 3, 7, 1, 9, 7, 2, 7, 1, 3, 1,
       1, 8, 5, 8, 0, 3, 9, 5, 7, 8, 7, 9, 1, 9, 8, 0, 4, 5, 8, 8, 0, 2,
       0, 7, 1, 5, 7, 6, 7, 2, 5, 0, 9, 4], dtype=int64)>

In [44]:
# tf.equal比较两个张量中对应位置是否相等
result = tf.equal(predict, true_value)
result

<tf.Tensor: id=428, shape=(100,), dtype=bool, numpy=
array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False,  True, False,  True, False, False, False, False, False,
       False, False, False,  True, False, False, False,  True, False,
       False, False, False,  True, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False,  True, False, False, False,
       False, False,  True, False, False, False, False, False, False,
       False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False])>

In [45]:
# 将bool型转换成int
out = tf.cast(result, dtype = tf.int32)

# 统计正确个数
correct = tf.reduce_sum(out)
correct

<tf.Tensor: id=431, shape=(), dtype=int32, numpy=8>

#### 其它比较函数
- 大于 tf.greater
- 小于 tf.less
- 大于等于 tf.greater_equal
- 小于等于tf.less_equal
- 不等 tf.not_equal

## 4. 填充
对于图片数据的高和宽、序列信号的长度，维度长度可能各不相同。为了方便网络的并行计算，需要将不同长度的数据扩张为相同长度，通常的做法是，在需要补充长度的信号开始或结束处填充足够数量的特定数值，如0，使得填充后的长度满足系统要求。

In [62]:
x = tf.random.uniform([12], minval = 1, maxval = 5, dtype = tf.int32)
x = tf.reshape(x, [2,2,3])
x

<tf.Tensor: id=471, shape=(2, 2, 3), dtype=int32, numpy=
array([[[3, 1, 4],
        [1, 4, 2]],

       [[4, 1, 1],
        [3, 2, 1]]])>

In [64]:
# 使用tf.pad方式进行填充
y = tf.pad(x, paddings = [[1,0],[0,0],[0,2]])
y

<tf.Tensor: id=475, shape=(3, 2, 5), dtype=int32, numpy=
array([[[0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0]],

       [[3, 1, 4, 0, 0],
        [1, 4, 2, 0, 0]],

       [[4, 1, 1, 0, 0],
        [3, 2, 1, 0, 0]]])>

paddings参数是一个嵌套list参数
- [1,0]表示在第一个维度的开始填充一个单元，右边不填充
- [0,0]表示在第二个维度不进行填充
- [0,2]表示在第三个维度的右边填充两个单元

In [84]:
# 也可以通过下面的方法进行自动填充，使长度相等
a = [[1,2,3,5,6,3,2,5,5,4],[3,4,5,6,2,24,5]]
train = tf.keras.preprocessing.sequence.pad_sequences(a, maxlen = 9, value = 0)
train_2 = tf.keras.preprocessing.sequence.pad_sequences(a, maxlen = 9, \
                                                        truncating = 'post', \
                                                        padding = 'post')
train, train_2

(array([[ 2,  3,  5,  6,  3,  2,  5,  5,  4],
        [ 0,  0,  3,  4,  5,  6,  2, 24,  5]]),
 array([[ 1,  2,  3,  5,  6,  3,  2,  5,  5],
        [ 3,  4,  5,  6,  2, 24,  5,  0,  0]]))

truncating和padding参数
- post是指截断和填充在后面
- pre是指截断和填充在前面

## 5. 数据限幅

In [86]:
# tf.maximum, tf.minimum
x = tf.range(5)
a = tf.maximum(x, 3)
b = tf.minimum(x, 3)
a, b

(<tf.Tensor: id=497, shape=(5,), dtype=int32, numpy=array([3, 3, 3, 3, 4])>,
 <tf.Tensor: id=499, shape=(5,), dtype=int32, numpy=array([0, 1, 2, 3, 3])>)

- tf.maximum实现对大于指定上限的数据，都让其等于指定数据
- tf.minimum实现对小于指定下限的数据，都让其等于指定数据

In [88]:
# tf.clip_by_value实现上下限幅
c = tf.clip_by_value(x, 2, 3)
c

<tf.Tensor: id=507, shape=(5,), dtype=int32, numpy=array([2, 2, 2, 3, 3])>