# 说明：

对数据的几种常见变换：
- 迭代中取前n个：dataset.take(n)
- 乱序：dataset.shuffle() + dataset.shuffle().repeat()
- 分批次：dataset.batch(n)
- 用函数对数据预变换：dataset.map(function_name)

In [2]:
import tensorflow as tf

### 1. 迭代只取前n个：

In [3]:
dataset = tf.data.Dataset.from_tensor_slices( [1,2,3,4,5,6] )

In [4]:
for ele in dataset.take(3):  # 只循环取前3个
    print(ele)

tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)


### 2. 对数据乱序：每个epoch都要乱序（因为每个epoch把所有训练数据都走了一遍）！

In [9]:
dataset = tf.data.Dataset.from_tensor_slices( [1,2,3,4,5,6] )
# 对“所有单元”进行乱序：
dataset = dataset.shuffle( buffer_size = 6 ) # 这个buffer_size的数越大，打散的越混乱（不要比原数长度还大，一般就是原长度！）

In [17]:
for ele in dataset:
    print(ele)

tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)


说明：这种情况，不管重复执行多少次，乱序的方式都是一样的！！！ —— 不太好。

可以多加一个repeat：

In [18]:
# 对“所有单元”进行乱序：
dataset = dataset.shuffle( buffer_size = 7 ).repeat( count = 3 )  # 这个count一般等于你想要训练的epoch次数！
# 重复3次，每次乱序的情况都是不同的！
for ele in dataset:
    print(ele)

tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)


### 3. 对数据进行分批次：

说明：当数据非常多时，就需要一个批次batch一个批次batch进入，即**每个epoch又分为很多batch**；否则内存撑爆！

注意：当将每个epoch又划分多个batch后，在训练时“**进度条**”的数字显示的是不再是训练集中样本的总数（原先每个epoch要训练的就是整个训练集），而是每个epoch中一共有多少个batch数，即一共有几个step！（虽然实质上还是训练整个训练集）！

In [12]:
dataset = tf.data.Dataset.from_tensor_slices( [1,2,3,4,5,6] )

In [14]:
# 分批次：
dataset = dataset.batch(2)  # 每个批次有2个数：单位也就变了！

for ele in dataset:
    print(ele)

tf.Tensor([1 2], shape=(2,), dtype=int32)
tf.Tensor([3 4], shape=(2,), dtype=int32)
tf.Tensor([5 6], shape=(2,), dtype=int32)


### 4. 用函数对数据预变换：数据预处理写到一个函数中，很有用！

In [19]:
dataset = tf.data.Dataset.from_tensor_slices( [1,2,3,4,5,6] )

In [20]:
# 先用一些自带的函数；当然可以自己写函数
dataset = dataset.map( tf.square )  # 对每一个单位做平方！

for ele in dataset:
    print(ele)

tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(25, shape=(), dtype=int32)
tf.Tensor(36, shape=(), dtype=int32)
