In [20]:
import tensorflow as tf 

#### 常用数据集加载, 大型数据集的处理


In [21]:
# 常用的数据集的加载操作, keras.datasets, 加载后还不是tensor, 而是numpy格式的, 还需要转换成tensor
# 常用数据集: boston housing, mnist/fashion mnist, cifar10/100, imdb 这些常用数据集
# 导入方法
(x,y),(x_test,y_test) = tf.keras.datasets.mnist.load_data()

In [22]:
x.shape, y.shape

((60000, 28, 28), (60000,))

In [23]:
x_test.shape,y_test.shape

((10000, 28, 28), (10000,))

In [24]:
x.min(),x.max(),x.mean()
# 这里可以使用min(),max()和mean()这三个方法,是因为x此时还是一个numpy对象

(0, 255, 33.318421449829934)

In [25]:
y[:10]

array([5, 0, 4, 1, 9, 2, 1, 3, 1, 4], dtype=uint8)

In [26]:
y_onehot = tf.one_hot(y,depth=10,dtype=tf.int16)

In [27]:
y_onehot[:10]

<tf.Tensor: id=35, shape=(10, 10), dtype=int16, numpy=
array([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0]], dtype=int16)>

In [28]:
(cifar_x,cifar_y),(cifar_x_test,cifar_y_test) = tf.keras.datasets.cifar10.load_data()

In [29]:
cifar_x.shape,cifar_y.shape

((50000, 32, 32, 3), (50000, 1))

In [30]:
cifar_x_test.shape,cifar_y_test.shape

((10000, 32, 32, 3), (10000, 1))

In [31]:
# 以上我们获取了numpy格式的测试数据,需要转换成Tensor才能为tf所用
# 使用tf.data.Dataset.from_tensor_slices() 将已有的numpy数据集对象转换为Tensor

In [32]:
db = tf.data.Dataset.from_tensor_slices(cifar_x)

In [33]:
next(iter(db)).shape
# 对from_tensor_slices(x)返回的对象进行迭代
# 但是这里我们只传入了x,而没有label y,所以我们用以下方法, 生成的数据集数据和label都有了

TensorShape([32, 32, 3])

In [37]:
db1 = tf.data.Dataset.from_tensor_slices((cifar_x,cifar_y))
next(iter(db1))[0].shape
# 对应返回数据和label

TensorShape([32, 32, 3])

In [38]:
next(iter(db1))[1].shape

TensorShape([1])

In [40]:
# 随机打散方法
# .shuffle方法
db1 = db1.shuffle(buffer_size=10000) # from_tensor_slices((cifar_x,cifar_y))返回的对象知道有打散功能, 打散后悔保证x 和y的对应关系不变

In [42]:
# 数据预处理
# .map方法
def preprocess(x,y):
    x = tf.cast(x,tf.float32)/255.
    y = tf.one_hot(y,depth=10,dtype=tf.int16)
    return x,y

db1.map(preprocess)
# 将db中的数据进行一个preprocess方法的处理, 这个preprocess可以自定义

<MapDataset shapes: ((32, 32, 3), (1, 10)), types: (tf.float32, tf.int16)>

In [48]:
# 批量获取
# .batch()方法
db2 = db1.batch(20)
# 使用for循环迭代db2, 一次迭代完成后, 迭代停止, 可以设置repeat来定制重复多少次之后才停止迭代

<BatchDataset shapes: ((None, 32, 32, 3), (None, 1)), types: (tf.uint8, tf.uint8)>

In [None]:
# 数据集重复次数
#.repeat()方法
# 不设置repeat的话, 数据集迭代一次后就自动停止了
db3 = db1.repeat(2)# 数据集重复迭代2次后才停止
db4 = db1.repeat()# 数据集一直重复,不停止

In [49]:
(fashion_x,fashion_y),(fashion_x_test,fashion_y_test) = tf.keras.datasets.fashion_mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
