In [2]:
import tensorflow as tf
from tensorflow import keras

## 1.加载数据集的一句代码，并且自动处理分成train set和test set

In [3]:
(x,y),(x_test,y_test)= keras.datasets.mnist.load_data()

In [4]:
x.shape

(60000, 28, 28)

In [5]:
y.shape

(60000,)

In [6]:
x.min(),x.max(),x.mean()

(0, 255, 33.318421449829934)

In [7]:
x_test.shape,y_test.shape

((10000, 28, 28), (10000,))

## 2.刚取出来的y是0~9的label，要转化成one_hot格式

In [8]:
y[:4]

array([5, 0, 4, 1], dtype=uint8)

In [10]:
y_onehot=tf.one_hot(y,depth=10)

In [11]:
y_onehot[:2]

<tf.Tensor: id=8, shape=(2, 10), dtype=float32, numpy=
array([[0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>

## 3. x_test是numpy格式，numpy->tensor->itera可迭代格式db


In [12]:
db = tf.data.Dataset.from_tensor_slices(x_test)

## 4.获取db的迭代器iter，next进行迭代，这样我们就可以得到测试集的所有内容

In [13]:
db = next(iter(db))

In [14]:
db.shape

TensorShape([28, 28])

## 5.这项处理的简便之处是可以多个一起处理

In [16]:
db = tf.data.Dataset.from_tensor_slices((x_test,y_test))

In [17]:
next(iter(db))[0].shape

TensorShape([28, 28])

## 6.shuffle随机打散训练测试集的顺序避免记忆其输入规律

In [19]:
db = tf.data.Dataset.from_tensor_slices((x_test,y_test))

In [21]:
db.shuffle(10000)#这里的10000代表打散的区间长度

<ShuffleDataset shapes: ((28, 28), ()), types: (tf.uint8, tf.uint8)>

## 7.batch将数据分成一块一块

In [22]:
db3 = db.batch(32)#32张图片一起训练

In [23]:
res = next(iter(db3))

In [24]:
res[0].shape

TensorShape([32, 28, 28])

## 8.repeat重复迭代的次数

In [25]:
db4 = db3.repeat()

## 9.map预处理函数

In [30]:
def process(x,y):
    x = tf.cast(x,dtype=tf.float32) / 255.
    y = tf.cast(y,dtype = tf.int32)
    y = tf.one_hot(y,depth=10)
    return x,y

In [31]:
db2 = db.map(process)#对所有的数据都进行一个这样的预处理

# 10.加载数据集的步骤
## 1.下载数据集
## 2.one_hot 处理
## 3.转化到Datasets里面去
## 4.调用预处理
## 5.其它功能，比如batch、shuffle
