# 数据加载

数据是机器学习的养料，tensorflow为我们提供了一些经典的数据集，并封装了用于处理数据集的接口。TensorFlow封装了`tf.keras.datasets`用于下载和处理一些经典的数据集。这些数据集包括：

1. boston housing
波士顿房屋相关数据，包括房屋的大小，房间数量，房价等信息，可以用于 regression 问题，比如经典的房价预测问题。

2. mnist/fashion mnist
手写数字和服装数据集，用于CV相关的问题，比如经典的手写数字识别问题

3. cifar10/100
也是一个图像数据集，cifar10中有10个分类，场景比mnist更加复杂

4. imdb
类似于豆瓣里面给电影评论，来判断是好评还是差评，也是一个用于分类的数据集

## Mnist

In [33]:
import tensorflow as tf
from tensorflow import keras

In [2]:
# 加载数据集
(x_train,y_train),(x_test,y_test) = keras.datasets.mnist.load_data()
# train dataset:60k 28x28 的图像
# test dataset:10k 28x28 的图像

# 注意：此时加载到的数据是numpy类型的数据，还不是tensor，我们可以使用numpy的x_train.min()操作
# 后面需要将numpy类型的数据，转换为tensor类型，就需要使用 tf.reduce_min()
x_train.shape, y_train.shape, x_train.min(), x_train.max(), x_train.mean()

((60000, 28, 28), (60000,), 0, 255, 33.318421449829934)

In [3]:
# y_train中是0~9的分类标签信息
# 在计算accuracy的时候我们要将其转换为one hot编码格式
y_train[:4]

array([5, 0, 4, 1], dtype=uint8)

In [4]:
y_train_onehot = tf.one_hot(y_train,depth=10)
y_train_onehot[0:4]

<tf.Tensor: id=8, shape=(4, 10), dtype=float32, numpy=
array([[0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>

## CIFAR10/100

In [12]:
(x_train,y_train),(x_test,y_test) = keras.datasets.cifar10.load_data()

In [13]:
x_train.shape, y_train.shape, x_train.min(), y_train.min()

((50000, 32, 32, 3), (50000, 1), 0, 0)

In [14]:
y_train[:4]

array([[6],
       [9],
       [9],
       [4]], dtype=uint8)

## tf.data.Dataset

In [18]:
# numpy
(x_train,y_train),(x_test,y_test) = keras.datasets.cifar10.load_data()
# tensor => dataset
db = tf.data.Dataset.from_tensor_slices(x_train)
next(iter(db)).shape

TensorShape([32, 32, 3])

In [22]:
# 数据和标签是成对取的
# numpy => tensor => dataset

db = tf.data.Dataset.from_tensor_slices((x_train, y_train))
next(iter(db))[0].shape

TensorShape([32, 32, 3])

In [25]:
# .shuffle
# 打乱数据集，由于神经网络具有很强的记忆性，避免其直接学习到数据集顺序的特性

db = tf.data.Dataset.from_tensor_slices((x_test, y_test))
db = db.shuffle(10000)

In [28]:
# .map
# 可以用于数据的预处理

def preprocess(x,y):
    x=tf.cast(x,dtype=tf.float32) / 255.
    y=tf.cast(y,dtype=tf.int32)
    y=tf.one_hot(y,depth=10)
    return x,y

db2 = db.map(preprocess)

res = next(iter(db2))
res[0].shape, res[1].shape

(TensorShape([32, 32, 3]), TensorShape([1, 10]))

In [29]:
res[1][:2]

<tf.Tensor: id=110, shape=(1, 10), dtype=float32, numpy=array([[0., 0., 0., 0., 0., 0., 1., 0., 0., 0.]], dtype=float32)>

In [31]:
# .batch
# 将数据集分成几个 batch

db3 = db2.batch(32)
res = next(iter(db3))
res[0].shape, res[1].shape

(TensorShape([32, 32, 32, 3]), TensorShape([32, 1, 10]))

In [32]:
# .repeat
# 设置迭代几个epoch，也可以使用catch StopIteration异常来实现
# 如果提前知道epoch，可以采用直接设置repeat的次数方法

db4 = db3.repeat()
db4 = db3.repeat(2)

## Example

- dataset中包含一个个batch的data
- data中包含着tensor

构建dataset的workflow
1. numpy (=> tensor) => dataset
2. dataset: from_tensor_slices => map(数据预处理) => shuffle打乱 => batch设置每次迭代返回的数据数量

In [38]:
def preprocess_mnist_features_and_labels(x,y):
    x=tf.cast(x,dtype=tf.float32) / 255.
    y=tf.cast(y,dtype=tf.float32)
    return x,y

def mnist_dataset():
    (x_train,y_train),(x_test,y_test) = keras.datasets.mnist.load_data()
    # one hot
    y_train = tf.one_hot(y_train, depth=10)
    y_test = tf.one_hot(y_test, depth=10)
    
    db_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))
    db_train = db_train.map(preprocess_mnist_features_and_labels)
    db_train = db_train.shuffle(60000).batch(100)
    
    db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
    db_test = db_test.map(preprocess_mnist_features_and_labels)
    db_test = db_test.shuffle(60000).batch(100)
    
    return db_train, db_test

In [41]:
db_train,db_test = mnist_dataset()

res = next(iter(db_train))
res[0].shape, res[1].shape

(TensorShape([100, 28, 28]), TensorShape([100, 10]))