## 数据集的基本使用方法
在数据集框架中，每一个数据集代表一种数据源：数据源可能来自一个张量，一个TFRecord文件，一个文本文件，或者经过sharding的一系列文件，等等。由于训练数据通常无法全部写入内存，因此从数据集中读取数据需要一个迭代器按顺序进行读取，这与队列的dequeue()操作和Reader的read()操作相似。与队列相似，数据集也是计算图上的一个节点。<br/>
从张量创建数据集的示例：<br/>

In [1]:
import tensorflow as tf

input_data = [1, 2, 3, 4, 5, 6]
dataset = tf.data.Dataset.from_tensor_slices(input_data)
# 定义一个迭代器用于遍历数据集
iterator = dataset.make_one_shot_iterator()
# get_next()返回代表一个输入数据的张量，类似于队列的dequeue
x = iterator.get_next()
y = x * x

with tf.Session() as sess:
    for i in range(len(input_data)):
        print(sess.run(y))

1
4
9
16
25
36


定义数据集并读取数据的步骤：
1. 定义数据集的构造方法。<br/>
使用tf.data.Dataset.from_tensor_slices()表明数据集是从一个张量中构建的。如果数据集是从文件中构建的，则调用不同构造方法。<br/>
2. 定义遍历器。<br/>
3. 使用get_next()方法从遍历器中读取数据张量，作为计算图其他部分的输入。

In [2]:
import tensorflow as tf

input_files = ['./Data/1.txt', './Data/2.txt']
dataset = tf.data.TextLineDataset(input_files)

iterator = dataset.make_one_shot_iterator()
x = iterator.get_next()

with tf.Session() as sess:
    for i in range(3):
        print(sess.run(x))

b'~\xe6\x99\xb4\xe5\xa4\xa9~'
b'\xe5\x91\xa8\xe6\x9d\xb0\xe4\xbc\xa6'
b'\xe6\x95\x85\xe4\xba\x8b\xe7\x9a\x84\xe5\xb0\x8f\xe9\xbb\x84\xe8\x8a\xb1'


在上面都是使用最简单的make_one_shot_iterator来遍历数据集。在使用make_one_shot_iterator时，数据集的所有参数都是确定的，因此不需要特殊的初始化过程。如果需要使用placeholder来初始化数据集，则需要使用initializable_iterator。以下使用initializable_iterator来动态初始化数据集：

In [None]:
import tensorflow as tf

def parser(record):
    features = tf.parse_single_example(
        record, 
        features={
            'feat1': tf.FixedLenFeature([], tf.int64),
            'feat2': tf.FixedLenFeature([], tf.int64)
        })
    return features['feat1'], features['feat2']

input_files = tf.placeholder(tf.string)
dataset = tf.data.TFRecordDataset(input_files)
dataset = dataset.map(parser)

iterator = dataset.make_initializable_iterator()
feat1, feat2 = iterator.get_next()

with tf.Session() as sess:
    sess.run(iterator.initializer, feed_dict={input_files:[...]})
    while True:
        # 使用try except形式来将数据遍历一遍。在动态指定输入数据时，
        # 不同数据来源的数据量大小难以预测，这个方法就不需要我们提前
        # 知道数据量的精确大小
        try:
            sess.run([feat1, feat2])
        except tf.errors.OutOfRangeError:
            break

## 数据集的高层操作
- **map**<br/>
表示对数据集中的每条数据调用map参数中指定的方法。对每一条数据处理后，map将处理后的数据包装成一个新的数据集返回。<br/>
- **shuffle**<br/>
> dataset = dataset.shuffle(buffer_size)  #随机打乱顺序

shuffle方法中的参数`buffer_size`等效于tf.train.shuffle_batch的min_after_dequeue参数。shuffle算法在内部使用一个缓冲区保存buffer_size条数据，每读入一条新数据时，就从缓冲区随机选择一条数据输出。缓冲区越大，随机性能越好，但是消耗内存越多。
- **batch**<br/>
> dataset = dataset.batch(batch_size)   #将数据组合成batch

batch_size代表要输出的每个batch由多少条数据组成。
- **repeat**<br/>
将数据集中的数据复制多份，其中每一份数据成为一个epoch。
> dataset = dataset.repeat(N)    #将数据集重复N份

如果在repeat前已经进行shuffle操作，则输出的每个epoch中随机shuffle的结果并不相同。
- **concatenate**：将两个数据集顺序连接起来。<br/>
- **take**：从数据集中读取前N项数据；<br/>
- **skip**：在数据集中跳过前N项数据；<br/>
- **flap_map**：从多个数据集中轮流读取数据；<br/>

In [None]:
import tensorflow as tf

train_files = tf.train.match_filenames_once('./Data/train-*')
test_files = tf.train.match_filenames_once('./Data/test-*')

def parser(record):
    features = tf.parse_single_example(
        record, 
        features={
            'image': tf.FixedLenFeature([], tf.string),
            'label': tf.FixedLenFeature([], tf.int64),
            'height': tf.FixedLenFeature([], tf.int64),
            'width': tf.FixedLenFeature([], tf.int64),
            'channels': tf.FixedLenFeature([], tf.int64)
        })
    
    decoded_image = tf.decoded_raw(features['image'], tf.uint8)
    decoded_image.set_shape([features['height'], features['width'], 
                             features['channels']])
    label = features['label']
    
    return decoded_image, label

image_size = 299
batch_size = 100
shuffle_buffer = 10000

dataset = tf.data.TFRecordDataset(train_files)
dataset = dataset.map(parser)

dataset = dataset.map(lambda image, label:(
    preprocess_for_train(image, image_size, image_size, None), label))
dataset = dataset.shuffle(shuffle_buffer).batch(batch_size)

NUM_EPOCHS = 10
dataset = dataset.repeat(NUM_EPOCHS)

iterator = dataset.make_initializable_iterator()
image_batch, label_batch = iterator.get_next()

learning_rate = 0.01
logit = inference(image_batch)
loss = calc_loss(logit, label_batch)

train_step = tf.train.GradientDescentOptimizer(learning_rate)\
                .minimize(loss)

test_dataset = tf.data.TFRecordDataset(test_files)
test_dataset = test_dataset.map(parser).map(
    lambda image, label:(
        tf.image.resize_images(image, [image_size, image_size]), label))
test_dataset = test_dataset.batch(batch_size)

# 定义测试集迭代器
test_iterator = test_dataset.make_initializable_iterator()
test_image_batch, test_label_batch = test_iterator.get_next()

# 定义测试结果为logit值最大的分类
test_logit = inference(test_image_batch)
predictions = tf.argmax(test_logit, axis=-1, output_type=tf.int32)

with tf.Session() as sess:
    sess.run((tf.global_variables_initializer(), 
              tf.local_variables_initializer()))
    # 初始化训练数据的迭代器
    sess.run(iterator.initializer)
    
    while True:
        try:
            sess.run(train_step)
        except tf.errors.OutOfRangeError:
            break
    
    # 初始化测试数据迭代器
    sess.run(test_iterator.initializer)
    # 获取测试结果
    test_result = []
    test_label = []
    while True:
        try:
            pred, label = sess.run([predictions, test_label_batch])
            test_result.extend(pred)
            test_label.extend(label)
        except tf.errors.OutOfRangeError:
            break
# 计算精准率
correct = [float(y == y_) for (y, y_) in zip(test_result, test_label)]
accuracy = sum(correct) / len(correct)
print("Test accuracy is:", accuracy)