## 在TensorFlow中使用Dataset和Iterator的教程

In [1]:
import tensorflow as tf
import numpy as np

### Dataset的创建
可以从numpy数组，TFRecords，TXT file，CSV file进行创建，最常见的是通过numpy或者tensor创建

#### from_tensor_slices
这种方法可以接受一个或者多个numpy或者tensor对象，注意传进多个对象时，数组的第零个维度应该一致

In [2]:
dataset1 = tf.data.Dataset.from_tensor_slices(tf.range(10, 15))
# 向外弹出数据的时候，一次弹出一个元素，即10，11，12， 13， 14

In [4]:
dataset2 = tf.data.Dataset.from_tensor_slices((tf.range(30, 45, 3), np.arange(60, 70, 2)))
# 向外弹出数据的时候，一次弹出一个元组，即(30, 60), (33, 62), (36, 64), (39, 66), (42, 68)

In [5]:
np.arange(60, 70, 2)

array([60, 62, 64, 66, 68])

In [11]:
print(np.arange(60, 70, 2).shape[0])
print(tf.range(30, 45, 3).shape[0])
# 传进多个数组的时候，每个数组的第零个维度是一致的，其实第零个维度就是样本量维度，当然要一致

5
5


In [7]:
print(dataset2.output_shapes)
# dataset.output_shapes打印的shape是省略第零个维度的
print(dataset2.output_types)

(TensorShape([]), TensorShape([]))
(tf.int32, tf.int64)


In [13]:
# 第零个维度不一致的时候会出错
dataset3 = tf.data.Dataset.from_tensor_slices((tf.range(10), np.arange(5)))

ValueError: Dimensions 10 and 5 are not compatible

#### from_tensors
这个方法也可以接受一个或者多个数组，但是和from_tensor_slices的不同是：不支持batch，一次会弹出所有的元素；多个数组的第零个维度可以不一致。适合小数据集或者一次使用全部数据的模型

In [14]:
dataset1 = tf.data.Dataset.from_tensors(tf.range(10, 15))
# 一次弹出所有数据，形如[10, 11, 12, 13, 14]
iterator1 = dataset1.make_one_shot_iterator()
next_element = iterator1.get_next()
with tf.Session() as sess:
    print(sess.run(next_element))

[10 11 12 13 14]


In [15]:
dataset2 = tf.data.Dataset.from_tensors((tf.range(30, 45, 3), np.arange(60, 70, 2)))
# 一次弹出全部元素，形如([30, 33, 36, 39, 42], [60, 62, 64, 66, 68])
iterator2 = dataset2.make_one_shot_iterator()
next_element = iterator2.get_next()
with tf.Session() as sess:
    print(sess.run(next_element))

(array([30, 33, 36, 39, 42], dtype=int32), array([60, 62, 64, 66, 68]))


In [16]:
dataset3 = tf.data.Dataset.from_tensors((tf.range(10), np.arange(5)))
# from_tensors支持第零维度不一致
iterator3 = dataset3.make_one_shot_iterator()
next_element = iterator3.get_next()
with tf.Session() as sess:
    print(sess.run(next_element))

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32), array([0, 1, 2, 3, 4]))


#### from_generator
这种方法接受的是生成器函数

In [17]:
def generator(sequence_type):
    if sequence_type == 1:
        for i in range(5):
            yield 10 + i
    elif sequence_type == 2:
        for i in range(5):
            yield (30 + 3 * i, 60 + 2 * i)
    elif sequence_type == 3:
        for i in range(1, 4):
            yield (i, ["Hi"] * i)

In [18]:
dataset1 = tf.data.Dataset.from_generator(generator, (tf.int32), args=([1]))
print(dataset1.output_shapes)
print(dataset1.output_types)

<unknown>
<dtype: 'int32'>


In [22]:
iterator1 = dataset1.make_initializable_iterator()
next_element = iterator1.get_next()
with tf.Session() as sess:
    sess.run(iterator1.initializer)
    while True:
        try:
            print(sess.run(next_element))
        except tf.errors.OutOfRangeError:
            break

10
11
12
13
14


In [None]:
dataset2 = tf.data.Dataset.from_generator(generator, (tf.int32, tf.int32), args=([2]))
