In [1]:
import tensorflow as tf

## tensorflow数据读取机制中内存队列，文件名队列详解见[十图详解tensorflow数据读取机制](https://zhuanlan.zhihu.com/p/27238630)

## 多线程与queue（内存队列）
Tensorflow中提供了FIFOQueue和RandomShuffleQueue两种内存队列。

In [15]:
# 创建一个先进先出队列，指定队列中最多可以保存两个元素，并指定类型
q = tf.FIFOQueue(2, dtypes='int32')

# 创建一个随机队列，它会将队列中元素打乱，每次出队操作得到的是从当前队列
# 所有元素中随机挑选的一个，必须传入min_after_dequeue（队列中最少元素个数）参数
# q = tf.RandomShuffleQueue(2, min_after_dequeue=0, dtypes='int32')

# 使用enqueue_many初始化函数，使用队列之前必须明确调用初始化
init = q.enqueue_many(([0, 10], ))

# 使用dequeue函数出队
x = q.dequeue()

y = x + 1

# 重新入队
q_inc = q.enqueue([y])

with tf.Session() as sess:
    # 运行初始化队列操作
    init.run()
    for _ in range(5):
        v, _  = sess.run([x, q_inc])
        print(v)

0
10
1
11
2


Tensorflow提供了**tf.Coordinator**和**tf.QueueRunner**两个类来完成多线程协同的功能。**tf.Coordinator**主要用于协同多个线程一起停止，并提供了**should_stop**，**request_stop**和**join**三个函数。

启动线程之前，需要声明一个`tf.Coordinator`类，并将这个类传入每一个创建的建成中。启动的线程需要一直查询`tf.Coordinator`类中提供的`should_stop`函数，当这个函数的返回值为True时，当前线程退出。每一个启动的线程都可以通过调用`request_stop`函数通知其他线程退出。

当一个线程调用`request_stop`函数后，`should_stop`函数的返回值被设置为True。这样其他线程就可以同时终止。

In [23]:
import tensorflow as tf
import numpy as np
import threading
import time

# 线程中运行的程序，该程序每隔1s判断是否需要停止并打印自己的ID
def my_loop(coord, worker_id):
    # 使用tf.Coordinator类提供的协同工具判断当前线程是否需要停止
    while not coord.should_stop():
        # 随机停止所有线程
        if(np.random.rand() < 0.1):
            print('Stoping from id: %d\n' % worker_id)
            # 调用coord.request_stop()通知其他线程停止
            coord.request_stop()
        else:
            # 打印当前线程id
            print('Working on id: %d\n' % worker_id)
        time.sleep(1)
        
# 声明一个tf.train.Coordinator类协同多个线程
coord = tf.train.Coordinator()
# 创建5个线程
threads = [threading.Thread(target=my_loop, args=(coord, i)) for i in range(5)]
# 启动所有线程
for t in threads:
    t.start()

# 等待所有线程退出
coord.join(threads)

Working on id: 0
Working on id: 1
Working on id: 2



Working on id: 3

Working on id: 4

Working on id: 0

Working on id: 1

Working on id: 2

Working on id: 3

Working on id: 4

Working on id: 0

Working on id: 1

Working on id: 2

Stoping from id: 3



**tf.QueueRunner**用于启动多个线程操作同一个队列，启动的这些线程可以通过`tf.Coordinator`统一管理。

以下程序利用多线程将随机数入队，单线程出队打印。

In [29]:
import tensorflow as tf

queue = tf.FIFOQueue(100, 'float')
# 定义队列的入队操作，tf.random_normal()从正态分布输出随机值
enqueue_op = queue.enqueue([tf.random_normal([1])])

# 创建多个线程运行队列的入队操作，queue是被操作的队列，[enqueue_op] * 5表示启动5个
# 线程，每个线程中运行的是enqueue_op操作
qr = tf.train.QueueRunner(queue, [enqueue_op] * 5)

# 将定义过的QueueRunner加入Tensorflow计算图上指定的集合
# tf.train.add_queue_runner函数没有指定集合
# 则加入默认集合tf.GraphKeys.QUEUE_RUNNERS
tf.train.add_queue_runner(qr)
# 定义出队操作
out_tensor = queue.dequeue()

with tf.Session() as sess:
    # 使用tf.train.Coordinator协同启动的线程
    coord = tf.train.Coordinator()
    # 使用tf.train.QueueRunner时，需要明确调用tf.train.start_queue_runners
    # 启动所有线程。tf.train.start_queue_runners函数默认启动tf.GraphKeys.QUEUE_RUNNERS
    # 集合中所有的QueueRunner。
    threads = tf.train.start_queue_runners(sess=sess, coord=coord)
    # 获取队列中的取值
    for _ in range(20):
        print(sess.run(out_tensor)[0])
    
    # 读取完值后，使用tf.train.Coordinator停止所有线程
    coord.request_stop()
    coord.join(threads)

0.480941
0.834668
-1.05499
-1.0778
-1.31522
0.102408
-0.166196
-1.63906
0.400012
-0.207954
0.814503
1.36503
0.305135
1.4215
1.58674
-0.802489
1.56601
-0.0561557
0.591244
-0.826584


## 输入文件名队列
**tf.train.string_input_producer**函数会使用初始化时提供的文件列表创建一个**文件名队列**。

通过设置**shuffle**参数，可以打乱文件名队列中的顺序。当`shuffle`参数为True时，文件在加入文件名队列之前就会被打乱顺序。`tf.train.string_input_producer`生成的文件名队列可以同时被多个文件读取线程操作，而且会将队列中的文件均匀地分给不同线程。

通过设置**num_epochs**参数限制文件名队列加载文件列表的最大轮数。

In [32]:
import os
import tensorflow as tf

data_path = os.path.join('.', 'data')
if(not os.path.exists(data_path)):
    os.mkdir(data_path)

# 模拟海量数据情况下将数据写入不同的文件。num_shards定义了总共写入多少个TFRecords文件。
# instatnces_per_shard定义了每个TFRcords文件中有多少个数据。
num_shards = 2
instances_per_shard = 2

for i in range(num_shards):
    # 将数据分为多个文件时，可以将不同文件以类似0000n-of-0000m的前缀区分，m表示TFRecords数据
    # 总个数（2个），n表示第几个TFRecords数据
    filename = os.path.join(data_path, 'data_000%d_of_000%d.tfrecords' % (i, num_shards))
    writer = tf.python_io.TFRecordWriter(filename)
    # 将数据封装为Example结构写入TFRecord文件
    for j in range(instances_per_shard):
        example = tf.train.Example(features=tf.train.Features(feature={
            'i': tf.train.Feature(int64_list=tf.train.Int64List(value=[i])),
            'j': tf.train.Feature(int64_list=tf.train.Int64List(value=[j]))
        }))
        writer.write(example.SerializeToString())
    writer.close()

使用`tf.train.match_filenames_once`和`tf.train.string_input_producer`读取TFRecrods中的数据。

In [33]:
import tensorflow as tf

data_path = os.path.join('.', 'data')

filenames = tf.train.match_filenames_once(os.path.join(data_path, '*'))

print(filenames)

<tf.Variable 'matching_filenames:0' shape=<unknown> dtype=string_ref>
