# 将数据导入TensorFlow

注意：将数据导入到 TensorFlow 程序的首选方法是使用数据集 API。

另外还有三种方法可以将数据导入到 TensorFlow 程序中：

- <a href='#feeding'>Feeding</a>：Python的代码在运行每个步骤时提供数据。
- <a href='#load_file'>从文件读取</a>：输入管道从 TensorFlow 图的开始处读取文件中的数据。
- <a href='#pre_load'>预加载数据</a>：TensorFlow 图中的常量或变量保存所有数据（对于小型数据集）。

## <a name='feeding'>Feeding</a>

TensorFlow 的 feed 机制允许您在计算图中向任何张量注入数据。因此， python 计算可以直接将数据导入到图中。

通过 feed_dict 参数向启动计算的 run() 或 eval () 调用提供 feed 数据。

> 注意：“Feeding” 是将数据传送到 TensorFlow 程序的最有效的方式，只能用于小型实验和调试。

In [None]:
import tensorflow as tf

with tf.Session() as sess:   
    input = tf.placeholder(tf.float32)   
    classifier = ...   
    print(classifier.eval(feed_dict={input: my_python_preprocessing_fn()}))  

虽然可以使用 Feed 数据（包括变量和常量）替换任何 Tensor，但最佳做法是使用 tf.placeholder 节点。

placeholder（占位符）只是作为 feed 的目标存在。  
它未初始化，不包含任何数据如果占位符在没有 Feed 的情况下执行，则会产生错误，因此您不会忘记将其遗忘。

在 tensorflow/examples/tutorials/mnist/fully_connected_feed.py 中可以找到在 MNIST 数据上使用占位符和 Feeding 训练的示例, 并在 MNIST 教程中进行了说明。

In [2]:
import tensorflow as tf

input1 = tf.placeholder(tf.float32)
input2 = tf.placeholder(tf.float32)
output = tf.multiply(input1, input2)

with tf.Session() as sess:
    print(sess.run([output], feed_dict={input1:[7.], input2:[2.] }))

[array([14.], dtype=float32)]


---

## <a name='load_file'>从文件导入</a>

从文件导入记录的典型管道有以下几个阶段：
- 文件名列表
- 可选文件名洗牌
- 可选时期限制
- 文件名队列
- 用于文件格式的读取器
- 读者用于读取记录的解码器
- 可选预处理
- 示例队列

> 注意：本节讨论使用基于队列的API实现输入管道，该 API 可以被 \${\$datasets$Dataset API\} 完整地替换。

### 文件名，shuffling 和 epoch 限制

对于文件名列表，请使用常量字符串张量。

如：
- ["file0", "file1"]或[("file%d" % i) for i in range(2)]
- 或函数：tf.train.match_filenames_once。



将文件名列表传递给 tf.train.string_input_producer 函数。  

string_input_producer 创建一个 FIFO 队列，用于保存文件名，直到读取器需要它们为止。

string_input_producer 有选择的 shuffling 和设置一个最大的 epoch 数。

队列运行程序为每个 epoch 将文件名的整个列表添加到队列中一次，如果 shuffling = True，则在一个 epoch 中重新排列文件名。此过程提供了一个统一的文件取样，以便相对于彼此不会对示例进行低估或过度采样。

队列运行程序在与从队列中抽取文件名的读取器分开的线程中工作，因此，shuffling 和  enqueuing 进程不会阻止读取器。

### 文件格式

选择与您的输入文件格式相匹配的读取器，并将文件名队列传递给读取器的读取方法。

read 方法输出一个标识文件和记录的密钥 (如果有一些奇怪的记录，则对调试有用) 和一个标量字符串值。使用一个 (或多个) 解码器和转换 ops 将此字符串解码为构成示例的张量。

#### 1. CSV文件

若要以逗号分隔值 (CSV) 格式读取文本文件, 请使用 tf.TextLineReader 与 tf.decode_csv 操作。

例如：

In [2]:
import tensorflow as tf

# string_input_producer 创建一个 FIFO 队列，用于保存文件名，直到读取器需要它们为止。
filename_queue = tf.train.string_input_producer(['./tf_file.csv'])

# 使用 tf.TextLineReader 读取csv文件
# 每次一行
reader = tf.TextLineReader()
key, value = reader.read(filename_queue)

# 指定数据类型：record_defaults里面的数据类型决定了读取的数据类型，而且必须是list形式
# 指定默认值：如果读取的值为空，则按record_defaults中对应的值作为 默认值
record_defaults = [[1.0], [1.0], [1.0]]

# 解析出的每一个属性都是rank为0的标量
col1, col2, col3 = tf.decode_csv(value, record_defaults=record_defaults)

features = tf.stack([col1, col2, col3])

with tf.Session() as sess:
    # 线程协调器
    coord = tf.train.Coordinator()
    # 启动线程
    threads = tf.train.start_queue_runners(sess=sess, coord=coord)
    
    for i in range(100):
        # 提取一个instance
        examplem, label = sess.run([features, col1])
    
    #循环结束后，请求关闭所有线程
    coord.request_stop()
    coord.join(threads)

INFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python.framework.errors_impl.CancelledError'>, Session has been closed.


InvalidArgumentError: Field 0 in record 0 is not a valid float: col1
	 [[Node: DecodeCSV_1 = DecodeCSV[OUT_TYPE=[DT_FLOAT, DT_FLOAT, DT_FLOAT], field_delim=",", na_value="", use_quote_delim=true, _device="/job:localhost/replica:0/task:0/device:CPU:0"](ReaderReadV2_1:1, DecodeCSV_1/record_defaults_0, DecodeCSV_1/record_defaults_0, DecodeCSV_1/record_defaults_0)]]

Caused by op 'DecodeCSV_1', defined at:
  File "/Users/zoe/anaconda3/lib/python3.6/runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "/Users/zoe/anaconda3/lib/python3.6/runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/ipykernel_launcher.py", line 16, in <module>
    app.launch_new_instance()
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/traitlets/config/application.py", line 658, in launch_instance
    app.start()
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/ipykernel/kernelapp.py", line 486, in start
    self.io_loop.start()
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tornado/platform/asyncio.py", line 127, in start
    self.asyncio_loop.run_forever()
  File "/Users/zoe/anaconda3/lib/python3.6/asyncio/base_events.py", line 422, in run_forever
    self._run_once()
  File "/Users/zoe/anaconda3/lib/python3.6/asyncio/base_events.py", line 1432, in _run_once
    handle._run()
  File "/Users/zoe/anaconda3/lib/python3.6/asyncio/events.py", line 145, in _run
    self._callback(*self._args)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tornado/platform/asyncio.py", line 117, in _handle_events
    handler_func(fileobj, events)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tornado/stack_context.py", line 276, in null_wrapper
    return fn(*args, **kwargs)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 450, in _handle_events
    self._handle_recv()
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 480, in _handle_recv
    self._run_callback(callback, msg)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 432, in _run_callback
    callback(*args, **kwargs)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tornado/stack_context.py", line 276, in null_wrapper
    return fn(*args, **kwargs)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 283, in dispatcher
    return self.dispatch_shell(stream, msg)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 233, in dispatch_shell
    handler(stream, idents, msg)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 399, in execute_request
    user_expressions, allow_stdin)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/ipykernel/ipkernel.py", line 208, in do_execute
    res = shell.run_cell(code, store_history=store_history, silent=silent)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/ipykernel/zmqshell.py", line 537, in run_cell
    return super(ZMQInteractiveShell, self).run_cell(*args, **kwargs)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2662, in run_cell
    raw_cell, store_history, silent, shell_futures)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2785, in _run_cell
    interactivity=interactivity, compiler=compiler, result=result)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2903, in run_ast_nodes
    if self.run_code(code, result):
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2963, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-2-1dee49c58d3b>", line 16, in <module>
    col1, col2, col3 = tf.decode_csv(value, record_defaults=record_defaults)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tensorflow/python/ops/parsing_ops.py", line 1215, in decode_csv
    name=name)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tensorflow/python/ops/gen_parsing_ops.py", line 68, in decode_csv
    na_value=na_value, name=name)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tensorflow/python/framework/op_def_library.py", line 787, in _apply_op_helper
    op_def=op_def)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tensorflow/python/framework/ops.py", line 3290, in create_op
    op_def=op_def)
  File "/Users/zoe/anaconda3/lib/python3.6/site-packages/tensorflow/python/framework/ops.py", line 1654, in __init__
    self._traceback = self._graph._extract_stack()  # pylint: disable=protected-access

InvalidArgumentError (see above for traceback): Field 0 in record 0 is not a valid float: col1
	 [[Node: DecodeCSV_1 = DecodeCSV[OUT_TYPE=[DT_FLOAT, DT_FLOAT, DT_FLOAT], field_delim=",", na_value="", use_quote_delim=true, _device="/job:localhost/replica:0/task:0/device:CPU:0"](ReaderReadV2_1:1, DecodeCSV_1/record_defaults_0, DecodeCSV_1/record_defaults_0, DecodeCSV_1/record_defaults_0)]]


每次读取的执行都从文件中读取一行。   
然后，decode_csv 操作将结果解析为张量列表。   
该 record_defaults 参数确定生成的张量的类型，并设置在输入字符串中缺少值时要使用的默认值。

在调用 run 或 eval 执行读取之前，必须调用 tf.train.start_queue_runners 来填充队列。否则，读取将在等待队列中的文件名时阻止。



In [15]:
import tensorflow as tf

# string_input_producer 创建一个 FIFO 队列，用于保存文件名，直到读取器需要它们为止。
filename_queue = tf.train.string_input_producer(['./tf_file.csv'])

# 使用 tf.TextLineReader 读取csv文件
# 每次一行
reader = tf.TextLineReader()
key, value = reader.read(filename_queue)

# 指定数据类型：record_defaults里面的数据类型决定了读取的数据类型，而且必须是list形式
# 指定默认值：如果读取的值为空，则按record_defaults中对应的值作为 默认值
record_defaults = [['1.0'], ['1.0'], ['1.0']]

# 解析出的每一个属性都是rank为0的标量
col1, col2, col3 = tf.decode_csv(value, record_defaults=record_defaults)

features = tf.stack([col1, col2, col3])

sess=tf.Session()

# 线程协调器
coord = tf.train.Coordinator()
# 启动线程
threads = tf.train.start_queue_runners(sess=sess, coord=coord)
    
for i in range(100):
    # 提取一个instance
    example= sess.run([features])

print(example)
    
#循环结束后，请求关闭所有线程
coord.request_stop()
coord.join(threads)
sess.close()

[array([b'3', b'9', b'0.954242509'], dtype=object)]


In [23]:
import tensorflow as tf

# string_input_producer 创建一个 FIFO 队列，用于保存文件名，直到读取器需要它们为止。
filename_queue = tf.train.string_input_producer(['./tf_file.csv'])

# 使用 tf.TextLineReader 读取csv文件
# 每次一行
reader = tf.TextLineReader()
key, value = reader.read(filename_queue)

# 指定数据类型：record_defaults里面的数据类型决定了读取的数据类型，而且必须是list形式
# 指定默认值：如果读取的值为空，则按record_defaults中对应的值作为 默认值
record_defaults = [['1.0'], ['1.0'], ['1.0']]

# 解析出的每一个属性都是rank为0的标量
col1, col2, col3 = tf.decode_csv(value, record_defaults=record_defaults)

features = tf.stack([col1, col2, col3])


with tf.Session() as sess: 
    # 线程协调器
    coord = tf.train.Coordinator()
    # 启动线程
    threads = tf.train.start_queue_runners(sess=sess, coord=coord)

    for i in range(100):
        # 提取一个instance
        example= sess.run([features])

    print(example)

    #循环结束后，请求关闭所有线程
    coord.request_stop()
    coord.join(threads)
    sess.close()

[array([b'3', b'9', b'0.954242509'], dtype=object)]


In [24]:
import tensorflow as tf

a = tf.constant([1,2,3])
b = tf.constant([4,5,6])
c = tf.stack([a,b])

with tf.Session() as sess:
    print(sess.run(c))

[[1 2 3]
 [4 5 6]]
