##TFRecord and tf.Example
为了有效地读取数据，对数据进行序列化并将其存储在一组可以线性读取的文件（每个文件100-200MB）中会很有帮助。如果数据正在通过网络流传输，则尤其如此。这对于缓存任何数据预处理也很有用。

TFRecord格式是一种用于存储二进制记录序列的简单格式。

协议缓冲区是用于有效序列化结构化数据的跨平台，跨语言的库。

协议消息由.proto文件定义，这些通常是了解消息类型的最简单方法。

的tf.Example消息（或protobuf的）是一个表示一个灵活的消息类型{"string": value}映射。它专为与TensorFlow一起使用而设计，并在整个高级API（例如TFX）中使用。

本笔记本将演示如何创建，解析和使用tf.Example消息，然后tf.Example对.tfrecord文件进行序列化，写入和读取消息。
###设定


In [0]:
from __future__ import absolute_import,division,print_function,unicode_literals

try:
  %tensorflow_version 2.x
except Exception:
  pass

import tensorflow as tf
import numpy as np
import IPython.display as display


###tf.Example
**的数据类型 tf.Example**
从根本上讲，a `tf.Example`是`{"string": tf.train.Feature}`映射。

该`tf.train.Feature`消息类型可以接受以下三种类型（参见之一`.proto`文件以供参考）。大多数其他泛型类型可以强制为以下类型之一：

1. tf.train.BytesList （以下类型可以强制）

  * string
  * byte
2. tf.train.FloatList （以下类型可以强制）

  * float (float32)
  * double (float64)
3. tf.train.Int64List （以下类型可以强制）

  * bool
  * enum
  * int32
  *  uint32
  * int64
  * uint64

为了将标准TensorFlow类型转换为tf.Example-compatible tf.train.Feature，您可以使用下面的快捷功能。请注意，每个函数都采用标量输入值，并返回tf.train.Feature包含上述三种list类型之一的a ：

In [0]:
def _bytes_feature(value):
  """Returns a bytes_list from a string / byte."""
  if isinstance(value,type(tf.constant(0))):
    value = value.numpy()
  return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

def _float_feature(value):
  """Returns a float_list from a float / double."""
  return tf.train.Feature(float_list=tf.train.FloatList(value=[value]))

def _int64_feature(value):
  """Returns an int64_list from a bool / enum / int / uint."""
  return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

> 注意：为简单起见，本示例仅使用标量输入。处理非标量特征的最简单方法是使用tf.serialize_tensor将张量转换为二进制字符串。字符串是张量流中的标量。使用tf.parse_tensor转换二进制字符串返回到张量。

以下是这些功能如何工作的一些示例。注意变化的输入类型和标准化的输出类型。如果函数的输入类型与上述强制类型之一不匹配，则该函数将引发异常（例如_int64_feature(1.0)，由于1.0是浮点数，因此会出错，因此应与该_float_feature函数一起使用）：

In [0]:
print(_bytes_feature(b'test_string'))
print(_bytes_feature(u'test_bytes'.encode('utf-8')))

print(_float_feature(np.exp(1)))

print(_int64_feature(True))
print(_int64_feature(1))

bytes_list {
  value: "test_string"
}

bytes_list {
  value: "test_bytes"
}

float_list {
  value: 2.7182817459106445
}

int64_list {
  value: 1
}

int64_list {
  value: 1
}



可以使用以下.SerializeToString方法将所有原始消息序列化为二进制字符串：

In [0]:
feature = _float_feature(np.exp(1))
feature.SerializeToString()

b'\x12\x06\n\x04T\xf8-@'

##建立tf.Example讯息
假设您要tf.Example根据现有数据创建一条消息。实际上，数据集可能来自任何地方，但是tf.Example从单个观察中创建消息的过程将是相同的：

1. 在每次观察中，需要tf.train.Feature使用上述功能之一将每个值转换为包含3种兼容类型之一的值。

2. 您创建了一个从特征名称字符串到＃1中生成的编码特征值的映射（字典）。

3. 在步骤2中生成的地图将转换为Features消息。

在此笔记本中，您将使用NumPy创建数据集。

该数据集将具有4个功能：

* 布尔特征，False或True等概率
* 从中随机选择的整数特征 [0, 5]
* 通过使用整数特征作为索引从字符串表生成的字符串特征
* 标准正态分布的浮点特征

考虑一个样本，其中包含来自上述每个分布的10,000个独立且分布相同的观测值：

In [0]:
n_observations = int(1e4)

feature0 = np.random.choice([False,True],n_observations)

feature1 = np.random.randint(0,5,n_observations)

strings = np.array([b'cat',b'dog',b'chicken',b'horse',b'goat'])
feature2 = strings[feature1]

feature3 = np.random.randn(n_observations)

这些特征的每一个可以被强制转换为tf.Example使用以下之一兼容的类型_bytes_feature，_float_feature，_int64_feature。然后，您可以tf.Example根据以下编码功能创建消息：

In [0]:
def serialize_example(feature0, feature1, feature2, feature3):
  """
  Creates a tf.Example message ready to be written to a file.
  """
  # Create a dictionary mapping the feature name to the tf.Example-compatible
  # data type.
  feature = {
      'feature0': _int64_feature(feature0),
      'feature1': _int64_feature(feature1),
      'feature2': _bytes_feature(feature2),
      'feature3': _float_feature(feature3),
  }

  # Create a Features message using tf.train.Example.

  example_proto = tf.train.Example(features=tf.train.Features(feature=feature))
  return example_proto.SerializeToString()

例如，假设您从数据集中获得了一个观测值[False, 4, bytes('goat'), 0.9876]。您可以使用来创建和打印tf.Example此观察的消息create_message()。每个观察结果都将按照上述内容写为一条Features消息。请注意，该tf.Example 消息只是消息的包装Features

In [0]:
example_observation = []

serialize_example = serialize_example(False,4,b'goat',0.9876)

serialize_example

b'\nR\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x04\n\x14\n\x08feature2\x12\x08\n\x06\n\x04goat\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04[\xd3|?'

要解码消息，请使用tf.train.Example.FromString方法。

In [0]:
example_proto = tf.train.Example.FromString(serialize_example)
example_proto

features {
  feature {
    key: "feature0"
    value {
      int64_list {
        value: 0
      }
    }
  }
  feature {
    key: "feature1"
    value {
      int64_list {
        value: 4
      }
    }
  }
  feature {
    key: "feature2"
    value {
      bytes_list {
        value: "goat"
      }
    }
  }
  feature {
    key: "feature3"
    value {
      float_list {
        value: 0.9876000285148621
      }
    }
  }
}

###TFRecords格式详细信息
TFRecord文件包含一系列记录。该文件只能顺序读取。

每个记录包含一个字节字符串（用于数据有效负载），数据长度以及用于完整性检查的CRC32C（使用Castagnoli多项式的32位CRC）哈希。

每条记录以以下格式存储：

```
uint64 length
uint32 masked_crc32_of_length
byte data[length]
uint32 masked_crc32_of_data
```

记录被串联在一起以产生文件。结直肠癌在 这里描述，和CRC的掩码为：

```
masked_crc = ((crc >> 15) | (crc << 17)) + 0xa282ead8ul
```

>注意：不需要tf.Example在TFRecord文件中使用。tf.Example只是将字典序列化为字节字符串的一种方法。文本行，编码的图像数据或序列化的张量（使用tf.io.serialize_tensor，以及 tf.io.parse_tensor在加载时）。有关tf.io更多选项，请参见模块。

###TFRecord文件使用 tf.data
该tf.data模块还提供用于在TensorFlow中读写数据的工具。

###写入TFRecord文件
将数据获取到数据集中的最简单方法是使用该from_tensor_slices方法。

应用于数组，它返回标量数据集：

In [0]:
tf.data.Dataset.from_tensor_slices(feature1)

<TensorSliceDataset shapes: (), types: tf.int64>

适用于数组的元组，它返回元组的数据集：

In [0]:
features_dataset = tf.data.Dataset.from_tensor_slices((feature0,feature1,feature2,feature3))
features_dataset

<TensorSliceDataset shapes: ((), (), (), ()), types: (tf.bool, tf.int64, tf.string, tf.float64)>

In [0]:
for f0,f1,f2,f3 in features_dataset.take(1):
  print(f0)
  print(f1)
  print(f2)
  print(f3)

tf.Tensor(False, shape=(), dtype=bool)
tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(b'chicken', shape=(), dtype=string)
tf.Tensor(-0.5500080335516746, shape=(), dtype=float64)


使用该tf.data.Dataset.map方法将函数应用于的每个元素Dataset。

映射函数必须在TensorFlow图形模式下运行-必须在上运行并返回tf.Tensors。serialize_example可以包装非张量函数（例如）tf.py_function以使其兼容。

使用tf.py_functionrequire指定形状和类型信息，否则该信息将不可用：

In [0]:
def tf_serialize_example(f0,f1,f2,f3):
  tf_string = tf.py_function(
    serialize_example,
    (f0,f1,f2,f3),  # pass these args to the above function.
    tf.string)      # the return type is `tf.string`.
  return tf.reshape(tf_string, ()) # The result is a scalar

In [0]:
#tf_serialize_example(f0,f1,f2,f3)

将此函数应用于数据集中的每个元素：

In [0]:
serialize_features_dataset = features_dataset.map(tf_serialize_example)
serialize_features_dataset

In [0]:
def generator():
  for features in features_dataset:
    yield serialize_example(*features)

In [0]:
serialized_features_dataset = tf.data.Dataset.from_generator(
    generator,output_types=tf.string,output_shapes=()
)

In [0]:
serialized_features_dataset

<FlatMapDataset shapes: (), types: tf.string>

并将它们写入TFRecord文件：

In [0]:
filename = 'test.tfrecord'
writer = tf.data.experimental.TFRecordWriter(filename)
writer.write(serialized_features_dataset)

###读取TFRecord文件
您也可以使用tf.data.TFRecordDataset该类读取TFRecord文件。

在这里tf.data可以找到有关使用TFRecord文件的更多信息。

使用TFRecordDatasets对于标准化输入数据和优化性能很有用。

In [0]:
filenames = [filename]
raw_dataset = tf.data.TFRecordDataset(filenames)
raw_dataset

此时，数据集包含序列化的tf.train.Example消息。迭代时，将其作为标量字符串张量返回。

使用此.take方法仅显示前10条记录。

In [0]:
for raw_record in raw_dataset.take(10):
  print(repr(raw_record))

可以使用下面的函数来解析这些张量。请注意，feature_description这里是必需的，因为数据集使用图形执行，并且需要以下描述来构建其形状和类型签名：

In [0]:
feature_description = {
    'feature0': tf.io.FixedLenFeature([],tf.int64,default_value=0),
    'feature1': tf.io.FixedLenFeature([],tf.int64,default_value=0),
    'feature2': tf.io.FixedLenFeature([],tf.string,default_value=''),
    'feature3': tf.io.FixedLenFeature([], tf.float32,default_value=0.0),
}

def _parse_function(example_proto):
  return tf.io.parse_single_example(example_proto,feature_description)

或者，用于tf.parse example一次解析整个批处理。使用以下tf.data.Dataset.map方法将此函数应用于数据集中的每个项目：

In [0]:
parsed_dataset = raw_dataset.map(_parse_function)
parsed_dataset

使用急切执行在数据集中显示观测值。此数据集中有10,000个观测值，但您只会显示前10个观测值。数据显示为要素字典。每个项目都是一个tf.Tensor，并且numpy该张量的元素显示特征的值：



In [0]:
for parsed_record in parsed_dataset.take(10):
  print(repr(parsed_record))

在这里，该tf.parse_example函数将tf.Example字段解压缩为标准张量。

###Python中的TFRecord文件
该tf.io模块还包含用于读取和写入TFRecord文件的纯Python函数。

###写入TFRecord文件
接下来，将10,000个观测值写入文件test.tfrecord。每个观察结果都转换为tf.Example消息，然后写入文件。然后，您可以验证是否test.tfrecord已创建文件：

In [0]:
with tf.io.TFRecordWriter(filename) as writer:
  for i in range(n_observations):
    example = serialize_example(feature0[i],feature1[i],feature2[i],feature3[i])
    writer.write(example)

In [0]:
!du -sh {filename}

###读取TFRecord文件
这些序列化的张量可以使用tf.train.Example.ParseFromString以下命令轻松解析：

In [0]:
filenames = [filename]
raw_dataset = tf.data.TFRecordDataset(filenames)
raw_dataset

In [0]:
for raw_record in raw_dataset.take(1):
  example = tf.train.Example()
  example.ParseFromString(raw_record.numpy())
  print(example)

###演练：读取和写入图像数据
这是有关如何使用TFRecords读取和写入图像数据的端到端示例。使用图像作为输入数据，您将把数据写为TFRecord文件，然后读回文件并显示图像。

例如，如果您想在同一输入数据集上使用多个模型，这将很有用。无需存储原始图像数据，而是可以将其预处理为TFRecords格式，并可以在所有进一步的处理和建模中使用。

首先，让我们下载雪中​​的猫的图像以及正在建设中的纽约威廉斯堡大桥的照片。

####获取图像

In [34]:
cat_in_snow = tf.keras.utils.get_file('320px-Felis_catus-cat_on_snow.jpg', 'https://storage.googleapis.com/download.tensorflow.org/example_images/320px-Felis_catus-cat_on_snow.jpg')
williamsburg_bridge = tf.keras.utils.get_file('194px-New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg','https://storage.googleapis.com/download.tensorflow.org/example_images/194px-New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg')

Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/320px-Felis_catus-cat_on_snow.jpg
Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/194px-New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg


In [35]:
display.display(display.Image(filename=cat_in_snow))
display.display(display.HTML('Image cc-by: <a "href=https://commons.wikimedia.org/wiki/File:Felis_catus-cat_on_snow.jpg">Von.grzanka</a>'))

<IPython.core.display.Image object>

In [36]:
display.display(display.Image(filename=williamsburg_bridge))
display.display(display.HTML('<a "href=https://commons.wikimedia.org/wiki/File:New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg">From Wikimedia</a>'))

<IPython.core.display.Image object>

###写入TFRecord文件
与以前一样，将要素编码为与兼容的类型tf.Example。这将存储原始图像字符串功能以及高度，宽度，深度和任意label功能。后者在您编写文件以区分猫图像和桥图像时使用。使用0了猫的形象，并1为桥梁的图像：

In [0]:
image_labels = {
    cat_in_snow:0,
    williamsburg_bridge:1,
}

In [0]:
image_string = open(cat_in_snow,'rb').read()

label = image_labels[cat_in_snow]

def image_example(image_string,label):
  image_shape = tf.image.decode_jpeg(image_string).image_shape
  
  feature = {
      'height': _int64_feature(image_shape[0]),
      'width': _int64_feature(image_shape[1]),
      'depth': _int64_feature(image_shape[2]),
      'label': _int64_feature(label),
      'image_raw': _bytes_feature(image_string),
  }

  return tf.train.Example(features=tf.train.Features(feature=feature))

for line in str(image_example(image_string,label)).split('\n')[:15]:
  print(line)

print('...')

请注意，所有功能现在都存储在tf.Example消息中。接下来，对上面的代码进行功能化，并将示例消息写入名为的文件images.tfrecords：

In [0]:
record_file = 'images.tfrecords'
with tf.io.TFRecordWriter(record_file) as writer:
  for filename, label in image_labels.items():
    image_string = open(filename, 'rb').read()
    tf_example = image_example(image_string, label)
    writer.write(tf_example.SerializeToString())

In [0]:
!du -sh {record_file}

###读取TFRecord文件
您现在有了文件images.tfrecords-并可以遍历文件中的记录以读回您编写的内容。鉴于在此示例中，您将仅复制图像，所以唯一需要的功能就是原始图像字符串。使用上述吸气剂将其提取example.features.feature['image_raw'].bytes_list.value[0]。您还可以使用标签来确定哪个记录是猫，哪个记录是桥：

In [0]:
raw_image_dataset = tf.data.TFRecordDataset('images.tfrecords')

# Create a dictionary describing the features.
image_feature_description = {
    'height': tf.io.FixedLenFeature([], tf.int64),
    'width': tf.io.FixedLenFeature([], tf.int64),
    'depth': tf.io.FixedLenFeature([], tf.int64),
    'label': tf.io.FixedLenFeature([], tf.int64),
    'image_raw': tf.io.FixedLenFeature([], tf.string),
}

def _parse_image_function(example_proto):
  # Parse the input tf.Example proto using the dictionary above.
  return tf.io.parse_single_example(example_proto, image_feature_description)

parsed_image_dataset = raw_image_dataset.map(_parse_image_function)
parsed_image_dataset

从TFRecord文件中恢复图像：

In [0]:
for image_features in parsed_image_dataset:
  image_raw = image_features['image_raw'].numpy()
  display.display(display.Image(data=image_raw))