# TensorFlow Keras 介绍-工程师版

**Author:** [fchollet](https://twitter.com/fchollet)<br>
**Date created:** 2020/04/01<br>
**Last modified:** 2020/04/28<br>
**Description:** 使用TensorFlow keras高级api构建真实世界机器学习解决方案你所需要知道的 (Everything you need to know to use Keras to build real-world machine learning solutions.)<br>
**翻译：** 叶正 

## 设置-Setup

In [2]:
import numpy as np
import tensorflow as tf
from tensorflow import keras

## 介绍

你是一位正在寻找基于tensorflow-keras驱动的深度学习在实际产品中解决方案的工程师吗？
本指南将为你介绍tf-keras 核心api概念和使用方法。

本指南中，你将学到以下知识:

- Tensorflow tensor 和 gradient tape
- 训练模型前的数据准备 (转化为 NumPy 数组ndarray 或者 `tf.data.Dataset` 对象).
- 数据预处理：如特征标注化(feature normalization) 或词汇表索引 vocabulary indexing.
- 模型构建：数据到预测模型,使用Keras Functional API.
- 使用keras自带的`fit()`方法训练模型，同时可以存储checkpoints, 监控指标和容错
- 模型评估和推理（test data）
- 自定义 `fit()`功能, 如对抗网络GAN训练.
- 使用多GPU加速训练
- 模型优化：参数调优（hyperparameter tuning.）
- 在移动设备和 IoT 设备上部署机器学习模型

在该指南最后，你可以接着学下以下内容来增强你对这些概念的理解

- 图像分类，Image classification
- 文本分类，Text classification
- 信用卡欺诈检测，Credit card fraud detection


## 张量，Tensors

TensorFlow 是可微编程的一个基本构造层。它的核心像Numpy，是一个可以对N维矩阵（tensors）进行操作控制的框架。

然而，Numpy与TensorFlow有三个关键不同之处：

- 1.TensorFlow可以利用硬件如GPUs和TPUs，进行加速
- 2.TensorFlow能对任意可微矩阵自动计算梯度
- 3.TensorFlow的计算可以分配到一台或多台机器的大量设备上。

首先认识一下TensorFlow的核心：Tensor

**常量Tensor**

In [3]:
x = tf.constant([[5, 2], [1, 3]])
print(x)

tf.Tensor(
[[5 2]
 [1 3]], shape=(2, 2), dtype=int32)


它的值可以通过调用`.numpy()`:

In [4]:
x.numpy()

array([[5, 2],
       [1, 3]], dtype=int32)

像Numpy数组，对变量赋予dtype和shape的特征，

In [5]:
print("dtype:", x.dtype)
print("shape:", x.shape)

dtype: <dtype: 'int32'>
shape: (2, 2)


常用`tf.ones`和`tf.zeros`（就像np.ones和np.zeros）新建常量`tensors` :

In [6]:
print(tf.ones(shape=(2, 1)))
print(tf.zeros(shape=(2, 1)))

tf.Tensor(
[[1.]
 [1.]], shape=(2, 1), dtype=float32)
tf.Tensor(
[[0.]
 [0.]], shape=(2, 1), dtype=float32)


创建随机常量型张量：

In [7]:
x = tf.random.normal(shape=(2, 2), mean=0.0, stddev=1.0)
#x = tf.random.uniform(shape=(2, 2), minval=0, maxval=10, dtype="int32")
print(x)

tf.Tensor(
[[ 0.35567674  0.53794354]
 [ 1.3858515  -1.4235883 ]], shape=(2, 2), dtype=float32)


## 变量，Variables

特殊的tensors，可以储存可变的状态，例如模型的权重weights

可以创建带初始值的`Variable`：

In [9]:
initial_value = tf.random.normal(shape=(2, 2))
a = tf.Variable(initial_value)
print(a)

<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[ 0.01790815,  1.2378219 ],
       [ 0.12776296, -0.18256545]], dtype=float32)>


用`.assign(value)`，`.assign_add(increment)`或者`.assign_sub(decrement)`：

In [10]:
new_value = tf.random.normal(shape=(2, 2))
a.assign(new_value)
print(a)
for i in range(2):
    for j in range(2):
        assert a[i, j] == new_value[i, j]

added_value = tf.random.normal(shape=(2, 2))
a.assign_add(added_value)
for i in range(2):
    for j in range(2):
        assert a[i, j] == new_value[i, j] + added_value[i, j]

<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[-0.83476335,  0.79339784],
       [-0.15659136, -0.6752024 ]], dtype=float32)>


## 梯度

另一个与Numpy主要不同在于，可以自动查找任何可微表达式的梯度。只需打开`GradientTape`，通过`tape.watch()` watching，建立可微表达式并用作输入：

In [11]:
a = tf.random.normal(shape=(2, 2))
b = tf.random.normal(shape=(2, 2))

with tf.GradientTape() as tape:
    tape.watch(a)  # Start recording the history of operations applied to `a`
    c = tf.sqrt(tf.square(a) + tf.square(b))  # Do some math using `a`
    # What's the gradient of `c` with respect to `a`?
    dc_da = tape.gradient(c, a)
    print(dc_da)

tf.Tensor(
[[ 0.44801906 -0.33583528]
 [ 0.61287636 -0.8127741 ]], shape=(2, 2), dtype=float32)


通过嵌套tapes，可以计算高阶倒数：

In [16]:
a = tf.random.normal(shape=(2, 2))
b = tf.random.normal(shape=(2, 2))

with tf.GradientTape() as outer_tape:
    with tf.GradientTape() as tape:
        tape.watch(a)
        c = tf.sqrt(tf.square(a) + tf.square(b))
        dc_da = tape.gradient(c, a)
        print(dc_da, type(dc_da))
    d2c_da2 = outer_tape.gradient(dc_da, a)
    print(d2c_da2)

tf.Tensor(
[[ 0.73551667 -0.18915759]
 [ 0.4022748  -0.47815204]], shape=(2, 2), dtype=float32) <class 'tensorflow.python.framework.ops.EagerTensor'>


## 数据加载和预处理，Data loading & preprocessing

神经网络无法直接处理原始数据，如文本文件、经过编码的JPEG图像文件或者CSV文件。
神经网络只能处理**向量化vectorized**和**standardized标准化的**表示

- 文本文件需要读入后转化为**tf string tensor**，然后分隔成单词(token)。最后对字词建立索引并转换成整数型tensor。
- 图片数据需要读入后并解码成整型integer tensor，然后转换成浮点型并归一化成较小的数值（通常0~1）.
- CSV数据首先需要解析，将数值型属性转换成浮点型floating tensor，对categorical 类别型属性索引并转换成整型tensor。
通常对每个属性值进行归一化，使其具有零平均值和单位方差。

开始！

## 数据加载，Data loading

tf-Keras 模型接受3中类型的输入inputs:

- **NumPy arrays**, 与Scikit-Learn和其他Python库类似。如果数据能读入内存，这是个不错的选择
- **[TensorFlow `Dataset` objects](https://www.tensorflow.org/guide/data)**. TensorFlow Dataset objects，这可以提高性能，更适合于数据不能读入内存的数据集来说，且数据从硬盘或其他分布式文件系统读取的方式。
- **Python generators** 可以生成不同批次的数据（例如：定制的`keras.utils.Sequence`的子类）。 

在训练模型前，数据形式需要符合这三种之一。如果数据集较大，且在GPU上训练模型，建议考虑使用`Dataset`对象，因为这个类可以处理好性能关键的具体工作：
- 当GPU忙的时候，可以在CPU上异步地预处理数据集，并缓冲成队列。
- 将数据预读入GPU内存，在GPU处理完前一批数据时可以立即获得数据，因此可以充分利用GPU。


Keras有一些列工具可以将硬盘上原始数据转换成Dataset：
- `tf.keras.preprocessing.image_dataset_from_directory` 将存储在特定分类文件夹中的图形文件转换成带标签的图形tensor数据集。
- `tf.keras.preprocessing.text_dataset_from_directory` 与上述类似，但针对文本文件。

此外，TensorFlow `tf.data`包含其他类似的工具，例如`tf.data.experimental.make_csv_dataset`，从CSV文件加载结构化数据。


**例子：从硬盘上图形文件中获取带标注的数据集**

假设图形文件按类别存储在不同的文件夹中，如下所示：

```
main_directory/
...class_a/
......a_image_1.jpg
......a_image_2.jpg
...class_b/
......b_image_1.jpg
......b_image_2.jpg
```

可以操作如下：

```python
# 创建数据集
dataset = keras.preprocessing.image_dataset_from_directory(
  'path/to/main_directory', batch_size=64, image_size=(200, 200))

# 迭代访问该dataset生成的数据batches
for data, labels in dataset:
   print(data.shape)  # (64, 200, 200, 3)
   print(data.dtype)  # float32
   print(labels.shape)  # (64,)
   print(labels.dtype)  # int32
```
样本的标签可以是它所在文件夹的数字字母序号。很自然，这也可以显示的赋值，如：`class_names=['class_a', 'class_b']`，标签`0`赋值给class_a，标签`1`赋值给`class_b`。


**例子：从文本文件获取带标签的数据集**

同样地，后缀为`.txt`的文件分类存储在不同文件夹中，你可以：

```python
dataset = keras.preprocessing.text_dataset_from_directory(
  'path/to/main_directory', batch_size=64)

# 样例
for data, labels in dataset:
   print(data.shape)  # (64,)
   print(data.dtype)  # string
   print(labels.shape)  # (64,)
   print(labels.dtype)  # int32
```



## Keras数据预处理，Data preprocessing with Keras

当数据是字符串/整型/浮点型Nmumpy 矩阵，或者是`Dataset`对象（或者Python生成器）用于生成成批的字符串/整型/浮点型 tensor，此时就需要数据预处理**preprocess**。

这就是说：
- 字符串型数据的分词，并索引属性，Tokenization of string data, followed by token indexing.
- 特征归一化，Feature normalization.
- Rescaling，数据缩放至更小值（一般来说，神经网络的输出数值应该接近零，通常希望数据零平均值和单位方差，或者数据在`[0,1]`。）


### 理想的机器学习模型是端到端的 end-to-end

通常，需要设法使**数据预处理尽可能成为模型的一部分**，而不是外加一个数据处理通道。这是因为当需要重复使用模型时，外加的数据预处理**可移植性较差**。比如一个处理文本的模型：使用一个特殊的分词算法和一个专门的词汇索引。当需要迁移模型至移动app或JavaScriptapp，需要用目标语言重新设立预处理。这可能非常棘手，任何一下点与原处理过程不一致就可能彻底让模型无效，或者严重降低它的效果。

如果能简单的导出端对端的模型就会变得很简单，因为预处理已经包含在其中。理想的模型是期望输入越接近原始数据越好：图形模型最好是`[0,255]`RGB像素值，文本模型最好是utf-8的字符串。这样使用导出模型就不需要知道预处理环节。


### Keras预处理层 Using Keras preprocessing layers


在Keras中，模型内置预处理常使用预处理层**preprocessing layers**。包括：
- `TextVectorization`层：使原始字符串型文本数据的向量化
- `Normalization`层：属性值标准化
- 图形缩放、修剪、图形数据增强,Image rescaling, cropping, or image data augmentation

使用Keras预处理层的主要好处：在训练中或训练后直接引入模型，使得模型可移植性变强。

有些预处理层have a state:
- `TextVectorization`：保留词或词组到整型索引的映射
- `Normalization`：保留特征的平均值和方差


预处理层的状态可以在部分训练样本或全部样本上调用`layer.adapt(data)`获得。

**例子：将字符串转换成整型词索引序列**


In [23]:
from tensorflow.keras.layers.experimental.preprocessing import TextVectorization

# Example training data, of dtype `string`.
training_data = np.array([["This is the 1st sample."], ["And here's the 2nd sample."]])

# Create a TextVectorization layer instance. It can be configured to either
# return integer token indices, or a dense token representation (e.g. multi-hot
# or TF-IDF). The text standardization and text splitting algorithms are fully
# configurable.
vectorizer = TextVectorization(output_mode="int")

# Calling `adapt` on an array or dataset makes the layer generate a vocabulary
# index for the data, which can then be reused when seeing new data.
vectorizer.adapt(training_data)

# After calling adapt, the layer is able to encode any n-gram it has seen before
# in the `adapt()` data. Unknown n-grams are encoded via an "out-of-vocabulary"
# token.
integer_data = vectorizer(training_data)
print(integer_data)

tf.Tensor(
[[4 5 2 9 3]
 [7 6 2 8 3]], shape=(2, 5), dtype=int64)


**例子：将字符串转换成one-hot编码的双词序列**

In [24]:
from tensorflow.keras.layers.experimental.preprocessing import TextVectorization

# Example training data, of dtype `string`.
training_data = np.array([["This is the 1st sample."], ["And here's the 2nd sample."]])

# Create a TextVectorization layer instance. It can be configured to either
# return integer token indices, or a dense token representation (e.g. multi-hot
# or TF-IDF). The text standardization and text splitting algorithms are fully
# configurable.
vectorizer = TextVectorization(output_mode="binary", ngrams=2)

# Calling `adapt` on an array or dataset makes the layer generate a vocabulary
# index for the data, which can then be reused when seeing new data.
vectorizer.adapt(training_data)

# After calling adapt, the layer is able to encode any n-gram it has seen before
# in the `adapt()` data. Unknown n-grams are encoded via an "out-of-vocabulary"
# token.
integer_data = vectorizer(training_data)
print(integer_data)

tf.Tensor(
[[0. 1. 1. 1. 1. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 1. 1.]
 [0. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 1. 1. 1. 0. 0.]], shape=(2, 17), dtype=float32)


**例子：标准化属性值**

In [None]:
from tensorflow.keras.layers.experimental.preprocessing import Normalization

# Example image data, with values in the [0, 255] range
training_data = np.random.randint(0, 256, size=(64, 200, 200, 3)).astype("float32")

normalizer = Normalization(axis=-1)
normalizer.adapt(training_data)

normalized_data = normalizer(training_data)
print("var: %.4f" % np.var(normalized_data))
print("mean: %.4f" % np.mean(normalized_data))

**例子：缩放和中心裁剪图像**

`Rescaling`层和`CenterCrop`层都是无状态的stateless，因此不需要调用`adapt（）`。


In [None]:
from tensorflow.keras.layers.experimental.preprocessing import CenterCrop
from tensorflow.keras.layers.experimental.preprocessing import Rescaling

# Example image data, with values in the [0, 255] range
training_data = np.random.randint(0, 256, size=(64, 200, 200, 3)).astype("float32")

cropper = CenterCrop(height=150, width=150)
scaler = Rescaling(scale=1.0 / 255)

output_data = scaler(cropper(training_data))
print("shape:", output_data.shape)
print("min:", np.min(output_data))
print("max:", np.max(output_data))

## 采用Keras Functional API建立模型

**模型的一层A "layer"简单说就是输入输出的转换**。比如：线性映射层就是将输入映射到16维属性空间：

```python
dense = keras.layers.Dense(units=16)
```

而一个模型"model"就是由多个层`layer`组成的有向无环图。一个模型可以想象成一个大的层，里面含很多子层可以通过引入数据训练。

最常用且最有效的办法建立Keras模型就是`funtional API`。可以从指定特定形状（dtype可选）的输入开始采用功能API建立模型。Keras里，如果每个维度可变，则可指定为None。例如：输入为200*200的RGB图形可以为（200，200，3），但是输入为任意大小RGB的图像则可定义为（None，None，3）。


In [None]:
# Let's say we expect our inputs to be RGB images of arbitrary size
inputs = keras.Input(shape=(None, None, 3))

定义好输入形式后，可以在输入的基础上链接层转换直到得到最终输出结果：

In [None]:
from tensorflow.keras import layers

# Center-crop images to 150x150
x = CenterCrop(height=150, width=150)(inputs)
# Rescale images to [0, 1]
x = Rescaling(scale=1.0 / 255)(x)

# Apply some convolution and pooling layers
x = layers.Conv2D(filters=32, kernel_size=(3, 3), activation="relu")(x)
x = layers.MaxPooling2D(pool_size=(3, 3))(x)
x = layers.Conv2D(filters=32, kernel_size=(3, 3), activation="relu")(x)
x = layers.MaxPooling2D(pool_size=(3, 3))(x)
x = layers.Conv2D(filters=32, kernel_size=(3, 3), activation="relu")(x)

# Apply global average pooling to get flat feature vectors
x = layers.GlobalAveragePooling2D()(x)

# Add a dense classifier on top
num_classes = 10
outputs = layers.Dense(num_classes, activation="softmax")(x)

当你像搭积木一样定义好由不同层组成的有向无环图时，就建立了你的输入到输出的转化，也就是生成了一个模型对象：

In [None]:
model = keras.Model(inputs=inputs, outputs=outputs)

这个模型就想一个大的layer，可以输入一个batch的数据，如下：

In [None]:
data = np.random.randint(0, 256, size=(64, 200, 200, 3)).astype("float32")
processed_data = model(data)
print(processed_data.shape)

可以打印出模型的摘要，其显示的是你的数据在模型的每个阶段是如何做变换的。这对程序调试非常有用。
 
 需要注意的是，每层输出都会显示`batch的大小batch size`。这里batch大小为None，表明模型可以处理任意batch大小的数据。

In [None]:
model.summary()

当你的模型有多个输入和输出的时候，Functional API使得模型的构建更加的容易。

想更深入得了解次部分，请看[guide to the Functional API](/guides/functional_api/).

## 使用 keras model的 `fit()`方法进行训练

现在，已经学会了的：
- 怎么准备数据
- 怎么建立处理数据的模型

下一步就是在数据上训练模型。`Model`类具有内置训练循环，`fit()`方法。`Dataset`对象、可以参数batch 数据的`Python生成器`或者`Numpy矩阵`。

在调用`fit()`前，需要指定`优化器optimizer`和`损失函数loss function`。这就是`compile()`:


```python
model.compile(optimizer=keras.optimizers.RMSprop(learning_rate=1e-3),
              loss=keras.losses.CategoricalCrossentropy())
```

损失函数和优化器可以通过字符串标识符指定：


```python
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
```

一旦模型编译了，就可以给模型输入数据。以下就是给模型输入Numpy数据的例子：

```python
model.fit(numpy_array_of_samples, numpy_array_of_labels,
          batch_size=32, epochs=10)
```

除了数据，还需要指定2个关键参数：`batch_size`和重复次数（`epochs`）。以下是训练时batch为32个样本，重复10次的例子。


```python
model.fit(dataset_of_samples_and_labels, epochs=10)
```

因为从数据集上生成的数据通常是分了批的，通常不需要指定batch大小。

以下是MINIST数字分类的例子：


In [None]:
# Get the data as Numpy arrays
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

# Build a simple model
inputs = keras.Input(shape=(28, 28))
x = layers.experimental.preprocessing.Rescaling(1.0 / 255)(inputs)
x = layers.Flatten()(x)
x = layers.Dense(128, activation="relu")(x)
x = layers.Dense(128, activation="relu")(x)
outputs = layers.Dense(10, activation="softmax")(x)
model = keras.Model(inputs, outputs)
model.summary()

# Compile the model
model.compile(optimizer="adam", loss="sparse_categorical_crossentropy")

# Train the model for 1 epoch from Numpy data
batch_size = 64
print("Fit on NumPy data")
history = model.fit(x_train, y_train, batch_size=batch_size, epochs=1)

# Train the model for 1 epoch using a dataset
dataset = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(batch_size)
print("Fit on Dataset")
history = model.fit(dataset, epochs=1)

调用Fit()时返回“history”对象，记录整个训练过程发生了什么。`history.history`词典包含每个epoch时的metrics值（本例子中只有一个metric，loss）。

In [None]:
print(history.history)

深入 `fit()`, 请看：
[guide to training & evaluation with the built-in Keras methods](
  /guides/training_with_built_in_methods/).

### 跟踪性能指标

当训练模型时，需要跟踪如`分类准确率`、`精度`、`召回率`，`AUC`等指标。此外，不仅在训练数据集上在验证数据集上也需要监控这些指标。

**监控指标**

可以将指标对象赋值给`compile()`，如下：

In [None]:
model.compile(
    optimizer="adam",
    loss="sparse_categorical_crossentropy",
    metrics=[keras.metrics.SparseCategoricalAccuracy(name="acc")],
)
history = model.fit(dataset, epochs=1)

**将验证数据传递给`fit()`**

将验证数据传递给`fit()`可以监控验证损失和验证指标。验证指标再每次重复后会上报。

In [None]:
val_dataset = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(batch_size)
history = model.fit(dataset, epochs=1, validation_data=val_dataset)

### Using callbacks for checkpointing (and more) 用callbacks做保持模型

如果训练时间较长，那么在训练过程中定时保存模型就尤为重要。训练过程一旦崩溃，就可以利用保存的模型重新训练重新开始。

Keras一个重要特征就是**callbacks**，在`fit()`中配置。Callbacks是在训练过程中不同节点调用的对象，尤其是：
- 在每个batch的开始和结束
- 每个epoch的开始和结束

Callbacks 是使得模型训练可以完全脚本化的一种方法

你可以使用callbacks周期性的来存储你的模型。

举例: 使用`ModelCheckpoint` callback 来在每个epoch结束时存储模型。

```python
callbacks = [
    keras.callbacks.ModelCheckpoint(
        filepath='path/to/my/model_{epoch}',
        save_freq='epoch')
]
model.fit(dataset, epochs=2, callbacks=callbacks)
```

也可以使用callbacks周期性的更改学习率，把监控的各种metrics发到slack机器人、邮件通知等。

深入详见 [callbacks API documentation](/api/callbacks/) 和
[guide to writing custom callbacks](/guides/writing_your_own_callbacks/).

### 使用TensorBoard监控训练过程

keras 命令行中进度条不是最友好的方法来监控模型的loss和metrics。更好的选择是
[TensorBoard](https://www.tensorflow.org/tensorboard), 一个基于web的应用，可以实时的显示loss，metrics以及更多。

使用方法如下：传入 `keras.callbacks.TensorBoard` callback:

```python
callbacks = [
    keras.callbacks.TensorBoard(log_dir='./logs')
]
model.fit(dataset, epochs=2, callbacks=callbacks)
```

tensorboard启动方法:

```
tensorboard --logdir=./logs
```

更多使用方法请看：
[Here's more information](https://www.tensorflow.org/tensorboard/tensorboard_in_notebooks).

### 调用 `fit()`后: 评估测试性能和生产对新数据的预测

模型训练好后，可以使用 `evaluate()`评估模型在新数据集上的loss和metrics：

In [None]:
loss, acc = model.evaluate(val_dataset)  # returns loss and metrics
print("loss: %.2f" % loss)
print("acc: %.2f" % acc)

 也可以使用`predict()`预测，`predict()`是用来预测新数据不需要标签，所以不返回loss等指标

In [None]:
predictions = model.predict(val_dataset)
print(predictions.shape)

## `fit()`中使用自定义的训练步骤training step

默认设置，`fit()`是配置为监督学习环境。如果需要不同的训练过程（如对抗网络GAN的训练循环），可以提供自定义的实现`Model.train_step()`，keras内部`fit()`方法会重复的调用该方法。


Metrics, callbacks,可以如常工作

下面是重新实现 `fit()`：

```python
class CustomModel(keras.Model):
  def train_step(self, data):
    # Unpack the data. Its structure depends on your model and
    # on what you pass to `fit()`.
    x, y = data
    with tf.GradientTape() as tape:
      y_pred = self(x, training=True)  # Forward pass
      # Compute the loss value
      # (the loss function is configured in `compile()`)
      loss = self.compiled_loss(y, y_pred,regularization_losses=self.losses)
        
    # Compute gradients
    trainable_vars = self.trainable_variables
    gradients = tape.gradient(loss, trainable_vars)
    # Update weights
    self.optimizer.apply_gradients(zip(gradients, trainable_vars))
    # Update metrics (includes the metric that tracks the loss)
    self.compiled_metrics.update_state(y, y_pred)
    # Return a dict mapping metric names to current value
    return {m.name: m.result() for m in self.metrics}

# Construct and compile an instance of CustomModel
inputs = keras.Input(shape=(32,))
outputs = keras.layers.Dense(1)(inputs)
model = CustomModel(inputs, outputs)
model.compile(optimizer='adam', loss='mse', metrics=[...])

# Just use `fit` as usual
model.fit(dataset, epochs=3, callbacks=...)
```

想更深入请看:
["Customizing what happens in `fit()`"](/guides/customizing_what_happens_in_fit/).

## 使用即可执行eager execution来调试你的模型

如果自定义training steps or custom layers，通常需要对其进行调试。

 The debugging experience is an integral part of a framework: with Keras, the debugging
 workflow is designed with the user in mind.

默认情况下，keras模型会编译成高度优化的计算图，执行速度更快。也就是说模型中所写的python code(e.g. in a custom `train_step`)，并不是实际执行的code。这使得debug较为困难

通城Debugging最后能一步一步的执行，大家都喜欢用print(打印出过程信息)，设置你还想用`pdb`。这时我们需要使用即可执行eager execution模型，如下：

参数设置 `run_eagerly=True`，在 `compile()`方法中:

```python
model.compile(optimizer='adam', loss='mse', run_eagerly=True)
```

当然，该中方法的不足是模型要显著的慢一些。当模型完成调试时，正式训练时还是建议使用计算图模式。

## 使用多GPU加速训练

tf Keras 自带工业级的多GPU支持，和分布式multi-worker训练。通过 `tf.distribute` API实现.

如果你的机器上有多个GPU，可以同时使用所有GPU训练模型：

- 创建 `tf.distribute.MirroredStrategy` 对象
- 在strategy's scope内构建和编译模型
- 跟之前一样调用`fit()` and `evaluate()` 

```python
# Create a MirroredStrategy.
strategy = tf.distribute.MirroredStrategy()

# Open a strategy scope.
with strategy.scope():
  # Everything that creates variables should be under the strategy scope.
  # In general this is only model construction & `compile()`.
  model = Model(...)
  model.compile(...)

# Train the model on all available devices.
train_dataset, val_dataset, test_dataset = get_dataset()
model.fit(train_dataset, epochs=2, validation_data=val_dataset)

# Test the model on all available devices.
model.evaluate(test_dataset)
```

For a detailed introduction to multi-GPU & distributed training, see
[this guide](/guides/distributed_training/).

## GPU设备上同步进行预处理 VS. 异步在主机CPU上预处理

前文中讲述了预处理，其中直接在模型中使用(`CenterCrop` and `Rescaling`)等预处理层。

如果我们想在设备上做预处理，预处理作为模型的一部分是一个很好的选择。比如，GPU加速的特征标注化或图像数据扩展（image augmentation）。

但是这种预处理在以下情况不适合：特别是使用`TextVectorization`层进行文本预处理。由于其序列特性且只能在CPU上运行，在CPU上使用异步处理是个更好想法。

异步处理时，预处理操作在CPU上运行。当你的GPU忙时（处理上一个batch的数据），预处理后的samples会缓存到一个队列queue中。在GPU可用前，就可以把已经在queue中缓冲的处理好的样本提前获取（prefetching）到GPU内存中。这就保证了预处理不会阻塞GPU的使用。

异步预处理，使用`dataset.map`来注入预处理操作到数据处理流程pipeline中即可：

In [None]:
# Example training data, of dtype `string`.
samples = np.array([["This is the 1st sample."], ["And here's the 2nd sample."]])
labels = [[0], [1]]

# Prepare a TextVectorization layer.
vectorizer = TextVectorization(output_mode="int")
vectorizer.adapt(samples)

# Asynchronous preprocessing: the text vectorization is part of the tf.data pipeline.
# First, create a dataset
dataset = tf.data.Dataset.from_tensor_slices((samples, labels)).batch(2)
# Apply text vectorization to the samples
dataset = dataset.map(lambda x, y: (vectorizer(x), y))
# Prefetch with a buffer size of 2 batches
dataset = dataset.prefetch(2)

# Our model should expect sequences of integers as inputs
inputs = keras.Input(shape=(None,), dtype="int64")
x = layers.Embedding(input_dim=10, output_dim=32)(inputs)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

model.compile(optimizer="adam", loss="mse", run_eagerly=True)
model.fit(dataset)

与文本向量化预处理作为模型一部分对比：

In [None]:
# Our dataset will yield samples that are strings
dataset = tf.data.Dataset.from_tensor_slices((samples, labels)).batch(2)

# Our model should expect strings as inputs
inputs = keras.Input(shape=(1,), dtype="string")
x = vectorizer(inputs)
x = layers.Embedding(input_dim=10, output_dim=32)(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

model.compile(optimizer="adam", loss="mse", run_eagerly=True)
model.fit(dataset)

当模型训练也在CPU上的时候，我们将基本感受不到以上两种设置的性能差别。
但当在GPU上训练时，在CPU异步缓冲预处理，会带来极大的速度提升。

训练结束后，如果我们想导出一个端到端的模型（包含预处理层），也会很容易因为`TextVectorization`也是一个layer。


```python
inputs = keras.Input(shape=(1,), dtype='string')
x = vectorizer(inputs)
outputs = trained_model(x)
end_to_end_model = keras.Model(inputs, outputs)
```

## 通过超参数调整（hyperparameter tuning）寻找最优模型配置
Finding the best model configuration with hyperparameter tuning


当我们有了一个可使用的模型，就会想如何优化其配置 -- 模型架构选择，层的大小等。凭个人直觉或经验很难找到最优的模型，一个更系统化的方法是：hyperparameter search.

可以使用
[Keras Tuner](https://keras-team.github.io/keras-tuner/documentation/tuners/) 来找到keras模型的最优超参数。tf keras中 调用 `fit()`即可，就是这么容易。

那它是如何工作的呢？

首先，把你的模型定义放在一个函数中，该函数只有一个名为`hp`的参数。
这个函数中，我们把想要调优的超参数替换为超参数采用的方法, e.g. `hp.Int()` or `hp.Choice()`:


```python
def build_model(hp):
    inputs = keras.Input(shape=(784,))
    x = layers.Dense(
        units=hp.Int('units', min_value=32, max_value=512, step=32),
        activation='relu'))(inputs)
    outputs = layers.Dense(10, activation='softmax')(x)
    model = keras.Model(inputs, outputs)
    model.compile(
        optimizer=keras.optimizers.Adam(
            hp.Choice('learning_rate',
                      values=[1e-2, 1e-3, 1e-4])),
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy'])
    return model
```

该函数须返回的是编译后的模型。

下一步，创建一个tuner对象，指定优化目标和其它的搜索参数：


```python
import kerastuner

tuner = kerastuner.tuners.Hyperband(
  build_model,
  objective='val_loss',
  max_epochs=100,
  max_trials=200,
  executions_per_trial=2,
  directory='my_dir')
```

最后，使用`search()`方法就可以开始搜索，该方法接受跟 `Model.fit()`一样的参数：

```python
tuner.search(dataset, validation_data=val_dataset)
```

搜索结束后，可以使用一下方法得到最优参数模型：

```python
models = tuner.get_best_models(num_models=2)
```

或打印出结果摘要:

```python
tuner.results_summary()
```

## 在移动设备和 IoT 设备上部署机器学习模型
- 选择模型：选择新模型或重新训练现有模型。
- 转换：使用 TensorFlow Lite Converter 将 TensorFlow 模型转换为压缩平面缓冲区。
- 部署：获取压缩的 .tflite 文件，并将其加载到移动设备或嵌入式设备中。
- 优化：通过将 32 位浮点数转换为更高效的 8 位整数进行量化，或者在 GPU 上运行。

## 端到端的例子

To familiarize yourself with the concepts in this introduction, see the following
 end-to-end examples:

- [Text classification](/examples/nlp/text_classification_from_scratch/)
- [Image classification](/examples/vision/image_classification_from_scratch/)
- [Credit card fraud detection](/examples/structured_data/imbalanced_classification/)

## 进阶学习资料

- Learn more about the
[Functional API](/guides/functional_api/).
- Learn more about the
[features of `fit()` and `evaluate()`](/guides/training_with_built_in_methods/).
- Learn more about
[callbacks](/guides/writing_your_own_callbacks/).
- Learn more about
[creating your own custom training steps](/guides/customizing_what_happens_in_fit/).
- Learn more about
[multi-GPU and distributed training](/guides/distributed_training/).
- Learn how to do [transfer learning](/guides/transfer_learning/).