# 快速开始Sequential模型

Sequential是多个网络层的线性堆叠。

可以通过向Sequential模型传递一个layer的list来构造该模型：

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Activation

model = Sequential([
        Dense(32, input_dim=784),
        Activation('relu'),
        Dense(10),
        Activation('softmax')
    ])

也可以通过.add()方法一个个的将layer加入模型中：

In [None]:
model = Sequential()
model.add(Dense(32, input_dim=784))
model.add(Activation('relu'))

# 指定输入数据的shape

模型需要知道输入数据的shape，因此，Sequential的第一层需要接受一个关于输入数据shape的参数，后面的各个层则可以自动地推导出中间数据的shape，因此不需要为每个层都指定这个参数。有几种方法来为第一层指定输入数据的shape。

* 传递一个input_shape的关键字参数给第一层，input_shape是一个tuple类型的数据，其中也可以填入None，如果填入None则表示此位置可能是任何正整数。数据的batch大小不应包含在其中。
* 传递一个batch_input_shape的关键字参数给第一层，该参数包含数据的batch大小。该参数在指定固定大小batch时比较有用，例如在stateful RNNs中。事实上，Keras内部会通过添加一个None将input_shape转化为batch_input_shape。
* 有些2D层，如Dense，支持通过指定其输入维度input_dim来隐含的指定输入数据shape。一些3D的时域层支持通过参数input_dim和input_length来指定输入shape。

下面的三个指定输入数据shape的方法是严格等价的：

In [None]:
model = Sequential()
model.add(Dense(32, input_shape=(784, )))

In [None]:
model = Sequential()
model.add(Dense(32, batch_input_shape=(None, 784)))
# note that batch dimension is "None" here,
# so the model will be able to process batches of any size.

In [None]:
model = Sequential()
model.add(Dense(32, input_dim=784))

下面三种方法也是严格等价的：

In [None]:
model = Sequential()
model.add(LSTM(32, input_shape=(10, 64)))

In [None]:
model = Sequential()
model.add(LSTM(32, batch_input_size=(None, 10, 64))

In [None]:
model = Sequential()
model.add(LSTM(32, input_length=10, input_dim=64))

# Merge层

多个Sequential可经由一个Merge层合并到一个输出。Merge层的输出是一个可以被添加到新Sequential的层对象。下面这个例子将两个Sequential合并到一起：

In [None]:
from keras.layers import Merge

left_branch = Sequential()
left_branch.add(Dense(32, input_dim=784))

right_branch = Sequential()
right_branch.add(Dense(32, input_dim=784))

merged = Merge([left_branch, right_branch], mode='concat')

final_mode = Sequential()
final_mode.add(merged)
final_mode.add(Dense(10, activation='softmax'))

![](3-attach-files/two_branches_sequential_model.png)

Merge层支持一些预定义的合并模式，包括：

* sum(default)：逐元素相加
* concat：张量串联，可以通过concat_axis的关键字参数指定按照哪个轴进行串联
* mul：逐元素相乘
* ave：张量平均
* dot：张量相乘，可以通过dot_axis关键字参数来指定要消去的轴
* cos：计算2D张量(即矩阵)中各个向量的余弦距离

这个两个分支的模型可以通过下面的代码训练：

In [None]:
final_model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
final_model.fit([input_data_1, input_data_2], targets) # we pass one data array per model input

也可以为Merge层提供关键字参数mode，以实现任意的变换，例如：

In [None]:
merged = Merge([left_branch, right_branch], mode=lambda x: x[0] - x[1])

现在你已经学会定义几乎任何Keras的模型了，对于不能通过Sequential和Merge组合生成的复杂模型，可以参考下节介绍的泛型模型。

# 编译

在训练模型之前，我们需要通过compile来对学习过程进行配置。compile接收三个参数：

* 优化器optimizer：该参数可指定为已预订义的优化器名，如rmsprop、adagrad、或一个Optimizer类的对象。
* 损失函数loss：该参数为模型试图最小化的目标函数，它可为预定义的损失函数名，如categorical_crossentropy、mse，也可以为一个损失函数。
* 指标列表metrics：对分类问题，我们一般将该列表设置为metrics=['accuracy']。指标可以是一个预定义指标的名字，也可以是一个用户定制的函数。指标函数应该返回单个张量，或一个完成metric_name -> metric_value映射的字典。

In [None]:
# for a multi-class classification problem
model.compile(optimizer='rmsprop',
             loss='categorical_crossentropy',
             metrics=['accuracy'])

# for a binary classification problem
model.compile(optimizer='rmsprop',
             loss='binary_crossentropy',
             metrics=['accuracy'])

# for a mean squared error regression problem
model.compile(optimizer='rmsprop',
             loss='mse')

# for custom metrics
import keras.backend as K

def mean_pred(y_true, y_pred):
    return K.mean(y_pred)

def false_rates(y_true, y_pred):
    false_neg = ...
    false_pos = ...
    return {
        'false_neg': false_neg,
        'false_pos': false_pos,
    }

model.compile(optimizer='rmsprop',
             loss='binary_crossentropy',
             metrics=['accuracy', mean_pred, false_rates])

# 训练

Keras以Numpy数组作为输入数据和标签的数据类型。训练模型一般使用fit函数。下面是一些例子。

In [None]:
# for a single-input model with 2 classes (binary)
model = Sequential()
model.add(Dense(1, input_dim=784, activation='sigmoid'))
model.compile(optimizer='rmsprop',
             loss='binary_crossentropy',
             metrics=['accuracy'])

# generate dummy data
import numpy as np
data = np.random.random((1000, 784))
labels = np.random.randint(2, size=(1000, 1))

# train the model, iterating on the data in batches of 32 samples
model.fit(data, labels, nb_epoch=10, batch_size=32)