## 快速开始Sequential模型

In [1]:
# 快速开始Sequential模型

# Sequential是多个网络层的线性堆叠

# 可以通过向Sequential模型传递一个layer的list来构造该模型

from keras.models import Sequential
from keras.layers import Dense, Activation

model = Sequential([
Dense(32, input_dim=784),
Activation('relu'),
Dense(10),
Activation('softmax'),
])

Using TensorFlow backend.


In [2]:
# 也可以通过.add()方法一个个的将layer加入模型中

model = Sequential()
model.add(Dense(32, input_dim=784))
model.add(Activation('relu'))


## 输入数据的shape

模型需要知道输入数据的shape，因此，Sequential的第一层需要接受一个关于输入数据shape的参数，后面的各个层则可以自动的推导出中间数据的shape，因此不需要为每个层都指定这个参数。有几种方法来为第一层指定输入数据的shape

- 传递一个input_shape的关键字参数给第一层，input_shape是一个tuple类型的数据，其中也可以填入None，如果填入None则表示此位置可能是任何正整数。数据的batch大小不应包含在其中。
- 传递一个batch_input_shape的关键字参数给第一层，该参数包含数据的batch大小。该参数在指定固定大小batch时比较有用，例如在stateful RNNs中。事实上，Keras在内部会通过添加一个None将input_shape转化为batch_input_shape
- 有些2D层，如Dense，支持通过指定其输入维度input_dim来隐含的指定输入数据shape。一些3D的时域层支持通过参数input_dim和input_length来指定输入shape。

In [5]:
# 下面的三个指定输入数据shape的方法是严格等价的：

model = Sequential()
model.add(Dense(32, input_shape=(784,)))
model = Sequential()
model.add(Dense(32, batch_input_shape=(None, 784)))
# note that batch dimension is "None" here,
# so the model will be able to process batches of any size.</pre>
model = Sequential()
model.add(Dense(32, input_dim=784))


# 下面三种方法也是严格等价的：

model = Sequential()
model.add(LSTM(32, input_shape=(10, 64)))
model = Sequential()
model.add(LSTM(32, batch_input_shape=(None, 10, 64)))
model = Sequential()
model.add(LSTM(32, input_length=10, input_dim=64))

NameError: name 'LSTM' is not defined

## 编译

在训练模型之前通过compile来对学习过程进行配置。compile接收三个参数：

- 优化器optimizer：该参数可指定为已预定义的优化器名，如rmsprop、adagrad，或一个Optimizer类的对象，详情见optimizers
- 损失函数loss：该参数为模型试图最小化的目标函数，它可为预定义的损失函数名，如categorical_crossentropy、mse，也可以为一个损失函数。详情见objectives
- 指标列表metrics：对分类问题，我们一般将该列表设置为metrics=['accuracy']。指标可以是一个预定义指标的名字,也可以是一个用户定制的函数.指标函数应该返回单个张量,或一个完成metric_name - > metric_value映射的字典.请参考性能评估

In [None]:
# for a multi-class classification problem
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# for a binary classification problem
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# for a mean squared error regression problem
model.compile(optimizer='rmsprop',
              loss='mse')



# for custom metrics
import keras.backend as K

def mean_pred(y_true, y_pred):
    return K.mean(y_pred)

def false_rates(y_true, y_pred):
    false_neg = ...
    false_pos = ...
    return {
        'false_neg': false_neg,
        'false_pos': false_pos,
        }

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy', mean_pred, false_rates]

## 训练

Keras以Numpy数组作为输入数据和标签的数据类型。训练模型一般使用fit函数，该函数的详情见这里。下面是一些例子。

In [3]:
# for a single-input model with 2 classes (binary):
model = Sequential()
model.add(Dense(1, input_dim=784, activation='sigmoid'))
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# generate dummy data
import numpy as np
data = np.random.random((1000, 784))
labels = np.random.randint(2, size=(1000, 1))

# train the model, iterating on the data in batches
# of 32 samples
model.fit(data, labels, nb_epoch=30, batch_size=32, verbose=2)

Epoch 1/30
0s - loss: 0.7387 - acc: 0.4700
Epoch 2/30
0s - loss: 0.7204 - acc: 0.5040
Epoch 3/30
0s - loss: 0.7165 - acc: 0.5150
Epoch 4/30
0s - loss: 0.7041 - acc: 0.5300
Epoch 5/30
0s - loss: 0.6961 - acc: 0.5410
Epoch 6/30
0s - loss: 0.6909 - acc: 0.5470
Epoch 7/30
0s - loss: 0.6907 - acc: 0.5350
Epoch 8/30
0s - loss: 0.6732 - acc: 0.6020
Epoch 9/30
0s - loss: 0.6645 - acc: 0.6040
Epoch 10/30
0s - loss: 0.6611 - acc: 0.6000
Epoch 11/30
0s - loss: 0.6557 - acc: 0.6080
Epoch 12/30
0s - loss: 0.6497 - acc: 0.6280
Epoch 13/30
0s - loss: 0.6385 - acc: 0.6320
Epoch 14/30
0s - loss: 0.6367 - acc: 0.6440
Epoch 15/30
0s - loss: 0.6337 - acc: 0.6400
Epoch 16/30
0s - loss: 0.6291 - acc: 0.6450
Epoch 17/30
0s - loss: 0.6140 - acc: 0.6810
Epoch 18/30
0s - loss: 0.6216 - acc: 0.6750
Epoch 19/30
0s - loss: 0.6101 - acc: 0.6910
Epoch 20/30
0s - loss: 0.6054 - acc: 0.6980
Epoch 21/30
0s - loss: 0.6006 - acc: 0.7010
Epoch 22/30
0s - loss: 0.5907 - acc: 0.6890
Epoch 23/30
0s - loss: 0.5906 - acc: 0.72

<keras.callbacks.History at 0x16122126a58>

In [9]:
# for a multi-input model with 10 classes:

left_branch = Sequential()
left_branch.add(Dense(32, input_dim=784))

right_branch = Sequential()
right_branch.add(Dense(32, input_dim=784))

from keras.layers import Merge
merged = Merge([left_branch, right_branch], mode='concat')

model = Sequential()
model.add(merged)
model.add(Dense(10, activation='softmax'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# generate dummy data
import numpy as np
from keras.utils.np_utils import to_categorical
data_1 = np.random.random((1000, 784))
data_2 = np.random.random((1000, 784))

# these are integers between 0 and 9
labels = np.random.randint(10, size=(1000, 1))
# we convert the labels to a binary matrix of size (1000, 10)
# for use with categorical_crossentropy
labels = to_categorical(labels, 10)

# train the model
# note that we are passing a list of Numpy arrays as training data
# since the model has 2 inputs
model.fit([data_1, data_2], labels, nb_epoch=10, batch_size=32)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x23ce2d115f8>

In [None]:
# 如何在每个epoch后记录训练/测试的loss和正确率？


# model.fit在运行结束后返回一个History对象，
# 其中含有的history属性包含了训练过程中损失函数的值以及其他度量指标。

hist = model.fit(X, y, validation_split=0.2)
print(hist.history)

In [13]:
hist = _

In [14]:
print(hist.history)


{'loss': [2.9599301223754884, 2.6319890480041503, 2.5086392288208006, 2.4193947353363039, 2.2821615600585936, 2.1612506513595582, 2.0938981533050538, 1.9655143051147461, 1.9027737426757811, 1.7417905464172363], 'acc': [0.108, 0.115, 0.14199999999999999, 0.158, 0.20799999999999999, 0.23999999999999999, 0.25900000000000001, 0.29899999999999999, 0.32900000000000001, 0.41099999999999998]}


## 例子

这里是一些帮助你开始的例子

在Keras代码包的examples文件夹中，你将找到使用真实数据的示例模型：

- CIFAR10 小图片分类：使用CNN和实时数据提升
- IMDB 电影评论观点分类：使用LSTM处理成序列的词语
- Reuters（路透社）新闻主题分类：使用多层感知器（MLP）
- MNIST手写数字识别：使用多层感知器和CNN
- 字符级文本生成：使用LSTM ...

In [11]:
# 基于多层感知器的softmax多分类：


from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.optimizers import SGD

model = Sequential()
# Dense(64) is a fully-connected layer with 64 hidden units.
# in the first layer, you must specify the expected input data shape:
# here, 20-dimensional vectors.
model.add(Dense(64, input_dim=20, init='uniform'))
model.add(Activation('tanh'))
model.add(Dropout(0.5))
model.add(Dense(64, init='uniform'))
model.add(Activation('tanh'))
model.add(Dropout(0.5))
model.add(Dense(10, init='uniform'))
model.add(Activation('softmax'))

sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='categorical_crossentropy',
              optimizer=sgd,
              metrics=['accuracy'])

model.fit(X_train, y_train,
          nb_epoch=20,
          batch_size=16)
score = model.evaluate(X_test, y_test, batch_size=16)   




# 相似MLP的另一种实现：

model = Sequential()
model.add(Dense(64, input_dim=20, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))

model.compile(loss='categorical_crossentropy',
              optimizer='adadelta',
              metrics=['accuracy'])




# 用于二分类的多层感知器：

model = Sequential()
model.add(Dense(64, input_dim=20, init='uniform', activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])




# 类似VGG的卷积神经网络：

from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Convolution2D, MaxPooling2D
from keras.optimizers import SGD

model = Sequential()
# input: 100x100 images with 3 channels -> (3, 100, 100) tensors.
# this applies 32 convolution filters of size 3x3 each.
model.add(Convolution2D(32, 3, 3, border_mode='valid', input_shape=(3, 100, 100)))
model.add(Activation('relu'))
model.add(Convolution2D(32, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))

model.add(Convolution2D(64, 3, 3, border_mode='valid'))
model.add(Activation('relu'))
model.add(Convolution2D(64, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))

model.add(Flatten())
# Note: Keras does automatic shape inference.
model.add(Dense(256))
model.add(Activation('relu'))
model.add(Dropout(0.5))

model.add(Dense(10))
model.add(Activation('softmax'))

sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='categorical_crossentropy', optimizer=sgd)

model.fit(X_train, Y_train, batch_size=32, nb_epoch=1)




# 使用LSTM的序列分类

from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.layers import Embedding
from keras.layers import LSTM

model = Sequential()
model.add(Embedding(max_features, 256, input_length=maxlen))
model.add(LSTM(output_dim=128, activation='sigmoid', inner_activation='hard_sigmoid'))
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

model.fit(X_train, Y_train, batch_size=16, nb_epoch=10)
score = model.evaluate(X_test, Y_test, batch_size=16)

SyntaxError: invalid character in identifier (<ipython-input-11-a94f4c3c87b0>, line 61)

## 如何保存Keras模型？


我们不推荐使用pickle或cPickle来保存Keras模型

你可以使用model.save(filepath)将Keras模型和权重保存在一个HDF5文件中，该文件将包含：

- 模型的结构，以便重构该模型
- 模型的权重
- 训练配置（损失函数，优化器等）
- 优化器的状态，以便于从上次训练中断的地方开始

使用keras.models.load_model(filepath)来重新实例化你的模型，如果文件中存储了训练配置的话，该函数还会同时完成模型的编译

例子：

In [None]:
from keras.models import load_model

model.save('my_model.h5')  # creates a HDF5 file 'my_model.h5'
del model  # deletes the existing model

# returns a compiled model
# identical to the previous one
model = load_model('my_model.h5')


# 如果你只是希望保存模型的结构，而不包含其权重或配置信息，可以使用：
# save as JSON
json_string = model.to_json()
# save as YAML
yaml_string = model.to_yaml()
# 这项操作将把模型序列化为json或yaml文件，这些文件对人而言也是友好的，
# 如果需要的话你甚至可以手动打开这些文件并进行编辑。


# 当然，你也可以从保存好的json文件或yaml文件中载入模型：
# model reconstruction from JSON:
from keras.models import model_from_json
model = model_from_json(json_string)
# model reconstruction from YAML
model = model_from_yaml(yaml_string)


# 如果需要保存模型的权重，可通过下面的代码利用HDF5进行保存。
# 注意，在使用前需要确保你已安装了HDF5和其Python库h5py
model.save_weights('my_model_weights.h5')
# 如果你需要在代码中初始化一个完全相同的模型，请使用：
model.load_weights('my_model_weights.h5')

## Model.fit

In [None]:
fit(self, x, y, 
    batch_size=32, 
    nb_epoch=10, 
    verbose=1, 
    callbacks=[], 
    validation_split=0.0, 
    validation_data=None, 
    shuffle=True, 
    class_weight=None, 
    sample_weight=None
   )


# 本函数将模型训练nb_epoch轮，其参数有：

# x：输入数据。如果模型只有一个输入，那么x的类型是numpy array，如果模型有多个输入，那么x的类型应当为list，list的元素是对应于各个输入的numpy array
# y：标签，numpy array
# batch_size：整数，指定进行梯度下降时每个batch包含的样本数。训练时一个batch的样本会被计算一次梯度下降，使目标函数优化一步。
# nb_epoch：整数，训练的轮数，训练数据将会被遍历nb_epoch次。Keras中nb开头的变量均为"number of"的意思
# verbose：日志显示，0为不在标准输出流输出日志信息，1为输出进度条记录，2为每个epoch输出一行记录
# callbacks：list，其中的元素是keras.callbacks.Callback的对象。这个list中的回调函数将会在训练过程中的适当时机被调用，参考回调函数
# validation_split：0~1之间的浮点数，用来指定训练集的一定比例数据作为验证集。验证集将不参与训练，并在每个epoch结束后测试的模型的指标，如损失函数、精确度等。
# validation_data：形式为（X，y）的tuple，是指定的验证集。此参数将覆盖validation_spilt。
# shuffle：布尔值或字符串，一般为布尔值，表示是否在训练过程中随机打乱输入样本的顺序。若为字符串“batch”，则是用来处理HDF5数据的特殊情况，它将在batch内部将数据打乱。
# class_weight：字典，将不同的类别映射为不同的权值，该参数用来在训练过程中调整损失函数（只能用于训练）
# sample_weight：权值的numpy array，用于在训练时调整损失函数（仅用于训练）。可以传递一个1D的与样本等长的向量用于对样本进行1对1的加权，或者在面对时序数据时，传递一个的形式为（samples，sequence_length）的矩阵来为每个时间步上的样本赋不同的权。这种情况下请确定在编译模型时添加了sample_weight_mode='temporal'。
# fit函数返回一个History的对象，其History.history属性记录了损失函数和其他指标的数值随epoch变化的情况，如果有验证集的话，也包含了验证集的这些指标变化情况

## 图片预处理

In [None]:
# 图片生成器ImageDataGenerator

keras.preprocessing.image.ImageDataGenerator(featurewise_center=False,
    samplewise_center=False,
    featurewise_std_normalization=False,
    samplewise_std_normalization=False,
    zca_whitening=False,
    rotation_range=0.,
    width_shift_range=0.,
    height_shift_range=0.,
    shear_range=0.,
    zoom_range=0.,
    channel_shift_range=0.,
    fill_mode='nearest',
    cval=0.,
    horizontal_flip=False,
    vertical_flip=False,
    rescale=None,
    dim_ordering=K.image_dim_ordering())

# 用以生成一个batch的图像数据，支持实时数据提升。训练时该函数会无限生成数据，直到达到规定的epoch次数为止。



参数

- featurewise_center：布尔值，使输入数据集去中心化（均值为0）, 按feature执行
- samplewise_center：布尔值，使输入数据的每个样本均值为0
- featurewise_std_normalization：布尔值，将输入除以数据集的标准差以完成标准化, 按feature执行
- samplewise_std_normalization：布尔值，将输入的每个样本除以其自身的标准差
- zca_whitening：布尔值，对输入数据施加ZCA白化
- rotation_range：整数，数据提升时图片随机转动的角度
- width_shift_range：浮点数，图片宽度的某个比例，数据提升时图片水平偏移的幅度
- height_shift_range：浮点数，图片高度的某个比例，数据提升时图片竖直偏移的幅度
- shear_range：浮点数，剪切强度（逆时针方向的剪切变换角度）
- zoom_range：浮点数或形如[lower,upper]的列表，随机缩放的幅度，若为浮点数，则相当于[lower,upper] = [1 - zoom_range, 1+zoom_range]
- channel_shift_range：浮点数，随机通道偏移的幅度
- fill_mode：；‘constant’，‘nearest’，‘reflect’或‘wrap’之一，当进行变换时超出边界的点将根据本参数给定的方法进行处理
- cval：浮点数或整数，当fill_mode=constant时，指定要向超出边界的点填充的值
- horizontal_flip：布尔值，进行随机水平翻转
- vertical_flip：布尔值，进行随机竖直翻转
- rescale: 重放缩因子,默认为None. 如果为None或0则不进行放缩,否则会将该数值乘到数据上(在应用其他变换之前)
- dim_ordering：‘tf’和‘th’之一，规定数据的维度顺序。‘tf’模式下数据的形状为samples, height, width, channels，‘th’下形状为(samples, channels, height, width).该参数的默认值是Keras配置文件~/.keras/keras.json的image_dim_ordering值,如果你从未设置过的话,就是'tf'


## 模型可视化

In [None]:
# 土办法
# show image from local
from keras.utils.visualize_util import plot
plot(model, show_shapes=True, to_file='model.png')
from IPython.display import display, Image
display(Image('model.png', width=500))

# 后来发现可以配置在Jupyter直接显示SVG

In [4]:
# 我们也可以直接获取一个pydot.Graph对象，然后按照自己的需要配置它，例如，如果要在ipython中展示图片

from IPython.display import SVG
from keras.utils.visualize_util import model_to_dot

SVG(model_to_dot(model).create(prog='dot', format='svg'))

# 【Tips】依赖 pydot-ng 和 graphviz，
# 命令行输入pip install pydot-ng & brew install graphviz

SyntaxError: invalid syntax (<ipython-input-4-d866d79115e7>, line 9)

## Convolution2D层

In [None]:
keras.layers.convolutional.Convolution2D(nb_filter, 
                                         nb_row, 
                                         nb_col, 
                                         init='glorot_uniform', 
                                         activation='linear', 
                                         weights=None, 
                                         border_mode='valid', 
                                         subsample=(1, 1), 
                                         dim_ordering='th', 
                                         W_regularizer=None, 
                                         b_regularizer=None, 
                                         activity_regularizer=None, 
                                         W_constraint=None, 
                                         b_constraint=None, 
                                         bias=True)

二维卷积层对二维输入进行滑动窗卷积，当使用该层作为第一层时，应提供input_shape参数。
例如input_shape = (3,128,128)代表128*128的彩色RGB图像



- nb_filter：卷积核的数目
- nb_row：卷积核的行数
- nb_col：卷积核的列数
- init：初始化方法，为预定义初始化方法名的字符串，或用于初始化权重的Theano函数。该参数仅在不传递weights参数时有意义。
- activation：激活函数，为预定义的激活函数名（参考激活函数），或逐元素（element-wise）的Theano函数。如果不指定该参数，将不会使用任何激活函数（即使用线性激活函数：a(x)=x）
- weights：权值，为numpy array的list。该list应含有一个形如（input_dim,output_dim）的权重矩阵和一个形如(output_dim,)的偏置向量。
- border_mode：边界模式，为“valid”，“same”或“full”，full需要以theano为后端
- subsample：长为2的tuple，输出对输入的下采样因子，更普遍的称呼是“strides”
- W_regularizer：施加在权重上的正则项，为WeightRegularizer对象
- b_regularizer：施加在偏置向量上的正则项，为WeightRegularizer对象
- activity_regularizer：施加在输出上的正则项，为ActivityRegularizer对象
- W_constraints：施加在权重上的约束项，为Constraints对象
- b_constraints：施加在偏置上的约束项，为Constraints对象
- dim_ordering：‘th’或‘tf’。‘th’模式中通道维（如彩色图像的3通道）位于第1个位置（维度从0开始算），而在‘tf’模式中，通道维位于第3个位置。例如128*128的三通道彩色图片，在‘th’模式中input_shape应写为（3，128，128），而在‘tf’模式中应写为（128，128，3），注意这里3出现在第0个位置，因为input_shape不包含样本数的维度，在其内部实现中，实际上是（None，3，128，128）和（None，128，128，3）。默认是image_dim_ordering指定的模式，可在~/.keras/keras.json中查看，若没有设置过则为'tf'。
- bias：布尔值，是否包含偏置向量（即层对输入做线性变换还是仿射变换）

## 正则项

正则项在优化过程中层的参数或层的激活值添加惩罚项，这些惩罚项将与损失函数一起作为网络的最终优化目标

惩罚项基于层进行惩罚，目前惩罚项的接口与层有关，但Dense, TimeDistributedDense, MaxoutDense, Covolution1D, Covolution2D, Convolution3D具有共同的接口。

这些层有三个关键字参数以施加正则项：

- W_regularizer：施加在权重上的正则项，为WeightRegularizer对象
- b_regularizer：施加在偏置向量上的正则项，为WeightRegularizer对象
- activity_regularizer：施加在输出上的正则项，为ActivityRegularizer对象

In [None]:
from keras.regularizers import l2, activity_l2
model.add(Dense(64, 
                input_dim=64, 
                W_regularizer=l2(0.01), 
                activity_regularizer=activity_l2(0.01)
               ))


keras.regularizers支持以下缩写

- l1(l=0.01)：L1正则项，又称LASSO
- l2(l=0.01)：L2正则项，又称权重衰减或Ridge
- l1l2(l1=0.01, l2=0.01)： L1-L2混合正则项, 又称ElasticNet
- activity_l1(l=0.01)： L1激活值正则项
- activity_l2(l=0.01)： L2激活值正则项
- activity_l1l2(l1=0.01, l2=0.01)： L1+L2激活值正则项

【Tips】
正则项通常用于对模型的训练施加某种约束，L1正则项即L1范数约束，该约束会使被约束矩阵/向量更稀疏。
L2正则项即L2范数约束，该约束会使被约束的矩阵/向量更平滑，因为它对脉冲型的值有很大的惩罚。【@Bigmoyan】

## Dense层

In [None]:
keras.layers.core.Dense(output_dim, 
                        init='glorot_uniform', 
                        activation='linear', 
                        weights=None, 
                        W_regularizer=None, 
                        b_regularizer=None, 
                        activity_regularizer=None, 
                        W_constraint=None, 
                        b_constraint=None, 
                        bias=True, 
                        input_dim=None)


# Dense就是常用的全连接层，这里是一个使用示例：

# as first layer in a sequential model:
model = Sequential()
model.add(Dense(32, input_dim=16))
# now the model will take as input arrays of shape (*, 16)
# and output arrays of shape (*, 32)

# this is equivalent to the above:
model = Sequential()
model.add(Dense(32, input_shape=(16,)))

# after the first layer, you don't need to specify
# the size of the input anymore:
model.add(Dense(32))

参数：

- output_dim：大于0的整数，代表该层的输出维度。模型中非首层的全连接层其输入维度可以自动推断，因此非首层的全连接定义时不需要指定输入维度。
- init：初始化方法，为预定义初始化方法名的字符串，或用于初始化权重的Theano函数。该参数仅在不传递weights参数时才有意义。
- activation：激活函数，为预定义的激活函数名（参考激活函数），或逐元素（element-wise）的Theano函数。如果不指定该参数，将不会使用任何激活函数（即使用线性激活函数：a(x)=x）
- weights：权值，为numpy array的list。该list应含有一个形如（input_dim,output_dim）的权重矩阵和一个形如(output_dim,)的偏置向量。
- W_regularizer：施加在权重上的正则项，为WeightRegularizer对象
- b_regularizer：施加在偏置向量上的正则项，为WeightRegularizer对象
- activity_regularizer：施加在输出上的正则项，为ActivityRegularizer对象
- W_constraints：施加在权重上的约束项，为Constraints对象
- b_constraints：施加在偏置上的约束项，为Constraints对象
- bias：布尔值，是否包含偏置向量（即层对输入做线性变换还是仿射变换）
- input_dim：整数，输入数据的维度。当Dense层作为网络的第一层时，必须指定该参数或input_shape参数。