In [1]:
import numpy as np

In [2]:
np.random.seed(1337)

In [3]:
from keras.models import Sequential

Using TensorFlow backend.


In [4]:
from keras.layers import Dense

In [5]:
import matplotlib.pyplot as plt

## 模型

### 序列模型

#### 构造方式
1.传入层实例列表给序列模型构造器
```
from keras.models import Sequential
from keras.layers import Dense, Activation
model = Sequential([
    Dense(32, input_shape=(784,)),  # 784*32
    Activation('relu'),
    Dense(10),               #后面的层的输入自动推导
    Activation('softmax'),
])
```
2.add方法
```
model = Sequential()
model.add(Dense(32, input_dim=784))
model.add(Activation('relu'))
```

#### 指定输入形状
input_shape 第一层需要，  形状元组 ， 如果为None，则表示任意正整数，  不包含批量维度

2D 层 支持  input_dim 输入维度

3D 层 支持  input_dim，input_length 输入长度

```
以下等价
model = Sequential()
#model.add(Dense(32, input_shape=(784,)))
#model.add(Dense(32, input_dim=784))
```

对于有状态循环网络等而言，需要固定的批量尺寸（大小），
支持batch_size，batch_size=32 and input_shape=(6, 8) -->批量形状batch shape (32, 6, 8)

#### 编译Compilation  配置学习过程
一个优化器     优化器字符串或者优化器实例
一个损失函数   损失函数字符串或者损失函数
一列指标       指标字符串列表或者指标函数列表
```
# 多类分类问题
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# 二分类问题
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# 均方误差回归问题
model.compile(optimizer='rmsprop',
              loss='mse')

# 自定义指标
import keras.backend as K  #keras使用tensorflow 相当于pandas使用numpy

def mean_pred(y_true, y_pred):
    return K.mean(y_pred)

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy', mean_pred])
```

#### 训练Training  model.fit()  模型拟合数据

##### 数据格式
输入数据和标签用numpy数组管理

In [None]:
#简单模型的二分类问题

model = Sequential()
model.add(Dense(32, activation='relu', input_dim=100))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])
#100->relu->32->sigmoid->1

# 生成 numpy 数据
import numpy as np
data = np.random.random((1000, 100)) #[0,1]范围 1000个* 100维
labels = np.random.randint(2, size=(1000, 1)) #low 右开  3->0,1,2 , 1000个大小（维度）为1的数据点  形状：1000（长度，数量）*1（维度）

# 训练模型，以32样本的批量大小迭代数据
model.fit(data, labels, epochs=10, batch_size=32)  #10轮

Epoch 1/10
1000/1000 [==============================] - 0s - loss: 0.7019 - acc: 0.5320     
Epoch 2/10
1000/1000 [==============================] - 0s - loss: 0.6939 - acc: 0.5290     
Epoch 3/10
1000/1000 [==============================] - 0s - loss: 0.6899 - acc: 0.5260     
Epoch 4/10
1000/1000 [==============================] - 0s - loss: 0.6872 - acc: 0.5500     
Epoch 5/10
1000/1000 [==============================] - 0s - loss: 0.6846 - acc: 0.5630     
Epoch 6/10
1000/1000 [==============================] - 0s - loss: 0.6811 - acc: 0.5540     
Epoch 7/10
1000/1000 [==============================] - 0s - loss: 0.6778 - acc: 0.5860     
Epoch 8/10
1000/1000 [==============================] - 0s - loss: 0.6767 - acc: 0.5830     
Epoch 9/10
1000/1000 [==============================] - 0s - loss: 0.6746 - acc: 0.5820     
Epoch 10/10
1000/1000 [==============================] - 0s - loss: 0.6723 - acc: 0.5890     
Out[29]:
<keras.callbacks.History at 0x20c4dadf780>

```
# 多分类问题

model = Sequential()
model.add(Dense(32, activation='relu', input_dim=100))
model.add(Dense(10, activation='softmax'))
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
#100 relu 32 softmax 10

# 生成 numpy 数据
import numpy as np
data = np.random.random((1000, 100))
labels = np.random.randint(10, size=(1000, 1))

# 将标签转换为独热编码  9->[0,0,0,0,0,0,0,0,0,1]
one_hot_labels = keras.utils.to_categorical(labels, num_classes=10)# 1000个*10维

# 训练模型，以32样本的批量大小迭代数据
model.fit(data, one_hot_labels, epochs=10, batch_size=32)
```

In [6]:
import keras
from keras.models import Sequential
from keras.layers import Dense,Dropout,Activation
from keras.optimizers import SGD

import numpy as np
x_train = np.random.random((1000,20))
#y_train = keras.utils.to_categorical(np.random.randint(10,size=(1000,1)),num_classes=10)
y_train = np.random.randint(2,size=(1000,1))
x_test = np.random.random((100,20))
#y_test = keras.utils.to_categorical(np.random.randint(10,size=(100,1)),num_classes=10)
y_test = np.random.randint(2,size=(100,1))

model = Sequential()
model.add(Dense(64,activation='relu',input_dim=20))
model.add(Dropout(0.5))
model.add(Dense(64,activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1,activation='sigmoid'))

sgd = SGD(lr=0.01,decay=1e-6,momentum=0.9,nesterov=True)
model.compile('adam','binary_crossentropy',['accuracy'])
#model.fit(x_train,y_train,epochs=20,batch_size=128)
#model.evaluate(x_test,y_test,batch_size=128)

In [None]:
np.random.random?

In [None]:
sorted(l,key = lambda i:i[0],reverse=True)
[('b', 1), ('a', 2)]
sorted(l,key = lambda i:i[1],reverse=True)
[('a', 2), ('b', 1)]

## 层

In [None]:
Core

全连接层：Dense

Activation层：对一个层的输出添加激活函数

Dropout层：每次更新参数的时候随机断开一定百分比(b)的输入神经元连接，用于防止过拟合

Flatten层：用来将输入“压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。

Reshape层：用来将输入shape转换为特定的shape

Permute层：将输入的维度按照给定模式进行重排，例如，当需要将RNN和CNN网络连接时，可能会用到该层。

RepeatVector层：RepeatVector层将输入重复n次

Merge层：Merge层根据给定的模式，将一个张量列表中的若干张量合并为一个单独的张量

Lambda层：本函数用以对上一层的输出施以任何Theano/TensorFlow表达式

ActivityRegularizer层：经过本层的数据不会有任何变化，但会基于其激活值更新损失函数值

Masking层：使用给定的值对输入的序列信号进行“屏蔽”，用以定位需要跳过的时间步。

实例参考keras文档，有详细的说明
Highway层：Highway层建立全连接的Highway网络，这是LSTM在前馈神经网络中的推广

MaxoutDense层：参数尚不理解，具体参考文献和文档。

Convolution

Convolution2D层：二维卷积层对二维输入进行滑动窗卷积

AtrousConvolution2D层：该层对二维输入进行Atrous卷积，也即膨胀卷积或带孔洞的卷积。

Convolution1D, AtrousConvolution1D，Convolution3D同
SeparableConvolution2D层：该层是对2D输入的可分离卷积。可分离卷积首先按深度方向进行卷积（对每个输入通道分别卷积），然后逐点进行卷积，将上一步的卷积结果混合到输出通道中。

Deconvolution2D层：该层是卷积操作的转置（反卷积）。需要反卷积的情况通常发生在用户想要对一个普通卷积的结果做反方向的变换。例如，将具有该卷积层输出shape的tensor转换为具有该卷积层输入shape的tensor。

Cropping1D层：在时间轴（axis1）上对1D输入（即时间序列）进行裁剪

Cropping2D层：对2D输入（图像）进行裁剪，将在空域维度，即宽和高的方向上裁剪

Cropping3D层：对2D输入（图像）进行裁剪

UpSampling1/2/3D层：不明所以

ZeroPadding1D层：对1D输入的首尾端（如时域序列）填充0，以控制卷积以后向量的长度

ZeroPadding2D层：对2D输入（如图片）的边界填充0，以控制卷积以后特征图的大小

ZeroPadding3D层：将数据的三个维度上填充0

Pooling

MaxPooling1D层：对时域1D信号进行最大值池化

MaxPooling2D层：为空域信号施加最大值池化

MaxPooling3D层：为3D信号（空域或时空域）施加最大值池化

AveragePooling1/2/3D层

GlobalMaxPooling1/2D层

GlobalAveragePooling1/2D层

LocallyConnceted

LocallyConnected1/2D层：和 Convolution1/2D工作方式类似，唯一不同的是不进行权值共享。
Recurrent

Recurrent层：这是递归层的抽象类，不能实例化，请使用它的子类：LSTM/SimpleRNN

SimpleRNN层：全连接RNN网络，RNN的输出会被回馈到输入

GRU层：门限递归单元（详见参考文献）

LSTM层：Keras长短期记忆模型，关于此算法的详情，请参考 本教程

Embedding

Embedding层：嵌入层将正整数（下标）转换为具有固定大小的向量，如[[4],[20]]->[[0.25,0.1],[0.6,-0.2]]，Embedding层只能作为模型的第一层
Advanced Activation

LeakyReLU层：LeakyRelU是修正线性单元（Rectified Linear Unit，ReLU）的特殊版本，当不激活时，LeakyReLU仍然会有非零输出值，从而获得一个小梯度，避免ReLU可能出现的神经元“死亡”现象。

PReLU层：该层为参数化的ReLU（Parametric ReLU）

ELU层：ELU层是指数线性单元（Exponential Linera Unit）

ParametricSoftplus层：该层是参数化的Softplus

ThresholdedReLU层：该层是带有门限的ReLU

SReLU层：该层是S形的ReLU

BatchNormalization

BatchNormalization层：该层在每个batch上将前一层的激活值重新规范化，即使得其输出数据的均值接近0，其标准差接近1，具体请参考BN算法。
Noise

GaussianNoise层：为层的输入施加0均值，标准差为sigma的加性高斯噪声。

GaussianDropout层：为层的输入施加以1为均值，标准差为sqrt(p/(1-p)的乘性高斯噪声

Wrapper

TimeDistributed包装器：该包装器可以把一个层应用到输入的每一个时间步上

Bidirectional包装器：双向RNN包装器

### 模型编译 必选参数（目标函数+优化器）

## 损失（目标objectives）函数 

In [None]:
model.compile(loss='mean_squared_error', optimizer='sgd') #按名字使用  ，mse ,mean_squared_error
from keras import losses       #导入损失模块
model.compile(loss=losses.mean_squared_error, optimizer='sgd') #损失模块里访问

#### 常用
```
mse  均方差损失函数
logloss 对数损失函数 (binary_crossentropy  二元交叉熵)
categorical_crossentropy 多类交叉熵  ，**注意使用该目标函数时，需要将标签转化为形如(nb_samples, nb_classes)的二值序列  ???**
kullback_leibler_divergence KL散度
```

#### 多类分类  将类别转换为独热编码
```
from keras.utils.np_utils import to_categorical
categorical_labels = to_categorical(int_labels, num_classes=None)
index --> one-hot encode
```

## 优化器optimizers

### 使用方式

```
from keras import optimizers   #导入优化器模块
model = Sequential()  # 创建序列模型
model.add(Dense(64, init='uniform', input_shape=(16,)))#增加全连接层，输出64维(units单位)，均匀分布初始化，输入16维，输入的数据数组的形状为(*,16)，任意多个维数为16的数据点，输出(*,32)
输入形状  (batch_size, ..., input_dim)，最常用(batch_size, input_dim)
输出形状  (batch_size, ..., units)，最常用(batch_size, units)
model.add(Activation('tanh'))   #增加激活层，对输出的分数进行转换
model.add(Activation('softmax'))

sgd = optimizers.SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True) #编译前初始化一个优化器
model.compile(loss='mean_squared_error', optimizer=sgd)

model.compile(loss='mean_squared_error', optimizer='sgd')#直接赋给一个预定义的优化器名，按默认参数配置
```

### 通用参数  clipnorm，clipvalue  梯度裁剪参数 防止梯度爆炸或弥散
```
clip 裁剪
from keras import optimizers
sgd = optimizers.SGD(lr=0.01, clipnorm=1.) #学习率为0.01   使用L2范式标准化tensor最大值为clip_norm  返回 t * clip_norm / l2norm(t)
sgd = optimizers.SGD(lr=0.01, clipvalue=0.5) # 使得梯度值的范围为[-0.5,0.5]
```

### 常用优化器
```
SGD
keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False)
随机梯度下降法，支持动量参数，支持学习衰减率，支持Nesterov动量SGD

RMSprop

keras.optimizers.RMSprop(lr=0.001, rho=0.9, epsilon=1e-06)
除学习率可调整外，建议保持优化器的其他默认参数不变

该优化器通常是面对递归神经网络时的一个良好选择
epsilon：大于0的小浮点数，防止除0错误

Adagrad

keras.optimizers.Adagrad(lr=0.01, epsilon=1e-06)
建议保持优化器的默认参数不变

Adadelta

keras.optimizers.Adadelta(lr=1.0, rho=0.95, epsilon=1e-06)
建议保持优化器的默认参数不变
```

$x_{t+1} = x_t + \Delta x_t \quad  where \, \Delta x_t = -\eta \cdot g_t$

## 模型保存与加载

### 打印模型概况
```
model.summary()
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense_1 (Dense)              (None, 64)                1344      
_________________________________________________________________
dropout_1 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_2 (Dense)              (None, 64)                4160      
_________________________________________________________________
dropout_2 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 65        
=================================================================
Total params: 5,569
Trainable params: 5,569
Non-trainable params: 0
_________________________________________________________________
```

### 返回模型配置信息
```
model.get_config()
[{'class_name': 'Dense',
  'config': {'activation': 'relu',
   'activity_regularizer': None,
   'batch_input_shape': (None, 20),
   'bias_constraint': None,
   'bias_initializer': {'class_name': 'Zeros', 'config': {}},
   'bias_regularizer': None,
   'dtype': 'float32',
   'kernel_constraint': None,
   'kernel_initializer': {'class_name': 'VarianceScaling',
    'config': {'distribution': 'uniform',
     'mode': 'fan_avg',
     'scale': 1.0,
     'seed': None}},
   'kernel_regularizer': None,
   'name': 'dense_1',
   'trainable': True,
   'units': 64,
   'use_bias': True}},
 {'class_name': 'Dropout',
  'config': {'name': 'dropout_1', 'rate': 0.5, 'trainable': True}},
 {'class_name': 'Dense',
  'config': {'activation': 'relu',
   'activity_regularizer': None,
   'bias_constraint': None,
   'bias_initializer': {'class_name': 'Zeros', 'config': {}},
   'bias_regularizer': None,
   'kernel_constraint': None,
   'kernel_initializer': {'class_name': 'VarianceScaling',
    'config': {'distribution': 'uniform',
     'mode': 'fan_avg',
     'scale': 1.0,
     'seed': None}},
   'kernel_regularizer': None,
   'name': 'dense_2',
   'trainable': True,
   'units': 64,
   'use_bias': True}},
 {'class_name': 'Dropout',
  'config': {'name': 'dropout_2', 'rate': 0.5, 'trainable': True}},
 {'class_name': 'Dense',
  'config': {'activation': 'sigmoid',
   'activity_regularizer': None,
   'bias_constraint': None,
   'bias_initializer': {'class_name': 'Zeros', 'config': {}},
   'bias_regularizer': None,
   'kernel_constraint': None,
   'kernel_initializer': {'class_name': 'VarianceScaling',
    'config': {'distribution': 'uniform',
     'mode': 'fan_avg',
     'scale': 1.0,
     'seed': None}},
   'kernel_regularizer': None,
   'name': 'dense_3',
   'trainable': True,
   'units': 1,
   'use_bias': True}}]
```

### 从配置文件重构模型
```
config = model.get_config()
model = Model.from_config(config)
# or, for Sequential:
model = Sequential.from_config(config)
```

### 获取层对象
dense_2 = model.get_layer('dense_2')

### 内存中重构
```
model.get_config()
model.from_config()
model.get_weights()
model.set_weights()
```

### 从文件系统重构
```
json:model
from models import model_from_json
json_string = model.to_json()
model = model_from_json(json_string)
yaml:model
from models import model_from_yaml
yaml_string = model.to_yaml()
model = model_from_yaml(yaml_string)
HDF5:
model.save_weights(filepath)           #文件后缀名 .h5
model.load_weights(filepath, by_name=False)#by_name 同名层才导入
```

In [18]:
from keras.models import model_from_json
json_string = model.to_json()
model = model_from_json(json_string)

In [19]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 64)                1344      
_________________________________________________________________
dropout_1 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_2 (Dense)              (None, 64)                4160      
_________________________________________________________________
dropout_2 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 65        
Total params: 5,569
Trainable params: 5,569
Non-trainable params: 0
_________________________________________________________________


In [None]:
from keras.utils.vis_utils import plot_model

In [37]:
with codecs.open('train-zhihu6-title-desc-single-100000.txt','r') as f:
    print(len(f.readlines()))

100000


In [44]:
import os
import re

In [None]:
def corpus_preprocess(corpus_path,label_re):
    label_pattern = label_re+'[\-\w]+'
    print('label_pattern:',label_pattern)
    corpus_path =  os.path.abspath(corpus_path)
    print('corpus_path:',corpus_path)
    corpus_size = os.path.getsize(corpus_path)/(1024*1024*1024)
    print('corpus_size:%sG'%round(corpus_size,2))
    texts = []
    labels = []
    label_index = {}
    with codecs.open(corpus_path,'r',encoding='utf-8') as f:
        for line in f.readlines():
            line = line.strip()
            re_labels = re.findall(label_pattern,line)
            if re_labels != None and len(re_labels) > 0:
                print(re_labels)
                for i in re_labels:
                     #单行多标签拆为多行单标签
                    texts.append(re.sub(label_pattern,'',line))
                    if i not in label_index:
                        label_id = len(label_index)
                        label_index[i] = label_id
                        labels.append(label_id)
                    else:
                        labels.append(label_index[i])

        f.close()
    print('texts:',texts[0],
        '\nnum_texts:',len(texts),
        '\nlabels:',labels[:10],
        '\nnum_classes:',len(label_index))
    return texts,labels,label_index

In [None]:
texts,labels,label_index = corpus_preprocess('train-zhihu6-title-desc-single-100000.txt','__label__')

### 模型预测
```
model.predict_classes(x_pre) #=> 类别数组
model.predict(x_pre)         #sigmoid
model.predict_proba(x_pre)   #softmax
```

In [73]:
from keras.models import model_from_yaml

In [74]:
with codecs.open('2012_fsd_gs_model_config.yml','rb') as f:
    yml_string = f.read()
model_2012 = model_from_yaml(yml_string.decode('utf-8'))
model_2012.load_weights('2012_fsd_gs_model_weights.h5')

In [85]:
x = [1]*117

In [92]:
x_pre = np.array([x,x])

In [94]:
y_pre = model_2012.predict(x_pre)

In [115]:
a = np.array([0.3,0.2,0.7])

### 模型加载

In [1]:
from nn import NN

Using TensorFlow backend.


In [2]:
from corpus import Corpus

In [None]:
model = NN.load_from_yaml('2012_fsd_gs_model_config.yml.gz','2012_fsd_gs_model_weights.h5')

In [None]:
    corpus = Corpus.load('2012_fsd_gs.Corpus.pkl.gz')

In [None]:
corpus.max_text_length

In [None]:
test = Corpus.test2corpus(corpus,'fsd_data_test.txt')

In [None]:
test.shape

In [None]:
p = NN.predict(model,test[:12],top_k=2)

In [None]:
def to_label(top,label_index):
    index_label = dict(zip(label_index.values(),label_index.keys()))
    label = []
    for label_ids in top:
        labels = []
        for label_id in label_ids:
            labels.append(index_label[label_id])
        label.append(labels)
    return label

In [None]:
l = to_label(p,corpus.label_index)

In [None]:
l

### topk_indezx

In [11]:
def arg_top_k(arr,k):
    return arr.argsort()[-k:][::-1]

In [None]:
arg_top_k(a,2)

### 随机数生成时间

In [None]:
%timeit tt = np.random.uniform(-1,1,size=(100000,100))

In [None]:
%timeit np.zeros((100000,100))

In [None]:
tt = np.random.uniform(-1,1,size=(100000,100))

### h5py,pickle,cPickle

In [None]:
tt = np.random.uniform(-1,1,size=(100000,100))

In [None]:
f = h5py.File("mytestfile.h5", "w")
f.create_dataset('file',data=tt)
f.close()

In [None]:
with codecs.open('test.pkl','wb') as f:
    pickle.dump(tt,f)

In [None]:
import gzip
import _pickle as cPickle
with codecs.open('test1.pkl','wb') as f:
    cPickle.dump(tt,f)

### 标签域正则处理

In [82]:
import re

In [189]:
s1 = 'c222 w133 __label__-123 __label__456'
s2 = 'c222 w133 __label__-432'
s3 = 'c222 w133 __label__-123 456 789'

In [190]:
re.findall('__label__([\-\w]+)',s2)

['-432']

In [191]:
re.sub('__label__([\-\w]+)','',s2)

'c222 w133 '

In [219]:
re.findall('__label_(?:[_ ][\-\d]+)+',s3)

['__label__-123 456 789']

In [224]:
re.findall('__label_(?:(?:[_| ][\-\d]+))+',s3)

['__label__-123 456 789']

In [240]:
re.findall('(?:__label__([\-\d]+))|( [\-\d]+)',s3)

[('-123', ''), ('', ' 456'), ('', ' 789')]

In [250]:
re.findall('(?:(?:__label__)|(?:[ ]))([\-\d]+)',s3)

['-123', '456', '789']

In [144]:
re.findall('[ _]{1}([\-\d]+)',s3)

['-123', '456', '789']

### 匹配标签域 并抽取标签

### 限定上文   2000 (?<=Office|Word|Excel)'

In [148]:
re.findall('[\-\d]+(?<=_| )',s3)

[]

In [232]:
re.findall('[\s|_]([\d-]+)',s3)

['-123', '456', '789']

In [252]:
re.sub('(?:(?:__label__)|(?:[ ]))([\-\d]+)','',s3)

'c222 w133 '

In [253]:
re.sub('[\s|_]([\d-]+)','',s3)

'c222 w133 __label_'

In [259]:
re.findall('[\s_label]+([\d-]+)',s2)

['-432']

In [257]:
re.sub('[\s_label]+([\d-]+)','',s2)

'c222 w133'