# 神经网络的组成
## 偏置
偏置一般有两种表示形式：
1. 一种表示形式是将其表示为输入向量，如n维向量的输入，在向量的开头或结尾处增加一个元素，构成n+1维的向量。1的位置与网络无关，只要在所有样本中保持一致即可。
2. 假定存在一个偏置项，将其独立于输入之外，其对应一个独立的权重，将该权重乘以1，然后与样本输入值及其相关权重的点积进行加和。  
  
设置偏置的原因是因为神经元需要对全0输入具有弹性。  
  
未经训练的神经元权重一开始是随机的，通常是从正态分布中选取趋近于零的随机值。  
学习的过程为通过调整神经元权重来降低损失，损失为神经元输出与目标结果之间的差距，误差应趋近于0。

## 感知器
基本感知器有个固有缺陷，若数据不是线性可分的，或数据之间的关系不能用线性关系来描述，模型将无法收敛，也将不具有任何有效的预测能力。  
当一个感知器收敛时，可以说它找到了一个描述数据与目标变量之间关系的线性方程，但并不能说明这个描述有多好。  


## 为什么激活函数需要是非线性的？  
因为需要让神经元能够模拟特征向量和目标向量之间的非线性关系。  
若神经元只是将输入与权重相乘然后做加和，那么输出必然是输入的线性函数，而这个模型连最简单的非线性关系都无法表示。

训练神经网络的目标是通过寻找最佳参数(权重)来最小化所有误差的代价函数。

In [1]:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.optimizers import SGD

In [2]:
x_train = np.array([[0, 0],
                   [0, 1],
                   [1, 0],
                   [1, 1]])
y_train = np.array([[0],
                   [1],
                   [1],
                   [0]])

In [3]:
model = Sequential()
num_neurous = 10 #全联接隐藏层包含10个神经元
model.add(Dense(num_neurous, input_dim=2))
model.add(Activation('tanh'))
model.add(Dense(1))
model.add(Activation('sigmoid'))
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 10)                30        
_________________________________________________________________
activation (Activation)      (None, 10)                0         
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 11        
_________________________________________________________________
activation_1 (Activation)    (None, 1)                 0         
Total params: 41
Trainable params: 41
Non-trainable params: 0
_________________________________________________________________


dense层：三个神经元，其中两个为输入向量的权重，还有一个是偏置对应的权重，一共有30个权重需要学习。  
输出层有10个权重，分别与第一层的10个神经元一一对应，再加上一个偏置权重，所以该层应该有11个权重。

In [4]:
sgd = SGD(lr=0.1)
model.compile(loss='binary_crossentropy', optimizer=sgd, metrics=['accuracy'])
model.predict(x_train)

array([[0.5       ],
       [0.56204635],
       [0.55587864],
       [0.60597986]], dtype=float32)

上面得到的为未训练前的随机权重的随机猜测。

In [5]:
model.fit(x_train, y_train, epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x7f9dae7a6510>

上面训练可能无法收敛，可以用相同的参数再次调用model.fit或添加更多的训练周期看看能否收敛。  
或者也可以用不同的随机起始点来重新初始化网络，然后再次尝试fit，若使用后面这种方法请确保没有设置随机种子，不然智慧重复同样的实验结果。

In [6]:
model.fit(x_train, y_train, epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x7f9dae1f94d0>

In [7]:
model.predict_classes(x_train)



array([[0],
       [1],
       [1],
       [0]], dtype=int32)

In [8]:
model.predict(x_train)

array([[0.36750162],
       [0.59064555],
       [0.5538945 ],
       [0.49258998]], dtype=float32)