## 书籍推荐

- [Grokking Deep Learning](https://www.manning.com/books/grokking-deep-learning) by Andrew Trask. Use our exclusive discount code traskud17 for 40% off. This provides a very gentle introduction to Deep Learning and covers the intuition more than the theory.

- [Neural Networks And Deep Learning](http://neuralnetworksanddeeplearning.com/) by Michael Nielsen. This book is more rigorous than Grokking Deep Learning and includes a lot of fun, interactive visualizations to play with.

- [The Deep Learning Textbook](http://www.deeplearningbook.org/) from Ian Goodfellow, Yoshua Bengio, and Aaron Courville. This online book contains a lot of material and is the most rigorous of the three books suggested.


## Perceptron（神经单元）

### 用神经单元制作AND逻辑器

In [2]:
import pandas as pd

# TODO: Set weight1, weight2, and bias
weight1 = 1.0
weight2 = 1.0
bias = -1.5

# DON'T CHANGE ANYTHING BELOW
# Inputs and outputs
test_inputs = [(0, 0), (0, 1), (1, 0), (1, 1)]
correct_outputs = [False, False, False, True]
outputs = []

# Generate and check output
for test_input, correct_output in zip(test_inputs, correct_outputs):
    linear_combination = weight1 * test_input[0] + weight2 * test_input[1] + bias
    output = int(linear_combination >= 0)
    is_correct_string = 'Yes' if output == correct_output else 'No'
    outputs.append([test_input[0], test_input[1], linear_combination, output, is_correct_string])

# Print output
num_wrong = len([output[4] for output in outputs if output[4] == 'No'])
output_frame = pd.DataFrame(outputs, columns=['Input 1', '  Input 2', '  Linear Combination', '  Activation Output', '  Is Correct'])
if not num_wrong:
    print('Nice!  You got it all correct.\n')
else:
    print('You got {} wrong.  Keep trying!\n'.format(num_wrong))
print(output_frame.to_string(index=False))

Nice!  You got it all correct.

 Input 1    Input 2    Linear Combination    Activation Output   Is Correct
       0          0                  -1.5                    0          Yes
       0          1                  -0.5                    0          Yes
       1          0                  -0.5                    0          Yes
       1          1                   0.5                    1          Yes


### 异或XOR

逻辑为，AB相同则输出为0；AB相异则输出为1.

表达式：

`（非A 交 B）并（A 交 非B）`

### 简单的分类（线性回归）

伪代码：
> a为学习速率

- 使用随机的w与b，绘制分界线
- 对于每个误分类的样本（x1...xn)执行：
    - 如果y=1，但y_hat=0:
        - w + ax
        - b + a
    - 如果y=0，但y_hat=1:
        - w - ax
        - b - a

In [4]:
import numpy as np
# Setting the random seed, feel free to change it and see different solutions.
np.random.seed(42)

def stepFunction(t):
    if t >= 0:
        return 1
    return 0

def prediction(X, W, b):
    return stepFunction((np.matmul(X,W)+b)[0])

# TODO: Fill in the code below to implement the perceptron trick.
# The function should receive as inputs the data X, the labels y,
# the weights W (as an array), and the bias b,
# update the weights and bias W, b, according to the perceptron algorithm,
# and return W and b.
def perceptronStep(X, y, W, b, learn_rate = 0.01):
    for i in range(len(X)):
        y_hat = prediction(X[i],W,b)
        if y[i]-y_hat == 1:
            W[0] += X[i][0]*learn_rate
            W[1] += X[i][1]*learn_rate
            b += learn_rate
        elif y[i]-y_hat == -1:
            W[0] -= X[i][0]*learn_rate
            W[1] -= X[i][1]*learn_rate
            b -= learn_rate
    return W, b
    
# This function runs the perceptron algorithm repeatedly on the dataset,
# and returns a few of the boundary lines obtained in the iterations,
# for plotting purposes.
# Feel free to play with the learning rate and the num_epochs,
# and see your results plotted below.
def trainPerceptronAlgorithm(X, y, learn_rate = 0.01, num_epochs = 25):
    x_min, x_max = min(X.T[0]), max(X.T[0])
    y_min, y_max = min(X.T[1]), max(X.T[1])
    W = np.array(np.random.rand(2,1))
    b = np.random.rand(1)[0] + x_max
    # These are the solution lines that get plotted below.
    boundary_lines = []
    for i in range(num_epochs):
        # In each epoch, we apply the perceptron step.
        W, b = perceptronStep(X, y, W, b, learn_rate)
        boundary_lines.append((-W[0]/W[1], -b/W[1]))
    return boundary_lines

In [11]:
data = pd.read_csv('data/perceptron_data.csv',names=['X1','X2','y'])

In [12]:
data

Unnamed: 0,X1,X2,y
0,0.78051,-0.063669,1
1,0.28774,0.291390,1
2,0.40714,0.178780,1
3,0.29230,0.421700,1
4,0.50922,0.352560,1
...,...,...,...
95,0.77029,0.701400,0
96,0.73156,0.717820,0
97,0.44556,0.579910,0
98,0.85275,0.859870,0


In [14]:
trainPerceptronAlgorithm(data[['X1','X2']].values,data['y'])

[(array([1.32111616]), array([3.39038455])),
 (array([-0.02727335]), array([0.58093127])),
 (array([-0.06953723]), array([0.5033617])),
 (array([-0.09336359]), array([0.50938365])),
 (array([-0.11776695]), array([0.51555142])),
 (array([-0.14276851]), array([0.52187039])),
 (array([-0.16839056]), array([0.52834619])),
 (array([-0.19465648]), array([0.53498471])),
 (array([-0.20547521]), array([0.57024877])),
 (array([-0.22495207]), array([0.57724872])),
 (array([-0.24289533]), array([0.58594893])),
 (array([-0.26138775]), array([0.5949154])),
 (array([-0.28045492]), array([0.60416056])),
 (array([-0.30012406]), array([0.6136976])),
 (array([-0.32842636]), array([0.5900821])),
 (array([-0.34182866]), array([0.63222086])),
 (array([-0.37108442]), array([0.6079341])),
 (array([-0.38612915]), array([0.65189711])),
 (array([-0.4164041]), array([0.62689996])),
 (array([-0.44025201]), array([0.63605195])),
 (array([-0.44738156]), array([0.67836799])),
 (array([-0.46823366]), array([0.64805537

### 非线性回归

有些场景下的分类，不能通过一条直线进行很好的划分，有时需要曲线。这时候，前面的方法可能就不太适用了。

#### Error Function

Error Function可以帮忙给出我们与实际的误差有多少，然后进行不断迭代优化。他应该满足如下两个条件：
- 是一个连续值（continuous）。（因为我们要判定优化的方向，不能是离散值）
- 可微分（differentiable）。（最优的方向，即导数方向，所以需要可微）

前面了解到，为了方便不断优化，Error Function需要是一个连续值，所以，我们也需要**将预测结果转换为连续值**。

常用的一种方式就是，将前面提到的Activation Function由阶跃函数（Step Function）替换为Sigmoid Function，如下所示：
<img src="imgs/01.png" width=600px>

<img src="imgs/02.png" width=600px>

### 多分类

前面我们都是查看的二分类情况，如果有多分类时该如何处理呢？比如说，我们想区分出猫、狗与兔子。

这时候，我们需要再次优化`Activation Function`，它可以把方程输出不同类目的score转换为不同类目的probability，比如三个分类的score分别是：

```
猫：2
狗：1
兔：0
```
如何把他们转换为相加为1的概率呢？

一个朴素的想法就是“归一”，即将所有类目的`score / sum(score）`，得到：
```
猫：2/(2+1)
狗：1/（2+1）
兔：0/（2+1）
```
这样确实满足了：转化为概率，且概率和为1.但似乎忽略了一个问题，因为我们的**方程输出结果并不一定全部为正数**，假如兔的score为-3，那么兔的概率计算中，就会出现分母为0的情况。

但这个思路是正确的，我们只需要把所有的计算项，都强制转化为正数，这时候想到了可以使用`exp`函数，那么我们就得到了：
```
p_1 = exp(s_1)/(exp(s_1)+exp(s_2)+...+exp(s_n))
```

如上方程我们也称之为**Softmax Function**

In [16]:
# Python实现
import numpy as np

def Softmax(L):
    
    expL = np.exp(L)    
    result = [i/sum(expL) for i in expL]

    return result
    

## 最大似然

### 什么是最大似然

对于这么多模型，我们如何选出最佳的那个呢？

因为我们处理的模型产出，都是“概率”，那么，我们就选出实际情况下对应概率最大的那个模型就好了，这种方法叫做**Maximum Likelihood**，最大似然估计方法。

假设，我们有两个模型，分类结果分别如下：
<img src="imgs/03.png" width=600px>
很明显，我们能看出来，右边的模型要比左边的好（因为分对了更多类别），那么，如何从“概率”上来阐述这件事呢？

对于左图而言，我们可以分别得到 **各类别符合实际情况的概率**，如下所示：
<img src="imgs/04.png" width=300px>
那么，整体分类正确的概率就是：`0.6 x 0.2 x 0.1 x 0.7 = 0.0084`

同理，对于右图，我们得到的整体分类概率是：`0.7 x 0.9 x 0.8 x 0.6 = 0.3024`

<img src="imgs/05.png" width=300px>

那么，我们在进行模型优化的时候，就可以通过“最大化分类概率”来实现，即**Maximum Likelihood**

### 如何利用最大似然优化

还记得前面我们定义了Error Function么？最大化概率是不是就代表着最小化误差呢？想想看

在进行最大化概率时，前面我们使用了 **乘法**，但如果有成千上万个样本，得到的积数会是一个非常非常小的值，而且计算起来比较麻烦。

而**求和**，就能好一些，那么，如何将“乘法”转换为“加法”呢？

答案是：使用**log**函数

那这样，我们就可以把如上概率相乘的计算转为如下所示，因为0～1的ln值都是负数，所以 我们再使用负号，将结果转为正数。

<img src="imgs/06.png" width=500px>

如上最终得到的计算结果，我们称之为“**交叉熵（Cross Entropy）**”

- 交叉熵越大，系统越不稳定，模型效果越差
- 交叉熵越小，则反之

同样，对于每一个样本，误差越大，得到的Cross Entropy也就越大，如下所示：

<img src="imgs/07.png" width=500px>

**所以，我们找到了probability与Error Function之间的关系，那就是Cross Entropy，我们可以通过优化它来达到模型优化的目的**