TomMitchell:

一个程序从经验E中学习，解决任务T，达到性能度量值P；当且仅当有了经验E后，经P评判，程序处理T时的性能有所提高。

## 从单变量的线性回归开始
$$特征的数量：1$$
$$训练集中实例的数量:m$$
$$特征/输入变量:x$$
$$目标/输出变量:y$$
$$训练集中的实例:(x,y)$$
$$训练集中第i个实例:(x^{(i)},y^{(i)})$$
$$函数/假设:h$$
单变量线性回归问题：$$h_\theta(x)=\theta_0+\theta_1x$$
代价函数（建模误差）：$$J(\theta_0,\theta_1)=\cfrac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$$
我们的目标是建立模型h，使得代价函数J最小，即：$$\underbrace{minimize}_{\theta_0,\theta_1}J(\theta_0,\theta_1)$$
### 批量梯度下降(同时更新2个theta)：$$\theta_j:=\theta_j-\alpha\cfrac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)$$
（更新theta的原理在于后面的导数项，通过斜率正负确保随着theta的增大或减小，J(theta）一定随之减小，同时因为J(theta)的斜率变化，theta的变化也随着J的减小而减小，如在接近局部最低点时导数接近0，此时梯度下降法会自动采取更小的幅度）。

所以梯度下降的实现关键在于求出代价函数J的导数：$$\cfrac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)=\cfrac{\partial}{\partial\theta_j}\cfrac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$$
j=0:$$\cfrac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)=\cfrac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})$$
j=1:$$\cfrac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)=\cfrac{1}{2m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})·x^{(i)})$$
### 正规方程
通过求解方程来找出使J最小的参数(不可逆矩阵不可用)：
$$\cfrac{\partial}{\partial\theta_j}J(\theta_j)=0$$
假设训练集的特征矩阵为X，训练集的结果为向量y，则：
$$\theta=(X^TX)^{(-1)}X^Ty$$

In [2]:
import numpy as np
def normalEqn(X,y):
    theta=np.linalg.inv(X.T@X)@X.T@y
    return theta

## 多维特征情形
### 通用情形
$$特征的数量：n$$
$$训练集中的实例x^{(i)}成为行向量$$
$$x_j^{(i)}是第i个训练实例的第j个特征$$
$$X是类似m×n的矩阵，m是实例个数，n是特征个数$$
多变量的假设：$$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$$
为了简化公式，引入$x_0=1$：
$$h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$$
即：$$h_\theta(x)=\theta^T(X)$$
我们的目标和单变量情形下一样，只不过theta更多：
$$\theta_0=\theta_0-\alpha\cfrac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})·x_0^{(i)})$$
$$\theta_1=\theta_1-\alpha\cfrac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})·x_1^{(i)})$$
$$...$$

In [1]:
import numpy as np
def computeCost(X,y,theta):
    inner=np.power(((X*theta.T)-y),2)
    return np.sum(inner)/(2*len(X))
#len(X)代表m而不是n，注意！

### 优化
#### 特征放缩
当两个特征值范围差的很远，如0-5和0-2000时，代价函数的等高线图能看出图像很扁，梯度下降也需要非常多次迭代才能收敛，方法是尝试将所有特征的尺度都缩放到-1到1之间：$$x_n=\cfrac{x_n-\mu_n}{s_n}$$
$$\mu_n是平均值$$
$$s_n是标准差$$
#### 学习率
梯度下降算法的迭代受到学习率alpha的影响，如果学习率过小，则达到收敛所需的迭代次数会非常高；如过大，则每次迭代可能不会减小代价函数，越过局部最小值而导致无法收敛。
建议的学习率：
$$\alpha=0.01,0.03,0.1,0.3,1,3,10$$


## 逻辑回归
引入模型，使得模型的输出变量范围始终在0和1之间，以便完成分类：
$$h_\theta(x)=g(\theta^TX)$$
X代表特征向量,g代表逻辑函数，此处为Sigmoid函数：
$$g(z)=\cfrac{1}{1+e^{-z}}$$
故：
$$h_\theta(x)=\cfrac{1}{1+e^{-\theta^TX}}$$
此时h的作用是对于给定的输入变量，输出变量=1的可能性，即：
$$h_\theta(x)=P(y=1|x;\theta)$$

In [3]:
import numpy as np
def sigmoid(z):
    return 1/(1+np.exp(-z))

我们预测的规则是h>0.5则y=1,反之y=0；又因为g(z)的0.5分界在于z=0，所以$\theta^Tx?0$是判断的边界。故决策边界（曲线）方程即是：
$$\theta^Tx=0$$
线性回归的代价函数：
$$J(\theta)=\cfrac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$$
逻辑回归的代价函数：
$$J(\theta)=\cfrac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)})-y^{(i)})$$
y=1时：
$$Cost(h_\theta(x),y)=-log(h_\theta(x))$$
y=0时：
$$Cost(h_\theta(x),y)=-log(1-h_\theta(x))$$
简化之：
$$J(\theta)=-\cfrac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$$

In [4]:
import numpy as np
def cost(theta,X,y):
    theta=np.matrix(theta)
    X=np.matrix(X)
    y=np.matrix(y)
    first=np.multiply(y,np.log(sigmoid(X*theta.T)))
    second=np.multiply((1-y),mnp.log(1-sigmoid(X*theta.T)))
    return np.sum(first+second)/-(len(X))

仍可以用梯度下降算法求使代价函数最小的参数：
$$\theta_j=\theta_j-\alpha\cfrac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})·x_j^{(i)})$$
易知代价函数会带来一个凸优化问题，即$J(\theta)$会是一个凸函数，并且没有局部最优值。

除了梯度下降之外，常用来令代价函数最小的算法：
* 共而梯度Conjugate Gradient
* 局部优化法Broyden fletcher goldfarb shann,BFGS
* 有限内存局部优化法LBFGS

## 正则化
面对过拟合问题，一是想办法减少特征量，二便是正则化（保留所有特征但是减小参数的大小）。

过拟合来自于高次项（虚线过于扭曲），因而可以通过让高次项的系数接近于0来完成拟合。为此要在代价函数中为$\theta$添加惩罚。

此时的代价函数为：
$$J(\theta)=\cfrac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2]$$
$\lambda$即为正则化参数，过大会导致模型欠拟合，过小则导致所有$\theta$都趋于0。

### 正则化线性回归
代价函数：
$$J(\theta)=\cfrac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2]$$
梯度下降（未对$\theta_0$正则化）：
$$\theta_0:=\theta_0-\alpha\cfrac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$$
$$\theta_j:=\theta_j-\alpha[\cfrac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\cfrac{\lambda}{m}\theta_j]$$
正则回归(矩阵尺寸为(n+1)*(n+1))：
$$\theta=(X^TX+\lambda[0 1 1 ... 1])^{-1}X^Ty$$

### 正则化逻辑回归
代价函数：
$$J(\theta)=-\cfrac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\cfrac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$$
梯度下降（未对$\theta_0$正则化）：
$$\theta_0:=\theta_0-\alpha\cfrac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$$
$$\theta_j:=\theta_j-\alpha[\cfrac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\cfrac{\lambda}{m}\theta_j]$$
看上去和线性回归一样，但是$h_\theta(x)=g(\theta^TX)$

## 神经网络
$$m个训练样本$$
$$每个样本包含一组输入x和一组输出y$$
$$L表示神经网络层数Layer$$
$$S_I表示每层的神经元个数$$
$$S_l表示输出层神经元个数$$
$$S_L表示最后一层中处理单元的个数$$
### 代价函数：
$$J(\theta)=-\cfrac{1}{m}[\sum_{i=1}^m\sum_{k=1}^ky_k^{(i)}log(h_\theta(x^{(i)}))_k+(1-y_k^{(i)})log(1-(h_\theta(x^{(i)}))_k)]+\cfrac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\theta_{ji}^{(l)})^2$$
### 反向传播算法
为了计算代价函数的偏导数$\cfrac{\partial}{\partial\theta_{ij}^{(l)}}$,先计算最后一层的误差，再一层一层反向求出各层误差，直到倒数第二层。
### * 亟待补充 
### 使用步骤
1.参数的随机初始化

2.利用正向传播方法计算所有的$h_\theta(x)$

3.编写计算代价函数J的代码

4.利用反向传播方法计算所有偏导数

5.利用数值检验方法检验偏导数

6.利用优化算法来最小化代价函数