## 梯度下降的解释

在微积分中对多元函数的参数求偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度，比如函数$f(x,y)$分别对x/yqiu piandaoshu 
求得的梯度向量就是$(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}）^T$。
函数沿着梯度的方向，增加最快（上升），函数沿着负梯度方向，减小最快（下降）。

引用吴恩达教授上的比喻，比如我们站在一座大山某个位置，如果我们只迈一小步，往哪个方向走能使我下山的速度最快，梯度下降就是这样工作的， 我向下降最快的方向走一步，事实上这正是梯度的方向,之后再走一步，然后站在了一个新的位置，然后再计算一次梯度，再向这个梯度的方向走一步，重复这样一直走..直到走到最底下，在函数中就是得到一个局部最小值。

### 梯度下降的性质
梯度下降依赖于参数初始值，

在机器学习的过程中，通常会用到梯度下降法来进行训练，梯度下降法包含三种形式，它们分别是批量梯度下降（$BGD$）,随机梯度下降法（$SGD$）,
以及小批量梯度下降（$MBGD$）,下面以线性回归算法来对三种算法进行比较。

# 梯度下降算法

假设dataset中有 $m$ 个样本，每个样本有 $n$ 个特征,其中 $i$ 表示第$i$个样本,$j$ 表示样本中第 $j$ 个特征
$\theta$为（n,1）$x$为（1，n）,m个样本，$y$为（m,1）

一般线性回归函数的假设函数（hypothesis function）:
    $$
    h_{\theta}(x)= \theta_{0} + \theta_{1}x_{1} +\cdots + \theta_{n}x_{n}
    =\sum_{j=0}^n \theta_{j}x_{j} = \theta^Tx
    $$

最终要求计算出 $\theta$的值，并选择最优的$\theta$值构成算法公式

对应的损失函数为：

$$
loss(y_{j},\hat y_{j})=J(\theta)=\frac{1}{2} \sum_{i=1}^m \left( h_{\theta}(x^{(i)}) - y^{(i)} \right)^2
$$


梯度下降的求解过程：

首先初始化 $\theta = \overrightarrow {0}$

$\alpha$：学习率、步长(取得过大可能会导致错过最优解，取得太小收敛的很慢)

持续更新 $\theta$ ,来减少 $J(\theta)$ 沿着负梯度方向迭代(:)，更新后的$\theta$使$J\left(\theta\right)$更小: $$\theta_{j} : = \theta_{j}- \alpha * \frac{\partial J(\theta)}{\partial \theta_{j}}$$

$$J(\theta)=\frac{1}{2} \sum_{i=1}^m  \left( h_{\theta}(x^{(i)}) - y^{(i)} \right)^2$$
下面介绍只有一组训练数据，对目标函数求偏导的过程如下：
$$
\frac{\partial J(\theta)}{\partial \theta_{j}}=\frac{\partial }{\partial \theta_{j}}\frac{1}{2} \left( h_{\theta}(x) - y\right)^2 \\
= \left( h_{\theta}(x) - y\right).\frac{\partial}{\partial \theta_{j}}\left( h_{\theta}(x) - y\right) \\
= \left( h_{\theta}(x) - y\right).\frac{\partial}{\partial \theta_{j}}\left( \theta_{0}x_{0}+\theta_{1}x_{1}+\theta_{j}x_{j}+\cdots + \theta_{n}x_{n} - y\right) \\
= \left( h_{\theta}(x) - y\right).\frac{\partial}{\partial \theta_{j}}\left(\theta_{j} x_{j}\right)\\
= \left( h_{\theta}(x) - y\right)x_{j}
$$

所以梯度下降更新为：
   $$\theta_{j} : = \theta_{j}- \alpha * \left( h_{\theta}(x) - y\right)x_{j}$$
   这样就求出了第$j$个特征参数，如果想把所有特征的参数求出来呢

   $$\theta : = \theta- \alpha * \left( h_{\theta}(x) - y\right)x$$ 

其中$(h_{\theta}(x)-y)$ shape是(1)，$\theta$ shape是（n,1),$x$ shape是（1,n），所以在实际运算过程中x要进行转置，这样每个特征对应的参数就整个求出来变成(n,1)的向量
$$\theta : = \theta- \alpha * \left ({x}^T)( h_{\theta}(x) - y\right)$$

### 批量梯度下降法$BGD$

批量梯度下降（ Batch  Gradient Descent ,简称$GBD$），batch意味着梯度下降的每一次迭代都需要遍历整个训练集，因为需要基于$m$个样本进行求和：

$$
\theta_{j}: = \theta_{j} - \alpha\sum_{i=1}^m \frac{\partial}{\partial \theta_{j}}= \theta_{j} - \alpha\sum_{i=1}^m\left(y^{(i)} -  h_{\theta}(x^{(i)})\right)x_{j}^{(i)}
$$

In [1]:
import numpy as np
import pandas as pd
#定义一个简单的数据，使得数据符合y = x1 + X2
df = pd.DataFrame({'x1':[1,2,3,4,5,6],'x2':[1,2,1,2,1,2],'y':[2,4,4,6,6,8]})
x = df[['x1','x2']]
print(x)
print(x.T)
y = df['y'].values.reshape([-1,1])
print(y)
#BGD ：批量梯度下降------初始化theta,给定一个alpha
theta = np.array([[0],[0]])
print(theta)
print(x.dot(theta))
alpha = 0.01

   x1  x2
0   1   1
1   2   2
2   3   1
3   4   2
4   5   1
5   6   2
    0  1  2  3  4  5
x1  1  2  3  4  5  6
x2  1  2  1  2  1  2
[[2]
 [4]
 [4]
 [6]
 [6]
 [8]]
[[0]
 [0]]
   0
0  0
1  0
2  0
3  0
4  0
5  0


In [2]:
#BGD 迭代
for i in range(100):
    theta = theta - alpha * x.T.dot(x.dot(theta)-y)
    loss = np.power(x.dot(theta)-y,2).sum()
    print('loss为%f \ntheta为\n'%loss,theta.values)
    i+= 1

loss为1.060800 
theta为
 [[1.24]
 [0.48]]
loss为0.825504 
theta为
 [[1.1932]
 [0.4788]]
loss为0.781794 
theta为
 [[1.189384]
 [0.493224]]
loss为0.740587 
theta为
 [[1.18428064]
 [0.50674368]]
loss为0.701552 
theta为
 [[1.17935984]
 [0.51991952]]
loss为0.664575 
theta为
 [[1.17456895]
 [0.53274284]]
loss为0.629546 
theta为
 [[1.16990607]
 [0.54522366]]
loss为0.596364 
theta为
 [[1.16536774]
 [0.55737111]]
loss为0.564931 
theta为
 [[1.16095063]
 [0.56919409]]
loss为0.535154 
theta为
 [[1.15665151]
 [0.58070127]]
loss为0.506947 
theta为
 [[1.15246722]
 [0.59190108]]
loss为0.480227 
theta为
 [[1.14839469]
 [0.60280174]]
loss为0.454915 
theta为
 [[1.14443095]
 [0.61341123]]
loss为0.430937 
theta为
 [[1.14057308]
 [0.62373733]]
loss为0.408223 
theta为
 [[1.13681826]
 [0.63378762]]
loss为0.386707 
theta为
 [[1.13316373]
 [0.64356945]]
loss为0.366324 
theta为
 [[1.12960682]
 [0.65309   ]]
loss为0.347016 
theta为
 [[1.12614491]
 [0.66235625]]
loss为0.328725 
theta为
 [[1.12277548]
 [0.67137499]]
loss为0.311399 
theta为
 [[1.11949605]

### 随机梯度下降法（StaochasticGradient Descent,简称$SGD$）

随机梯度下降法，其实和批量梯度下降法原理类似，区别在于求梯度是没有用所有的$m$个样本的数据，而是仅仅选取一个样本$j$来求梯度：


For $i$ = 1 to m {
$$     
    \theta_{j}: = \theta_{j} -  \alpha\left(y^{(i)} -  h_{\theta}(x^{(i)})\right)x_{j}^{(i)}
$$}

随机梯度下降法批量梯度下降法是两个极端，一个采用所有数据来梯度下降，一个用一个样本来梯度下降。自然各自的优缺点都非常突出。对于训练速度来说，随机梯度下降法由于每次仅仅采用一个样本来迭代，训练速度很快，而批量梯度下降法在样本量很大的时候，训练速度不能让人满意。对于准确度来说，随机梯度下降法用于仅仅用一个样本决定梯度方向，导致解很有可能不是最优。对于收敛速度来说，由于随机梯度下降法一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。小批量梯度下降结合了两种算法的优点

In [3]:
import numpy as np
import pandas as pd
#定义一个简单的数据，使得数据符合y = x1 + X2
df = pd.DataFrame({'x1':[1,2,3,4,5,6],'x2':[1,2,1,2,1,2],'y':[2,4,4,6,6,8]})
x = df[['x1','x2']]
y = df['y'].values.reshape([-1,1])
#BGD ：批量梯度下降------初始化theta,给定一个alpha
theta = np.array([[0],[0]])
alpha = 0.01
print(theta)
#随机梯度下降-SGD
#初始化theta,给定一个alpha
x_s = x.sample(frac=1).values
print(x_s)
theta_s = np.array([0,0])
alpha_s = 0.03
print(x_s[1])
for i in range(6):
    theta_s = theta_s - alpha_s * (x_s[i].dot(theta_s) - y[i]) * x_s[i].T
    loss = np.power(x_s.dot(theta_s) - y,2).sum()
    print("loss值为：%f \theta值为：\n" %loss,theta_s)

[[0]
 [0]]
[[6 2]
 [4 2]
 [2 2]
 [3 1]
 [5 1]
 [1 1]]
[4 2]
loss值为：602.764800 	heta值为：
 [0.36 0.12]
loss值为：381.746826 	heta值为：
 [0.6384 0.2592]
loss值为：307.104594 	heta值为：
 [0.770688 0.391488]
loss值为：273.270192 	heta值为：
 [1.06736832 0.49038144]
loss值为：276.127306 	heta值为：
 [1.09328486 0.49556475]
loss值为：335.893792 	heta值为：
 [1.28561938 0.68789926]


### 小批量梯度下降法（Mini-Batch Gradient Descent,简称$MBGD$）

小批量梯度下降法是批量梯度下降法和随机梯度下降法的折中，我们选择$m$个样本中的$x$样本来迭代，一般取$x=10$,视情况而定:
    
$$
\theta_{j}: = \theta_{j} - \alpha\sum_{i=t}^{t+x-1}\left(y^{(i)} -  h_{\theta}(x^{(i)})\right)x_{j}^{(i)}
$$

In [4]:
import numpy as np
import pandas as pd
#定义一个简单的数据，使得数据符合y = x1 + X2
df = pd.DataFrame({'x1':[1,2,3,4,5,6],'x2':[1,2,1,2,1,2],'y':[2,4,4,6,6,8]})
x = df[['x1','x2']]

y = df['y'].values.reshape([-1,1])
print(y)
#小批量梯度下降
theta_m = np.array([[0],[0]])
alpha_m = 0.03
flag = True
for i in range(4):
    theta_m = theta_m -alpha_m * x[i:i+2].T.dot(x[i:i+2].dot(theta_m)-y[i:i+2])
    loss = np.power(x.dot(theta_m)-y,2).sum()
    print(type(theta_m))
    print("loss值为：%f \theta值为：\n"%loss,theta_m.values)

[[2]
 [4]
 [4]
 [6]
 [6]
 [8]]
<class 'pandas.core.frame.DataFrame'>
loss值为：84.280000 	heta值为：
 [[0.3]
 [0.3]]
<class 'pandas.core.frame.DataFrame'>
loss值为：18.424000 	heta值为：
 [[0.72 ]
 [0.552]]
<class 'pandas.core.frame.DataFrame'>
loss值为：0.317356 	heta值为：
 [[1.07784]
 [0.7116 ]]
<class 'pandas.core.frame.DataFrame'>
loss值为：0.232787 	heta值为：
 [[1.0945728]
 [0.7245024]]


### 梯度下降案例

In [50]:
# -*- coding: utf-8 -*-
"""
Created on Sun Jun 10 22:36:52 2018

@author: hcc
"""

import numpy as np
import pandas as pd
import random
#批量梯度下降法
def batchGradientDescent(train_X,train_Y,theta,alpha,m,maxIteration):
    train_X = train_X.sample(frac=1).values
    for i in range(0,maxIteration):
        hypothesis =np.dot(train_X,theta)
        loss = hypothesis - train_Y
        #一行表示一个样本，转置后样本第i行由所有样本的第i个特征组成，
        #np.dot(xTrain,loss)就是对所有样本的第i个特征求累加,得到第i个theta,
#         print(loss)
        gradient = train_X.T.dot(loss)
        theta = theta - alpha * gradient
        i+= 1
    return theta
# #随机梯度下降法
def StochasticGradientDescent(train_X,train_Y,theta,alpha,m,maxIteration):
    data = [i for i in range(m)]
    #xTrains = train_X.transpose()
    xTrains = train_X.sample(frac=1).values

    for i in range(0,maxIteration):
        index = random.sample(data,1)           #任意选取一个样本点，得到它的下标,便于下面找到xTrains的对应列
        index1 = index[0]    
        hypothesis =np.dot(xTrains[index1],theta)
        loss = hypothesis - train_Y[index1]
        gradient = np.mat(xTrains[index1]).T.dot(np.mat(loss))
        theta = theta - alpha * gradient
    return np.mat(theta)
    
if __name__=='__main__':
    #定义一个简单的数据，使得数据符合y = x1 + X2
    ##定义数据集，共3个样本，每个样本7个特征
    train_Data= pd.DataFrame({'x1':[1.1,1.5,1],
                       'x2':[1.3,1.9,2.1],
                       'x3':[1.5,2.3,3.2],
                       'x4':[1.7,2.7,3.9],
                       'x5':[1.9,3.1,4],
                       'x6':[2.1,3.5,4.5],
                       'x7':[2.3,3.9,6]
                      })
    train_Label = pd.DataFrame({ 'y':[3.5,4.6,5.3]})
    train_X = train_Data[['x1','x2','x3','x4','x5','x6','x7']]
    train_Y = train_Label['y'].values.reshape([-1,1])
    #     print(train_Y)
    test_Data = pd.DataFrame({'x1':[1.2,1.5,1],
                        'x2':[1.3,2.9,1],
                        'x3':[1.5,3.3,1],
                        'x4':[3.7,2.7,1],
                        'x5':[1.8,3.1,1],
                        'x6':[2.2,3.6,1],
                        'x7':[2.3,3.7,1]
                      })

    m,n = np.shape(train_X)
    theta = np.ones((n,1))
    alpha = 0.1
#    print(theta)
    #设置迭代次数，也可以设置条件停止
    maxIteration = 50
    theta = batchGradientDescent(train_X, train_Y, theta, alpha, m, maxIteration)
    print("batchGradientDescent:\n",theta.reshape(n,1))
    print("Y_test:\n",test_Data.dot(theta.reshape(n,1)))
    theta = np.ones((n,1))
    alpha = 0.1
    theta = StochasticGradientDescent(train_X, train_Y, theta, alpha, m, maxIteration)
    print("StochasticGradientDescent:\n",theta.reshape(n,1))
    print("Y_test:\n",test_Data.dot(theta.reshape(n,1)))

batchGradientDescent:
 [[6.85468903e+60]
 [1.07701436e+61]
 [1.46855982e+61]
 [1.75455326e+61]
 [1.88221869e+61]
 [2.11543613e+61]
 [2.61253360e+61]]
Y_test:
               0
0  2.496815e+62
1  3.685191e+62
2  1.159578e+62
StochasticGradientDescent:
 [[4.18648666e+27]
 [5.28081439e+27]
 [6.37514211e+27]
 [7.46191153e+27]
 [8.53734350e+27]
 [9.62033377e+27]
 [1.07222198e+28]]
Y_test:
               0
0  1.102537e+29
1  1.635504e+29
2  5.218425e+28
