# logisitc算法的newtonRapshon推导

本文档基于我整理的 [logisitc算法的gradient ascent推导](http://nbviewer.jupyter.org/github/ChenShicong/logisitc/blob/master/gradient_logisitc_step.ipynb)，因此继续沿用梯度上升中的符号。

## 预备信息  
$X: 自变量矩阵, n \times p$, 即$X$的维度为n行p列。    
$\beta : 系数向量, p \times 1$,即$\beta$维度为p行1列。对应于代码里边的weights    
$y: 因变量向量, n \times 1$,即$y$的维度为n行1列。    
$p: 预测概率向量, n \times 1$,即$p$的维度为n行1列。
即:

\begin{equation*}
    \mathbf{X} = \left(
      \begin{array}{ccc}
        x_{11} & x_{12} & \ldots & x_{1p}\\
        x_{21} & x_{22} & \ldots  & x_{2p}\\
        \vdots & \vdots & \ddots & \vdots\\
        x_{n1} & x_{n2} & \ldots & x_{np}
      \end{array} \right) ,\quad
       \mathbf{y} = \left(
      \begin{array}{ccc}
        y_{1} \\
        y_{2} \\
        \vdots \\
        y_{n} 
      \end{array} \right) ,\quad
       \mathbf{\beta} = \left(
      \begin{array}{ccc}
        \beta_{1} \\
        \beta_{2} \\
        \vdots \\
        \beta_{p} 
      \end{array} \right), \quad
       \mathbf{p} = \left(
      \begin{array}{ccc}
        p_{1} \\
        p_{2} \\
        \vdots \\
        p_{n} 
      \end{array} \right)
  \end{equation*}

$\triangledown J(\beta)$ : $J(\beta)$关于向量$\beta$的一阶导.    
$H J(\beta)$: $J(\beta)$关于向量$\beta$的二阶导.  即：

\begin{equation*}
    \mathbf{H J(\beta)} = \left(
      \begin{array}{ccc}
        \frac{\partial J^2(\beta)}{\partial \beta_1^2} & \frac{\partial J^2(\beta)}{\partial \beta_1 \beta_2} & \ldots &\frac{\partial J^2(\beta)}{\partial \beta_1 \beta_p}\\
        \frac{\partial J^2(\beta)}{\partial \beta_2 \beta_1} & \frac{\partial J^2(\beta)}{\partial \beta_2^2} & \ldots  &  \frac{\partial J^2(\beta)}{\partial \beta_2 \beta_p}\\
        \vdots & \vdots & \ddots & \vdots\\
        \frac{\partial J^2(\beta)}{\partial \beta_n \beta_1} & \frac{\partial J^2(\beta)}{\partial \beta_n \beta_2} & \ldots & \frac{\partial J^2(\beta)}{\partial \beta_p^2}
      \end{array} \right) ,\quad
       \mathbf{\triangledown J(\beta)} = \left(
      \begin{array}{ccc}
         \frac{\partial J(\beta)}{\partial \beta_1} \\
        \frac{\partial J(\beta)}{\partial \beta_2} \\
        \vdots \\
        \frac{\partial J(\beta)}{\partial \beta_p}
      \end{array} \right)
  \end{equation*}

在梯度上升求解的文档中，我们给出了logisitc对数似然函数:

$$J(\beta) = \sum_{i=1}^n {y_i}log(p_{i})  + {(1-y_i)}log(1-p_i), \quad p_i = \frac{1}{1+exp{(-X^{(i)} \beta)}}, \quad X^{(i)}为矩阵X的第i行$$

以及logisitc对数似然函数的一阶导数：

$$\frac{\partial J(\beta)}{\partial \beta_j} =  \sum_{i=1}^n (y_i - p_i) \cdot x_{ij}$$

以下我们给出logisitc对数似然函数的二阶导数:

\begin{align*}
\frac{\partial J^2(\beta)}{\partial \beta_j \partial \beta_k} &= \frac{\partial \frac{\partial J(\beta)}{\partial \beta_j}}{\partial \beta_k} \\
& = \frac{\partial \left[\sum_{i=1}^n (y_i - p_i) \cdot x_{ij} \right]}{\partial \beta_k}\\ 
& = \frac{\partial \left[\sum_{i=1}^n ( - p_i \cdot x_{ij}) \right]}{\partial \beta_k}\\
& =  \frac{\partial \left[\sum_{i=1}^n ( - \frac{1}{1+exp{(-X^{(i)} \beta)}} \cdot x_{ij}) \right]}{\partial \beta_k}\\
& = -\sum_{i=1}^n -\frac{x_{ij}}{(1+exp{(-X^{(i)} \beta)})^2} \cdot exp{(-X^{(i)} \beta)} \cdot -x_{ik}\\
& = -\sum_{i=1}^n x_{ij} x_{ik} \cdot \frac{exp{(-X^{(i)} \beta)}}{1+exp{(-X^{(i)} \beta)}}  \cdot \frac{1}{1+exp{(-X^{(i)} \beta)}}\\
& = \sum_{i=1}^n x_{ij} x_{ik} \cdot -\frac{exp{(-X^{(i)} \beta)}}{1+exp{(-X^{(i)} \beta)}}  \cdot \frac{1}{1+exp{(-X^{(i)} \beta)}}\\
& = \sum_{i=1}^n x_{ij} x_{ik} (p_{i} - 1)p_{i}
\end{align*}



## Newton–Raphson method

### 单一变量的一阶导

首先我们考虑单一的一个变量的泰勒一阶展开，这里我们考虑$f{(x)}$于$x = x_o$处的一阶展开:

$$f(x) = f(x_0) + f'(x_0) (x - x_0)$$  

这个式子其实也就是$f$于$x = x_0$时的切线方程，我们令$f(x) = 0$, 即：

$$0 = f(x_0) + f'(x_0) (x - x_0)$$

整理可得此切线与x轴的横坐标：

$$x = x_0 - \frac{f(x_0)}{f'(x_0)}$$

为方便推算，我们记这一次得到的横坐标为$x_1$，即：

$$x_1 = x_0 - \frac{f(x_0)}{f'(x_0)}$$

类似地，我们重新计算$f(x)$在$x_1$处的切线方程，可得：

$$x_2 = x_1 - \frac{f(x_1)}{f'(x_1)}$$

计算$f(x)$在$x_2$处的切线方程，可得：

$$x_3 = x_2 - \frac{f(x_2)}{f'(x_2)}$$

$$......$$

递推可得：

$$x_{n+1} = x_{n} - \frac{f(x_{n})}{f'(x_{n})}$$

从而，当n足够大时，我们必能得到一个$x^*$满足$f(x^*) = 0$.

### 单一变量的二阶导

接着我们考虑单一的一个变量的泰勒二阶展开，这里我们考虑$f{(x)}$于$x = x_o$处的二阶展开:

$$f(x) = f(x_0) + f'(x_0) (x - x_0) + \frac{f^{''}(x_0)}{2} (x-x_0)^2 + o(x-x_0)^2$$  

省去高阶无穷小项，令$x$无穷趋近于$x_0$时，我们可以得到:

$$f'(x_0) (x - x_0) + \frac{f^{''}(x_0)}{2} (x-x_0)^2 = 0$$

当$x$无穷趋近于$x_0$时，可以注意到上式中的$\frac{1}{2}$对于一个趋于无穷小的项几乎没有影响，所以我们可以将上式改写为:

$$f'(x_0) (x - x_0) + f^{''}(x_0) (x-x_0)^2 = 0$$

整理上式，可得:

$$x = x_0 - \frac{f^{'}(x_0)}{f^{''}(x_0)}$$

此时，我们可以记这个新的$x$为$x_1$，重复**单一变量的一阶导**的步骤，类似地，我们可以得到以下迭代更新式子:

$$x_{n+1} = x_{n} - \frac{f^{'}(x_{n})}{f{''}(x_{n})}$$

### 多维向量的二阶导

对于一个多维向量$X$, 以及在点$X_0$的邻域内有连续二阶偏导数的多元函数$f(X)$, 可以写出该函数在点$X_0$处的二阶泰勒展开式:

$$f(X) = f(X_0) + (X - X_0)^T \cdot \triangledown f(X_0) + \frac{1}{2} (X-X_0)^T \cdot Hf(X_0) \cdot (X-X_0) + o(||X-X_0||^2))$$

$\triangledown f(X_0)$指的是$f$于$X=X_0$时的一阶导，$Hf(X_0)$指的是$f$于$X=X_0$时的二阶导，即是一个Hessian矩阵。 $o(||X-X_0||^2)$是高阶无穷小表示的皮亚诺余项。

**注：** 上边式子中的$X$以及$X_0$均为多维向量。

对比一下**单一变量的二阶导**，

$$f(x) = f(x_0) + f'(x_0) (x - x_0) + \frac{f^{''}(x_0)}{2} (x-x_0)^2 + o(x-x_0)^2$$  

我们发现这是极其相似的，同样的处理方法，当X无穷逼近于$X_0$时，忽略掉无穷小项，即得到迭代公式:

$$X_{n+1} = X_{n} - \frac{\triangledown f(X_n)}{Hf(X_n)}$$

由此，将$X_{n+1}$和$X_{n}$改写为logisitic对数似然函数里的$\beta$，将$\triangledown f(X_n)$改写为$\triangledown J(\beta)$, 将$Hf(X_n)$ 改写为$H J(\beta)$我们可以得到logisitc系数的**newtonRapshon**更新式子:

## logistic的newtonRapshon

$$\beta = \beta - \frac{\triangledown J(\beta)}{H J(\beta)}$$

从预测信息里边，我们证明了:

$$\frac{\partial J(\beta)}{\partial \beta_j} =  \sum_{i=1}^n (y_i - p_i) \cdot x_{ij}$$

$$\frac{\partial J^2(\beta)}{\partial \beta_j \partial \beta_k}  = \sum_{i=1}^n x_{ij} x_{ik} (p_{i} - 1)p_{i}$$

将这两个式子矢量化，矩阵化，代入$\beta = \beta - \frac{\triangledown J(\beta)}{H J(\beta)}$中，得

$$\beta = \beta - (X^T A X)^{-1} X^T (y - p)$$

其中，

\begin{equation*}
    \mathbf{A} = \left(
      \begin{array}{ccc}
        p_1(1-p_1) & 0 & \ldots & 0\\
        0 & p_2(1-p_2) & \ldots  &0\\
        \vdots & \vdots & \ddots & \vdots\\
        0 & 0 & \ldots & p_n(p_n - 1)
      \end{array} \right) 
  \end{equation*}

证毕.