### 逻辑回归损失函数的推导

逻辑回归的函数形式:
$$ \hat{y} = sigmoid(w^Tx + b)$$
其中
$$ sigmoid(z) = \frac{1}{1+e^{-z}}$$

根据最大似然概率，对于已知类型y，需要找到一个这样的x，使其概率$P(y|x)$越大越好。

考虑到sigmoid函数形式和计算方便性，可使用如下的一个损失函数：

$$L(Y, P(Y|X)) = - \lg {P(Y|X)}$$

也就是$P(Y|X)$越大（越接近1.0），那么L值越接近0；$P(Y|X)$越小，L值越接近正无穷大，正好能够满足我们对损失函数的要求。

现在我们来看看$P(Y|X)$的似然函数表示：

令:

$$ \hat{y} = P(1|X)，即P(1|X) = \frac{1}{1+e^{-(w^TX+b)}}$$

$$ 1-\hat{y} = 1 - P(1|X)，即P(0|X) = 1 - \hat{y} = \frac{1}{1+e^{(w^TX + b)}}$$

再合并y=0和y=1的条件概率公式：

$$ P(Y|X) = \hat{y} ^{y}(1-\hat{y})^{(1-y)}$$

同时取对数：

$$\lg{P(Y|X)} = y\lg{\hat{y}} + (1-y)\lg{(1-\hat{y})}$$

得到损失函数:

$$L(Y, P(Y|X)) = -[y\lg{\hat{y}} + (1-y)\lg{(1-\hat{y})}]$$

对于有m个样本的集合，需要优化w和b:

$$J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\lg{\hat{y}^{(i)}} + (1-y^{(i)})\lg{(1-\hat{y}^{(i)})}]$$

得到最后的损失函数

### 梯度下降矩阵计算推导

设
$$z = w_1x_1 + w_2x_2 + b$$
要求最优化的W和B。

对于损失函数$L(Y, P(Y|X))= -[y\lg{\hat{y}} + (1-y)\lg{(1-\hat{y})}]$，分别对W和B求偏导，

\begin{equation}
\begin{split}
\frac{\partial L}{\partial w_1} &= \frac{\partial L}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial z}\frac{\partial z}{\partial w_1} \\
&= -[\frac{y}{\hat{y}} - \frac{1-y}{1-\hat{y}}]\hat{y}(1-\hat{y})\frac{\partial z}{\partial w_1}  \\
&= \frac{\hat{y}-y}{\hat{y}(1-\hat{y})}\hat{y}(1-\hat{y})\frac{\partial z}{\partial w_1}\\
&=(\hat{y}-y)\frac{\partial z}{\partial w_1}
\end{split}
\end{equation}

根据上式，可以表示为:

$$ \mathrm{d}z = \hat{y}-y $$	

$$ \mathrm{d}w_1 = (\hat{y}-y)x_1 = x_1\mathrm{d}z$$

$$ \mathrm{d}w_2 = (\hat{y}-y)x_2 = x_2\mathrm{d}z$$

$$ \mathrm{d}b = \hat{y}-y = \mathrm{d}z $$

对于m个样本，可以用如下过程计算：

$$\hat{Y}^T = \begin{bmatrix} \hat{y}^{(1)} & \hat{y}^{(2)} & \cdots & \hat{y}^{(m)}  \end{bmatrix}$$

$$Y^T = \begin{bmatrix} y^{(1)} & y^{(2)} & \cdots & y^{(m)}  \end{bmatrix}$$

$$ 
\begin{bmatrix} \mathrm{d}z^{(1)} &  \mathrm{d}z^{(2)} & \cdots &  \mathrm{d}z^{(m)}  \end{bmatrix} =
\begin{bmatrix} \hat{y}^{(1)} - y^{(1)} & \hat{y}^{(2)} - y^{(2)}& \cdots & \hat{y}^{(m)} -y^{(m)} \end{bmatrix} $$

$$
\mathrm{d}w_1 = \frac{1}{m}\begin{bmatrix} x_1^{(1)} & x_1^{(2)} & \cdots &  x_1^{(m)}  \end{bmatrix}
\begin{bmatrix} \hat{y}^{(1)} - y^{(1)} \\ \hat{y}^{(2)} - y^{(2)}\\ \cdots \\ \hat{y}^{(m)} -y^{(m)} \end{bmatrix}
$$

$$
\mathrm{d}w_2 = \frac{1}{m}\begin{bmatrix} x_2^{(1)} & x_2^{(2)} & \cdots &  x_2^{(m)}  \end{bmatrix}
\begin{bmatrix} \hat{y}^{(1)} - y^{(1)} \\ \hat{y}^{(2)} - y^{(2)}\\ \cdots \\ \hat{y}^{(m)} -y^{(m)} \end{bmatrix}
$$

推出

$$
\mathrm{d}W = \frac{1}{m}\begin{bmatrix} X^{(1)} & X^{(2)} & \cdots &  X^{(m)} \end{bmatrix}(\hat{Y} - Y)
$$

$$
\mathrm{d}b = \frac{1}{m}np.sum(\hat{Y} - Y)
$$

$$
\ddot{W} = W - 	\eta\mathrm{d}W
$$

$$
\ddot{b} = b - 	\eta\mathrm{d}b
$$