## 逻辑回归（Logistic Regression）

逻辑回归是机器学习中较为简单的分类算法，可以用于二元分类预测，和线性回归不同点在于，线性回归预测的结果是连续型，而逻辑回归预测的结果是离散型。随着智慧医疗的发展，越来越多的机器学习方法模型被用于辅助医生决策，其中逻辑回归就是其中常用的一种。比如，根据一个人的体重和吸烟量预测他是否会得癌症的概率；根据一个人的年龄、卡路里摄入量、脂肪摄入量预测他是否会得心脏病的概率。

逻辑回归的假设函数为：

$$
h(\mathbf{x})=\frac{1}{1+e^{-\theta \mathbf{x}}}
$$

可以看到，逻辑回归的假设函数是在线性回归的基础上套了一个Sigmoid函数：

$$
\sigma(x)=\frac{1}{1+e^{-x}}
$$

这样我们就可以根据$h(\mathbf{x})$的值判断预测结果，当大于0.5时为正例，小于等于0.5时为负例。

Sigmoid函数具有很好的性质，比如将实数域映射到了(0,1)，另外Sigmoid函数的导数可以用自身来表示。

\begin{equation}
\begin{aligned}
\sigma'(x) = & -(1+e^{-x})^{-2} \cdot e^{-x} \cdot -1 \\
= & \frac{e^{-x}}{(1+e^{-x})^{2}} \\
= & \frac{e^{-x}+1-1}{(1+e^{-x})^{2}} \\
= & \sigma(x)(1-\sigma(x))
\end{aligned}
\end{equation}

也因此可得(这里的对数均为自然对数)：

$$\log(\sigma(x))=\frac{1}{\sigma(x)}\cdot\sigma(x)(1-\sigma(x))=1-\sigma(x)$$
$$\log(1-\sigma(x))=\frac{1}{1-\sigma(x)} \cdot -1 \cdot \sigma(x)(1-\sigma(x))=-\sigma(x)$$

这两个式子在梯度下降法求最优解时会用到。

损失函数：
$$
J(\theta)=\frac{1}{n}\sum_{i=1}^{n}(y^i\log h(\mathbf{x}^i)+(1-y^i)\log(1-h(\mathbf{x}^i)))
$$

当$y^i=1$时，损失函数只有$\log h(\mathbf{x}^i)$这一项，当$h(\mathbf{x}^i)$趋向于0时，其值趋向于$-\infty$。

当$y^i=0$时，损失函数只有$\log(1-h(\mathbf{x}^i))$这一项，当$h(\mathbf{x}^i)$趋向于1时，其值趋向于$-\infty$。

和线性回归不同，逻辑回归的损失函数是求最大值，所以使用梯度上升法：

Repeat {

\begin{equation}
\begin{aligned}
\theta_0 & = \theta_0 +\alpha \frac{1}{n}\sum_{i=1}^{n}(y^i-h(\mathbf{x}^i))\mathbf{x}^i_0 \\
\theta_1 & = \theta_1 +\alpha \frac{1}{n}\sum_{i=1}^{n}(y^i-h(\mathbf{x}^i))\mathbf{x}^i_1 \\
\theta_2 & = \theta_2 +\alpha \frac{1}{n}\sum_{i=1}^{n}(y^i-h(\mathbf{x}^i))\mathbf{x}^i_2 \\
\vdots \\
\theta_m & = \theta_m +\alpha \frac{1}{n}\sum_{i=1}^{n}(y^i-h(\mathbf{x}^i))\mathbf{x}^i_m 
\end{aligned}
\end{equation}

(update simultaneously)

} until convergence

上述梯度下降法关键的步骤是$Z=y\log h(\mathbf{x})+(1-y)\log(1-h(\mathbf{x}))$对$\theta$的偏导：

\begin{equation}
\begin{aligned}
\frac{\partial{Z}}{\partial{\theta_1}}= & y \cdot (1-h(\mathbf{x}))\cdot \mathbf{x}_1+ (1-y) \cdot -h(x) \cdot \mathbf{x}_1 \\
= & y\mathbf{x}_1 - yh(\mathbf{x})\mathbf{x}_1-(h(\mathbf{x})x_1-yh(\mathbf{x})\mathbf{x}_1) \\
= & (y-h(\mathbf{x}))\mathbf{x}_1
\end{aligned}
\end{equation}