# 第6.1章 Logistic回归

> Logistic Regression，一种经典的__分类__方法。

## 一. Logistic分布

设$X$是连续随机变量，$X$服从Logistic分布是指，$X$具有以下的分布函数：

$$F(x) = P(X \le x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}$$

它的概率密度函数为：

$$f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$$

式中，$\mu$为位置参数，$\gamma>0$为形状参数。

$F(x)$是一条S形曲线，被称为sigmoid curve。该曲线以$(\mu,\frac{1}{2})$中心对称，且在中心附近增长最快，在两段增长较慢——$\gamma$的值越小，曲线在中心附近增长得越快。

![logistic分布](./pic/ch6-1-1.jpeg)

## 二. 二元分类中的Logistic回归模型

### 1. Model

输入$x \in \mathbf{R}^{n+1}$(加入第0维$x^{(0)}=1$)，输出$y \in \mathcal{Y} = \{1,0\}$，一般1代表正例，0代表负例。

Logistic回归模型用条件概率分布$P(Y|X)$表示，具体的：

$$P(Y=1|x) = \frac{1}{1+e^{-w·x}}$$

$$P(Y=0|x) = 1-P(Y=1|x) = \frac{e^{-w·x}}{1+e^{-w·x}}$$

式中$w \in \mathbf{R}^{n+1}$，是需要学习的模型参数。

预测时，模型将根据输入$x$，计算$P(Y=1|x)$和$P(Y=0|x)$，哪个概率大，则把输入分到相应的一类中去。

### 2. Why: Intuition

__理解一__

从线性模型(线性回归)的思想出发，我们希望为每一个输入特征赋一个权重(当然还有一个bias)，算加权和，从而得到最终的结果。然而，$w·x$可能从负无穷到正无穷，而我们想要的是概率(条件概率也是概率)，取值范围是$[0,1]$。因此，我们自然会想到将$w·x$通过一个函数，转化到$[0,1]$的区间上。

这样的函数可能是“单位跃阶函数”：

\begin{equation}
f(w·x)=
    \begin{cases}
        1& \text{if w·x > 0}\\
        \frac{1}{2}& \text{if w·x = 0}\\
        0& \text{if w·x < 0}\\
    \end{cases}
\end{equation}

但单位跃阶函数在$w·x=0$处不连续，因此不易优化。

因此，我们选择logistic函数(logistic function)：

$$f(w·x) = \frac{1}{1+e^{-w·x}}$$

![单位跃阶函数与logistic函数](./pic/ch6-1-2.jpeg)

__理解二__

我们假设：__输出为$Y=1$的对数几率（log odds）为输出$x$的线性函数__。从这个假设，我们能推出logistic模型。

__几率(odds)__：若某件事发生的概率为$p$，则该事件发生的几率(odd)为$\frac{p}{1-p}$，对数几率为$log\frac{p}{1-p}$

由上面的假设，有：

$$log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w·x$$

化简得：

$$P(Y=1|x) = \frac{1}{1+e^{-w·x}}$$

最后，logistic回归模型有一个特别的好处，就是能够顺便输出预测的__概率__~

### 3. How: 模型参数的估计方法

一般采用__最大似然估计(MLE)__。

给定训练集$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$，$x_i \in \mathbf{R}^{n+1}$(加入第0维$x^{(0)}=1$)，输出$y_i \in \mathcal{Y} = \{1,0\}$。

设：

$$P(Y=1|x)=h(x)=\frac{1}{1+e^{-w·x}}$$

则：

$$P(Y=0|x)=1-h(x)=\frac{e^{-w·x}}{1+e^{-w·x}}=\frac{1}{1+e^{w·x}}=h(-x)$$

因此，对于任一对$(x,y)$，有：

$$P(y|x)=[h(x)]^y[1-h(x)]^{1-y}$$

似然函数为：

$$l(w) = \prod_{i=1}^N P(y_i|x_i) = \prod_{i=1}^N [h(x_i)]^{y_i}[1-h(x_i)]^{1-y_i}$$



对数似然函数为：

$$L(w) = \sum_{i=1}^N \Big[y_i·log\ h(x_i)+(1-y_i)·log(1-h(x_i))\Big]$$

之后再采用__梯度下降法__或__拟牛顿法__解$L(w)$的最优化问题即可。

## 三. 多元分类中的Logistic回归模型

假设输出$Y$的取值集合$\mathcal{Y}=\{1,2,\cdots,K\}$，则模型如下：

$$P(Y=m\ |\ x)=\frac{e^{w_m·x}}{1+\sum_{k=1}^{K-1} e^{w_k·x}}$$

其中，$m=1,2,\cdots,K-1$，因此需要学习$K-1$个参数。