# 概念定义

logistic 回归，虽然名字里有 “回归” 二字，但实际上是解决分类问题的一类线性模型。

## 算法基本思想

**假设函数**

$$h_{\theta}(x) = g(\theta^Tx)$$
$$g(z) = \frac{1}{1+e^{-z}}$$
其中 $\theta$ 已包含偏置项，$g(z)$ 为Sigmoid函数


**成本函数**（Cost Function）

损失函数loss function:（式1.1-1）
$$L(\hat{y}^{(i)}, y^{(i)}) = -(ylog\hat{y}+(1-y)log(1-\hat{y}))$$

成本函数cost Function:

$$J(\theta) = \frac{1}{m}\sum_{i=1}^mL(\hat{y}^{(i)}, y^{(i)})$$

其中 $\hat{y}$ 为 $y$ 的预测值，由假设函数计算而来。

普通的成本函数：
$$L(\hat{y}^{(i)}, y^{(i)}) = \frac{(\hat{y}-y)^2}{2}$$

该函数非凸，梯度下降可能无法得到最优解，而（式1.1-1）是凸函数，很容易获得最优解

**迭代优化**

梯度下降

为了计算 $\theta$ 值，执行以下步骤：

$$Z = \theta X$$

$$A = g(Z)$$

（式1.1-2）
$$dZ = \frac{\partial J}{\partial Z} = A-Y$$ 

$$d\theta = dZ\frac{dZ}{d\theta} = XdZ^T$$

$$d\theta = d\theta/m -> d\theta = \frac{1}{m}XdZ^T$$

$$\theta = \theta - \alpha d\theta$$

其中 $\alpha$ 为学习率

**对式1.1-2的推导**

$$\frac{dJ}{dA} = -\frac{Y}{A}+\frac{1-Y}{1-A}$$

$$\frac{dA}{dZ}=g^\prime(z) = g(z)(1-g(z)) = A(1-A)$$

$$dZ = \frac{dJ}{dA}\cdot\frac{dA}{dZ} = A-Y$$

**决策边界**

所谓决策边界就是能够把样本正确分类的一条边界，主要有线性决策边界(linear decision boundaries)和非线性决策边界(non-linear decision boundaries)

决策边界是假设函数的属性

## 损失函数的由来

**涉及对 $\theta$ 的最大似然估计**

假定：
$$P(y=1 | x;\theta) = h_\theta(x) = \hat{y}$$
$$P(y=0 | x;\theta) = 1-h_\theta(x) = 1-\hat{y}$$

对 $\theta$ 的条件最大似然估计：（式1.2-1）
$$\theta_{ML} = \underset{\theta}{argmax}P(Y | X;\theta)$$

似然函数：假设样本是独立同分布，概率相乘，然后左右两边同时取对数
$$P(Y|X;\theta) = \prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)$$

$$=\prod_{i=1}^{m}\hat{y}^y(1-\hat{y})^{1-y}$$

$$logP(Y|X;\theta) = log\prod_{i=1}^{m}\hat{y}^y(1-\hat{y})^{1-y}$$

$$=\sum_{i=1}^{m}ylog\hat{y}+(1-y)log(1-\hat{y})$$

则（式1.2-1）可以分解为：
$$\theta_{ML} = \underset{\theta}{argmax}\sum_{i=1}^{m}logP(y^{(i)} | x^{(i)};\theta)$$

$$=\underset{\theta}{argmax}\sum_{i=1}^{m}ylog\hat{y}+(1-y)log(1-\hat{y})$$

所以损失函数定为：
$$J(\theta) = \frac{1}{m}\sum_{i=1}^mL(\hat{y}^{(i)}, y^{(i)})$$
$$=\frac{1}{m}\sum_{i=1}^m-(ylog\hat{y}+(1-y)log(1-\hat{y}))$$


# sklearn中的LR

scikit-learn 中 logistic 回归在 `LogisticRegression` 类中实现了二分类（binary）、一对多分类（one-vs-rest）及多项式 logistic 回归，并带有可选的 L1 和 L2 正则化。

>注意，scikit-learn的逻辑回归在默认情况下使用L2正则化，这样的方式在机器学习领域是常见的，在统计分析领域是不常见的。正则化的另一优势是提升数值稳定性。scikit-learn通过将C设置为很大的值实现无正则化。