# 分类算法四：逻辑回归
- 适用于解决二分类问题
- 应用场景：广告点击率(点击、没点击)、是否为垃圾邮件、是否患病、金融诈骗、虚假账号..

## <mark style=background-color:pink>一、sigmoid函数与逻辑回归公式<mark>
- 逻辑回归输入：$Z(W) = w_{0} + w_{1}x_{1} + w_{2}x_{3} + ... =W^{T}X$
- 逻辑回归的输入→sigmoid函数→分类输出
    
sigmoid函数：
- 公式：$g(x) = \frac{1}{1+e^{-x}}$

sigmoid函数的特点：
- 过点：(0,0.5)，默认0.5为阀值
- 值域：[0,1]
    
逻辑回归公式：
- 公式：$h_{\theta}(X) = g(\theta^{T}X)$


## <mark style=background-color:pink>二、逻辑回归的损失函数、优化<mark>
- 与线性回归原理相同，但由于是分类问题，损失函数不一样，只能通过梯度下降求解
    
对数似然损失函数：$cost(h_{\theta}(x),y)$
- 如果y=1：$-log(h_{\theta}(x))$
- 如果y=0：$-log(1-h_{\theta}(x))$

完整的损失函数：
- $cost(h_{\theta}(x),y) = \sum_{i=1}^{m}-y_{i}log(h_{\theta}(x))-(1-y_{i})log(1-h_{\theta}(x))$
    
cost损失的值约小，那么预测的类别准确度更高
    
    
**例**：

|样本特征值|样本属于的类别|逻辑回归预测样本属于1类的概率|逻辑回归越策的类别(概率阈值：0.5)|
|---------|-------------|----------------------------|--------|
|样本1的特征值|1|0.6|1|
|样本2的特征值|0|0.1|0|
|样本3的特征值|0|0.51|1|
|样本4的特征值|1|0.7|1|

则该例中的损失为：1\*log(0.6)+0\*log(0.1)+0\*log(0.51)+1\*log(0.7)
    
**损失函数**：
- 线性回归：均方误差(不存在多个局部最低点)，只有一个最小值
- 逻辑回归：对数似然损失：多个局部最小值

**梯度下降求解优化**：
- 多次随机初始化，多次比较最小值结果
- 求解过程当中，调整学习率

## <mark style=background-color:pink>三、sklearn中的逻辑回归<mark>
- 类：**sklearn.linear_model.LogisticRegression**
- 实例化语法：**sklearn.linear_model.LogisticRegression(penalty='l2',C=1.0)**
- penalty：正则化
- C：正则化力度
- estimator.coef_：回归系数
- 哪一个类别数量少，判定的概率就是指这个类别的


## <mark style=background-color:pink>四、逻辑回归案例<mark>
- 良/恶性乳腺癌肿瘤预测
- 原始数据下载地址：https://archive.ics.uci.edu/ml/machine-learning-databases/

数据描述：
- 699条样本，共11列数据，第一列用于检索的id，后9列分别是与肿瘤相关的医学特征，最后一列表示出肿瘤类型的数值
- 包含了16个缺失值，用'?'标出
- 良性：458，占 65.5%
- 恶性：241，占 34.5%
    
|1|2|3|4|5|6|7|8|9|10|11|
|--|--|--|--|--|--|--|--|--|--|--|
|示例代号编码|块厚度1-10|细胞大小的一致性1-10|电池形状的均匀性1-10|边缘附着力1-10|单个上皮细胞大小1-10|裸核1-10|平淡的染色质1-10|正常核仁1-10|有丝分裂1-10|分类(2:良性,4:恶性)|