# 分类算法四：逻辑回归
- 适用于解决二分类问题
- 应用场景：广告点击率(点击、没点击)、是否为垃圾邮件、是否患病、金融诈骗、虚假账号..

## <mark style=background-color:pink>一、sigmoid函数与逻辑回归公式<mark>
- 逻辑回归输入：$Z(W) = w_{0} + w_{1}x_{1} + w_{2}x_{3} + ... =W^{T}X$
- 逻辑回归的输入→sigmoid函数→分类输出
    
sigmoid函数：
- 公式：$g(x) = \frac{1}{1+e^{-x}}$

sigmoid函数的特点：
- 过点：(0,0.5)，默认0.5为阀值
- 值域：[0,1]
    
逻辑回归公式：
- 公式：$h_{\theta}(X) = g(\theta^{T}X)$


## <mark style=background-color:pink>二、逻辑回归的损失函数、优化<mark>
- 与线性回归原理相同，但由于是分类问题，损失函数不一样，只能通过梯度下降求解
    
对数似然损失函数：$cost(h_{\theta}(x),y)$
- 如果y=1：$-log(h_{\theta}(x))$
- 如果y=0：$-log(1-h_{\theta}(x))$

完整的损失函数：
- $cost(h_{\theta}(x),y) = \sum_{i=1}^{m}-y_{i}log(h_{\theta}(x))-(1-y_{i})log(1-h_{\theta}(x))$
    
cost损失的值约小，那么预测的类别准确度更高
    
    
**例**：

|样本特征值|样本属于的类别|逻辑回归预测样本属于1类的概率|逻辑回归越策的类别(概率阈值：0.5)|
|---------|-------------|----------------------------|--------|
|样本1的特征值|1|0.6|1|
|样本2的特征值|0|0.1|0|
|样本3的特征值|0|0.51|1|
|样本4的特征值|1|0.7|1|

则该例中的损失为：1\*log(0.6)+0\*log(0.1)+0\*log(0.51)+1\*log(0.7)
    
**损失函数**：
- 线性回归：均方误差(不存在多个局部最低点)，只有一个最小值
- 逻辑回归：对数似然损失：多个局部最小值

**梯度下降求解优化**：
- 多次随机初始化，多次比较最小值结果
- 求解过程当中，调整学习率

## <mark style=background-color:pink>三、sklearn中的逻辑回归<mark>
- 类：**sklearn.linear_model.LogisticRegression**
- 实例化语法：**sklearn.linear_model.LogisticRegression(penalty='l2',C=1.0)**
- penalty：正则化
- C：正则化力度
- estimator.coef_：回归系数
- 哪一个类别数量少，判定的概率就是指这个类别的
- 比如肿瘤数据集中，恶性类别较少，所以判定的概率是恶性的概率
- 若概率为0.1，即恶性肿瘤的概率为0.1，低于阈值0.5，则为良性

## <mark style=background-color:pink>四、逻辑回归案例：良/恶性乳腺癌肿瘤预测<mark>
- 良/恶性乳腺癌肿瘤预测
- 原始数据下载地址：https://archive.ics.uci.edu/ml/machine-learning-databases/

数据描述：
- 699条样本，共11列数据，第一列用于检索的id，后9列分别是与肿瘤相关的医学特征，最后一列表示出肿瘤类型的数值
- 包含了16个缺失值，用'?'标出
- 良性：458，占 65.5%
- 恶性：241，占 34.5%
    
|1|2|3|4|5|6|7|8|9|10|11|
|--|--|--|--|--|--|--|--|--|--|--|
|示例代号编码|块厚度1-10|细胞大小的一致性1-10|电池形状的均匀性1-10|边缘附着力1-10|单个上皮细胞大小1-10|裸核1-10|平淡的染色质1-10|正常核仁1-10|有丝分裂1-10|分类(2:良性,4:恶性)|

    
    
    

良/恶性乳腺癌肿瘤分类流程：
- ①网上获取数据
- ②数据缺失值处理、标准化
- ③LogisticRegression估计器流程

### ①网上获取数据

In [3]:
#导入Pandas
import pandas as pd

#列名
column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithlial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']

#读取数据
data = pd.read_csv(r"E:\jupyterlab\ML\breast-cancer-wisconsin.data",names=column_names)

### ②数据缺失值处理、标准化

In [5]:
#导入numpy要使用np.nan
import numpy as np

#处理'？'标记的缺失值
data.replace(to_replace='?',value=np.nan,inplace=True)

In [6]:
#删除缺失值
data.dropna(inplace=True)

In [7]:
#查看数据集的基本信息
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 683 entries, 0 to 698
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Sample code number          683 non-null    int64 
 1   Clump Thickness             683 non-null    int64 
 2   Uniformity of Cell Size     683 non-null    int64 
 3   Uniformity of Cell Shape    683 non-null    int64 
 4   Marginal Adhesion           683 non-null    int64 
 5   Single Epithlial Cell Size  683 non-null    int64 
 6   Bare Nuclei                 683 non-null    object
 7   Bland Chromatin             683 non-null    int64 
 8   Normal Nucleoli             683 non-null    int64 
 9   Mitoses                     683 non-null    int64 
 10  Class                       683 non-null    int64 
dtypes: int64(10), object(1)
memory usage: 64.0+ KB


In [9]:
#导入划分数据集的类
from sklearn.model_selection import train_test_split

#将数据集划分为训练集的特征值、测试集的特征值、训练集的目标值、测试集的目标值
X_train,X_test,Y_train,Y_test = train_test_split(data.iloc[:,1:10],data.iloc[:,10],test_size=0.25,random_state=2021)

In [10]:
#导入特征工程：数据预处理：标准化处理的类
from sklearn.preprocessing import StandardScaler

#实例化标准化处理的类，注意此时不同于线性回归无需目标值标准化
std = StandardScaler()

#对训练集和测试集的特征值进行标准化处理
X_train = std.fit_transform(X_train)
X_test = std.transform(X_test)

### ③LogisticRegression估计器流程

In [11]:
#导入逻辑回归的类
from sklearn.linear_model import LogisticRegression

#实例化
logi = LogisticRegression()

#传入数据训练逻辑回归算法得到模型
logi.fit(X_train,Y_train)

LogisticRegression()

In [12]:
#获得训练过后逻辑回归的系数
print('逻辑回归模型的系数为：',logi.coef_)

#对测试集进行预测，获得预测值
Y_test_predict = logi.predict(X_test)

#由于是分类问题，所以有准确率
print('逻辑回归的准确率为：',logi.score(X_test,Y_test))

逻辑回归模型的系数为： [[1.32510384 0.25533614 0.81079192 0.65030653 0.24254543 1.29061651
  0.96929674 0.54621345 0.61570494]]
逻辑回归的准确率为： 0.9649122807017544


In [14]:
#但是这类预测癌症的问题并不注重的是准确率，而是召回率
#也就是已知目标值是恶性肿瘤的，有多少个经过预测得到的值也是恶性

#导入分类模型评估的类
from sklearn.metrics import classification_report

#召回率
classification_report(Y_test,Y_test_predict,labels=[2,4],target_names=['良性','恶性'])

'              precision    recall  f1-score   support\n\n          良性       0.97      0.97      0.97       105\n          恶性       0.95      0.95      0.95        66\n\n    accuracy                           0.96       171\n   macro avg       0.96      0.96      0.96       171\nweighted avg       0.96      0.96      0.96       171\n'

## <mark style=background-color:pink>五、逻辑回归总结<mark>
- 应用：广告点击率预测、是否患病、金融诈骗、是否为虚假账号
- 优点：适合需要得到一个分类概率的场景，简单，速度快
- 缺点：不好处理多分类问题，但是可以做：也就是多分类拆解为多个二分类问题来做
- 改进：softmax方法：逻辑回归在多分类问题上的推广，将在神经网络算法中介绍
    
逻辑回归和朴素贝叶斯：

|算法|可以解决的问题类型|应用场景|参数|共同特点|是否需要求得先验概率|模型类别|
|----|----------------|-------|----|-------|------------------|-------|
|逻辑回归|二分类问题|癌症判别|正则化力度|得出的结果有概率解释|不需要|判别模型|
|朴素贝叶斯|多分类问题|文本分类|-|得出的结果有概率解释|需要|生成模型|
    

    

判别模型和生成模型：判别依据是是否需要先验数据(历史数据中的概率信息)
- 判别模型：KNN，决策树，随机森林，神经网络
- 生成模型：朴素贝叶斯