## 1. 工作原理

逻辑回归(Logistic Regression)：分类模型，专门用于解决二元分类问题。二元分类是指目标变量只有两个水平值，例如判断性别为'男'或'女'，预测股票价格'上涨'或'下跌'，贷款人'还款'或'违约'。逻辑回归的建模思路与传统的线性回归相似。

**逻辑回归能否用于多变量分类？**

在二元分类问题中，目标变量只有两个水平值，通常记为'1'和'0'，1代表感兴趣的事情发生，0代表没有发生。

我们继续采用线性回归的建模方式，但碍于目标变量是分类变量，建模的目的转为预测$p(Y=1)$，即感兴趣的事情发生的概率，采用如下方程：

$$p = \frac{1}{(1 + e^{\beta_0 + \beta_1X_1 + \beta_2X_2 ... + \beta_kX_k})}$$

这个方程保证了概率p的取值范围在$[0,1]$之间，但由于参数是非线性的，引入一个新变量$Odds(Y=1) = \frac{p}{1-p}$，即感兴趣的事情发生的“几率”，等于事件发生的概率除以事件不发生的概率，于是方程转变为：

$$Odds(Y=1) = e^{\beta_0 + \beta_1X_1 + \beta_2X_2 ... + \beta_kX_k}$$

方程两边取自然对数，转变为熟悉的线性方程，该方程也被称为**Logit函数**：

$$log(Odds(Y=1)) = \beta_0 + \beta_1X_1 + \beta_2X_2 ... + \beta_kX_k$$

结论：逻辑回归用预测变量来预测$Y=1$的概率，尽管上述方程的因变量是“对数几率”，但很容易从几率反推出概率。实际应用中通常采取'cut-off rules'，即设定一个概率阈值，例如0.5，当$p(Y=1) > 0.5$时认为$Y=1$，反之$Y=0$，这样就把概率值重新转化为分类变量。

## 2. Sklearn实现

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

我们用diabetes数据集，目标是预测病人是否患有糖尿病，患病记为1，不患病记为0.

In [4]:
colnames = [
    'pregnant', 'glucose', 'bp',
    'skin', 'insulin', 'bmi',
    'pedigree', 'age', 'label'
]
diabetes = pd.read_csv("datasets/diabetes.csv", header=None, skiprows=1, names=colnames)
diabetes.head()

Unnamed: 0,pregnant,glucose,bp,skin,insulin,bmi,pedigree,age,label
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [7]:
# 划分训练集和检验集，采用80/20划分
X = diabetes.iloc[:,:8]
y = diabetes.label
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

# 创建模型对象
model = LogisticRegression(solver="liblinear")

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估预测精度
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.81      0.94      0.87        96
           1       0.86      0.64      0.73        58

    accuracy                           0.82       154
   macro avg       0.84      0.79      0.80       154
weighted avg       0.83      0.82      0.82       154

