# 对率回归

对率回归（Logistic Regression）是一种广泛应用的统计方法，用于描述和解释分类因变量与一个或多个自变量之间的关系。尽管其名称中含有“回归”，它实际上是一种用于解决二分类或多分类问题的分类方法，而不是用于预测连续变量的回归方法。

## 基本概念

对率回归的核心是“对率函数”（Logistic Function），也称为“逻辑函数”或“Sigmoid 函数”


## 应用场景

+ 二分类问题：对率回归最常用于二分类问题，例如判断邮件是否为垃圾邮件、用户是否会点击广告等。
+ 多分类问题：通过一对多（One-vs-All）或多项式对率回归（Multinomial Logistic Regression），对率回归也可用于多分类问题。

## 优缺点

**优点**  
+ 结果易于解释：输出的是概率值，易于理解和解释。
+ 计算效率高：算法相对简单，计算速度快。
+ 适合大规模数据：能够处理包含大量特征的数据集。

**缺点**  
+ 假设条件：对率回归依赖于一些假设，如自变量之间相互独立、自变量与因变量之间呈线性关系等。
+ 对异常值敏感：异常值可能会对模型产生较大影响。

威斯康辛乳腺肿瘤数据集的基本介绍

    特征
        数据集包含30个特征，这些特征都是实值特征，是从乳腺肿瘤细胞核的图像中计算得出的。
        这些特征包括细胞核的大小、形状、纹理等。
    标签
        0（良性）
        1（恶性）
    
    数据集包含569个样本，其中212个是恶性，357个是良性。

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# 载入糖尿病数据集
dataset = load_breast_cancer()   # 字典

# 使用train_test_split()函数将数据分为训练用的特征与标签集, 和测试用的特征与标签集
x_train, x_test, y_train, y_test = train_test_split(dataset["data"], dataset["target"], test_size=0.25, random_state=42)

In [6]:
# 从线性模型中使用对率回归创建模型
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(max_iter=10000)   # 当算法未能达到预定的收敛标准, 即迭代次数达到了上限但没有收敛. 可以将max_iter参数赋予更大的值.

# 进行拟合
model.fit(x_train, y_train)

In [7]:
# 在测试特征值上进行预测
y_pred = model.predict(x_test)

# 将预测结果与测试集标签计算均方误差, 以评价模型的准确性
from sklearn.metrics import accuracy_score
# 计算准确率
accu = accuracy_score(y_test, y_pred)
print("当前对率回归模型的准确率为:", accu)

当前对率回归模型的准确率为: 0.965034965034965
