# Chapter 4: 逻辑回归实践

## 实验概述

在本实验中，你将使用 **Breast Cancer 数据集**来学习逻辑回归的实现和应用。这个数据集包含 569 个乳腺肿瘤样本，每个样本有 30 个特征，目标是判断肿瘤是良性还是恶性。

### 实验目标

1. 理解逻辑回归的原理
2. 实现 Sigmoid 函数
3. 实现二分类交叉熵损失
4. 手动实现逻辑回归模型
5. 使用 scikit-learn 的逻辑回归
6. 绘制 ROC 曲线和混淆矩阵

### 数据集信息

- **样本数量**: 569
- **特征数量**: 30
- **特征**: 肿瘤尺寸、纹理、平滑度、对称性等
- **目标**: 0=良性, 1=恶性

## Part 1: 数据加载与探索

### 1.1 导入必要的库

In [None]:
# ===== 预填充代码 =====
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, 
classification_report, confusion_matrix, roc_curve, auc

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

print("库导入成功！")

### 1.2 加载 Breast Cancer 数据集

In [None]:
# ===== 预填充代码 =====
# 加载数据集
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target
feature_names = cancer.feature_names
target_names = cancer.target_names

print("数据集信息:")
print(f"样本数量: {X.shape[0]}")
print(f"特征数量: {X.shape[1]}")
print(f"类别数量: {len(np.unique(y))}")
print(f"类别名称: {target_names}")
print(f"良性样本: {np.sum(y == 0)} 个")
print(f"恶性样本: {np.sum(y == 1)} 个")

### 1.3 数据探索

In [None]:
# ===== 预填充代码 =====
# 创建 DataFrame
df = pd.DataFrame(X, columns=feature_names)
df['target'] = y

print("前5行数据:")
print(df.head())

print("\n数据统计信息:")
print(df.describe())

### 1.4 数据可视化

**任务**: 查看几个重要特征的分布

In [None]:
# ===== 学生代码 =====
# 选择几个重要特征进行可视化
important_features = ['mean radius', 'mean texture', 'mean smoothness', 'mean compactness']

fig, axes = plt.subplots(2, 2, figsize=(12, 10))
axes = axes.ravel()

for idx, feature in enumerate(important_features):
    # TODO: 绘制两个类别的分布
    # 提示: 使用 sns.kdeplot() 或 plt.hist()
    # malignant = df[df['target'] == 1]
    # benign = df[df['target'] == 0]
    pass

plt.tight_layout()
plt.show()

### 1.5 划分训练集和测试集

In [None]:
# ===== 预填充代码 =====
# 划分数据集 (80% 训练, 20% 测试)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"训练集大小: {X_train.shape}")
print(f"测试集大小: {X_test.shape}")
print(f"\n训练集类别分布: {np.bincount(y_train)}")
print(f"测试集类别分布: {np.bincount(y_test)}")

### 1.6 特征标准化

In [None]:
# ===== 预填充代码 =====
# 创建标准化器
scaler = StandardScaler()

# 标准化特征
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("标准化完成！")

## Part 2: 核心函数实现

### 2.1 Sigmoid 函数

**任务**: 实现 Sigmoid 函数 $\sigma(z) = \frac{1}{1 + e^{-z}}$

In [None]:
# ===== 学生代码 =====
def sigmoid(z):
    """
    Sigmoid 函数
    
    参数:
    z: 输入值（可以是标量或数组）
    
    返回:
    Sigmoid 函数的值（0到1之间）
    """
    # TODO: 实现 Sigmoid 函数
    # 避免数值溢出
    # z = np.clip(z, -250, 250)  # 限制范围防止溢出
    # return 1 / (1 + np.exp(-z))
    pass

# 测试 Sigmoid 函数
z_values = np.array([-5, 0, 5])
# sigmoid_results = sigmoid(z_values)
print(f"Sigmoid 函数测试:")
for z in z_values:
    print(f"  σ({z:.1f}) = ")
print(f"\n当 z → -∞, σ(z) → ")
print(f"当 z → +∞, σ(z) → ")

### 2.2 实现前向传播

In [None]:
# ===== 学生代码 =====
def forward_propagation(X, theta):
    """
    逻辑回归前向传播
    
    参数:
    X: 特征矩阵 (m, n+1)，包含截距项
    theta: 参数向量 (n+1,)
    
    返回:
    概率值 (m,)
    """
    # TODO: 计算线性组合并应用 Sigmoid 函数
    # z = np.dot(X, theta)
    # return sigmoid(z)
    pass

### 2.3 实现二分类交叉熵损失

In [None]:
# ===== 学生代码 =====
def binary_cross_entropy(y_true, y_pred):
    """
    计算二分类交叉熵损失
    
    参数:
    y_true: 真实标签 (0或1) (m,)
    y_pred: 预测概率 (0到1之间) (m,)
    
    返回:
    平均损失
    """
    # 避免 log(0) 的情况
    # y_pred = np.clip(y_pred, 1e-15, 1 - 1e-15)
    
    # TODO: 计算二分类交叉熵
    # 当 y_true=1 时: -log(y_pred)
    # 当 y_true=0 时: -log(1 - y_pred)
    m = len(y_true)
    # loss = -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
    
    # return loss

# 测试交叉熵损失
y_true = np.array([1, 0, 1, 1])
y_pred = np.array([0.9, 0.1, 0.8, 0.7])
# loss = binary_cross_entropy(y_true, y_pred)
print(f"交叉熵损失测试: {loss:.4f}")

### 2.4 实现梯度计算

In [None]:
# ===== 学生代码 =====
def compute_gradient(X, y, theta):
    """
    计算逻辑回归的梯度
    
    参数:
    X: 特征矩阵 (m, n+1)
    y: 真实标签 (m,)
    theta: 参数 (n+1,)
    
    返回:
    梯度 (n+1,)
    """
    m = len(y)
    
    # TODO 1: 计算预测概率
    # y_pred = forward_propagation(X, theta)
    
    # TODO 2: 计算误差
    # error = y_pred - y
    
    # TODO 3: 计算梯度
    # gradient = (1/m) * X^T @ (y_pred - y)
    # gradient = (1/m) * np.dot(X.T, error)
    
    # return gradient

# 测试梯度计算
X_train_with_intercept = np.c_[np.ones((X_train_scaled.shape[0], 1)), X_train_scaled]
test_theta = np.zeros(X_train_with_intercept.shape[1])
# test_gradient = compute_gradient(X_train_with_intercept, y_train, test_theta)
print(f"梯度形状: {test_gradient.shape}")
print(f"梯度前5个值: {test_gradient[:5]}")

## Part 3: 手动实现逻辑回归

### 3.1 实现梯度下降

In [None]:
# ===== 学生代码 =====
def logistic_regression_gradient_descent(X, y, theta, alpha, num_iterations):
    """
    逻辑回归梯度下降算法
    
    参数:
    X: 特征矩阵
    y: 真实标签
    theta: 初始参数
    alpha: 学习率
    num_iterations: 迭代次数
    
    返回:
    优化后的参数和损失历史
    """
    # 添加截距项
    m = len(y)
    X_with_intercept = np.c_[np.ones((m, 1)), X]
    
    loss_history = []
    
    for i in range(num_iterations):
        # TODO 1: 计算当前损失
        # y_pred = forward_propagation(X_with_intercept, theta)
        # current_loss = binary_cross_entropy(y, y_pred)
        loss_history.append(current_loss)
        
        # TODO 2: 计算梯度
        # gradient = compute_gradient(X_with_intercept, y, theta)
        
        # TODO 3: 更新参数
        # theta = theta - alpha * gradient
        
        # 每100次迭代打印一次损失
        if (i + 1) % 100 == 0:
            print(f"迭代 {i+1}/{num_iterations}, 损失: {current_loss:.4f}")
    
    # return theta, loss_history

# 测试梯度下降
alpha = 0.01  # 学习率
num_iterations = 1000  # 迭代次数

initial_theta = np.zeros(X_train_scaled.shape[1] + 1)

print("开始逻辑回归梯度下降...")
# theta, loss_history = logistic_regression_gradient_descent(
#     X_train_scaled, y_train, initial_theta, alpha, num_iterations
# )

print(f"\n优化后的参数:")
# print(f"截距: {theta[0]:.4f}")
for i, coef in enumerate(theta[1:], 1):
    print(f"{feature_names[i-1]}: {coef:.4f}")

### 3.2 可视化损失曲线

In [None]:
# ===== 预填充代码 =====
# 绘制损失曲线
plt.figure(figsize=(10, 6))
plt.plot(loss_history)
plt.xlabel('迭代次数')
plt.ylabel('损失 (交叉熵)')
plt.title('逻辑回归损失曲线')
plt.grid(True, alpha=0.3)
plt.show()

### 3.3 实现预测函数

In [None]:
# ===== 学生代码 =====
def predict_proba(X, theta):
    """
    预测概率
    
    参数:
    X: 特征矩阵 (m, n)
    theta: 参数向量 (n+1,)
    
    返回:
    概率值 (m,)
    """
    # TODO: 添加截距项并计算概率
    # X_with_intercept = np.c_[np.ones((len(X), 1)), X]
    # return forward_propagation(X_with_intercept, theta)
    pass

def predict(X, theta, threshold=0.5):
    """
    预测类别
    
    参数:
    X: 特征矩阵
    theta: 参数
    threshold: 分类阈值
    
    返回:
    预测类别 (0或1)
    """
    # probs = predict_proba(X, theta)
    # return (probs >= threshold).astype(int)

# 在测试集上进行预测
# y_test_pred_manual = predict(X_test_scaled, theta)
# y_test_pred_proba = predict_proba(X_test_scaled, theta)

# 计算准确率
# accuracy_manual = accuracy_score(y_test, y_test_pred_manual)

print(f"手动实现的逻辑回归:")
# print(f"  测试集准确率: {accuracy_manual:.4f}")

## Part 4: 使用 scikit-learn 的逻辑回归

### 4.1 创建并训练模型

In [None]:
# ===== 学生代码 =====
from sklearn.linear_model import LogisticRegression

# TODO: 创建逻辑回归模型
# sklearn_lr = LogisticRegression(random_state=42, max_iter=1000)

# TODO: 训练模型
# sklearn_lr.fit(X_train_scaled, y_train)

# TODO: 在测试集上预测
# y_test_pred_sklearn = sklearn_lr.predict(X_test_scaled)
# y_test_pred_proba_sklearn = sklearn_lr.predict_proba(X_test_scaled)[:, 1]

# 计算指标
# accuracy_sklearn = accuracy_score(y_test, y_test_pred_sklearn)

print(f"scikit-learn 逻辑回归:")
# print(f"  测试集准确率: {accuracy_sklearn:.4f}")

# 比较两种方法
print(f"\n两种方法比较:")
# print(f"  准确率差值: {abs(accuracy_manual - accuracy_sklearn):.4f}")

### 4.2 混淆矩阵

In [None]:
# ===== 学生代码 =====
# TODO: 计算混淆矩阵
# cm_manual = None  # 替换为你的代码
# cm_sklearn = None  # 替换为你的代码

# 显示混淆矩阵
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# 手动实现的混淆矩阵
# sns.heatmap(cm_manual, annot=True, fmt='d', cmap='Blues', 
#             xticklabels=target_names, yticklabels=target_names, ax=axes[0])
axes[0].set_title('手动实现的逻辑回归')
axes[0].set_xlabel('预测类别')
axes[0].set_ylabel('真实类别')

# sklearn的混淆矩阵
# sns.heatmap(cm_sklearn, annot=True, fmt='d', cmap='Blues',
#             xticklabels=target_names, yticklabels=target_names, ax=axes[1])
axes[1].set_title('scikit-learn 逻辑回归')
axes[1].set_xlabel('预测类别')
axes[1].set_ylabel('真实类别')

plt.tight_layout()
plt.show()

### 4.3 ROC 曲线

In [None]:
# ===== 学生代码 =====
# TODO: 计算手动实现的 ROC 曲线
# fpr_manual = None  # 替换为你的代码
# tpr_manual = None  # 替换为你的代码
# roc_auc_manual = None  # 替换为你的代码

# 计算 sklearn 的 ROC 曲线
fpr_sklearn, tpr_sklearn, _ = roc_curve(y_test, y_test_pred_proba_sklearn)
roc_auc_sklearn = auc(fpr_sklearn, tpr_sklearn)

# 绘制 ROC 曲线
plt.figure(figsize=(8, 6))
# TODO: 绘制两条 ROC 曲线
# plt.plot(fpr_manual, tpr_manual, label=f'手动实现 (AUC = {roc_auc_manual:.4f})', linewidth=2)
plt.plot(fpr_sklearn, tpr_sklearn, label=f'sklearn (AUC = {roc_auc_sklearn:.4f})', linewidth=2)

plt.plot([0, 1], [0, 1], 'k--', lw=2)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('假阳性率')
plt.ylabel('真阳性率')
plt.title('ROC 曲线比较')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

## Part 5: 挑战练习

### 5.1 L2 正则化实现

In [None]:
# ===== 学生代码 =====
def logistic_regression_with_l2(X, y, theta, alpha, lambda_reg, num_iterations):
    """
    带L2正则化的逻辑回归
    
    参数:
    lambda_reg: L2正则化系数
    """
    m = len(y)
    X_with_intercept = np.c_[np.ones((m, 1)), X]
    
    loss_history = []
    
    for i in range(num_iterations):
        # 计算当前损失
        # y_pred = forward_propagation(X_with_intercept, theta)
        # cross_entropy = binary_cross_entropy(y, y_pred)
        # 添加L2正则项（不惩罚截距项）
        # l2_reg = (lambda_reg / (2*m)) * np.sum(theta[1:] ** 2)
        # total_loss = cross_entropy + l2_reg
        # loss_history.append(total_loss)
        
        # 计算梯度
        # gradient = compute_gradient(X_with_intercept, y, theta)
        # 添加L2正则的梯度
        # gradient[1:] += (lambda_reg/m) * theta[1:]
        
        # 更新参数
        # theta = theta - alpha * gradient
    
    # return theta, loss_history

# 尝试不同的正则化系数
lambda_values = [0.001, 0.01, 0.1, 1.0]
results = []

print("L2正则化效果:")
for lambda_reg in lambda_values:
    # theta_l2, _ = logistic_regression_with_l2(
    #     X_train_scaled, y_train, initial_theta, alpha, lambda_reg, num_iterations
    # )
    
    # y_pred_l2 = predict(X_test_scaled, theta_l2)
    # accuracy_l2 = accuracy_score(y_test, y_pred_l2)
    
    # results.append({
    #     'lambda': lambda_reg,
    #     'accuracy': accuracy_l2
    # })
    
    print(f"lambda={lambda_reg}: 准确率 = {accuracy_l2:.4f}")

# 找到最佳正则化系数
# best_result = max(results, key=lambda x: x['accuracy'])
# print(f"\n最佳 lambda: {best_result['lambda']}, 准确率: {best_result['accuracy']:.4f}")

### 5.2 特征重要性分析

In [None]:
# ===== 学生代码 =====
# 提取 sklearn 模型的系数
# feature_importance = np.abs(sklearn_lr.coef_[0])

# 创建 DataFrame
# importance_df = pd.DataFrame({
#     'feature': feature_names,
#     'coefficient': sklearn_lr.coef_[0],
#     'absolute_importance': feature_importance
# }).sort_values('absolute_importance', ascending=False)

print("Top 10 最重要的特征:")
# print(importance_df.head(10))

# 可视化
plt.figure(figsize=(12, 6))
# plt.barh(importance_df['feature'][:10], importance_df['coefficient'][:10])
plt.xlabel('系数值')
plt.ylabel('特征')
plt.title('逻辑回归特征系数 (Top 10)')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

### 5.3 交叉验证

In [None]:
# ===== 学生代码 =====
# TODO: 使用 cross_val_score 进行 5 折交叉验证
# cv_scores = None  # 替换为你的代码

print("5 折交叉验证结果:")
# print(f"每折分数: {cv_scores}")
# print(f"平均分数: {cv_scores.mean():.4f}")
# print(f"标准差: {cv_scores.std():.4f}")

# 可视化
plt.figure(figsize=(8, 5))
# plt.bar(range(1, 6), cv_scores, alpha=0.7, edgecolor='black')
# plt.axhline(y=cv_scores.mean(), color='red', linestyle='--',
#             label=f'平均分: {cv_scores.mean():.4f}')
plt.xlabel('折数')
plt.ylabel('准确率')
plt.title('5 折交叉验证结果')
plt.xticks(range(1, 6))
plt.legend()
plt.grid(True, alpha=0.3, axis='y')
plt.show()

## 总结

恭喜你完成了逻辑回归实验！在本实验中，你学习了：

1. ✅ **逻辑回归原理**: Sigmoid 函数、二分类交叉熵
2. ✅ **手动实现**: 从零实现逻辑回归梯度下降
3. ✅ **scikit-learn**: 使用 LogisticRegression 类
4. ✅ **模型评估**: 准确率、混淆矩阵、ROC 曲线
5. ✅ **正则化**: L2 正则化防止过拟合
6. ✅ **特征分析**: 特征重要性分析

### 关键要点

- **Sigmoid 函数**: 将线性组合映射到 0-1 之间的概率
- **交叉熵损失**: 衡量预测概率与真实标签之间的差距
- **梯度下降**: 通过迭代更新参数最小化损失
- **ROC 曲线**: 评估分类器在不同阈值下的性能
- **特征系数**: 正系数增加恶性概率，负系数增加良性概率

### 进一步学习

- 尝试不同的分类阈值（不默认使用 0.5）
- 学习逻辑回归在多分类中的应用
- 探索其他正则化方法（L1 正则化）
- 学习概率校准技术