# 基础练习2：使用scikit-learn实现逻辑回归

## 练习目标

使用scikit-learn库实现逻辑回归，包括：
1. 二分类问题
2. 多分类问题
3. 正则化（L1和L2）
4. 模型评估和可视化

## 练习要求

### 1. 二分类问题
- 使用`make_classification`生成数据
- 训练逻辑回归模型
- 评估模型性能（准确率、ROC曲线、混淆矩阵）
- 可视化决策边界

### 2. 多分类问题
- 使用Iris数据集
- 使用Softmax进行多分类
- 评估每个类别的性能

### 3. 正则化对比
- 对比L1和L2正则化
- 观察不同C值的影响


In [1]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification, load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import (accuracy_score, classification_report, 
                            confusion_matrix, roc_curve, auc)
from sklearn.preprocessing import StandardScaler
import seaborn as sns

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False
np.random.seed(42)
%matplotlib inline

print("环境准备完成！")


环境准备完成！


## 第一部分：二分类问题

**你的任务**：完成二分类逻辑回归的实现和评估。


In [2]:
# TODO: 数据准备
# 提示：
# 1. 使用 make_classification 生成数据（n_samples=1000, n_features=2）
# 2. 划分训练集和测试集（test_size=0.2）
# 3. 使用 StandardScaler 标准化数据

# 你的代码：
# X, y = ...
# X_train, X_test, y_train, y_test = ...
# scaler = ...
# X_train_scaled = ...
# X_test_scaled = ...


In [3]:
# TODO: 训练模型
# 提示：
# 1. 创建 LogisticRegression 模型
# 2. 训练模型
# 3. 预测和评估

# 你的代码：
# model = LogisticRegression(...)
# model.fit(...)
# y_pred = ...
# accuracy = ...


In [4]:
# TODO: 绘制ROC曲线和决策边界
# 提示：
# 1. 使用 roc_curve 计算ROC曲线
# 2. 使用 auc 计算AUC值
# 3. 绘制ROC曲线
# 4. 可视化决策边界

# 你的代码：


## 第二部分：多分类问题

**你的任务**：使用Iris数据集完成多分类逻辑回归。


In [5]:
# TODO: 多分类逻辑回归
# 提示：
# 1. 加载Iris数据集
# 2. 使用 multi_class='multinomial', solver='lbfgs'
# 3. 评估模型并绘制混淆矩阵

# 你的代码：
# iris = load_iris()
# ...


## 第三部分：正则

In [6]:
# TODO: 正则化对比
# 提示：
# 1. 尝试不同的C值（0.01, 0.1, 1, 10, 100）
# 2. 对比L1和L2正则化
# 3. 观察非零参数数量（L1会产生稀疏性）

# 你的代码：


## 总结

完成本练习后，你应该：
- ✅ 掌握scikit-learn的LogisticRegression使用
- ✅ 理解二分类和多分类的区别
- ✅ 理解正则化的作用和影响

### 思考问题
1. 为什么逻辑回归需要标准化？
2. L1和L2正则化有什么区别？
3. 什么时候使用多分类逻辑回归？
