# 练习3：交叉验证实战

## 练习目标

掌握使用交叉验证评估模型性能，理解不同交叉验证方法的适用场景。

## 任务说明

本练习将完成以下任务：

1. **K折交叉验证**：从零实现和使用scikit-learn的K折交叉验证
2. **留一法交叉验证**：实现并分析留一法交叉验证
3. **分层交叉验证**：实现分层交叉验证并分析其重要性
4. **时间序列交叉验证**：了解时间序列交叉验证（可选）


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
import time
from sklearn.datasets import load_iris, load_diabetes
from sklearn.model_selection import (
    cross_val_score, KFold, StratifiedKFold,
    LeaveOneOut, TimeSeriesSplit
)
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, mean_squared_error

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
np.random.seed(42)

print("环境准备完成！")


## 任务1：K折交叉验证

### 1.1 从零实现K折交叉验证


In [None]:
def k_fold_cross_validation(X, y, model, k=5, scoring='accuracy'):
    """
    从零实现K折交叉验证
    参数:
        X: 特征数据
        y: 标签数据
        model: 模型对象
        k: 折数
        scoring: 评估指标（'accuracy'或'mse'）
    返回:
        scores: 每折的评估结果
        mean_score: 平均评估结果
        std_score: 标准差
    """
    # TODO: 在这里实现你的代码
    # 提示：
    # 1. 将数据随机打乱并分成k折
    # 2. 对每一折：用其他k-1折训练，用当前折测试
    # 3. 计算每折的评估指标
    # 4. 返回所有折的得分、平均得分和标准差
    pass

# 测试数据
iris = load_iris()
X, y = iris.data, iris.target

# TODO: 测试你的实现
# model = LogisticRegression(random_state=42)
# scores, mean_score, std_score = k_fold_cross_validation(X, y, model, k=5)
# print(f"K折交叉验证结果: {mean_score:.4f} ± {std_score:.4f}")


### 1.2 使用scikit-learn的K折交叉验证


In [None]:
# TODO: 使用cross_val_score进行K折交叉验证
# 提示：使用默认的KFold

# TODO: 使用KFold自定义折数
# 提示：创建KFold对象，设置n_splits和shuffle

# TODO: 使用StratifiedKFold进行分层K折交叉验证
# 提示：用于分类任务，保持每折中类别分布一致

# TODO: 比较自定义实现和scikit-learn的结果

print("K折交叉验证完成！")


### 1.3 比较不同K值的影响


In [None]:
# TODO: 测试K=3, 5, 10, 20时的交叉验证结果
# 提示：使用循环测试不同的K值

# TODO: 可视化不同K值的结果
# 提示：绘制K值 vs 平均得分和标准差的图

# TODO: 分析K值对评估结果的影响
# 思考：K值越大越好吗？为什么？

print("K值比较完成！")


## 任务2：留一法交叉验证

### 2.1 实现留一法交叉验证


In [None]:
# TODO: 使用LeaveOneOut进行留一法交叉验证
# 提示：注意留一法计算时间较长，可以先用小数据集测试

# TODO: 比较留一法与K折交叉验证的结果
# 提示：使用相同的数据集和模型

# TODO: 分析留一法的优缺点
# 思考：
# - 留一法的优点是什么？
# - 留一法的缺点是什么？
# - 什么时候应该使用留一法？

print("留一法交叉验证完成！")


## 任务3：分层交叉验证

### 3.1 实现分层交叉验证


In [None]:
# TODO: 使用StratifiedKFold进行分层交叉验证

# TODO: 比较普通K折和分层K折的结果差异
# 提示：在类别不平衡的数据集上测试

# TODO: 分析分层交叉验证的重要性
# 思考：
# - 为什么分层交叉验证更适合分类任务？
# - 在什么情况下必须使用分层交叉验证？

print("分层交叉验证完成！")


## 任务4：时间序列交叉验证（可选）

### 4.1 了解时间序列交叉验证


In [None]:
# TODO: 使用TimeSeriesSplit进行时间序列交叉验证
# 提示：时间序列交叉验证不能打乱数据顺序

# TODO: 理解时间序列数据的特点
# 思考：
# - 为什么时间序列数据不能随机打乱？
# - 时间序列交叉验证与普通K折交叉验证的区别是什么？

print("时间序列交叉验证了解完成！")


## 总结

完成本练习后，你应该：

1. ✅ 理解交叉验证的原理和重要性
2. ✅ 能够从零实现K折交叉验证
3. ✅ 掌握不同交叉验证方法的使用场景
4. ✅ 能够选择合适的交叉验证方法

### 思考问题

1. 为什么需要交叉验证？只用训练集和测试集划分有什么问题？
2. K折交叉验证中，K值应该如何选择？
3. 什么时候应该使用分层交叉验证？
4. 留一法交叉验证的优缺点是什么？
5. 时间序列数据为什么需要特殊的交叉验证方法？
