# 挑战练习1：大规模数据与在线学习

## 练习目标

处理大规模数据，实现增量学习和在线学习，包括：
1. 大规模数据处理（批量处理、内存优化）
2. 增量学习（支持增量更新参数）
3. 在线学习（使用SGD处理数据流）
4. 性能优化（计算优化、分布式训练）

## 练习要求

### 1. 大规模数据处理

**任务**：处理10万+样本的大规模数据集

**要求**：
- 实现批量梯度下降
- 实现小批量梯度下降（Mini-batch）
- 实现随机梯度下降（SGD）
- 比较不同方法的性能和时间
- 优化内存使用（使用生成器、HDF5/Parquet格式）

### 2. 增量学习

**任务**：实现支持增量更新的逻辑回归

**要求**：
- 支持增量更新参数，不需要重新训练整个模型
- 处理新数据到来时的模型更新
- 评估增量学习的效果
- 对比全量重训练的性能

### 3. 在线学习

**任务**：实现在线逻辑回归，处理数据流

**要求**：
- 使用随机梯度下降（SGD）
- 支持逐个样本更新模型
- 实现学习率衰减和自适应学习率
- 监控模型性能变化

## 提示

1. **大规模数据处理**：
   - 使用生成器避免一次性加载所有数据
   - 使用`sklearn.linear_model.SGDClassifier`处理大规模数据
   - 考虑使用`joblib`进行并行处理

2. **增量学习**：
   - 可以使用`partial_fit`方法进行增量更新
   - 需要维护足够的统计信息

3. **在线学习**：
   - 使用`SGDClassifier`的`partial_fit`方法
   - 实现学习率调度器


## 第一步：环境准备


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
import time

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

# 设置matplotlib在notebook中内联显示
%matplotlib inline

print("环境准备完成！")


## 第二步：大规模数据处理

**任务1**：生成大规模数据集（10万样本）

**任务2**：实现批量梯度下降、小批量梯度下降、随机梯度下降

**任务3**：比较不同方法的性能和时间


In [None]:
# TODO: 生成大规模数据集
# 提示：使用make_classification生成10万+样本
# 注意：大规模数据可能需要较长时间生成

# 你的代码：


In [None]:
# TODO: 实现批量梯度下降
# 提示：使用所有数据计算梯度

# 你的代码：


In [None]:
# TODO: 实现小批量梯度下降（Mini-batch）
# 提示：每次使用一小批数据（如32、64、128个样本）计算梯度

# 你的代码：


In [None]:
# TODO: 使用SGDClassifier实现随机梯度下降
# 提示：使用sklearn.linear_model.SGDClassifier

# 你的代码：


## 第三步：增量学习

**任务**：实现支持增量更新的逻辑回归

**要求**：
- 初始模型训练
- 新数据到来时增量更新
- 评估增量学习的效果
- 对比全量重训练


In [None]:
# TODO: 实现增量学习
# 提示：
# 1. 使用SGDClassifier的partial_fit方法
# 2. 初始训练一部分数据
# 3. 新数据到来时使用partial_fit更新
# 4. 对比全量重训练的时间

# 你的代码：


## 第四步：在线学习

**任务**：实现在线逻辑回归，处理数据流

**要求**：
- 模拟数据流
- 逐个样本更新模型
- 实现学习率衰减
- 监控模型性能变化


In [None]:
# TODO: 实现在线学习
# 提示：
# 1. 使用生成器模拟数据流
# 2. 使用partial_fit逐个样本更新
# 3. 实现学习率衰减（如learning_rate='adaptive'）
# 4. 定期评估模型性能并记录

# 你的代码：


## 总结

完成本练习后，你应该：
- ✅ 理解大规模数据处理的挑战和解决方案
- ✅ 掌握批量梯度下降、小批量梯度下降、随机梯度下降的区别
- ✅ 理解增量学习和在线学习的原理
- ✅ 能够使用SGDClassifier处理大规模数据

### 思考问题

1. 批量梯度下降、小批量梯度下降、随机梯度下降各有什么优缺点？
2. 什么时候使用增量学习？什么时候需要全量重训练？
3. 在线学习适合什么场景？有什么局限性？
