# 挑战练习1：大规模数据回归系统

## 练习目标

实现一个能够处理大规模数据的回归系统，包括性能优化和工程化考虑。

## 练习要求

### 1. 大规模数据处理
- 处理10万+样本的数据集
- 使用内存高效的方法
- 实现数据流式处理（可选）

### 2. 模型优化
- 实现批量梯度下降、随机梯度下降、小批量梯度下降
- 对比不同优化方法的性能
- 实现早停（early stopping）
- 实现学习率衰减

### 3. 分布式训练（可选）
- 使用多进程/多线程加速训练
- 实现模型并行或数据并行

### 4. 模型部署准备
- 实现模型保存和加载
- 实现预测接口
- 性能测试和优化

### 5. 完整的工程化系统
- 模块化设计
- 单元测试
- 日志记录
- 配置文件管理


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
import time
import pickle

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

# 设置matplotlib在notebook中内联显示
%matplotlib inline

print("环境准备完成！")


## 第一步：生成大规模数据

**你的任务**：生成10万+样本的数据集。


In [None]:
# TODO: 生成大规模数据
# 提示：
# 1. 使用 make_regression 生成10万+样本
# 2. 注意内存使用
# 3. 可以考虑分批生成

# 你的代码：
# X, y = make_regression(n_samples=100000, n_features=10, noise=10, random_state=42)
# print(f"数据形状: {X.shape}")
# print(f"内存使用: {X.nbytes / 1024 / 1024:.2f} MB")


## 第二步：实现不同的优化方法

**你的任务**：实现批量梯度下降、随机梯度下降、小批量梯度下降，并对比性能。


In [None]:
# TODO: 实现不同的优化方法
# 提示：
# 1. 批量梯度下降：每次使用全部数据
# 2. 随机梯度下降：每次使用1个样本
# 3. 小批量梯度下降：每次使用batch_size个样本
# 4. 对比训练时间和性能

# 你的代码：
# ... 实现批量梯度下降
# ... 实现随机梯度下降
# ... 实现小批量梯度下降
# ... 对比性能


## 第三步：使用SGDRegressor

**你的任务**：使用scikit-learn的SGDRegressor处理大规模数据。


In [None]:
# TODO: 使用SGDRegressor
# 提示：
# 1. 使用 SGDRegressor 创建模型
# 2. 设置不同的学习率策略
# 3. 实现早停和学习率衰减
# 4. 对比性能

# 你的代码：
# model_sgd = SGDRegressor(max_iter=1000, learning_rate='adaptive', early_stopping=True)
# model_sgd.fit(...)
# ... 评估和对比


## 第四步：模型保存和加载

**你的任务**：实现模型保存和加载功能。


In [None]:
# TODO: 模型保存和加载
# 提示：
# 1. 使用 pickle 保存模型
# 2. 加载模型
# 3. 测试加载的模型

# 你的代码：
# with open('model.pkl', 'wb') as f:
#     pickle.dump(model, f)
# 
# with open('model.pkl', 'rb') as f:
#     loaded_model = pickle.load(f)
# ... 测试加载的模型


## 总结

### 完成情况检查

- [ ] 成功处理大规模数据
- [ ] 实现不同的优化方法
- [ ] 使用SGDRegressor
- [ ] 实现模型保存和加载
- [ ] 性能优化

### 思考问题

1. **大规模数据处理的关键是什么？**
   - 内存管理
   - 计算效率
   - 算法选择

2. **如何优化训练速度？**
   - 使用SGD
   - 并行计算
   - 早停机制

---

**完成后，请查看答案文件进行对比！**
