# 进阶练习1：完整的回归系统

## 练习目标

实现一个完整的回归系统，包括数据预处理、模型训练、评估、可视化。

## 练习要求

### 1. 数据加载和探索
- 加载数据（可以使用真实数据集或生成数据）
- 数据探索：统计信息、缺失值、相关性分析
- 数据可视化：分布图、散点图、相关性热力图

### 2. 数据预处理
- 处理缺失值
- 特征标准化/归一化
- 特征工程（可选：创建新特征）

### 3. 模型训练和选择
- 训练多个模型：线性回归、Ridge、Lasso、Elastic Net
- 使用交叉验证评估模型
- 选择最佳模型和超参数

### 4. 模型评估
- 计算多个评估指标：MSE、RMSE、MAE、R²
- 绘制预测 vs 真实散点图
- 绘制残差图
- 分析残差分布

### 5. 特征重要性分析
- 分析各特征的系数
- 可视化特征重要性
- 识别重要特征

### 6. 模型解释
- 解释模型参数的含义
- 分析模型性能
- 提出改进建议


In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

# 设置matplotlib在notebook中内联显示
%matplotlib inline

print("环境准备完成！")


## 第一步：数据加载和探索

**你的任务**：加载数据，进行数据探索和可视化。


In [None]:
# TODO: 数据加载和探索
# 提示：
# 1. 生成或加载数据
# 2. 查看数据基本信息：shape, head(), describe()
# 3. 检查缺失值：isnull().sum()
# 4. 计算相关性：corr()
# 5. 可视化：分布图、散点图、相关性热力图

# 你的代码：
# df = ...  # 加载数据
# print(df.info())
# print(df.describe())
# print(df.isnull().sum())
# ... 可视化


## 第二步：数据预处理

**你的任务**：处理缺失值、标准化特征、特征工程。


In [None]:
# TODO: 数据预处理
# 提示：
# 1. 处理缺失值：删除或填充
# 2. 特征标准化：StandardScaler
# 3. 特征工程（可选）：创建新特征、特征变换

# 你的代码：
# ... 处理缺失值
# scaler = StandardScaler()
# X_scaled = scaler.fit_transform(X)
# ... 特征工程


## 第三步：模型训练和选择

**你的任务**：训练多个模型，使用交叉验证评估，选择最佳模型。


In [None]:
# TODO: 模型训练和选择
# 提示：
# 1. 训练多个模型：LinearRegression, Ridge, Lasso, ElasticNet
# 2. 使用交叉验证评估：cross_val_score
# 3. 使用GridSearchCV选择最佳超参数
# 4. 选择最佳模型

# 你的代码：
# models = {...}
# for name, model in models.items():
#     scores = cross_val_score(model, X_train, y_train, cv=5, scoring='r2')
#     print(f"{name}: {scores.mean():.4f} ± {scores.std():.4f}")
# ... 选择最佳模型


## 第四步：模型评估

**你的任务**：计算多个评估指标，绘制预测vs真实图和残差图。


In [None]:
# TODO: 模型评估
# 提示：
# 1. 计算MSE、RMSE、MAE、R²
# 2. 绘制预测 vs 真实散点图
# 3. 绘制残差图
# 4. 分析残差分布

# 你的代码：
# mse = mean_squared_error(y_test, y_pred)
# rmse = np.sqrt(mse)
# mae = mean_absolute_error(y_test, y_pred)
# r2 = r2_score(y_test, y_pred)
# ... 可视化


## 第五步：特征重要性分析

**你的任务**：分析各特征的系数，可视化特征重要性。


In [None]:
# TODO: 特征重要性分析
# 提示：
# 1. 获取模型系数：model.coef_
# 2. 按重要性排序
# 3. 可视化特征重要性（条形图）
# 4. 识别重要特征

# 你的代码：
# feature_importance = np.abs(model.coef_)
# sorted_idx = np.argsort(feature_importance)[::-1]
# ... 可视化


## 第六步：模型解释

**你的任务**：解释模型参数的含义，分析模型性能，提出改进建议。


# TODO: 模型解释
# 提示：
# 1. 解释每个特征的系数含义
# 2. 分析模型性能（训练集vs测试集）
# 3. 分析残差分布
# 4. 提出改进建议

# 你的分析：
# 1. 模型参数解释：
#    - 系数为正：该特征增加时，目标值增加
#    - 系数为负：该特征增加时，目标值减少
#    - 系数绝对值大：该特征影响大
#
# 2. 模型性能分析：
#    - 训练集和测试集性能接近：模型泛化好
#    - 训练集好但测试集差：可能过拟合
#    - 训练集和测试集都差：可能欠拟合
#
# 3. 改进建议：
#    - 特征工程
#    - 正则化
#    - 数据预处理
#    - 模型选择
