# 🚀 机器学习模型优化完整教程

## 📊 教程概览

**目标**: 系统学习机器学习模型优化的完整流程，将 RMSE 从 6697 优化到 5600-5800（提升13-16%）

### 📚 学习路线图

```
第一部分：环境准备与数据清洗
  ├── 异常值检测与处理
  └── 数据质量优化
  预期提升: -100 RMSE

第二部分：高级特征工程 ⭐⭐⭐
  ├── 领域知识特征
  ├── Target Encoding
  ├── 分组统计特征
  └── 特征选择
  预期提升: -400 RMSE

第三部分：超参数优化
  ├── Optuna 贝叶斯优化
  └── 参数重要性分析
  预期提升: -150 RMSE

第四部分：验证策略优化
  └── 分层交叉验证
  预期提升: 稳定性提升

第五部分：模型融合 ⭐⭐⭐
  ├── XGBoost + CatBoost
  ├── 加权平均
  └── Stacking
  预期提升: -300 RMSE

第六部分：后处理优化
  └── 残差分析与校准
  预期提升: -100 RMSE

第七部分：模型诊断
  └── SHAP 可解释性分析
```

### 🎯 性能提升预期

| 阶段 | RMSE | 提升 | 累计提升 |
|------|------|------|----------|
| 基线（当前） | 6697 | - | - |
| 数据清洗 | 6600 | -97 | -97 |
| 特征工程 | 6200 | -400 | -497 |
| 超参数优化 | 6050 | -150 | -647 |
| 验证策略 | 6000 | -50 | -697 |
| 模型融合 | 5700 | -300 | -997 |
| 后处理 | 5600 | -100 | -1097 |
| **最终目标** | **5600** | - | **-16.4%** |

---

## 💡 学习建议

1. **按顺序执行每个cell** - 每个cell都有明确的学习目标
2. **仔细阅读理论部分** - 理解"为什么"比"怎么做"更重要
3. **观察每个优化的效果** - 对比RMSE的变化
4. **尝试修改参数** - 动手实验才能真正掌握
5. **记录关键知识点** - 可以在笔记本中添加自己的思考

---

## 🔧 环境要求

需要安装的库：
- `optuna` - 超参数优化
- `xgboost` - XGBoost模型
- `catboost` - CatBoost模型
- `shap` - 模型可解释性（可选）

已有的库：
- pandas, numpy, sklearn, lightgbm, matplotlib, seaborn

现在开始学习之旅！🚀

---

# 第一部分：环境准备与数据清洗

## 🎯 学习目标
1. 理解异常值对模型的影响
2. 掌握异常值检测方法
3. 学习不同的异常值处理策略
4. 通过实验验证处理效果

In [None]:
# ========================================
# Cell 1: 导入库 + 环境检查
# ========================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, KFold, StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.linear_model import Ridge
import lightgbm as lgb
import warnings
warnings.filterwarnings('ignore')

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']  # Mac
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子，确保结果可复现
SEED = 42
np.random.seed(SEED)

print("✅ 基础库导入成功！")
print("="*60)

# 检查并安装必要的库
print("\n🔍 检查额外依赖...")
print("="*60)

# 检查 optuna
try:
    import optuna
    print("✅ optuna 已安装 (版本: {})".format(optuna.__version__))
except ImportError:
    print("❌ optuna 未安装")
    print("   安装命令: pip install optuna")

# 检查 xgboost
try:
    import xgboost as xgb
    print("✅ xgboost 已安装 (版本: {})".format(xgb.__version__))
except ImportError:
    print("❌ xgboost 未安装")
    print("   安装命令: pip install xgboost")

# 检查 catboost
try:
    import catboost as cb
    print("✅ catboost 已安装 (版本: {})".format(cb.__version__))
except ImportError:
    print("❌ catboost 未安装")
    print("   安装命令: pip install catboost")

# 检查 shap
try:
    import shap
    print("✅ shap 已安装 (版本: {})".format(shap.__version__))
except ImportError:
    print("⚠️  shap 未安装（可选，用于模型解释）")
    print("   安装命令: pip install shap")

print("\n💡 提示: 如果有未安装的库，请在终端运行对应的安装命令")
print("="*60)

## 📚 理论知识：异常值的影响

### 什么是异常值？

异常值（Outliers）是指数据集中与其他观测值显著不同的数据点。它们可能是：
1. **数据错误** - 录入错误、传感器故障等
2. **真实的极端情况** - 罕见但真实存在的情况

### 异常值对模型的影响

#### 1️⃣ 对线性模型的影响（严重）
```
线性回归使用最小二乘法：
Loss = Σ(y_true - y_pred)²

异常值会产生巨大的误差平方，导致：
- 模型参数被"拉偏"
- 预测性能下降
```

#### 2️⃣ 对树模型的影响（较小但仍存在）
```
树模型虽然对异常值相对鲁棒，但：
- 异常值可能成为单独的叶子节点
- 影响特征重要性计算
- 降低模型泛化能力
```

### 在我们的数据中

从之前的探索中发现：
- **BMI 最大值 = 29330.99** ← 这显然是错误数据！
- 正常人类BMI范围：15-50（极端肥胖也很少超过60）
- BMI = 体重(kg) / 身高²(m²)

**例子**：
- BMI = 29330 意味着：假设身高1.7m，体重需要 29330 × 1.7² ≈ 84,735 kg！
- 这是不可能的，必定是数据错误

### 异常值检测方法

#### 方法1: 统计方法
```python
# IQR方法（四分位距）
Q1 = df['feature'].quantile(0.25)
Q3 = df['feature'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR
```

#### 方法2: 领域知识
```python
# 基于业务常识
# 例如：BMI通常在 15-60 之间
outliers = df[df['bmi'] > 60]
```

#### 方法3: 可视化
```python
# 箱线图、散点图等直观展示
```

### 异常值处理策略

| 策略 | 优点 | 缺点 | 适用场景 |
|------|------|------|----------|
| **删除** | 简单直接 | 损失数据 | 数据量大，异常值少 |
| **截断（Clip）** | 保留数据量 | 可能引入偏差 | 异常值是极端真实值 |
| **替换（中位数/均值）** | 保留样本 | 改变分布 | 缺失数据填充 |
| **保留** | 完整性 | 影响模型 | 异常值有意义 |
| **单独建模** | 精细化 | 复杂 | 异常值有特殊模式 |

接下来我们会通过实验对比不同策略的效果！

In [None]:
# ========================================
# Cell 2: 加载数据 + 异常值检测
# ========================================

print("📂 加载数据...")
print("="*60)

# 加载数据
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

print(f"训练集形状: {train.shape}")
print(f"测试集形状: {test.shape}")
print("\n前5行数据:")
print(train.head())

# ========================================
# 异常值检测
# ========================================

print("\n\n🔍 异常值检测分析")
print("="*60)

# 1. 统计描述
print("\n📊 数值特征统计（重点关注BMI）:")
print(train[['age', 'bmi', 'children', 'charges']].describe())

# 2. BMI 异常值检测
print("\n\n🎯 BMI 字段详细分析:")
print("-"*60)

# 领域知识：正常BMI范围
NORMAL_BMI_MIN = 15
NORMAL_BMI_MAX = 60  # 极端肥胖的上限

# 统计方法：IQR
Q1 = train['bmi'].quantile(0.25)
Q3 = train['bmi'].quantile(0.75)
IQR = Q3 - Q1
iqr_lower = Q1 - 1.5 * IQR
iqr_upper = Q3 + 1.5 * IQR

print(f"BMI 基本统计:")
print(f"  - 最小值: {train['bmi'].min():.2f}")
print(f"  - 25分位: {Q1:.2f}")
print(f"  - 中位数: {train['bmi'].median():.2f}")
print(f"  - 75分位: {Q3:.2f}")
print(f"  - 最大值: {train['bmi'].max():.2f} ← 明显异常！")
print(f"  - 均值: {train['bmi'].mean():.2f}")
print(f"  - 标准差: {train['bmi'].std():.2f}")

print(f"\nIQR方法检测:")
print(f"  - IQR = {IQR:.2f}")
print(f"  - 下界 = Q1 - 1.5*IQR = {iqr_lower:.2f}")
print(f"  - 上界 = Q3 + 1.5*IQR = {iqr_upper:.2f}")

# 统计异常值数量
outliers_iqr = train[(train['bmi'] < iqr_lower) | (train['bmi'] > iqr_upper)]
outliers_domain = train[(train['bmi'] < NORMAL_BMI_MIN) | (train['bmi'] > NORMAL_BMI_MAX)]

print(f"\n异常值统计:")
print(f"  - IQR方法检测到: {len(outliers_iqr)} 个异常值 ({len(outliers_iqr)/len(train)*100:.2f}%)")
print(f"  - 领域知识检测到: {len(outliers_domain)} 个异常值 ({len(outliers_domain)/len(train)*100:.2f}%)")

# 显示极端异常值
extreme_outliers = train[train['bmi'] > 100]
print(f"\n⚠️  极端异常值 (BMI > 100): {len(extreme_outliers)} 个")
if len(extreme_outliers) > 0:
    print("\n前10个极端异常样本:")
    print(extreme_outliers[['id', 'age', 'bmi', 'charges']].head(10))

# 可视化
print("\n\n📊 可视化分析...")
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 1. BMI 直方图
axes[0, 0].hist(train['bmi'], bins=50, edgecolor='black', alpha=0.7)
axes[0, 0].axvline(NORMAL_BMI_MAX, color='red', linestyle='--', label=f'正常上限 ({NORMAL_BMI_MAX})')
axes[0, 0].set_xlabel('BMI')
axes[0, 0].set_ylabel('频数')
axes[0, 0].set_title('BMI 分布（包含异常值）')
axes[0, 0].legend()

# 2. BMI 箱线图
axes[0, 1].boxplot(train['bmi'])
axes[0, 1].set_ylabel('BMI')
axes[0, 1].set_title('BMI 箱线图')
axes[0, 1].axhline(NORMAL_BMI_MAX, color='red', linestyle='--', label='正常上限')
axes[0, 1].legend()

# 3. 过滤异常值后的直方图
normal_bmi = train[(train['bmi'] >= NORMAL_BMI_MIN) & (train['bmi'] <= NORMAL_BMI_MAX)]['bmi']
axes[1, 0].hist(normal_bmi, bins=50, edgecolor='black', alpha=0.7, color='green')
axes[1, 0].set_xlabel('BMI')
axes[1, 0].set_ylabel('频数')
axes[1, 0].set_title('BMI 分布（过滤异常值后）')

# 4. BMI vs Charges 散点图
axes[1, 1].scatter(train['bmi'], train['charges'], alpha=0.5, s=10)
axes[1, 1].axvline(NORMAL_BMI_MAX, color='red', linestyle='--', label='异常值分界线')
axes[1, 1].set_xlabel('BMI')
axes[1, 1].set_ylabel('Charges')
axes[1, 1].set_title('BMI vs Charges')
axes[1, 1].legend()

plt.tight_layout()
plt.show()

print("\n💡 观察要点:")
print("  1. 左上图：BMI分布严重右偏，有极端异常值")
print("  2. 右上图：箱线图显示大量异常点")
print("  3. 左下图：过滤后的BMI呈现正态分布")
print("  4. 右下图：异常BMI值的样本费用分布异常")

---

# 第二部分：高级特征工程 ⭐⭐⭐

## 🎯 学习目标
1. 理解特征工程在机器学习中的核心地位
2. 掌握领域知识特征的创建方法
3. 学习Target Encoding技术及防止数据泄漏的方法
4. 掌握分组统计特征的创建
5. 学会评估特征的有效性

## 💡 为什么特征工程最重要?

在机器学习界有一句名言：
> **"数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已"**

### 特征工程的价值

```
好的特征工程 > 复杂的模型调参

例子：
- 仅用线性回归 + 优秀特征 → 可能超过 随机森林 + 原始特征
- Kaggle比赛中，前几名的差异往往在于特征工程，而非模型选择
```

### 特征工程金字塔

```
Level 4: 自动特征工程（AutoFE）
          ↑ 使用工具自动生成特征
          
Level 3: 高阶特征
          ↑ Target Encoding, 统计聚合，深度交互
          
Level 2: 基础组合特征
          ↑ 简单交互，多项式，分箱
          
Level 1: 原始特征处理
          ↑ 缺失值填充，类别编码，标准化
          
Level 0: 原始数据
```

我们会从Level 1逐步向上构建！

## 📚 理论知识：保险领域的业务逻辑

### 保险费用的决定因素

在医疗保险定价中，保险公司主要考虑以下风险因素：

#### 1️⃣ 吸烟状态（Smoker）- 最重要！
```
吸烟者的医疗费用通常是非吸烟者的 2-3 倍

原因：
- 更高的心血管疾病风险
- 癌症风险增加
- 呼吸系统疾病
- 预期寿命缩短
```

#### 2️⃣ 年龄（Age）
```
费用随年龄增长：
- 18-30岁：基础费用较低
- 30-50岁：逐渐增加
- 50+岁：显著增加（慢性病多发期）

关键节点：
- 40岁：健康风险开始显著上升
- 60岁：进入老年期，费用大幅增加
```

#### 3️⃣ BMI（Body Mass Index）
```
BMI分类（WHO标准）：
- < 18.5：体重不足
- 18.5-25：正常
- 25-30：超重
- 30-35：肥胖（I级）
- 35-40：肥胖（II级）
- > 40：病态肥胖（III级）

医疗成本关系：
- 正常BMI：基准费用
- 超重/肥胖：费用增加 20-50%
- 病态肥胖：费用可能翻倍
```

#### 4️⃣ 交互效应
```
重要的交互：
1. 吸烟 × BMI
   - 吸烟 + 肥胖 = 风险叠加（非线性）
   - 影响：心血管疾病风险指数级增长

2. 吸烟 × 年龄
   - 年龄越大，吸烟的累积伤害越明显
   
3. 年龄 × BMI
   - 老年肥胖者的医疗费用显著高于年轻肥胖者
   
4. 有孩子 × 家庭计划
   - 家庭成员数量影响医疗需求
```

### 特征创建策略

基于上述领域知识，我们可以创建：

**风险评分特征**：
- 吸烟风险分数
- 年龄风险分数
- BMI风险分数
- 综合风险评分

**交互特征**：
- smoker × age
- smoker × bmi
- age × bmi
- smoker × age × bmi（三阶交互）

**分箱特征**：
- age_group（年龄段）
- bmi_category（BMI分类）
- risk_level（风险等级）

接下来我们会逐一实现这些特征！

In [None]:
# ========================================
# Cell 5: 领域知识特征创建
# ========================================

print("🏗️ 创建领域知识特征")
print("="*60)

# 加载清洗后的数据
print("\n📂 加载清洗后的数据...")
train_clean = pd.read_csv('train_cleaned.csv')
test_clean = pd.read_csv('test_cleaned.csv')
print(f"训练集: {train_clean.shape}")
print(f"测试集: {test_clean.shape}")

def create_domain_features(df):
    """
    基于保险领域知识创建特征
    
    参数:
        df: 原始数据框
    
    返回:
        df: 添加了新特征的数据框
    """
    df = df.copy()
    
    # ========================================
    # 1. 年龄相关特征
    # ========================================
    print("\n🎯 创建年龄相关特征...")
    
    # 年龄分组（基于医疗风险阶段）
    df['age_group'] = pd.cut(
        df['age'],
        bins=[0, 18, 30, 40, 50, 65, 100],
        labels=['teenager', 'young_adult', 'adult', 'middle_age', 'senior', 'elderly']
    )
    
    # 年龄风险分数（指数增长模式）
    # 40岁以下风险较低，之后快速增长
    df['age_risk_score'] = df['age'].apply(lambda x: 
        1.0 if x < 30 else
        1.5 if x < 40 else
        2.0 if x < 50 else
        3.0 if x < 60 else
        4.5
    )
    
    # 是否老年人（60岁以上）
    df['is_senior'] = (df['age'] >= 60).astype(int)
    
    # 是否高风险年龄（50岁以上）
    df['is_high_risk_age'] = (df['age'] >= 50).astype(int)
    
    print(f"  - age_group: 6个年龄段")
    print(f"  - age_risk_score: 风险评分 (1.0-4.5)")
    print(f"  - is_senior: 是否老年人")
    print(f"  - is_high_risk_age: 是否高风险年龄")
    
    # ========================================
    # 2. BMI相关特征
    # ========================================
    print("\n🎯 创建BMI相关特征...")
    
    # BMI分类（WHO标准）
    df['bmi_category'] = pd.cut(
        df['bmi'],
        bins=[0, 18.5, 25, 30, 35, 40, 100],
        labels=['underweight', 'normal', 'overweight', 'obese_1', 'obese_2', 'obese_3']
    )
    
    # BMI风险分数
    df['bmi_risk_score'] = df['bmi'].apply(lambda x:
        1.2 if x < 18.5 else  # 体重不足也有风险
        1.0 if x < 25 else    # 正常
        1.3 if x < 30 else    # 超重
        1.8 if x < 35 else    # 肥胖I级
        2.5 if x < 40 else    # 肥胖II级
        3.5                    # 病态肥胖
    )
    
    # 是否肥胖
    df['is_obese'] = (df['bmi'] >= 30).astype(int)
    
    # 是否病态肥胖
    df['is_severely_obese'] = (df['bmi'] >= 35).astype(int)
    
    # BMI偏离正常值的程度
    # 正常BMI中心值为21.75（18.5-25的中点）
    df['bmi_deviation'] = np.abs(df['bmi'] - 21.75)
    
    print(f"  - bmi_category: 6个BMI分类")
    print(f"  - bmi_risk_score: 风险评分 (1.0-3.5)")
    print(f"  - is_obese: 是否肥胖")
    print(f"  - is_severely_obese: 是否病态肥胖")
    print(f"  - bmi_deviation: BMI偏离度")
    
    # ========================================
    # 3. 吸烟相关特征
    # ========================================
    print("\n🎯 创建吸烟相关特征...")
    
    # 先编码smoker（如果还是字符串）
    if df['smoker'].dtype == 'object':
        df['smoker'] = df['smoker'].map({'yes': 1, 'no': 0})
    
    # 吸烟风险分数（吸烟者风险是非吸烟者的2.5倍）
    df['smoker_risk_score'] = df['smoker'].apply(lambda x: 2.5 if x == 1 else 1.0)
    
    print(f"  - smoker: 编码为 0/1")
    print(f"  - smoker_risk_score: 风险评分 (1.0 或 2.5)")
    
    # ========================================
    # 4. 家庭相关特征
    # ========================================
    print("\n🎯 创建家庭相关特征...")
    
    # 是否有孩子
    df['has_children'] = (df['children'] > 0).astype(int)
    
    # 家庭规模（假设有配偶）
    df['family_size'] = df['children'] + 2  # 本人 + 配偶 + 孩子
    
    # 多子女家庭
    df['large_family'] = (df['children'] >= 3).astype(int)
    
    print(f"  - has_children: 是否有孩子")
    print(f"  - family_size: 家庭规模")
    print(f"  - large_family: 是否多子女")
    
    # ========================================
    # 5. 综合风险评分
    # ========================================
    print("\n🎯 创建综合风险评分...")
    
    # 方法1: 简单加权平均
    df['risk_score_simple'] = (
        df['age_risk_score'] * 0.3 +
        df['bmi_risk_score'] * 0.3 +
        df['smoker_risk_score'] * 0.4  # 吸烟影响最大
    )
    
    # 方法2: 乘法交互（风险叠加）
    df['risk_score_multiplicative'] = (
        df['age_risk_score'] *
        df['bmi_risk_score'] *
        df['smoker_risk_score']
    )
    
    # 高风险人群标识（多个高风险因素叠加）
    df['high_risk_count'] = (
        df['is_high_risk_age'] +
        df['is_obese'] +
        df['smoker']
    )
    
    # 是否极高风险（3个因素都有）
    df['is_very_high_risk'] = (df['high_risk_count'] >= 3).astype(int)
    
    print(f"  - risk_score_simple: 加权风险分")
    print(f"  - risk_score_multiplicative: 乘法风险分")
    print(f"  - high_risk_count: 高风险因素数量")
    print(f"  - is_very_high_risk: 是否极高风险")
    
    # ========================================
    # 6. 交互特征
    # ========================================
    print("\n🎯 创建交互特征...")
    
    # 核心交互（这些交互在保险定价中特别重要）
    df['smoker_age'] = df['smoker'] * df['age']
    df['smoker_bmi'] = df['smoker'] * df['bmi']
    df['age_bmi'] = df['age'] * df['bmi']
    
    # 三阶交互（吸烟 × 年龄 × BMI）
    df['smoker_age_bmi'] = df['smoker'] * df['age'] * df['bmi']
    
    # 吸烟 × 肥胖（特别危险的组合）
    df['smoker_and_obese'] = df['smoker'] * df['is_obese']
    
    # 老年 × 肥胖
    df['senior_and_obese'] = df['is_senior'] * df['is_obese']
    
    # 吸烟 × 老年
    df['smoker_and_senior'] = df['smoker'] * df['is_senior']
    
    print(f"  - smoker_age, smoker_bmi, age_bmi: 二阶交互")
    print(f"  - smoker_age_bmi: 三阶交互")
    print(f"  - smoker_and_obese: 吸烟×肥胖")
    print(f"  - senior_and_obese: 老年×肥胖")
    print(f"  - smoker_and_senior: 吸烟×老年")
    
    # ========================================
    # 7. 多项式特征
    # ========================================
    print("\n🎯 创建多项式特征...")
    
    # 年龄和BMI的平方（捕捉非线性关系）
    df['age_squared'] = df['age'] ** 2
    df['bmi_squared'] = df['bmi'] ** 2
    
    # 立方项（更高阶的非线性）
    df['age_cubed'] = df['age'] ** 3
    
    print(f"  - age_squared, bmi_squared: 平方项")
    print(f"  - age_cubed: 立方项")
    
    return df

# 应用特征工程
print("\n\n" + "="*60)
print("开始特征工程...")
print("="*60)

train_fe = create_domain_features(train_clean)
test_fe = create_domain_features(test_clean)

print("\n\n✅ 领域知识特征创建完成！")
print("="*60)
print(f"\n原始特征数: {train_clean.shape[1]}")
print(f"新增特征后: {train_fe.shape[1]}")
print(f"新增特征数: {train_fe.shape[1] - train_clean.shape[1]}")

# 查看新特征
print("\n📋 新增的特征列表:")
new_cols = [col for col in train_fe.columns if col not in train_clean.columns]
for i, col in enumerate(new_cols, 1):
    print(f"  {i:2d}. {col}")

# 查看部分特征的统计信息
print("\n📊 部分新特征的统计信息:")
feature_cols = ['age_risk_score', 'bmi_risk_score', 'smoker_risk_score', 
                'risk_score_simple', 'risk_score_multiplicative']
print(train_fe[feature_cols].describe())

# 查看极高风险人群占比
print(f"\n⚠️  极高风险人群占比: {train_fe['is_very_high_risk'].mean()*100:.2f}%")
print(f"   (同时满足：年龄≥50 + BMI≥30 + 吸烟)")

# 保存特征工程后的数据（暂时不保存类别特征的one-hot编码版本）
print("\n💾 保存特征工程后的数据...")
train_fe.to_csv('train_domain_features.csv', index=False)
test_fe.to_csv('test_domain_features.csv', index=False)
print("✅ 已保存:")
print("  - train_domain_features.csv")
print("  - test_domain_features.csv")

## 📚 理论知识：Target Encoding

### 什么是 Target Encoding？

Target Encoding（目标编码）是一种强大的类别变量编码方法，特别适用于：
- 高基数类别特征（类别数量很多）
- 类别特征与目标变量有强相关性的情况

### 原理

**基本思想**：用该类别对应的目标变量平均值来替代类别值

```python
# 例如：region 列
northeast → 该region下所有样本的平均charges
northwest → 该region下所有样本的平均charges
southeast → 该region下所有样本的平均charges
southwest → 该region下所有样本的平均charges
```

### 为什么比 One-Hot Encoding 更好？

| 方法 | 优点 | 缺点 |
|------|------|------|
| **One-Hot** | 简单，无数据泄漏 | 高基数时维度爆炸，无法捕捉类别的"数值意义" |
| **Label Encoding** | 维度不增加 | 引入了不存在的顺序关系 |
| **Target Encoding** | 维度不增加，捕捉类别与目标的关系 | 需要防止过拟合和数据泄漏 |

### 示例对比

假设我们有以下数据：

```
region     | charges
-----------|---------
northeast  | 10000
northeast  | 12000
northwest  | 8000
northwest  | 9000
```

**One-Hot Encoding**:
```
northeast_0  northeast_1  northwest_0  northwest_1
1            0            0            0            → 10000
1            0            0            0            → 12000
0            1            0            0            → 8000
0            1            0            0            → 9000
```

**Target Encoding**:
```
region_encoded
11000  → (10000+12000)/2
11000
8500   → (8000+9000)/2
8500
```

**优势明显**：Target Encoding直接告诉模型"northeast的平均费用是11000"！

### ⚠️ 关键问题：数据泄漏

**什么是数据泄漏？**

如果我们直接用全局平均值编码，会发生：
```python
# 错误做法❌
train['region_encoded'] = train.groupby('region')['charges'].transform('mean')
```

**问题**：每个样本的编码值包含了它自己的目标值信息！
- 这在训练时会让模型"作弊"
- 在测试时无法复现（测试集没有目标值）

### ✅ 正确做法：K-Fold Target Encoding

**核心思想**：使用交叉验证方式，确保每个样本的编码值不包含自己的目标值

```python
# 伪代码
for fold in KFold:
    train_idx, val_idx = fold
    
    # 用训练集计算均值
    encoding_map = train[train_idx].groupby('region')['charges'].mean()
    
    # 应用到验证集（验证集样本的编码不包含自己）
    train.loc[val_idx, 'region_encoded'] = train.loc[val_idx, 'region'].map(encoding_map)
```

### 增强技巧

#### 1. 平滑处理（Smoothing）

避免小样本类别的不稳定估计：

```python
global_mean = train['charges'].mean()
category_stats = train.groupby('region').agg({
    'charges': ['mean', 'count']
})

# 贝叶斯平滑
smoothing_factor = 10  # 超参数
smoothed_mean = (
    (category_stats['mean'] * category_stats['count'] + global_mean * smoothing_factor) /
    (category_stats['count'] + smoothing_factor)
)
```

**作用**：小样本类别会向全局均值"收缩"

#### 2. 添加噪声

防止过拟合：

```python
encoded_values = encoded_values + np.random.normal(0, std, size=len(encoded_values))
```

接下来我们会实现完整的 K-Fold Target Encoding！

In [None]:
# ========================================
# Cell 6: Target Encoding 实现
# ========================================

print("🎯 实现 K-Fold Target Encoding")
print("="*60)

from sklearn.model_selection import KFold

class TargetEncoder:
    """
    K-Fold Target Encoding 编码器
    
    防止数据泄漏的关键：
    - 训练集：使用K-Fold方式，每个样本的编码不包含自己
    - 测试集：使用全部训练数据的统计值
    """
    
    def __init__(self, columns, n_splits=5, smoothing=10, random_state=42):
        """
        参数:
            columns: 需要编码的列名列表
            n_splits: K折数量
            smoothing: 平滑参数（越大越向全局均值收缩）
            random_state: 随机种子
        """
        self.columns = columns
        self.n_splits = n_splits
        self.smoothing = smoothing
        self.random_state = random_state
        self.global_mean = None
        self.encoding_maps = {}  # 存储每个类别特征的编码映射
        
    def fit_transform(self, X, y):
        """
        对训练集进行K-Fold编码
        
        参数:
            X: 特征数据框
            y: 目标变量
        
        返回:
            X_encoded: 编码后的数据框
        """
        X_encoded = X.copy()
        self.global_mean = y.mean()
        
        print(f"\n全局平均值: {self.global_mean:.2f}")
        print(f"使用 {self.n_splits}-Fold 编码，平滑参数={self.smoothing}")
        
        for col in self.columns:
            print(f"\n编码特征: {col}")
            
            # 为每个列创建新的编码列名
            encoded_col = f'{col}_encoded'
            X_encoded[encoded_col] = 0.0
            
            # K-Fold编码
            kf = KFold(n_splits=self.n_splits, shuffle=True, random_state=self.random_state)
            
            for fold, (train_idx, val_idx) in enumerate(kf.split(X), 1):
                # 在训练集上计算统计值
                train_stats = pd.DataFrame({
                    'mean': y.iloc[train_idx].groupby(X[col].iloc[train_idx]).mean(),
                    'count': y.iloc[train_idx].groupby(X[col].iloc[train_idx]).count()
                })
                
                # 平滑处理（贝叶斯平滑）
                smoothed_mean = (
                    (train_stats['mean'] * train_stats['count'] + 
                     self.global_mean * self.smoothing) /
                    (train_stats['count'] + self.smoothing)
                )
                
                # 应用到验证集
                X_encoded.loc[X.index[val_idx], encoded_col] = (
                    X[col].iloc[val_idx].map(smoothed_mean).fillna(self.global_mean)
                )
            
            # 保存完整训练集的编码映射（用于测试集）
            full_stats = pd.DataFrame({
                'mean': y.groupby(X[col]).mean(),
                'count': y.groupby(X[col]).count()
            })
            
            self.encoding_maps[col] = (
                (full_stats['mean'] * full_stats['count'] + 
                 self.global_mean * self.smoothing) /
                (full_stats['count'] + self.smoothing)
            )
            
            # 显示编码结果
            print(f"  类别数量: {X[col].nunique()}")
            print(f"  编码值范围: [{X_encoded[encoded_col].min():.2f}, {X_encoded[encoded_col].max():.2f}]")
            print(f"  样本编码映射（前5个类别）:")
            for category in X[col].unique()[:5]:
                mean_val = self.encoding_maps[col].get(category, self.global_mean)
                print(f"    {category}: {mean_val:.2f}")
        
        return X_encoded
    
    def transform(self, X):
        """
        对测试集进行编码
        
        参数:
            X: 测试集特征数据框
        
        返回:
            X_encoded: 编码后的数据框
        """
        X_encoded = X.copy()
        
        for col in self.columns:
            encoded_col = f'{col}_encoded'
            # 使用训练集的编码映射
            X_encoded[encoded_col] = (
                X[col].map(self.encoding_maps[col]).fillna(self.global_mean)
            )
        
        return X_encoded


# ========================================
# 应用 Target Encoding
# ========================================

print("\n" + "="*60)
print("应用 Target Encoding 到类别特征")
print("="*60)

# 加载数据
train_fe = pd.read_csv('train_domain_features.csv')
test_fe = pd.read_csv('test_domain_features.csv')

# 需要进行target encoding的类别特征
categorical_cols = ['sex', 'region']

print(f"\n待编码的类别特征: {categorical_cols}")

# 初始化编码器
encoder = TargetEncoder(
    columns=categorical_cols,
    n_splits=5,
    smoothing=10,  # 平滑参数（可以调整）
    random_state=SEED
)

# 编码训练集（K-Fold方式）
X_train = train_fe.drop(['charges', 'id'], axis=1, errors='ignore')
y_train = train_fe['charges']

X_train_encoded = encoder.fit_transform(X_train, y_train)

# 编码测试集
X_test = test_fe.drop(['id'], axis=1, errors='ignore')
X_test_encoded = encoder.transform(X_test)

print("\n✅ Target Encoding 完成!")
print(f"训练集编码后形状: {X_train_encoded.shape}")
print(f"测试集编码后形状: {X_test_encoded.shape}")

# 对比原始类别特征和编码后的特征
print("\n📊 编码效果对比（以 region 为例）:")
print("\n原始 region 分布:")
print(train_fe['region'].value_counts())

print("\n编码后 region_encoded 的统计:")
comparison = train_fe[['region', 'charges']].copy()
comparison['region_encoded'] = X_train_encoded['region_encoded']
region_comparison = comparison.groupby('region').agg({
    'charges': ['mean', 'count'],
    'region_encoded': 'mean'
}).round(2)
print(region_comparison)

print("\n💡 观察要点:")
print("  1. region_encoded 的值接近该region的平均charges")
print("  2. 但由于K-Fold和平滑，每个样本的编码值略有不同")
print("  3. 这样既保留了类别信息，又避免了数据泄漏")

# 保存编码后的数据
train_fe_encoded = train_fe[['id', 'charges']].copy()
train_fe_encoded = pd.concat([train_fe_encoded, X_train_encoded], axis=1)

test_fe_encoded = test_fe[['id']].copy()
test_fe_encoded = pd.concat([test_fe_encoded, X_test_encoded], axis=1)

train_fe_encoded.to_csv('train_target_encoded.csv', index=False)
test_fe_encoded.to_csv('test_target_encoded.csv', index=False)

print("\n💾 已保存:")
print("  - train_target_encoded.csv")
print("  - test_target_encoded.csv")

## 📚 理论知识：分组统计特征

### 什么是分组统计特征？

分组统计特征（Aggregation Features）是指按某个或某几个类别分组后，对数值特征进行统计计算得到的特征。

### 核心思想

```
不同的群体有不同的特征分布

例如：
- 吸烟者的平均BMI是多少？
- 不同地区的平均年龄是多少？
- 每个年龄段中吸烟者的比例是多少？
```

### 常用的统计量

| 统计量 | 含义 | 适用场景 |
|--------|------|----------|
| **mean** | 平均值 | 捕捉中心趋势 |
| **median** | 中位数 | 对异常值鲁棒 |
| **std** | 标准差 | 衡量离散程度 |
| **min/max** | 最小/最大值 | 捕捉极值信息 |
| **count** | 数量 | 群体大小信息 |
| **sum** | 总和 | 累积效应 |

### 示例

```python
# 按 smoker 分组，计算 BMI 的统计量
group_stats = df.groupby('smoker')['bmi'].agg(['mean', 'std', 'median'])

# 将统计量映射回原数据
df['smoker_bmi_mean'] = df['smoker'].map(group_stats['mean'])
df['smoker_bmi_std'] = df['smoker'].map(group_stats['std'])
```

### 业务含义示例

在我们的保险数据中：

**按吸烟状态分组**：
- `smoker_age_mean`: 吸烟者/非吸烟者的平均年龄
  - 如果吸烟者普遍年轻，可能风险不同
  
- `smoker_bmi_mean`: 吸烟者/非吸烟者的平均BMI
  - 吸烟与肥胖的相关性

**按地区分组**：
- `region_age_mean`: 该地区的平均年龄
  - 反映地区人口结构
  
- `region_bmi_std`: 该地区BMI的标准差
  - 反映地区健康状况的差异性

**多维分组**：
- `smoker_region_charges_mean`: 不同地区吸烟者的平均费用
  - 捕捉地区×吸烟的交互效应

### 与Target Encoding的区别

| 特征类型 | 分组键 | 统计对象 | 用途 |
|----------|--------|----------|------|
| **Target Encoding** | 类别特征 | 目标变量 | 直接编码类别信息 |
| **分组统计** | 类别特征 | 其他数值特征 | 捕捉群体特征分布 |

两者可以互补！

In [None]:
# ========================================
# Cell 7: 分组统计特征创建
# ========================================

print("📊 创建分组统计特征")
print("="*60)

def create_aggregation_features(df, is_train=True, train_stats=None):
    """
    创建分组统计特征
    
    参数:
        df: 数据框
        is_train: 是否是训练集
        train_stats: 训练集的统计字典（用于测试集）
    
    返回:
        df: 添加统计特征后的数据框
        stats_dict: 统计字典（仅训练集返回）
    """
    df = df.copy()
    stats_dict = {} if is_train else None
    
    # 确保smoker是数值型
    if df['smoker'].dtype == 'object':
        df['smoker'] = df['smoker'].map({'yes': 1, 'no': 0})
    
    # ========================================
    # 1. 按 smoker 分组
    # ========================================
    print("\n🎯 按 smoker 分组的统计特征...")
    
    if is_train:
        # 计算统计量
        smoker_age_stats = df.groupby('smoker')['age'].agg(['mean', 'std', 'median']).add_prefix('smoker_age_')
        smoker_bmi_stats = df.groupby('smoker')['bmi'].agg(['mean', 'std', 'median']).add_prefix('smoker_bmi_')
        smoker_children_stats = df.groupby('smoker')['children'].agg(['mean', 'sum']).add_prefix('smoker_children_')
        
        stats_dict['smoker_age'] = smoker_age_stats
        stats_dict['smoker_bmi'] = smoker_bmi_stats
        stats_dict['smoker_children'] = smoker_children_stats
    else:
        smoker_age_stats = train_stats['smoker_age']
        smoker_bmi_stats = train_stats['smoker_bmi']
        smoker_children_stats = train_stats['smoker_children']
    
    # 映射到原数据
    for col in smoker_age_stats.columns:
        df[col] = df['smoker'].map(smoker_age_stats[col])
    for col in smoker_bmi_stats.columns:
        df[col] = df['smoker'].map(smoker_bmi_stats[col])
    for col in smoker_children_stats.columns:
        df[col] = df['smoker'].map(smoker_children_stats[col])
    
    print(f"  - 按smoker分组: {len(smoker_age_stats.columns) + len(smoker_bmi_stats.columns) + len(smoker_children_stats.columns)} 个特征")
    
    # ========================================
    # 2. 按 region 分组
    # ========================================
    print("\n🎯 按 region 分组的统计特征...")
    
    if is_train:
        region_age_stats = df.groupby('region')['age'].agg(['mean', 'std']).add_prefix('region_age_')
        region_bmi_stats = df.groupby('region')['bmi'].agg(['mean', 'std']).add_prefix('region_bmi_')
        region_smoker_stats = df.groupby('region')['smoker'].agg(['mean', 'sum']).add_prefix('region_smoker_')
        
        stats_dict['region_age'] = region_age_stats
        stats_dict['region_bmi'] = region_bmi_stats
        stats_dict['region_smoker'] = region_smoker_stats
    else:
        region_age_stats = train_stats['region_age']
        region_bmi_stats = train_stats['region_bmi']
        region_smoker_stats = train_stats['region_smoker']
    
    for col in region_age_stats.columns:
        df[col] = df['region'].map(region_age_stats[col])
    for col in region_bmi_stats.columns:
        df[col] = df['region'].map(region_bmi_stats[col])
    for col in region_smoker_stats.columns:
        df[col] = df['region'].map(region_smoker_stats[col])
    
    print(f"  - 按region分组: {len(region_age_stats.columns) + len(region_bmi_stats.columns) + len(region_smoker_stats.columns)} 个特征")
    
    # ========================================
    # 3. 按 age_group 分组（如果存在）
    # ========================================
    if 'age_group' in df.columns:
        print("\n🎯 按 age_group 分组的统计特征...")
        
        if is_train:
            age_group_bmi_stats = df.groupby('age_group')['bmi'].agg(['mean', 'std']).add_prefix('age_group_bmi_')
            age_group_smoker_stats = df.groupby('age_group')['smoker'].mean().to_frame('age_group_smoker_rate')
            
            stats_dict['age_group_bmi'] = age_group_bmi_stats
            stats_dict['age_group_smoker'] = age_group_smoker_stats
        else:
            age_group_bmi_stats = train_stats['age_group_bmi']
            age_group_smoker_stats = train_stats['age_group_smoker']
        
        for col in age_group_bmi_stats.columns:
            df[col] = df['age_group'].map(age_group_bmi_stats[col])
        df['age_group_smoker_rate'] = df['age_group'].map(age_group_smoker_stats['age_group_smoker_rate'])
        
        print(f"  - 按age_group分组: {len(age_group_bmi_stats.columns) + 1} 个特征")
    
    # ========================================
    # 4. 按 bmi_category 分组（如果存在）
    # ========================================
    if 'bmi_category' in df.columns:
        print("\n🎯 按 bmi_category 分组的统计特征...")
        
        if is_train:
            bmi_cat_age_stats = df.groupby('bmi_category')['age'].agg(['mean']).add_prefix('bmi_cat_age_')
            bmi_cat_smoker_stats = df.groupby('bmi_category')['smoker'].mean().to_frame('bmi_cat_smoker_rate')
            
            stats_dict['bmi_cat_age'] = bmi_cat_age_stats
            stats_dict['bmi_cat_smoker'] = bmi_cat_smoker_stats
        else:
            bmi_cat_age_stats = train_stats['bmi_cat_age']
            bmi_cat_smoker_stats = train_stats['bmi_cat_smoker']
        
        for col in bmi_cat_age_stats.columns:
            df[col] = df['bmi_category'].map(bmi_cat_age_stats[col])
        df['bmi_cat_smoker_rate'] = df['bmi_category'].map(bmi_cat_smoker_stats['bmi_cat_smoker_rate'])
        
        print(f"  - 按bmi_category分组: {len(bmi_cat_age_stats.columns) + 1} 个特征")
    
    # ========================================
    # 5. 多维分组（smoker × region）
    # ========================================
    print("\n🎯 多维分组统计特征 (smoker × region)...")
    
    if is_train:
        smoker_region_age = df.groupby(['smoker', 'region'])['age'].mean().to_frame('smoker_region_age_mean')
        smoker_region_bmi = df.groupby(['smoker', 'region'])['bmi'].mean().to_frame('smoker_region_bmi_mean')
        
        stats_dict['smoker_region_age'] = smoker_region_age
        stats_dict['smoker_region_bmi'] = smoker_region_bmi
    else:
        smoker_region_age = train_stats['smoker_region_age']
        smoker_region_bmi = train_stats['smoker_region_bmi']
    
    df['smoker_region_age_mean'] = df.set_index(['smoker', 'region']).index.map(smoker_region_age['smoker_region_age_mean'])
    df['smoker_region_bmi_mean'] = df.set_index(['smoker', 'region']).index.map(smoker_region_bmi['smoker_region_bmi_mean'])
    
    print(f"  - smoker × region: 2 个特征")
    
    # ========================================
    # 6. 相对特征（与群体均值的偏差）
    # ========================================
    print("\n🎯 创建相对特征（偏差特征）...")
    
    # 个体BMI与所在smoker群体平均BMI的偏差
    df['bmi_vs_smoker_mean'] = df['bmi'] - df['smoker_bmi_mean']
    
    # 个体年龄与所在region群体平均年龄的偏差
    df['age_vs_region_mean'] = df['age'] - df['region_age_mean']
    
    # 个体年龄与所在age_group平均BMI的偏差
    if 'age_group_bmi_mean' in df.columns:
        df['bmi_vs_age_group_mean'] = df['bmi'] - df['age_group_bmi_mean']
    
    print(f"  - 相对特征: 3 个")
    
    if is_train:
        return df, stats_dict
    else:
        return df

# ========================================
# 应用分组统计特征
# ========================================

print("\n" + "="*60)
print("应用分组统计特征到数据集")
print("="*60)

# 加载数据
train_data = pd.read_csv('train_target_encoded.csv')
test_data = pd.read_csv('test_target_encoded.csv')

print(f"\n处理前形状:")
print(f"  训练集: {train_data.shape}")
print(f"  测试集: {test_data.shape}")

# 对训练集创建分组统计特征
train_with_agg, train_stats = create_aggregation_features(train_data, is_train=True)

# 对测试集应用相同的统计
test_with_agg = create_aggregation_features(test_data, is_train=False, train_stats=train_stats)

print("\n" + "="*60)
print("✅ 分组统计特征创建完成!")
print("="*60)
print(f"\n处理后形状:")
print(f"  训练集: {train_with_agg.shape}")
print(f"  测试集: {test_with_agg.shape}")

new_features = train_with_agg.shape[1] - train_data.shape[1]
print(f"\n新增特征数: {new_features}")

# 查看部分新特征
print("\n📋 部分分组统计特征示例:")
agg_features = [col for col in train_with_agg.columns if any(x in col for x in ['_mean', '_std', '_rate', '_vs_'])]
print(f"\n前15个分组统计特征:")
for i, col in enumerate(agg_features[:15], 1):
    print(f"  {i:2d}. {col}")

# 查看统计信息
print("\n📊 部分特征统计:")
sample_cols = ['smoker_bmi_mean', 'region_age_mean', 'bmi_vs_smoker_mean']
print(train_with_agg[sample_cols].describe().round(2))

# 保存
train_with_agg.to_csv('train_all_features.csv', index=False)
test_with_agg.to_csv('test_all_features.csv', index=False)

print("\n💾 已保存:")
print("  - train_all_features.csv (包含所有特征)")
print("  - test_all_features.csv (包含所有特征)")

In [None]:
# ========================================
# Cell 8: 特征工程效果对比实验
# ========================================

print("🔬 特征工程效果对比实验")
print("="*60)

def prepare_and_evaluate(data_path, experiment_name, feature_set_description):
    """
    准备数据并快速评估
    
    参数:
        data_path: 数据文件路径
        experiment_name: 实验名称
        feature_set_description: 特征集描述
    
    返回:
        oof_rmse: OOF RMSE
        n_features: 特征数量
    """
    # 加载数据
    df = pd.read_csv(data_path)
    
    # 准备特征
    # 排除不用于建模的列
    exclude_cols = ['id', 'charges']
    
    # 处理类别特征（One-Hot编码）
    cat_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()
    if cat_cols:
        df = pd.get_dummies(df, columns=cat_cols, drop_first=True)
    
    # 分离特征和目标
    X = df.drop(exclude_cols, axis=1, errors='ignore')
    y = df['charges']
    
    n_features = X.shape[1]
    
    print(f"\n{'='*60}")
    print(f"实验: {experiment_name}")
    print(f"{'='*60}")
    print(f"特征集: {feature_set_description}")
    print(f"特征数量: {n_features}")
    print(f"样本数量: {len(df)}")
    
    # 5折交叉验证
    kf = KFold(n_splits=5, shuffle=True, random_state=SEED)
    oof_predictions = np.zeros(len(X))
    fold_scores = []
    
    for fold, (train_idx, val_idx) in enumerate(kf.split(X), 1):
        X_tr, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_tr, y_val = y.iloc[train_idx], y.iloc[val_idx]
        
        # 训练LightGBM
        model = lgb.LGBMRegressor(
            n_estimators=500,
            learning_rate=0.05,
            num_leaves=31,
            colsample_bytree=0.8,
            subsample=0.8,
            random_state=SEED,
            verbose=-1
        )
        
        model.fit(
            X_tr, np.log1p(y_tr),
            eval_set=[(X_val, np.log1p(y_val))],
            callbacks=[lgb.early_stopping(stopping_rounds=50, verbose=False)]
        )
        
        # 预测
        pred = np.expm1(model.predict(X_val, num_iteration=model.best_iteration_))
        oof_predictions[val_idx] = pred
        
        # 计算fold RMSE
        fold_rmse = np.sqrt(mean_squared_error(y_val, pred))
        fold_scores.append(fold_rmse)
        print(f"  Fold {fold}: RMSE = {fold_rmse:.2f}")
    
    # 总体OOF RMSE
    oof_rmse = np.sqrt(mean_squared_error(y, oof_predictions))
    oof_r2 = r2_score(y, oof_predictions)
    
    print(f"\n{'─'*60}")
    print(f"OOF RMSE: {oof_rmse:.2f}")
    print(f"OOF R²:   {oof_r2:.4f}")
    print(f"Fold RMSE 标准差: {np.std(fold_scores):.2f}")
    print(f"{'─'*60}")
    
    return oof_rmse, n_features, oof_r2

# ========================================
# 对比实验
# ========================================

print("\n\n" + "="*60)
print("开始对比实验")
print("="*60)
print("\n我们将对比以下特征集的效果:")
print("  1. 基线: 仅原始特征 + 简单编码")
print("  2. +领域特征: 添加风险评分等领域知识特征")
print("  3. +Target Encoding: 添加Target Encoding")
print("  4. +分组统计: 添加分组统计特征（完整特征集）")

results = []

# 实验1: 基线（使用清洗后的数据，仅基础特征）
print("\n\n" + "🔸"*30)
print("实验 1/4: 基线（原始特征）")
print("🔸"*30)

rmse_1, n_feat_1, r2_1 = prepare_and_evaluate(
    'train_cleaned.csv',
    '基线',
    '仅原始特征: age, bmi, children, smoker, sex, region'
)

results.append({
    '实验': '1. 基线',
    '特征数': n_feat_1,
    'OOF RMSE': rmse_1,
    'OOF R²': r2_1,
    'vs 基线': 0,
    '说明': '原始特征+简单编码'
})

# 实验2: 添加领域特征
print("\n\n" + "🔸"*30)
print("实验 2/4: +领域知识特征")
print("🔸"*30)

rmse_2, n_feat_2, r2_2 = prepare_and_evaluate(
    'train_domain_features.csv',
    '+领域特征',
    '原始特征 + 风险评分 + 交互特征 + 多项式特征'
)

results.append({
    '实验': '2. +领域特征',
    '特征数': n_feat_2,
    'OOF RMSE': rmse_2,
    'OOF R²': r2_2,
    'vs 基线': rmse_2 - rmse_1,
    '说明': f'新增{n_feat_2 - n_feat_1}个特征'
})

# 实验3: 添加Target Encoding
print("\n\n" + "🔸"*30)
print("实验 3/4: +Target Encoding")
print("🔸"*30)

rmse_3, n_feat_3, r2_3 = prepare_and_evaluate(
    'train_target_encoded.csv',
    '+Target Encoding',
    '领域特征 + Target Encoding (sex, region)'
)

results.append({
    '实验': '3. +Target Encoding',
    '特征数': n_feat_3,
    'OOF RMSE': rmse_3,
    'OOF R²': r2_3,
    'vs 基线': rmse_3 - rmse_1,
    '说明': f'新增{n_feat_3 - n_feat_2}个编码特征'
})

# 实验4: 完整特征集（添加分组统计）
print("\n\n" + "🔸"*30)
print("实验 4/4: 完整特征集")
print("🔸"*30)

rmse_4, n_feat_4, r2_4 = prepare_and_evaluate(
    'train_all_features.csv',
    '完整特征集',
    '领域特征 + Target Encoding + 分组统计特征'
)

results.append({
    '实验': '4. 完整特征集',
    '特征数': n_feat_4,
    'OOF RMSE': rmse_4,
    'OOF R²': r2_4,
    'vs 基线': rmse_4 - rmse_1,
    '说明': f'新增{n_feat_4 - n_feat_3}个统计特征'
})

# ========================================
# 结果汇总
# ========================================

print("\n\n" + "="*60)
print("📊 实验结果汇总")
print("="*60)

results_df = pd.DataFrame(results)
print("\n" + results_df.to_string(index=False))

# 找出最佳结果
best_idx = results_df['OOF RMSE'].idxmin()
best_result = results_df.loc[best_idx]

print("\n" + "="*60)
print("🏆 最佳结果")
print("="*60)
print(f"实验: {best_result['实验']}")
print(f"特征数: {best_result['特征数']}")
print(f"OOF RMSE: {best_result['OOF RMSE']:.2f}")
print(f"OOF R²: {best_result['OOF R²']:.4f}")
print(f"相比基线提升: {-best_result['vs 基线']:.2f} RMSE ({-best_result['vs 基线']/rmse_1*100:.1f}%)")

# 可视化对比
print("\n📊 可视化对比...")
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 图1: RMSE对比
ax1 = axes[0]
colors = ['red' if i == best_idx else 'skyblue' for i in range(len(results_df))]
bars = ax1.bar(range(len(results_df)), results_df['OOF RMSE'], color=colors, edgecolor='black')
ax1.set_xticks(range(len(results_df)))
ax1.set_xticklabels([s.split('.')[1].strip() for s in results_df['实验']], rotation=15, ha='right')
ax1.set_ylabel('OOF RMSE')
ax1.set_title('特征工程效果对比 - RMSE')
ax1.axhline(rmse_1, color='red', linestyle='--', alpha=0.5, label='基线')

# 添加数值标签
for bar, rmse in zip(bars, results_df['OOF RMSE']):
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height,
            f'{rmse:.0f}',
            ha='center', va='bottom', fontsize=10, fontweight='bold')

ax1.legend()
ax1.grid(axis='y', alpha=0.3)

# 图2: R²对比
ax2 = axes[1]
bars2 = ax2.bar(range(len(results_df)), results_df['OOF R²'], color=colors, edgecolor='black')
ax2.set_xticks(range(len(results_df)))
ax2.set_xticklabels([s.split('.')[1].strip() for s in results_df['实验']], rotation=15, ha='right')
ax2.set_ylabel('OOF R²')
ax2.set_title('特征工程效果对比 - R²')
ax2.set_ylim([0, 1])

# 添加数值标签
for bar, r2 in zip(bars2, results_df['OOF R²']):
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height,
            f'{r2:.3f}',
            ha='center', va='bottom', fontsize=10, fontweight='bold')

ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n✅ 第二部分完成！")
print("="*60)
print("\n🎓 第二部分知识总结:")
print("  1. ✅ 创建了28个领域知识特征（风险评分、交互、多项式）")
print("  2. ✅ 实现了K-Fold Target Encoding（防止数据泄漏）")
print("  3. ✅ 创建了20+个分组统计特征")
print("  4. ✅ 通过实验验证了每一步的效果")
print(f"  5. ✅ 最终RMSE提升: {-best_result['vs 基线']:.0f} ({-best_result['vs 基线']/rmse_1*100:.1f}%)")
print("\n💡 特征工程是机器学习中最有价值的环节！")
print("\n下一步: 超参数优化 → 预期再降低100-200 RMSE！")

---

# 第三部分：超参数优化

## 🎯 学习目标
1. 理解超参数与模型参数的区别
2. 掌握三种调参策略（Grid Search, Random Search, Bayesian Optimization）
3. 学习Optuna的使用方法
4. 理解TPE采样器的工作原理
5. 学会分析参数重要性

## 📚 理论知识：超参数优化

### 什么是超参数？

**模型参数 vs 超参数**

| 类型 | 定义 | 示例 | 如何获得 |
|------|------|------|----------|
| **模型参数** | 模型从数据中学习得到的参数 | 线性回归的权重、决策树的分裂点 | 通过训练自动学习 |
| **超参数** | 模型训练前需要手动设置的参数 | 学习率、树的深度、正则化系数 | 需要手动调整或自动搜索 |

### 为什么超参数重要？

```
同样的数据 + 不同的超参数 → 可能相差几百RMSE！

例如：LightGBM
- 默认参数：RMSE = 6500
- 优化后参数：RMSE = 6300
- 差异：200 RMSE （3%的提升）
```

### 三种调参策略对比

#### 1️⃣ Grid Search（网格搜索）

```python
# 穷举所有组合
params = {
    'learning_rate': [0.01, 0.05, 0.1],
    'num_leaves': [31, 50, 100],
    'max_depth': [5, 7, 10]
}
# 总共需要测试：3 × 3 × 3 = 27 种组合
```

**优点**：
- 简单易懂
- 保证找到网格内的最优组合

**缺点**：
- ❌ 计算成本指数增长（维度诅咒）
- ❌ 浪费计算资源在不重要的参数上
- ❌ 对连续参数不友好

#### 2️⃣ Random Search（随机搜索）

```python
# 随机采样
for i in range(100):
    learning_rate = uniform(0.01, 0.3)
    num_leaves = randint(20, 150)
    # ... 训练并评估
```

**优点**：
- ✅ 比Grid Search快很多
- ✅ 更容易探索参数空间
- ✅ 对不重要的参数不敏感

**缺点**：
- ❌ 仍然是盲目搜索
- ❌ 不利用之前的评估结果

#### 3️⃣ Bayesian Optimization（贝叶斯优化）⭐

```
核心思想：利用之前的评估结果，智能地选择下一个要测试的参数组合

工作流程：
1. 随机测试几组参数
2. 根据结果，建立"参数→性能"的概率模型
3. 用这个模型预测：哪组参数最有可能更好？
4. 测试该参数，更新模型
5. 重复步骤3-4
```

**优点**：
- ✅ 高效：通常50-100次评估就够了
- ✅ 智能：利用历史信息
- ✅ 适合黑盒优化
- ✅ 自动平衡探索(exploration)和利用(exploitation)

**缺点**：
- 稍微复杂一些
- 需要理解采样策略

### Optuna 框架

Optuna 是目前最流行的贝叶斯优化库之一。

**核心组件**：

1. **Study**：一次完整的优化实验
2. **Trial**：一次参数组合的评估
3. **Objective**：目标函数（我们要最小化/最大化的指标）
4. **Sampler**：采样器（决定如何选择下一组参数）

**常用采样器**：

- **TPE** (Tree-structured Parzen Estimator)：默认，适合大多数情况 ⭐
- **CMA-ES**：适合连续参数空间
- **Random**：随机搜索
- **Grid**：网格搜索

### TPE (Tree-structured Parzen Estimator)

TPE是Optuna的默认采样器，效果很好。

**核心思想**：

```
将参数分为两组：
- l(x)：表现好的参数分布（loss < 某阈值）
- g(x)：表现不好的参数分布

选择下一个参数：
- 最大化 l(x) / g(x) 的值
- 即：在"好参数"区域采样的概率高，在"坏参数"区域采样的概率低
```

**简单理解**：
- 维护两个模型："好参数在哪里" 和 "坏参数在哪里"
- 下次优先测试"可能是好参数"的地方

接下来我们会用Optuna优化LightGBM！

In [None]:
# ========================================
# Cell 9: Optuna 超参数优化实现
# ========================================

print("🔧 使用 Optuna 进行超参数优化")
print("="*60)

# 检查optuna是否安装
try:
    import optuna
    from optuna.visualization import plot_optimization_history, plot_param_importances
    print("✅ Optuna 已安装")
except ImportError:
    print("❌ Optuna 未安装")
    print("请运行: pip install optuna")
    print("暂时跳过此部分")

# 加载完整特征集数据
print("\n📂 加载数据...")
train_data = pd.read_csv('train_all_features.csv')

# 准备数据
exclude_cols = ['id', 'charges']
cat_cols = train_data.select_dtypes(include=['object', 'category']).columns.tolist()
if cat_cols:
    train_data = pd.get_dummies(train_data, columns=cat_cols, drop_first=True)

X = train_data.drop(exclude_cols, axis=1, errors='ignore')
y = train_data['charges']

print(f"特征数量: {X.shape[1]}")
print(f"样本数量: {len(X)}")

# ========================================
# 定义Optuna目标函数
# ========================================

def objective(trial):
    """
    Optuna目标函数
    
    参数:
        trial: Optuna trial对象
    
    返回:
        平均RMSE（越小越好）
    """
    
    # ========================================
    # 定义搜索空间
    # ========================================
    
    params = {
        # 基本参数
        'n_estimators': trial.suggest_int('n_estimators', 100, 1000, step=50),
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.3, log=True),
        
        # 树结构参数
        'num_leaves': trial.suggest_int('num_leaves', 20, 150),
        'max_depth': trial.suggest_int('max_depth', 3, 12),
        'min_child_samples': trial.suggest_int('min_child_samples', 5, 100),
        'min_child_weight': trial.suggest_float('min_child_weight', 1e-3, 10.0, log=True),
        
        # 采样参数（防止过拟合）
        'subsample': trial.suggest_float('subsample', 0.5, 1.0),
        'subsample_freq': trial.suggest_int('subsample_freq', 0, 7),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.5, 1.0),
        
        # 正则化参数
        'reg_alpha': trial.suggest_float('reg_alpha', 1e-8, 10.0, log=True),
        'reg_lambda': trial.suggest_float('reg_lambda', 1e-8, 10.0, log=True),
        
        # 固定参数
        'random_state': SEED,
        'verbose': -1
    }
    
    # ========================================
    # 交叉验证评估
    # ========================================
    
    kf = KFold(n_splits=5, shuffle=True, random_state=SEED)
    fold_scores = []
    
    for fold, (train_idx, val_idx) in enumerate(kf.split(X), 1):
        X_tr, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_tr, y_val = y.iloc[train_idx], y.iloc[val_idx]
        
        # 训练模型
        model = lgb.LGBMRegressor(**params)
        
        model.fit(
            X_tr, np.log1p(y_tr),
            eval_set=[(X_val, np.log1p(y_val))],
            callbacks=[
                lgb.early_stopping(stopping_rounds=50, verbose=False),
                lgb.log_evaluation(period=0)  # 禁止输出
            ]
        )
        
        # 预测
        pred = np.expm1(model.predict(X_val, num_iteration=model.best_iteration_))
        
        # 计算RMSE
        fold_rmse = np.sqrt(mean_squared_error(y_val, pred))
        fold_scores.append(fold_rmse)
    
    # 返回平均RMSE
    mean_rmse = np.mean(fold_scores)
    
    return mean_rmse


print("\n" + "="*60)
print("开始优化（这可能需要几分钟）")
print("="*60)

# ========================================
# 运行优化
# ========================================

# 创建study
study = optuna.create_study(
    direction='minimize',  # 最小化RMSE
    sampler=optuna.samplers.TPESampler(seed=SEED),  # 使用TPE采样器
    study_name='lgb_optimization'
)

# 运行优化（调整n_trials可以控制优化时间）
# 50 trials约需要5-10分钟，100 trials约需要10-20分钟
N_TRIALS = 50  # 可以调整这个值

print(f"\n🚀 开始 {N_TRIALS} 次优化...")
print("进度条会显示当前进度\n")

study.optimize(
    objective,
    n_trials=N_TRIALS,
    show_progress_bar=True,
    n_jobs=1  # 串行执行（避免内存问题）
)

print("\n✅ 优化完成！")
print("="*60)

# ========================================
# 输出结果
# ========================================

print("\n📊 优化结果:")
print("-"*60)
print(f"最佳RMSE: {study.best_value:.2f}")
print(f"最佳参数:")
for param, value in study.best_params.items():
    print(f"  {param:20s}: {value}")

print(f"\n总共尝试: {len(study.trials)} 组参数")
print(f"完成的trials: {len([t for t in study.trials if t.state == optuna.trial.TrialState.COMPLETE])}")

# 保存最佳参数
import json
with open('best_params_lgb.json', 'w') as f:
    json.dump(study.best_params, f, indent=2)
print("\n💾 最佳参数已保存到: best_params_lgb.json")

In [None]:
# ========================================
# Cell 10: 优化结果分析与可视化
# ========================================

print("📊 优化结果分析")
print("="*60)

# ========================================
# 1. 优化历史可视化
# ========================================

print("\n1️⃣ 优化历史")
print("-"*60)

# 获取所有trial的值
trial_values = [t.value for t in study.trials if t.value is not None]
trial_numbers = list(range(1, len(trial_values) + 1))

# 计算累积最佳值
cumulative_best = []
current_best = float('inf')
for val in trial_values:
    if val < current_best:
        current_best = val
    cumulative_best.append(current_best)

# 可视化
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 左图：每次trial的RMSE
ax1 = axes[0]
ax1.plot(trial_numbers, trial_values, 'o-', alpha=0.6, markersize=4, label='Trial RMSE')
ax1.plot(trial_numbers, cumulative_best, 'r-', linewidth=2, label='Best RMSE')
ax1.set_xlabel('Trial Number')
ax1.set_ylabel('RMSE')
ax1.set_title('优化历史 - RMSE随Trial变化')
ax1.legend()
ax1.grid(alpha=0.3)

# 右图：前20个trials详细对比
ax2 = axes[1]
n_show = min(20, len(trial_values))
ax2.bar(range(1, n_show+1), trial_values[:n_show], alpha=0.7)
best_idx = trial_values.index(min(trial_values[:n_show])) + 1
ax2.axhline(study.best_value, color='red', linestyle='--', label=f'Best: {study.best_value:.2f}')
ax2.set_xlabel('Trial Number')
ax2.set_ylabel('RMSE')
ax2.set_title(f'前{n_show}个Trials的RMSE')
ax2.legend()
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\n💡 观察要点:")
print(f"  - 最佳RMSE在第 {trial_values.index(study.best_value)+1} 次trial出现")
print(f"  - 前10次trials的平均RMSE: {np.mean(trial_values[:10]):.2f}")
print(f"  - 后10次trials的平均RMSE: {np.mean(trial_values[-10:]):.2f}")
print(f"  - RMSE改善: {np.mean(trial_values[:10]) - study.best_value:.2f}")

# ========================================
# 2. 参数重要性分析
# ========================================

print("\n\n2️⃣ 参数重要性分析")
print("-"*60)

# 计算参数重要性
try:
    importance = optuna.importance.get_param_importances(study)
    
    print("\n参数重要性排序（越大越重要）:")
    for i, (param, imp) in enumerate(sorted(importance.items(), key=lambda x: x[1], reverse=True), 1):
        bar = '█' * int(imp * 50)
        print(f"  {i:2d}. {param:20s}: {imp:6.4f} {bar}")
    
    # 可视化
    fig, ax = plt.subplots(figsize=(10, 6))
    params = list(importance.keys())
    values = list(importance.values())
    
    # 按重要性排序
    sorted_idx = np.argsort(values)[::-1]
    params_sorted = [params[i] for i in sorted_idx]
    values_sorted = [values[i] for i in sorted_idx]
    
    bars = ax.barh(params_sorted, values_sorted, color='skyblue', edgecolor='black')
    
    # 高亮前3个最重要的参数
    for i in range(min(3, len(bars))):
        bars[i].set_color('coral')
    
    ax.set_xlabel('Importance')
    ax.set_title('参数重要性分析')
    ax.grid(axis='x', alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    print("\n💡 解读:")
    top3 = sorted(importance.items(), key=lambda x: x[1], reverse=True)[:3]
    print(f"  - 最重要的3个参数: {', '.join([p[0] for p in top3])}")
    print(f"  - 这些参数对模型性能影响最大，需要重点调整")
    
except Exception as e:
    print(f"参数重要性计算失败: {e}")

# ========================================
# 3. 对比默认参数 vs 优化参数
# ========================================

print("\n\n3️⃣ 默认参数 vs 优化参数对比")
print("-"*60)

# 使用默认参数评估
print("\n测试默认参数...")
default_params = {
    'n_estimators': 100,
    'learning_rate': 0.1,
    'num_leaves': 31,
    'random_state': SEED,
    'verbose': -1
}

kf = KFold(n_splits=5, shuffle=True, random_state=SEED)
default_scores = []

for train_idx, val_idx in kf.split(X):
    X_tr, X_val = X.iloc[train_idx], X.iloc[val_idx]
    y_tr, y_val = y.iloc[train_idx], y.iloc[val_idx]
    
    model = lgb.LGBMRegressor(**default_params)
    model.fit(X_tr, np.log1p(y_tr), 
              eval_set=[(X_val, np.log1p(y_val))],
              callbacks=[lgb.early_stopping(50, verbose=False)])
    
    pred = np.expm1(model.predict(X_val, num_iteration=model.best_iteration_))
    rmse = np.sqrt(mean_squared_error(y_val, pred))
    default_scores.append(rmse)

default_rmse = np.mean(default_scores)

print("\n📊 对比结果:")
print("-"*60)
print(f"{'参数设置':<20s} {'RMSE':>10s} {'提升':>15s}")
print("-"*60)
print(f"{'默认参数':<20s} {default_rmse:>10.2f} {'-':>15s}")
print(f"{'Optuna优化':<20s} {study.best_value:>10.2f} {f'-{default_rmse - study.best_value:.2f} ({(default_rmse - study.best_value)/default_rmse*100:.1f}%)':>15s}")
print("-"*60)

# 可视化对比
fig, ax = plt.subplots(figsize=(8, 5))
methods = ['默认参数', 'Optuna优化']
rmse_values = [default_rmse, study.best_value]
colors = ['lightcoral', 'lightgreen']

bars = ax.bar(methods, rmse_values, color=colors, edgecolor='black', width=0.6)
ax.set_ylabel('RMSE')
ax.set_title('参数优化效果对比')

# 添加数值标签
for bar, val in zip(bars, rmse_values):
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height,
            f'{val:.2f}',
            ha='center', va='bottom', fontsize=12, fontweight='bold')

# 添加提升标注
improvement = default_rmse - study.best_value
ax.annotate(f'提升: {improvement:.2f}\n({improvement/default_rmse*100:.1f}%)',
            xy=(0.5, (default_rmse + study.best_value)/2),
            xytext=(0.5, (default_rmse + study.best_value)/2 + 200),
            ha='center',
            fontsize=11,
            bbox=dict(boxstyle='round,pad=0.5', facecolor='yellow', alpha=0.7),
            arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=0'))

ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("\n✅ 第三部分完成！")
print("="*60)
print("\n🎓 第三部分知识总结:")
print("  1. ✅ 理解了超参数vs模型参数的区别")
print("  2. ✅ 掌握了三种调参策略的优缺点")
print("  3. ✅ 学会了使用Optuna进行贝叶斯优化")
print("  4. ✅ 学会了分析参数重要性")
print(f"  5. ✅ RMSE提升: {improvement:.0f} ({improvement/default_rmse*100:.1f}%)")
print("\n💡 超参数优化能带来稳定的性能提升！")
print("\n下一步: 模型融合 → 预期再降低200-300 RMSE！")

---

# 第四部分：模型融合（Ensemble）⭐⭐⭐

## 🎯 学习目标
1. 理解"三个臭皮匠赛过诸葛亮"的数学原理
2. 掌握多种模型融合策略
3. 实现完整的Stacking流程
4. 学会评估融合效果

## 📚 理论知识：Ensemble思想

### 为什么模型融合有效？

**核心原理**：不同模型会犯不同的错误，融合可以互补

```
假设有3个模型，每个准确率80%：
- 单个模型：准确率 = 80%
- 如果错误独立，3个模型投票：准确率 ≈ 90%+

关键：模型要有多样性（diversity）
```

### 模型多样性的来源

1. **不同算法**：LightGBM, XGBoost, CatBoost, Ridge
2. **不同特征**：使用不同的特征子集
3. **不同参数**：同一算法，不同超参数
4. **不同随机种子**：训练过程的随机性
5. **不同数据采样**：Bagging思想

### 融合策略对比

| 策略 | 复杂度 | 效果 | 适用场景 |
|------|--------|------|----------|
| **Simple Average** | ⭐ | ⭐⭐ | 快速尝试 |
| **Weighted Average** | ⭐⭐ | ⭐⭐⭐ | 模型性能差异大 |
| **Stacking** | ⭐⭐⭐ | ⭐⭐⭐⭐ | 追求极致性能 |
| **Blending** | ⭐⭐ | ⭐⭐⭐ | 数据量大时 |

### Stacking原理

**两层模型架构**：

```
Level 0（基模型）:
  ├── LightGBM  → 预测1
  ├── XGBoost   → 预测2
  ├── CatBoost  → 预测3
  └── Ridge     → 预测4
        ↓
Level 1（Meta模型）:
  将Level 0的4个预测作为特征
  训练一个新模型（通常是线性模型）
        ↓
     最终预测
```

**关键技巧**：Out-of-Fold预测

```python
# Level 0模型在训练集上做OOF预测
# 确保Meta模型的训练数据是"未见过"的预测
for fold in KFold:
    train_idx, val_idx = fold
    model.fit(X[train_idx], y[train_idx])
    oof_pred[val_idx] = model.predict(X[val_idx])  # OOF预测
    test_pred += model.predict(X_test) / n_folds   # 测试集预测

# Meta模型用OOF预测作为特征
meta_model.fit(oof_pred, y)
```

接下来我们会实现完整的Stacking流程！

In [None]:
# ========================================
# Cell 11: 完整模型融合实现 + 最终提交
# ========================================

print("🎭 模型融合与最终提交")
print("="*60)

# 加载最佳参数
import json
try:
    with open('best_params_lgb.json', 'r') as f:
        best_lgb_params = json.load(f)
    print("✅ 已加载Optuna优化的最佳参数")
except:
    # 如果没有运行Optuna，使用默认优化参数
    best_lgb_params = {
        'n_estimators': 500,
        'learning_rate': 0.05,
        'num_leaves': 50,
        'max_depth': 7,
        'subsample': 0.8,
        'colsample_bytree': 0.8,
        'reg_alpha': 0.1,
        'reg_lambda': 0.1,
        'random_state': SEED,
        'verbose': -1
    }
    print("⚠️  使用默认优化参数")

# ========================================
# 准备数据
# ========================================

print("\n📂 准备数据...")
train_full = pd.read_csv('train_all_features.csv')
test_full = pd.read_csv('test_all_features.csv')

# 保存测试集ID
test_ids = test_full['id'].values

# 准备特征
exclude_cols = ['id', 'charges']
cat_cols = train_full.select_dtypes(include=['object', 'category']).columns.tolist()

if cat_cols:
    train_full = pd.get_dummies(train_full, columns=cat_cols, drop_first=True)
    test_full = pd.get_dummies(test_full, columns=cat_cols, drop_first=True)

# 对齐特征
train_full, test_full = train_full.align(test_full, join='left', axis=1, fill_value=0)

X_full = train_full.drop(exclude_cols, axis=1, errors='ignore')
y_full = train_full['charges']
X_test_full = test_full.drop(exclude_cols, axis=1, errors='ignore')

print(f"训练集: {X_full.shape}")
print(f"测试集: {X_test_full.shape}")

# ========================================
# 模型融合：Stacking
# ========================================

print("\n\n" + "="*60)
print("🎯 训练融合模型（Stacking）")
print("="*60)

N_FOLDS = 5
kf = KFold(n_splits=N_FOLDS, shuffle=True, random_state=SEED)

# 存储OOF预测和测试集预测
oof_predictions = {
    'lgb': np.zeros(len(X_full)),
    'ridge': np.zeros(len(X_full))
}

test_predictions = {
    'lgb': np.zeros(len(X_test_full)),
    'ridge': np.zeros(len(X_test_full))
}

# ========================================
# Level 0 模型1: LightGBM
# ========================================

print("\n1️⃣ 训练 LightGBM (Level 0)...")
print("-"*60)

for fold, (train_idx, val_idx) in enumerate(kf.split(X_full), 1):
    print(f"  Fold {fold}/{N_FOLDS}...", end=' ')
    
    X_tr, X_val = X_full.iloc[train_idx], X_full.iloc[val_idx]
    y_tr, y_val = y_full.iloc[train_idx], y_full.iloc[val_idx]
    
    # 训练LightGBM
    lgb_model = lgb.LGBMRegressor(**best_lgb_params)
    lgb_model.fit(
        X_tr, np.log1p(y_tr),
        eval_set=[(X_val, np.log1p(y_val))],
        callbacks=[lgb.early_stopping(50, verbose=False)]
    )
    
    # OOF预测
    oof_predictions['lgb'][val_idx] = np.expm1(
        lgb_model.predict(X_val, num_iteration=lgb_model.best_iteration_)
    )
    
    # 测试集预测（累加）
    test_predictions['lgb'] += np.expm1(
        lgb_model.predict(X_test_full, num_iteration=lgb_model.best_iteration_)
    ) / N_FOLDS
    
    fold_rmse = np.sqrt(mean_squared_error(y_val, oof_predictions['lgb'][val_idx]))
    print(f"RMSE: {fold_rmse:.2f}")

lgb_oof_rmse = np.sqrt(mean_squared_error(y_full, oof_predictions['lgb']))
print(f"\nLightGBM OOF RMSE: {lgb_oof_rmse:.2f}")

# ========================================
# Level 0 模型2: Ridge（线性模型作为补充）
# ========================================

print("\n2️⃣ 训练 Ridge (Level 0)...")
print("-"*60)

for fold, (train_idx, val_idx) in enumerate(kf.split(X_full), 1):
    print(f"  Fold {fold}/{N_FOLDS}...", end=' ')
    
    X_tr, X_val = X_full.iloc[train_idx], X_full.iloc[val_idx]
    y_tr, y_val = y_full.iloc[train_idx], y_full.iloc[val_idx]
    
    # 标准化
    scaler = StandardScaler()
    X_tr_scaled = scaler.fit_transform(X_tr)
    X_val_scaled = scaler.transform(X_val)
    X_test_scaled = scaler.transform(X_test_full)
    
    # 训练Ridge
    ridge_model = Ridge(alpha=10.0, random_state=SEED)
    ridge_model.fit(X_tr_scaled, np.log1p(y_tr))
    
    # OOF预测
    oof_predictions['ridge'][val_idx] = np.expm1(ridge_model.predict(X_val_scaled))
    
    # 测试集预测
    test_predictions['ridge'] += np.expm1(ridge_model.predict(X_test_scaled)) / N_FOLDS
    
    fold_rmse = np.sqrt(mean_squared_error(y_val, oof_predictions['ridge'][val_idx]))
    print(f"RMSE: {fold_rmse:.2f}")

ridge_oof_rmse = np.sqrt(mean_squared_error(y_full, oof_predictions['ridge']))
print(f"\nRidge OOF RMSE: {ridge_oof_rmse:.2f}")

# ========================================
# 融合策略对比
# ========================================

print("\n\n" + "="*60)
print("📊 融合策略效果对比")
print("="*60)

results = []

# 策略1: 单模型（LightGBM）
results.append({
    '策略': 'LightGBM单模型',
    'OOF RMSE': lgb_oof_rmse,
    '权重': 'LGB:100%'
})

# 策略2: 单模型（Ridge）
results.append({
    '策略': 'Ridge单模型',
    'OOF RMSE': ridge_oof_rmse,
    '权重': 'Ridge:100%'
})

# 策略3: 简单平均
avg_pred = (oof_predictions['lgb'] + oof_predictions['ridge']) / 2
avg_rmse = np.sqrt(mean_squared_error(y_full, avg_pred))
results.append({
    '策略': '简单平均',
    'OOF RMSE': avg_rmse,
    '权重': 'LGB:50%, Ridge:50%'
})

# 策略4: 加权平均（网格搜索最优权重）
best_weight = 0.5
best_weighted_rmse = float('inf')

for w in np.arange(0.0, 1.01, 0.05):
    weighted_pred = oof_predictions['lgb'] * w + oof_predictions['ridge'] * (1 - w)
    rmse = np.sqrt(mean_squared_error(y_full, weighted_pred))
    if rmse < best_weighted_rmse:
        best_weighted_rmse = rmse
        best_weight = w

results.append({
    '策略': '加权平均（优化）',
    'OOF RMSE': best_weighted_rmse,
    '权重': f'LGB:{best_weight:.0%}, Ridge:{1-best_weight:.0%}'
})

# 策略5: Stacking (Meta-learner)
print("\n3️⃣ 训练 Meta-learner (Level 1)...")
print("-"*60)

# 准备Level 1的特征（Level 0的预测）
meta_features = np.column_stack([oof_predictions['lgb'], oof_predictions['ridge']])
meta_test_features = np.column_stack([test_predictions['lgb'], test_predictions['ridge']])

# 训练Meta模型（使用简单的Ridge）
meta_model = Ridge(alpha=1.0, random_state=SEED)
meta_model.fit(meta_features, np.log1p(y_full))

# Meta模型预测
meta_pred = np.expm1(meta_model.predict(meta_features))
meta_rmse = np.sqrt(mean_squared_error(y_full, meta_pred))

print(f"Meta-learner系数: LGB={meta_model.coef_[0]:.4f}, Ridge={meta_model.coef_[1]:.4f}")
print(f"Meta-learner OOF RMSE: {meta_rmse:.2f}")

results.append({
    '策略': 'Stacking（Meta-learner）',
    'OOF RMSE': meta_rmse,
    '权重': 'Meta模型学习'
})

# ========================================
# 结果汇总
# ========================================

results_df = pd.DataFrame(results)
print("\n" + "="*60)
print("📊 融合效果对比")
print("="*60)
print(results_df.to_string(index=False))

# 选择最佳策略
best_idx = results_df['OOF RMSE'].idxmin()
best_strategy = results_df.loc[best_idx]

print("\n" + "="*60)
print("🏆 最佳融合策略")
print("="*60)
print(f"策略: {best_strategy['策略']}")
print(f"OOF RMSE: {best_strategy['OOF RMSE']:.2f}")
print(f"权重: {best_strategy['权重']}")

# ========================================
# 生成最终提交
# ========================================

print("\n\n" + "="*60)
print("📝 生成最终提交文件")
print("="*60)

# 使用最佳策略的预测
if best_idx == 5:  # Stacking
    final_test_pred = np.expm1(meta_model.predict(meta_test_features))
elif best_idx == 3:  # 加权平均
    final_test_pred = test_predictions['lgb'] * best_weight + test_predictions['ridge'] * (1 - best_weight)
else:
    final_test_pred = test_predictions['lgb']  # 默认LightGBM

# Clip负值
final_test_pred = np.maximum(final_test_pred, 0)

# 创建提交文件
submission = pd.DataFrame({
    'id': test_ids,
    'charges': final_test_pred
})

submission.to_csv('final_submission.csv', index=False)

print(f"\n✅ 最终提交文件已生成: final_submission.csv")
print(f"\n预测统计:")
print(submission['charges'].describe())

# 可视化
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 左图：策略对比
ax1 = axes[0]
strategies = [s.replace('（', '\n(').replace('）', ')') for s in results_df['策略']]
colors = ['gold' if i == best_idx else 'skyblue' for i in range(len(results_df))]
bars = ax1.bar(range(len(results_df)), results_df['OOF RMSE'], color=colors, edgecolor='black')
ax1.set_xticks(range(len(results_df)))
ax1.set_xticklabels(strategies, rotation=20, ha='right', fontsize=9)
ax1.set_ylabel('OOF RMSE')
ax1.set_title('不同融合策略效果对比')
ax1.grid(axis='y', alpha=0.3)

for bar, rmse in zip(bars, results_df['OOF RMSE']):
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height,
            f'{rmse:.0f}',
            ha='center', va='bottom', fontsize=9, fontweight='bold')

# 右图：预测分布
ax2 = axes[1]
ax2.hist(final_test_pred, bins=50, edgecolor='black', alpha=0.7)
ax2.set_xlabel('Predicted Charges')
ax2.set_ylabel('Frequency')
ax2.set_title('测试集预测分布')
ax2.axvline(final_test_pred.mean(), color='red', linestyle='--', label=f'Mean: {final_test_pred.mean():.0f}')
ax2.legend()
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*60)
print("🎉 全部优化流程完成！")
print("="*60)
print("\n📊 完整优化路径总结:")
print("  1. ✅ 数据清洗（异常值处理）")
print("  2. ✅ 特征工程（50+个新特征）")
print("  3. ✅ 超参数优化（Optuna贝叶斯优化）")
print("  4. ✅ 模型融合（Stacking）")
print(f"\n🏆 最终OOF RMSE: {best_strategy['OOF RMSE']:.2f}")
print(f"📈 预期排名: Top 10-20%（如果是Kaggle比赛）")
print("\n💡 你已经掌握了完整的机器学习竞赛流程！")

---

# 🎓 完整教程总结

## 🏆 恭喜你完成了机器学习模型优化的完整学习！

### 📊 你学到的核心知识

#### 1️⃣ 数据清洗与预处理
- **异常值检测方法**：IQR统计方法 + 领域知识
- **处理策略对比**：删除、截断、替换、保留
- **实验驱动**：通过对比实验选择最佳策略
- **收获**：数据质量是模型性能的基础

#### 2️⃣ 特征工程（最重要！）⭐⭐⭐
- **领域知识特征**：28个基于保险业务的特征
  - 风险评分（年龄、BMI、吸烟）
  - 交互特征（smoker × age, smoker × bmi等）
  - 多项式特征（age², bmi²等）
  
- **Target Encoding**：高级编码技术
  - K-Fold方式防止数据泄漏
  - 贝叶斯平滑处理小样本
  
- **分组统计特征**：20+个聚合特征
  - 按类别分组的统计量
  - 相对特征（与群体均值的偏差）
  
- **收获**："数据和特征决定机器学习的上限"

#### 3️⃣ 超参数优化
- **调参策略对比**：Grid Search vs Random Search vs Bayesian Optimization
- **Optuna实战**：TPE采样器的使用
- **参数重要性分析**：了解哪些参数最关键
- **收获**：系统化的调参方法比手工调参高效得多

#### 4️⃣ 模型融合
- **Ensemble原理**："三个臭皮匠赛过诸葛亮"
- **融合策略**：
  - 简单平均
  - 加权平均
  - Stacking（两层模型）
- **模型多样性**：不同模型犯不同的错误
- **收获**：融合通常能带来稳定的性能提升

---

### 📈 性能提升路线图

```
起点（基线）: RMSE ≈ 6700
    ↓
数据清洗: -100 RMSE
    ↓
特征工程: -300~400 RMSE  ← 最大提升！
    ↓
超参数优化: -100~200 RMSE
    ↓
模型融合: -200~300 RMSE
    ↓
终点: RMSE ≈ 5500~5800

总提升: 900~1200 RMSE (13-18%)
```

---

### 💻 可复用的代码模板

你现在拥有了完整的代码模板，可以应用到其他项目：

1. **异常值检测与处理**
   ```python
   # IQR方法 + 领域知识
   # 4种策略对比实验
   ```

2. **K-Fold Target Encoding类**
   ```python
   class TargetEncoder:
       # 防止数据泄漏的完整实现
   ```

3. **分组统计特征函数**
   ```python
   def create_aggregation_features():
       # 按类别分组统计
   ```

4. **Optuna优化框架**
   ```python
   def objective(trial):
       # 贝叶斯优化目标函数
   ```

5. **Stacking实现**
   ```python
   # Level 0: 多个基模型
   # Level 1: Meta-learner
   ```

---

### 🎯 机器学习项目完整流程

你已经掌握了端到端的流程：

```
1. 数据探索（EDA）
   └── 理解数据分布、发现异常

2. 数据清洗
   └── 处理缺失值、异常值

3. 特征工程 ⭐⭐⭐
   ├── 领域知识特征
   ├── Target Encoding
   └── 统计聚合特征

4. 模型训练
   ├── 基础模型评估
   └── 选择合适的模型

5. 模型优化
   ├── 超参数调优（Optuna）
   └── 交叉验证策略

6. 模型融合
   ├── 训练多个模型
   └── Stacking/Blending

7. 后处理
   ├── 残差分析
   └── 预测校准

8. 模型诊断
   ├── 特征重要性
   └── 错误分析

9. 部署
   └── 生成最终预测
```

---

### 🚀 进一步学习建议

#### 想提升到更高水平？

1. **高级特征工程**
   - 自动特征工程（AutoFE）
   - 特征选择算法（RFE, LASSO等）
   - 深度特征交互

2. **更多模型**
   - Neural Networks（神经网络）
   - XGBoost深入优化
   - CatBoost的类别特征处理

3. **高级融合技术**
   - Multi-level Stacking
   - Blending策略
   - 模型蒸馏

4. **生产部署**
   - 模型序列化（pickle, joblib）
   - API部署（Flask, FastAPI）
   - 模型监控与更新

5. **AutoML工具**
   - H2O AutoML
   - TPOT
   - AutoGluon

#### 推荐学习资源

- **Kaggle平台**：参加真实比赛
- **书籍**：《Feature Engineering for Machine Learning》
- **课程**：Andrew Ng的机器学习课程
- **论文**：XGBoost, LightGBM, CatBoost原论文

---

### 📝 关键要点回顾

#### 成功的关键因素（优先级排序）

1. **特征工程** (40%) ⭐⭐⭐⭐⭐
   - "垃圾进，垃圾出"
   - 好的特征比复杂的模型更重要

2. **数据质量** (30%) ⭐⭐⭐⭐
   - 异常值处理
   - 缺失值填充
   - 数据平衡

3. **模型选择与优化** (20%) ⭐⭐⭐
   - 选择合适的算法
   - 超参数调优
   - 模型融合

4. **验证策略** (10%) ⭐⭐
   - 交叉验证
   - 避免过拟合
   - 可靠的评估

---

### 💡 最后的建议

1. **实践是最好的老师**
   - 多参加Kaggle比赛
   - 尝试不同的数据集
   - 从失败中学习

2. **保持学习的习惯**
   - 机器学习发展迅速
   - 关注最新的论文和技术
   - 参与社区讨论

3. **注重基础**
   - 理解算法原理
   - 不要只依赖黑盒工具
   - 数学和统计基础很重要

4. **工程化思维**
   - 代码可复用性
   - 实验可重现性
   - 文档和注释

5. **业务导向**
   - 模型要解决实际问题
   - 性能指标要符合业务目标
   - 可解释性很重要

---

## 🎉 恭喜你！

你已经完成了从数据清洗到模型部署的完整机器学习流程学习。

这不仅是一个教程的结束，更是你机器学习之旅的开始！

### 下一步行动

1. ✅ **运行全部cells**，看到完整的优化过程
2. ✅ **修改参数**，尝试不同的配置
3. ✅ **应用到新项目**，巩固所学知识
4. ✅ **分享你的经验**，教学相长

### 保持联系

- 遇到问题？查看代码注释和理论说明
- 想深入？阅读相关论文和文档
- 有收获？分享给其他学习者

**祝你在机器学习的道路上越走越远！** 🚀

---

*"The only way to learn a new programming language is by writing programs in it."*
*- Dennis Ritchie*

*机器学习也是如此 - 只有通过实践才能真正掌握！*

## 🔬 实验：对比不同的异常值处理策略

我们将对比以下4种策略的效果：

### 策略1: 不处理（Baseline）
- 保留所有异常值
- 作为对比基准

### 策略2: 删除异常值
- 删除 BMI > 60 的样本
- 优点：彻底移除异常数据
- 缺点：减少训练样本量

### 策略3: 截断（Clipping）
- 将 BMI > 60 的值设为 60
- 优点：保留样本数量
- 缺点：可能引入偏差

### 策略4: 替换为中位数
- 将异常值替换为BMI的中位数
- 优点：保守处理
- 缺点：改变数据分布

我们会用简单的LightGBM模型（3折交叉验证）快速测试每种策略的效果。

In [None]:
# ========================================
# Cell 3: 异常值处理策略对比实验
# ========================================

from sklearn.model_selection import KFold

def quick_evaluate(train_df, strategy_name):
    """
    快速评估函数：用3折CV评估处理后的数据
    
    参数:
        train_df: 处理后的训练数据
        strategy_name: 策略名称
    
    返回:
        oof_rmse: Out-of-Fold RMSE
    """
    # 简单特征工程
    df = train_df.copy()
    
    # 类别编码
    df['smoker'] = df['smoker'].map({'yes': 1, 'no': 0})
    df = pd.get_dummies(df, columns=['sex', 'region'], drop_first=True)
    
    # 基础交互特征
    df['age_bmi'] = df['age'] * df['bmi']
    df['smoker_bmi'] = df['smoker'] * df['bmi']
    
    # 准备数据
    X = df.drop(['charges', 'id'], axis=1, errors='ignore')
    y = df['charges']
    
    # 3折交叉验证
    kf = KFold(n_splits=3, shuffle=True, random_state=SEED)
    oof_predictions = np.zeros(len(X))
    
    for fold, (train_idx, val_idx) in enumerate(kf.split(X), 1):
        X_tr, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_tr, y_val = y.iloc[train_idx], y.iloc[val_idx]
        
        # 训练LightGBM（简化参数，快速评估）
        model = lgb.LGBMRegressor(
            n_estimators=200,
            learning_rate=0.05,
            num_leaves=31,
            random_state=SEED,
            verbose=-1
        )
        
        model.fit(
            X_tr, np.log1p(y_tr),
            eval_set=[(X_val, np.log1p(y_val))],
            callbacks=[lgb.early_stopping(stopping_rounds=30, verbose=False)]
        )
        
        # 预测
        pred = np.expm1(model.predict(X_val, num_iteration=model.best_iteration_))
        oof_predictions[val_idx] = pred
    
    # 计算RMSE
    oof_rmse = np.sqrt(mean_squared_error(y, oof_predictions))
    
    return oof_rmse, len(df)


print("🔬 开始异常值处理策略对比实验")
print("="*60)
print("\n实验设置:")
print("  - 模型: LightGBM")
print("  - 验证: 3-Fold CV")
print("  - 评估指标: OOF RMSE")
print("  - 异常值定义: BMI > 60")
print("\n" + "="*60)

# 存储结果
results = []

# ========================================
# 策略1: 不处理（Baseline）
# ========================================
print("\n📊 策略1: 不处理异常值（Baseline）")
print("-"*60)
train_1 = train.copy()
rmse_1, samples_1 = quick_evaluate(train_1, "不处理")
results.append({
    '策略': '1. 不处理（Baseline）',
    '样本数': samples_1,
    'OOF RMSE': rmse_1,
    'vs Baseline': 0,
    '说明': '保留所有异常值'
})
print(f"样本数: {samples_1}")
print(f"OOF RMSE: {rmse_1:.2f}")

# ========================================
# 策略2: 删除异常值
# ========================================
print("\n📊 策略2: 删除异常值 (BMI > 60)")
print("-"*60)
train_2 = train[train['bmi'] <= 60].copy().reset_index(drop=True)
rmse_2, samples_2 = quick_evaluate(train_2, "删除")
results.append({
    '策略': '2. 删除异常值',
    '样本数': samples_2,
    'OOF RMSE': rmse_2,
    'vs Baseline': rmse_2 - rmse_1,
    '说明': f'删除了 {samples_1 - samples_2} 个样本'
})
print(f"删除样本数: {samples_1 - samples_2}")
print(f"剩余样本数: {samples_2}")
print(f"OOF RMSE: {rmse_2:.2f}")
print(f"相比Baseline: {rmse_2 - rmse_1:+.2f}")

# ========================================
# 策略3: 截断 (Clipping)
# ========================================
print("\n📊 策略3: 截断 (Clipping to 60)")
print("-"*60)
train_3 = train.copy()
train_3['bmi'] = train_3['bmi'].clip(upper=60)
rmse_3, samples_3 = quick_evaluate(train_3, "截断")
results.append({
    '策略': '3. 截断 (Clip to 60)',
    '样本数': samples_3,
    'OOF RMSE': rmse_3,
    'vs Baseline': rmse_3 - rmse_1,
    '说明': '将BMI>60的值设为60'
})
print(f"样本数: {samples_3} (无变化)")
print(f"修改值数量: {(train['bmi'] > 60).sum()}")
print(f"OOF RMSE: {rmse_3:.2f}")
print(f"相比Baseline: {rmse_3 - rmse_1:+.2f}")

# ========================================
# 策略4: 替换为中位数
# ========================================
print("\n📊 策略4: 替换为中位数")
print("-"*60)
train_4 = train.copy()
bmi_median = train_4[train_4['bmi'] <= 60]['bmi'].median()
train_4.loc[train_4['bmi'] > 60, 'bmi'] = bmi_median
rmse_4, samples_4 = quick_evaluate(train_4, "替换中位数")
results.append({
    '策略': '4. 替换为中位数',
    '样本数': samples_4,
    'OOF RMSE': rmse_4,
    'vs Baseline': rmse_4 - rmse_1,
    '说明': f'替换为 {bmi_median:.2f}'
})
print(f"样本数: {samples_4} (无变化)")
print(f"中位数: {bmi_median:.2f}")
print(f"修改值数量: {(train['bmi'] > 60).sum()}")
print(f"OOF RMSE: {rmse_4:.2f}")
print(f"相比Baseline: {rmse_4 - rmse_1:+.2f}")

# ========================================
# 结果汇总
# ========================================
print("\n\n" + "="*60)
print("📊 实验结果汇总")
print("="*60)

results_df = pd.DataFrame(results)
print("\n" + results_df.to_string(index=False))

# 找出最佳策略
best_idx = results_df['OOF RMSE'].idxmin()
best_strategy = results_df.loc[best_idx]

print("\n" + "="*60)
print("🏆 最佳策略")
print("="*60)
print(f"策略: {best_strategy['策略']}")
print(f"OOF RMSE: {best_strategy['OOF RMSE']:.2f}")
print(f"性能提升: {-best_strategy['vs Baseline']:.2f}")
print(f"说明: {best_strategy['说明']}")

# 可视化对比
print("\n📊 可视化对比...")
fig, ax = plt.subplots(figsize=(10, 6))
colors = ['red' if x == best_idx else 'skyblue' for x in range(len(results_df))]
bars = ax.bar(range(len(results_df)), results_df['OOF RMSE'], color=colors, edgecolor='black')
ax.set_xticks(range(len(results_df)))
ax.set_xticklabels([s.split('.')[1].strip() for s in results_df['策略']], rotation=15)
ax.set_ylabel('OOF RMSE')
ax.set_title('不同异常值处理策略的效果对比')
ax.axhline(rmse_1, color='red', linestyle='--', alpha=0.5, label='Baseline')

# 添加数值标签
for i, (bar, rmse) in enumerate(zip(bars, results_df['OOF RMSE'])):
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height,
            f'{rmse:.0f}',
            ha='center', va='bottom', fontsize=10, fontweight='bold')

ax.legend()
plt.tight_layout()
plt.show()

print("\n💡 关键发现:")
print("  1. 异常值确实影响模型性能")
print("  2. 不同处理策略效果差异明显")
print(f"  3. 最佳策略是: {best_strategy['策略']}")
print(f"  4. 相比不处理，RMSE降低了约 {-best_strategy['vs Baseline']:.0f}")

In [None]:
# ========================================
# Cell 4: 应用最佳策略 + 保存清洗后的数据
# ========================================

print("🎯 应用最佳异常值处理策略")
print("="*60)

# 根据实验结果，我们采用表现最好的策略
# 这里我们先默认使用截断策略（通常效果较好）
# 你运行实验后可以根据结果调整

BEST_STRATEGY = "clip"  # 可选: "clip", "remove", "median"
BMI_THRESHOLD = 60

# 处理训练集
print("\n处理训练集...")
train_cleaned = train.copy()

if BEST_STRATEGY == "clip":
    print(f"策略: 截断 (Clipping) - BMI > {BMI_THRESHOLD} 设为 {BMI_THRESHOLD}")
    n_modified = (train_cleaned['bmi'] > BMI_THRESHOLD).sum()
    train_cleaned['bmi'] = train_cleaned['bmi'].clip(upper=BMI_THRESHOLD)
    print(f"修改了 {n_modified} 个样本")
    
elif BEST_STRATEGY == "remove":
    print(f"策略: 删除 - 移除 BMI > {BMI_THRESHOLD} 的样本")
    n_before = len(train_cleaned)
    train_cleaned = train_cleaned[train_cleaned['bmi'] <= BMI_THRESHOLD].reset_index(drop=True)
    n_after = len(train_cleaned)
    print(f"删除了 {n_before - n_after} 个样本")
    
elif BEST_STRATEGY == "median":
    print(f"策略: 替换为中位数")
    bmi_median = train_cleaned[train_cleaned['bmi'] <= BMI_THRESHOLD]['bmi'].median()
    n_modified = (train_cleaned['bmi'] > BMI_THRESHOLD).sum()
    train_cleaned.loc[train_cleaned['bmi'] > BMI_THRESHOLD, 'bmi'] = bmi_median
    print(f"修改了 {n_modified} 个样本，替换为 {bmi_median:.2f}")

# 处理测试集（同样的策略）
print("\n处理测试集...")
test_cleaned = test.copy()

if BEST_STRATEGY == "clip":
    n_modified_test = (test_cleaned['bmi'] > BMI_THRESHOLD).sum()
    test_cleaned['bmi'] = test_cleaned['bmi'].clip(upper=BMI_THRESHOLD)
    print(f"修改了 {n_modified_test} 个样本")
    
elif BEST_STRATEGY == "median":
    n_modified_test = (test_cleaned['bmi'] > BMI_THRESHOLD).sum()
    test_cleaned.loc[test_cleaned['bmi'] > BMI_THRESHOLD, 'bmi'] = bmi_median
    print(f"修改了 {n_modified_test} 个样本")

# 检查其他字段是否有异常
print("\n\n🔍 检查其他字段...")
print("-"*60)

# Age检查
print(f"\nAge 范围: [{train_cleaned['age'].min():.0f}, {train_cleaned['age'].max():.0f}]")
if train_cleaned['age'].min() < 0 or train_cleaned['age'].max() > 120:
    print("  ⚠️  发现异常年龄值")
else:
    print("  ✅ 年龄范围正常")

# Children检查
print(f"\nChildren 范围: [{train_cleaned['children'].min():.0f}, {train_cleaned['children'].max():.0f}]")
if train_cleaned['children'].max() > 10:
    print(f"  ⚠️  发现异常孩子数量: max = {train_cleaned['children'].max():.0f}")
    # 可以选择处理
    train_cleaned['children'] = train_cleaned['children'].clip(upper=10)
    test_cleaned['children'] = test_cleaned['children'].clip(upper=10)
    print("  已截断为 10")
else:
    print("  ✅ 孩子数量范围正常")

# Charges检查
print(f"\nCharges 范围: [{train_cleaned['charges'].min():.2f}, {train_cleaned['charges'].max():.2f}]")
if train_cleaned['charges'].min() < 0:
    print("  ⚠️  发现负数费用")
else:
    print("  ✅ 费用范围正常")

# 保存清洗后的数据
print("\n\n💾 保存清洗后的数据...")
print("-"*60)
train_cleaned.to_csv('train_cleaned.csv', index=False)
test_cleaned.to_csv('test_cleaned.csv', index=False)
print("✅ 已保存:")
print("  - train_cleaned.csv")
print("  - test_cleaned.csv")

# 数据质量报告
print("\n\n📋 数据清洗报告")
print("="*60)
print(f"训练集: {len(train)} → {len(train_cleaned)} 样本")
print(f"测试集: {len(test)} → {len(test_cleaned)} 样本")
print(f"\nBMI 统计 (清洗后):")
print(f"  - 最小值: {train_cleaned['bmi'].min():.2f}")
print(f"  - 中位数: {train_cleaned['bmi'].median():.2f}")
print(f"  - 最大值: {train_cleaned['bmi'].max():.2f}")
print(f"  - 标准差: {train_cleaned['bmi'].std():.2f}")

print("\n✅ 第一部分完成！")
print("="*60)
print("\n🎓 知识总结:")
print("  1. 学会了如何检测异常值（统计方法 + 领域知识）")
print("  2. 理解了异常值对模型的影响")
print("  3. 掌握了4种异常值处理策略")
print("  4. 学会了通过实验选择最佳策略")
print("  5. 预期RMSE提升: ~100左右")
print("\n下一步: 高级特征工程 → 预期再降低400+ RMSE！")