# Chapter 5: 支持向量机 (SVM) 实践

## 实验概述

在本实验中，你将使用 **Wine 数据集**来学习支持向量机（SVM）的实现和应用。Wine 数据集包含 178 个样本，每个样本有 13 个特征，属于 3 种不同的葡萄酒类别。

### 实验目标

1. 理解 SVM 的基本原理和核函数
2. 实现线性核和 RBF 核函数
3. 使用 scikit-learn 的 SVM 模型
4. 进行超参数调优
5. 可视化支持向量和决策边界
6. 分析混淆矩阵

### 数据集信息

- **样本数量**: 178
- **特征数量**: 13
- **类别数量**: 3 (三种葡萄酒)
- **特征**: 酒精含量、苹果酸、灰分、灰分碱度、镁含量等

## Part 1: 数据加载与探索

### 1.1 导入必要的库

In [None]:
# ===== 预填充代码 =====
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import svm
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

print("库导入成功！")

### 1.2 加载 Wine 数据集

In [None]:
# ===== 预填充代码 =====
# 加载数据集
wine = load_wine()
X = wine.data
y = wine.target
feature_names = wine.feature_names
target_names = wine.target_names

print("数据集信息:")
print(f"样本数量: {X.shape[0]}")
print(f"特征数量: {X.shape[1]}")
print(f"类别数量: {len(target_names)}")
print(f"\n类别名称: {target_names}")
print(f"\n特征名称:")
for i, name in enumerate(feature_names):
    print(f"  {i+1}. {name}")

### 1.3 数据探索

**任务**: 创建一个 DataFrame 来查看数据的基本统计信息

In [None]:
# ===== 学生代码 =====
# TODO: 创建 DataFrame 并显示前10行数据
# 提示: 使用 pd.DataFrame(data, columns=feature_names)

df = None  # 替换为你的代码

# TODO: 添加目标列 'target'，并显示每个类别的样本数量
# 提示: 使用 value_counts() 统计每个类别的数量

print("\n每个类别的样本数量:")
# 你的代码

# 预期输出:
# 类别 0: 59 个样本
# 类别 1: 71 个样本
# 类别 2: 48 个样本

### 1.4 数据标准化

SVM 对特征的尺度敏感，需要进行标准化处理。

In [None]:
# ===== 预填充代码 =====
# 创建标准化器
scaler = StandardScaler()

# 标准化特征
X_scaled = scaler.fit_transform(X)

print("标准化前的统计信息:")
print(f"均值: {X.mean(axis=0)[:5]}")
print(f"标准差: {X.std(axis=0)[:5]}")

print("\n标准化后的统计信息:")
print(f"均值: {X_scaled.mean(axis=0)[:5]}")
print(f"标准差: {X_scaled.std(axis=0)[:5]}")

### 1.5 划分训练集和测试集

In [None]:
# ===== 预填充代码 =====
# 划分数据集 (80% 训练, 20% 测试)
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

print(f"训练集大小: {X_train.shape}")
print(f"测试集大小: {X_test.shape}")
print(f"\n训练集类别分布: {np.bincount(y_train)}")
print(f"测试集类别分布: {np.bincount(y_test)}")

## Part 2: 核函数实现

### 2.1 线性核函数

**任务**: 实现线性核函数 $K(x, x') = x \cdot x'$

In [None]:
# ===== 学生代码 =====
def linear_kernel(x1, x2):
    """
    线性核函数
    
    参数:
    x1: 第一个向量 (n_features,) 或 (n_samples, n_features)
    x2: 第二个向量 (n_features,) 或 (n_samples, n_features)
    
    返回:
    核函数值
    """
    # TODO: 实现线性核函数 (点积)
    pass

# 测试线性核函数
x1 = np.array([1, 2, 3])
x2 = np.array([4, 5, 6])
result = linear_kernel(x1, x2)
print(f"线性核测试: K({x1}, {x2}) = {result}")
# 预期输出: 32

### 2.2 RBF 核函数（高斯核）

**任务**: 实现 RBF 核函数 $K(x, x') = \exp(-\gamma\|x - x'\|^2)$

In [None]:
# ===== 学生代码 =====
def rbf_kernel(x1, x2, gamma=1.0):
    """
    RBF (高斯) 核函数
    
    参数:
    x1: 第一个向量
    x2: 第二个向量
    gamma: 核参数
    
    返回:
    核函数值
    """
    # TODO: 实现 RBF 核函数
    # 1. 计算向量之间的欧氏距离平方
    # 2. 应用高斯函数 exp(-gamma * distance^2)
    pass

# 测试 RBF 核函数
x1 = np.array([1, 2, 3])
x2 = np.array([1, 2, 3])  # 相同的向量
result_same = rbf_kernel(x1, x2, gamma=1.0)

x3 = np.array([4, 5, 6])
result_diff = rbf_kernel(x1, x3, gamma=0.1)

print(f"RBF 核测试 (相同向量): K(x, x) = {result_same:.6f}")
print(f"RBF 核测试 (不同向量): K(x1, x2) = {result_diff:.6f}")
# 预期输出: 相同向量的核值接近 1.0
#           不同向量的核值较小

## Part 3: 使用 scikit-learn 的 SVM

### 3.1 创建线性核 SVM

**任务**: 创建一个线性核 SVM 并训练

In [None]:
# ===== 学生代码 =====
# TODO: 创建线性核 SVM 模型
# 提示: 使用 svm.SVC(kernel='linear', C=1.0, random_state=42)

svm_linear = None  # 替换为你的代码

# TODO: 训练模型

# TODO: 在训练集和测试集上预测
y_train_pred_linear = None
y_test_pred_linear = None

# TODO: 计算准确率
train_acc_linear = None
test_acc_linear = None

print(f"线性核 SVM:")
print(f"  训练集准确率: {train_acc_linear:.4f}")
print(f"  测试集准确率: {test_acc_linear:.4f}")
print(f"  支持向量数量: {len(svm_linear.support_vectors_)}")

### 3.2 创建 RBF 核 SVM

**任务**: 创建一个 RBF 核 SVM 并训练

In [None]:
# ===== 学生代码 =====
# TODO: 创建 RBF 核 SVM 模型
# 提示: 使用 svm.SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42)

svm_rbf = None  # 替换为你的代码

# TODO: 训练模型并预测

# TODO: 计算准确率
train_acc_rbf = None
test_acc_rbf = None

print(f"RBF 核 SVM:")
print(f"  训练集准确率: {train_acc_rbf:.4f}")
print(f"  测试集准确率: {test_acc_rbf:.4f}")
print(f"  支持向量数量: {len(svm_rbf.support_vectors_)}")

### 3.3 比较不同核函数

In [None]:
# ===== 预填充代码 =====
# 比较不同核函数的性能
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
results = []

for kernel in kernels:
    model = svm.SVC(kernel=kernel, random_state=42)
    model.fit(X_train, y_train)
    
    train_acc = model.score(X_train, y_train)
    test_acc = model.score(X_test, y_test)
    n_sv = len(model.support_vectors_)
    
    results.append({
        'kernel': kernel,
        'train_acc': train_acc,
        'test_acc': test_acc,
        'n_support_vectors': n_sv
    })

# 显示结果
results_df = pd.DataFrame(results)
print("不同核函数的比较:")
print(results_df)

## Part 4: 超参数调优

### 4.1 网格搜索调优

**任务**: 使用 GridSearchCV 找到最佳参数

In [None]:
# ===== 学生代码 =====
# TODO: 定义参数网格
# 提示: 尝试不同的 C 值 [0.1, 1, 10, 100] 和 gamma 值 [0.001, 0.01, 0.1, 1]

param_grid = None  # 替换为你的代码

# TODO: 创建 GridSearchCV 对象
# 提示: 使用 GridSearchCV(estimator, param_grid, cv=5, scoring='accuracy', n_jobs=-1)

grid_search = None  # 替换为你的代码

# TODO: 执行网格搜索

# TODO: 获取最佳参数和最佳分数
best_params = None
best_score = None

print("网格搜索结果:")
print(f"最佳参数: {best_params}")
print(f"最佳交叉验证分数: {best_score:.4f}")

### 4.2 使用最佳模型进行预测

In [None]:
# ===== 学生代码 =====
# TODO: 获取最佳模型
best_model = None  # 替换为你的代码

# TODO: 在测试集上预测
y_pred_best = None

# TODO: 计算测试集准确率
test_acc_best = None

print(f"最佳模型在测试集上的准确率: {test_acc_best:.4f}")
print(f"\n分类报告:")
print(classification_report(y_test, y_pred_best, target_names=target_names))

## Part 5: 模型评估与可视化

### 5.1 混淆矩阵

**任务**: 计算并可视化混淆矩阵

In [None]:
# ===== 学生代码 =====
# TODO: 计算混淆矩阵
cm = None  # 替换为你的代码

print("混淆矩阵:")
print(cm)

# 可视化混淆矩阵
plt.figure(figsize=(8, 6))
# TODO: 使用 seaborn 绘制热力图
# 提示: 使用 sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')

plt.xlabel('预测类别')
plt.ylabel('真实类别')
plt.title('混淆矩阵')
plt.show()

### 5.2 支持向量分析

In [None]:
# ===== 预填充代码 =====
# 分析支持向量的分布
model = best_model

print("支持向量分析:")
print(f"总支持向量数量: {len(model.support_vectors_)}")

# 每个类别的支持向量数量
if hasattr(model, 'n_support_'):
    for i, count in enumerate(model.n_support_):
        print(f"  类别 {i} ({target_names[i]}): {count} 个支持向量")

# 支持向量在训练集中的索引
print(f"\n支持向量索引 (前10个): {model.support_[:10]}")

### 5.3 可视化支持向量和决策边界（2D 投影）

为了可视化，我们选择两个特征进行展示。

In [None]:
# ===== 预填充代码 =====
# 选择两个特征进行可视化（例如: alcohol 和 malic_acid）
feature_idx1 = 0  # alcohol
feature_idx2 = 1  # malic_acid

# 只使用这两个特征训练模型
X_train_2d = X_train[:, [feature_idx1, feature_idx2]]
X_test_2d = X_test[:, [feature_idx1, feature_idx2]]

# 训练 2D 模型
model_2d = svm.SVC(kernel='rbf', C=best_params['C'], 
                   gamma=best_params['gamma'], random_state=42)
model_2d.fit(X_train_2d, y_train)

# 创建网格
x_min, x_max = X_scaled[:, feature_idx1].min() - 1, X_scaled[:, feature_idx1].max() + 1
y_min, y_max = X_scaled[:, feature_idx2].min() - 1, X_scaled[:, feature_idx2].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),
                     np.linspace(y_min, y_max, 200))

# 预测网格
Z = model_2d.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# 绘图
plt.figure(figsize=(12, 5))

# 左图: 训练集
plt.subplot(1, 2, 1)
colors = ['red', 'green', 'blue']
markers = ['o', 's', '^']
for i in range(3):
    plt.scatter(X_train_2d[y_train == i, 0], X_train_2d[y_train == i, 1],
                c=colors[i], marker=markers[i], label=f'类别 {i}', alpha=0.6)

# 绘制支持向量
plt.scatter(model_2d.support_vectors_[:, 0], model_2d.support_vectors_[:, 1],
            s=100, facecolors='none', edgecolors='yellow', linewidths=2,
            label='支持向量')

plt.contourf(xx, yy, Z, alpha=0.2, levels=2)
plt.xlabel(feature_names[feature_idx1])
plt.ylabel(feature_names[feature_idx2])
plt.title('训练集 - 支持向量与决策边界')
plt.legend()

# 右图: 测试集
plt.subplot(1, 2, 2)
for i in range(3):
    plt.scatter(X_test_2d[y_test == i, 0], X_test_2d[y_test == i, 1],
                c=colors[i], marker=markers[i], label=f'类别 {i}', alpha=0.6)

plt.contourf(xx, yy, Z, alpha=0.2, levels=2)
plt.xlabel(feature_names[feature_idx1])
plt.ylabel(feature_names[feature_idx2])
plt.title('测试集 - 决策边界')
plt.legend()

plt.tight_layout()
plt.show()

### 5.4 特征重要性分析

**任务**: 分析哪些特征对分类最重要（通过观察支持向量的特征值）

In [None]:
# ===== 学生代码 =====
# TODO: 获取支持向量的索引
support_indices = None  # 替换为你的代码

# TODO: 获取支持向量的特征值
support_vectors = None  # 替换为你的代码

# TODO: 计算每个特征在支持向量中的方差（方差越大，说明该特征对分类越重要）
feature_importance = np.var(support_vectors, axis=0)

# 创建 DataFrame 显示结果
importance_df = pd.DataFrame({
    'feature': feature_names,
    'importance': feature_importance
}).sort_values('importance', ascending=False)

print("特征重要性（基于支持向量的方差）:")
print(importance_df)

# 可视化
plt.figure(figsize=(10, 6))
plt.barh(importance_df['feature'], importance_df['importance'])
plt.xlabel('重要性 (方差)')
plt.ylabel('特征')
plt.title('特征重要性分析')
plt.tight_layout()
plt.show()

## Part 6: 挑战练习

### 6.1 多项式核 SVM

**任务**: 比较不同 degree 的多项式核的性能

In [None]:
# ===== 学生代码 =====
# TODO: 尝试不同的 degree 值 (2, 3, 4, 5)
# 比较训练集和测试集的准确率

degrees = [2, 3, 4, 5]
poly_results = []

# 你的代码

# 绘制结果
# plt.figure(figsize=(10, 5))
# plt.plot(...)

print("多项式核不同 degree 的比较:")
print("请补充代码完成此任务")

### 6.2 交叉验证

**任务**: 使用 5 折交叉验证评估模型稳定性

In [None]:
# ===== 学生代码 =====
# TODO: 使用 cross_val_score 进行 5 折交叉验证
# 提示: cross_val_score(estimator, X, y, cv=5, scoring='accuracy')

cv_scores = None  # 替换为你的代码

print("5 折交叉验证结果:")
print(f"每折分数: {cv_scores}")
print(f"平均分数: {cv_scores.mean():.4f}")
print(f"标准差: {cv_scores.std():.4f}")

## 总结

恭喜你完成了 SVM 实验！在本实验中，你学习了：

1. ✅ **数据预处理**: 标准化对 SVM 的重要性
2. ✅ **核函数**: 线性核和 RBF 核的实现
3. ✅ **scikit-learn SVM**: 使用 SVC 进行分类
4. ✅ **超参数调优**: 使用 GridSearchCV 优化参数
5. ✅ **模型评估**: 混淆矩阵和准确率
6. ✅ **可视化**: 支持向量和决策边界

### 关键要点

- **核函数选择**: 线性可分数据用线性核，非线性数据用 RBF 核
- **C 参数**: 控制正则化强度，C 值越大越容易过拟合
- **gamma 参数**: 控制 RBF 核的影响范围，gamma 越大决策边界越复杂
- **支持向量**: 决定决策边界的关键数据点
- **数据标准化**: SVM 对特征尺度敏感，必须进行标准化

### 进一步学习

- 尝试其他数据集（如 Breast Cancer、Digits）
- 学习 SVM 的回归模型 (SVR)
- 探索更多核函数（如自定义核函数）