## 问答题
1. 支持向量机的基本思想是什么？
    · 通过找到能最大化两类样本间隔的决策边界(超平面)，实现对中小型数据集的线性或非线性分类、回归及异常检测。

2. 什么是支持向量？
    · 位于间隔边界上的、直接影响间隔位置和宽度的训练样本。

3. 在使用 SVM 时，缩放输入值为什么很重要？
    · 因为SVM对特征尺度敏感，不同尺度会导致模型偏向某个特征，从而使间隔倾斜或极端狭窄，影响分类效果。

4. SVM 分类器在对实例进行分类时能输出置信度分数吗？概率呢？
    · 可以输出置信度分数(即到决策边界的距离)，但不直接输出概率；若需要概率，可在SVC中启用probability=True, 使用 Platt 缩放估算。

5. 你如何在 LinearSVC、SVC 和 SGDClassifier 之间进行选择？
    · LinearSVC：适合中小型、线性可分的数据集，速度快，但不支持核方法。
    · SVC：支持核方法，适合中小型且非线性数据集。
    · SGDClassifier：适合超大规模数据集，可用随机梯度下降近似线性 SVM。

6. 假设你已经使用 RBF 核训练了一个 SVM 分类器，但它似乎欠拟合训练集。
   你应该增大还是减小 γ（gamma）？C 呢？
   · 增大gamma会让模型拟合更细致(边界更复杂)；增大 C 会减少正则化，允许模型拟合更多样本。两者都增大有助于缓解欠拟合。

7. ε 不敏感模型是什么意思？
    · 在SVM回归(SVR)中，若预测值与真实值的差异小于ε，则视为无误差，不影响模型优化，这称为 ε 不敏感。

8. 使用核技巧有什么意义？
    · 核技巧可在低维空间中高效计算高维特征的内积，获得非线性分割能力，同时避免显式生成高维特征，减少计算成本和内存消耗。

## 编程题
1. 在葡萄酒数据集上训练SVM分类器，可以使用sklearn.datasets.load_wine()加载它。该数据集包含3个不同种植者生产的178个葡萄酒样本的化学分析：目标是训练一个分类模型，该模型能够根据葡萄酒的化学分析预测种植者。由于SVM分类器是二元分类器，将需要使用“一对全部”对所有三个类进行分类。能达到的精度是多少？

   "一对全部"可以复习 **8_sklearn做分类.ipynb**里的笔记，里面提到了用二元分类器做多分类问题

---

2. 提前预习 **10_支持向量机.ipynb** 最新更新的笔记 （把SVM分类用梯度下降实现）； 大概理解笔记后，尝试自己对照笔记 实现用梯度下降实现SVM分类

   并把自定义的SVM分类用于 iris data(鸢尾花数据)； 取花瓣长度 和 花瓣宽度特征， 分类 看是不是 分类2的花 （(iris.target == 2)

   对比下sklearn自带的SVM分类 和 自定义SVM分类 实现的分类效果



In [1]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# 加载数据
wine = load_wine()
X = wine.data
y = wine.target

# 分层采样
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 特征缩放
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


In [3]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

svc = SVC(kernel='rbf')

param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [0.01, 0.1, 1, 10]
}

# 交叉验证
grid_search = GridSearchCV(svc, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train_scaled, y_train)

print("最佳参数:", grid_search.best_params_)
print("交叉验证最佳精度:", grid_search.best_score_)

best_svc = grid_search.best_estimator_
test_acc = best_svc.score(X_test_scaled, y_test)
print("测试集精度:", test_acc)

最佳参数: {'C': 1, 'gamma': 0.1}
交叉验证最佳精度: 0.9862068965517242
测试集精度: 0.9722222222222222
