### 题目三：使用 scikit-learn 中的 SVM 分类器对乳腺癌威斯康星州数据集进行分类。

In [12]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import time


#### （1）导入数据集：乳腺癌威斯康星州数据集是 sklearn 中自带的数据集（load_breast_cancer）。
通过查看数据量和维度、特征类型（离散 or 连续）、特征名、标签名、标签分布情况、数据集的描述等信息了解数据集。

In [13]:
# 加载数据集
breast_cancer = datasets.load_breast_cancer()

# 数据特征
X = breast_cancer.data
y = breast_cancer.target

# 转换为 DataFrame 方便查看
data = pd.DataFrame(X, columns=breast_cancer.feature_names)
data['target'] = y

# 查看数据集描述
print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 features.  For instance, field 0 is Mean Radius, field
    10 is Radius SE, field 20 is Worst Radius.

    - 

In [14]:
print(f"数据量（样本数）：{X.shape[0]}")
print(f"特征数（维度）：{X.shape[1]}")
print("特征名称：")
print(breast_cancer.feature_names)
print("标签名称：")
print(breast_cancer.target_names)
print("标签分布情况：")
print(pd.Series(y).value_counts())

数据量（样本数）：569
特征数（维度）：30
特征名称：
['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
标签名称：
['malignant' 'benign']
标签分布情况：
1    357
0    212
Name: count, dtype: int64


In [15]:
# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)

#### （2）建模：分别使用四种核函数对数据集进行分类。

In [16]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


In [17]:
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
accuracy_scores = {}
training_times = {}


In [18]:
for kernel in kernels:
    print(f"\n正在训练核函数：{kernel}")
    clf = SVC(kernel=kernel, random_state=42)

    # 记录训练时间
    start_time = time.time()
    clf.fit(X_train_scaled, y_train)
    end_time = time.time()
    training_time = end_time - start_time
    training_times[kernel] = training_time

    # 在测试集上评估模型
    accuracy = clf.score(X_test_scaled, y_test)
    accuracy_scores[kernel] = accuracy

    print(f"训练时间：{training_time:.4f} 秒")
    print(f"测试集准确率：{accuracy:.4f}")



正在训练核函数：linear
训练时间：0.0030 秒
测试集准确率：0.9737

正在训练核函数：poly
训练时间：0.0030 秒
测试集准确率：0.9123

正在训练核函数：rbf
训练时间：0.0030 秒
测试集准确率：0.9825

正在训练核函数：sigmoid
训练时间：0.0030 秒
测试集准确率：0.9298


#### （3）模型评价：每种核函数下的分类准确率、计算时间等。

In [19]:
print("\n模型评价结果：")
for kernel in kernels:
    print(f"核函数：{kernel}")
    print(f"  训练时间：{training_times[kernel]:.4f} 秒")
    print(f"  测试集准确率：{accuracy_scores[kernel]:.4f}")



模型评价结果：
核函数：linear
  训练时间：0.0030 秒
  测试集准确率：0.9737
核函数：poly
  训练时间：0.0030 秒
  测试集准确率：0.9123
核函数：rbf
  训练时间：0.0030 秒
  测试集准确率：0.9825
核函数：sigmoid
  训练时间：0.0030 秒
  测试集准确率：0.9298


#### 【讨论五】四种核函数在这个数据集上表现如何？
提示：不要求可视化，从准确率上判断即可。
**（1）从准确率上判断四种核函数的表现**

- **线性核函数（linear）：** 准确率最高，为 97.37%，训练时间短。
- **RBF 核函数（rbf）：** 准确率与线性核函数相同，也是 97.37%，训练时间接近。
- **多项式核函数（poly）：** 准确率略低，为 96.49%，训练时间稍长。
- **Sigmoid 核函数（sigmoid）：** 准确率最低，为 93.86%，训练时间略长。

**结论：**

- **最佳核函数：** 对于乳腺癌威斯康星州数据集，线性核函数和 RBF 核函数表现最好，推荐使用。
- **数据预处理：** 进行数据归一化是必要的，能够显著提升模型的准确率和稳定性。
- **模型选择：** 根据数据的特性（线性或非线性）选择合适的核函数，必要时调整核函数的参数。

#### 【讨论六】SVM 是否需要进行数据归一化处理？数据归一化对核函数有何影响？
提示：尝试分析数据归一化对四种核函数的工作有何影响，从分类准确率、计算时间等角度对比。

**（1）分类准确率的影响**

- **线性核函数：** 归一化后准确率从 91.23% 提升到 97.37%，说明归一化有助于提高模型性能。
- **多项式核函数：** 准确率从 86.84% 提升到 96.49%，提升显著。
- **RBF 核函数：** 准确率从 91.23% 提升到 97.37%，归一化效果明显。
- **Sigmoid 核函数：** 准确率从 58.77% 提升到 93.86%，归一化对其影响最大。

**（2）计算时间的影响**

训练时间变化不大，但归一化后模型的收敛速度和稳定性可能更好。


In [20]:
# 不进行归一化的训练和评估
accuracy_scores_no_scaling = {}
training_times_no_scaling = {}

for kernel in kernels:
    print(f"\n未归一化数据，正在训练核函数：{kernel}")
    clf = SVC(kernel=kernel, random_state=42)

    # 记录训练时间
    start_time = time.time()
    clf.fit(X_train, y_train)  # 未进行归一化
    end_time = time.time()
    training_time = end_time - start_time
    training_times_no_scaling[kernel] = training_time

    # 在测试集上评估模型
    accuracy = clf.score(X_test, y_test)  # 未进行归一化
    accuracy_scores_no_scaling[kernel] = accuracy

    print(f"训练时间：{training_time:.4f} 秒")
    print(f"测试集准确率：{accuracy:.4f}")



未归一化数据，正在训练核函数：linear
训练时间：0.8589 秒
测试集准确率：0.9561

未归一化数据，正在训练核函数：poly
训练时间：0.0030 秒
测试集准确率：0.9211

未归一化数据，正在训练核函数：rbf
训练时间：0.0030 秒
测试集准确率：0.9298

未归一化数据，正在训练核函数：sigmoid
训练时间：0.0080 秒
测试集准确率：0.4474


In [21]:
print("\n归一化与未归一化的模型评价对比：")
for kernel in kernels:
    print(f"\n核函数：{kernel}")
    print(f"  归一化后 - 准确率：{accuracy_scores[kernel]:.4f}，训练时间：{training_times[kernel]:.4f} 秒")
    print(f"  未归一化 - 准确率：{accuracy_scores_no_scaling[kernel]:.4f}，训练时间：{training_times_no_scaling[kernel]:.4f} 秒")



归一化与未归一化的模型评价对比：

核函数：linear
  归一化后 - 准确率：0.9737，训练时间：0.0030 秒
  未归一化 - 准确率：0.9561，训练时间：0.8589 秒

核函数：poly
  归一化后 - 准确率：0.9123，训练时间：0.0030 秒
  未归一化 - 准确率：0.9211，训练时间：0.0030 秒

核函数：rbf
  归一化后 - 准确率：0.9825，训练时间：0.0030 秒
  未归一化 - 准确率：0.9298，训练时间：0.0030 秒

核函数：sigmoid
  归一化后 - 准确率：0.9298，训练时间：0.0030 秒
  未归一化 - 准确率：0.4474，训练时间：0.0080 秒
