# SVM实战：乳腺癌数据集分类

## 1、数据加载与初步探索

In [7]:
import pandas as pd

# 加载数据
data = pd.read_csv('./data/data.csv')
print("数据集前5行：")
print(data.head())

# %%
# 查看数据基本信息和类别分布
print("\n类别分布：")
print(data['diagnosis_result'].value_counts())

数据集前5行：
   id diagnosis_result  radius  texture  perimeter  area  smoothness  \
0   1                M      23       12        151   954       0.143   
1   2                B       9       13        133  1326       0.143   
2   3                M      21       27        130  1203       0.125   
3   4                M      14       16         78   386       0.070   
4   5                M       9       19        135  1297       0.141   

   compactness  symmetry  fractal_dimension  
0        0.278     0.242              0.079  
1        0.079     0.181              0.057  
2        0.160     0.207              0.060  
3        0.284     0.260              0.097  
4        0.133     0.181              0.059  

类别分布：
diagnosis_result
M    62
B    38
Name: count, dtype: int64


## 2、数据预处理

In [2]:
# ## 2. 数据预处理
# - 只保留特征和标签
# - 标签编码（M=1, B=0）
# - 划分训练集和测试集
# - 特征标准化
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 取特征和标签
X = data.iloc[:, 2:].values
y = np.where(data['diagnosis_result'] == 'M', 1, 0)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)
print(f"训练集样本数: {len(y_train)}, 测试集样本数: {len(y_test)}")

# 特征标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

训练集样本数: 80, 测试集样本数: 20


## 3、SVM模型训练与预测（线性核）

In [3]:
from sklearn.svm import SVC

# 创建并训练SVM分类器（线性核）
svm_clf = SVC(kernel='linear', C=1.0, random_state=42)
svm_clf.fit(X_train, y_train)
print("SVM模型已训练完成（线性核）")

# 预测
y_pred = svm_clf.predict(X_test)
print("前10个预测结果：", y_pred[:10])
print("前10个真实标签：", y_test[:10])

SVM模型已训练完成（线性核）
前10个预测结果： [0 1 1 0 0 1 0 1 0 0]
前10个真实标签： [1 1 1 1 0 0 0 1 0 0]


## 4、模型评估

In [6]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 准确率
acc = accuracy_score(y_test, y_pred)
print(f"测试集准确率：{acc:.4f}")

# 分类报告
print("分类报告：")
print(classification_report(y_test, y_pred, target_names=['良性(B)', '恶性(M)']))



测试集准确率：0.8000
分类报告：
              precision    recall  f1-score   support

       良性(B)       0.75      0.75      0.75         8
       恶性(M)       0.83      0.83      0.83        12

    accuracy                           0.80        20
   macro avg       0.79      0.79      0.79        20
weighted avg       0.80      0.80      0.80        20

