# 分类模型的评估

### 1.导入乳腺癌肿瘤数据集并切割数据

In [None]:
# 去除warning警报
import warnings 
warnings.filterwarnings("ignore")

# 导入numpy

import numpy as np
# 导入数据集

from sklearn.datasets import load_breast_cancer
# 导入数据集切割方法

from sklearn.model_selection import train_test_split
# 加载数据
bc = load_breast_cancer()

# 获取数据特征矩阵和响应变量

X = bc.data
y = bc.target
# 查看数据集特征和响应变量形状

print("特征矩阵的形状为：",X.shape)
print("响应变量的形状为：",y.shape)

# 查看响应变量类别数

print("响应变量类别为：",np.unique(y))
# 切割数据集为测试集和训练集(8:2)

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8)
# 查看训练集和测试集特征和响应变量形状

print("训练集特征矩阵的形状为：",X_train.shape)
print("训练集响应变量的形状为：",y_train.shape)
print("测试集特征矩阵的形状为：",X_test.shape)
print("测试集响应变量的形状为：",y_test.shape)

### 2.建立支持向量机分类模型

In [None]:
# 导入SVM模型(在svm子库下)
from sklearn.svm import SVC
# 创建支持向量机模型svm
svc = SVC(C=10)
# 使用训练集数据拟合模型
svc.fit(X_train, y_train)
# 使用模型预测测试集和训练集数据
yhat1 = svc.predict(X_train)
yhat2 = svc.predict(X_test)
# 导入混淆矩阵
from sklearn.metrics import confusion_matrix
# 查看训练集的混淆矩阵
cm1 = confusion_matrix(y_train, yhat1)
print("训练集数据的混淆矩阵为：\n", cm1)
# 查看测试集的混淆矩阵
cm2 = confusion_matrix(y_test, yhat2)
print("测试集数据的混淆矩阵为：\n", cm2)

# 导入准确率
from sklearn.metrics import accuracy_score

# 查看训练集准确率
acc1 = accuracy_score(y_train, yhat1)
print("训练集的准确率为：", acc1)

# 查看测试集准确率
acc2 = accuracy_score(y_test, yhat2)
print("测试集的准确率为：", acc2)


#### 3.3查看精确度

In [None]:
# 导入精确度
from sklearn.metrics import precision_score

# 查看训练集精确率
precision1 = precision_score(y_train, yhat1)
print("训练集的精确率为：", precision1)

# 查看测试集精确率
precision2 = precision_score(y_test, yhat2)
print("测试集的精确率为：", precision2)

# 导入召回率
from sklearn.metrics import recall_score

# 查看训练集召回率
recall1 = recall_score(y_train, yhat1)
print("训练集的召回率为：", recall1)

# 查看测试集召回率
recall2 = recall_score(y_test, yhat2)
print("测试集的召回率为：", recall2)

# 导入F1 score
from sklearn.metrics import f1_score

# 查看训练集F1值
f1_train = f1_score(y_train, yhat1)
print("训练集的F1值为:", f1_train)

# 查看测试集F1值
f1_test = f1_score(y_test, yhat2)
print("测试集的F1值为:", f1_test)


#### 3.6查看ROC曲线和AUC面积

In [None]:
# 导入ROC曲线和AUC面积方法
from sklearn.metrics import roc_curve, auc
# 导入绘图工具
from matplotlib import pyplot as plt

# 查看训练集ROC曲线
fpr1, tpr1, _ = roc_curve(y_train, yhat1)
# 绘制训练集ROC曲线
plt.plot(fpr1, tpr1)
# 查看训练集AUC面积
auc1 = auc(fpr1, tpr1)
print("训练集AUC面积为:", auc1)

# 查看测试集ROC曲线
fpr2, tpr2, _ = roc_curve(y_test, yhat2)
# 绘制测试集ROC曲线
plt.plot(fpr2, tpr2)
# 查看测试集AUC面积
auc2 = auc(fpr2, tpr2)
print("测试集AUC面积为:", auc2)

# 显示ROC曲线
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend(['Train', 'Test'])
plt.show()
