### 数据集的加载

In [1]:
import numpy
import scipy.io as sio  # 从.mat文件中读取数据集
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.svm import SVC  # SVC用于分类，SVR用于回归
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

# German.mat 1000条数据 24个特征 二分类
# 读取.mat文件
mat_data = sio.loadmat('../data/dataset/CNS.mat')
print(mat_data.keys())
# 提取变量
x = mat_data['X']
y = mat_data['Y']
y=y[:,0]
# 显示变量信息
print("x的形状:", x.shape)
print("y的数据类型:", y.shape)

# 统计每个类别的个数，y.max()+1是类别的个数
counts = np.zeros(y.max() + 1)
for i in range(y.shape[0]):
    counts[y[i]] += 1
print("每种类别的数量：", counts)

dict_keys(['__header__', '__version__', '__globals__', 'X', 'Y'])
x的形状: (60, 7129)
y的数据类型: (60,)
每种类别的数量： [39. 21.]


### 数据集划分

In [11]:
num_run=100
results=[]
for j in range(num_run):
    # 数据的划分
    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42+j)
    
    print("训练集：")
    print("实例数据：", X_train.shape, "标签", y_train.shape)
    counts_train = np.zeros(y.max() + 1)
    for i in range(y_train.shape[0]):
        counts_train[y_train[i]] += 1
    print("每种类别的数量：", counts_train)
    print("测试集：")
    print("测试数据：", X_test.shape, "标签", y_test.shape)
    counts_test = np.zeros(y.max() + 1)
    for i in range(y_test.shape[0]):
        counts_test[y_test[i]] += 1
    print("每种类别的数量：", counts_test)
    
    
    # 初始化和训练
    # 初始化 SVM 分类器
    # 通过管道将标准化操作和模型相连接
    clf = make_pipeline(StandardScaler(), SVC(kernel='linear',cache_size=600))  # 'linear' 是线性核，也可以选择 'rbf', 'poly' 等核函数
    # 训练模型
    clf.fit(X_train, y_train)
    
    # 用测试数据集进行预测
    y_pred = clf.predict(X_test)
    
    # 计算准确率
    accuracy = accuracy_score(y_test, y_pred)
    results.append(round(accuracy,3))
    print(f'第{j+1}次运行的Accuracy: {accuracy:.2f}')
    
    # 打印分类报告
    #print("Classification Report:")
    #print(classification_report(y_test, y_pred))
    
    # 打印混淆矩阵
    #print("Confusion Matrix:")
    #print(confusion_matrix(y_test, y_pred))
print("平均准确率：",np.mean(results))

训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [28. 14.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [11.  7.]
第1次运行的Accuracy: 0.67
训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [24. 18.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [15.  3.]
第2次运行的Accuracy: 0.61
训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [27. 15.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [12.  6.]
第3次运行的Accuracy: 0.61
训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [26. 16.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [13.  5.]
第4次运行的Accuracy: 0.61
训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [28. 14.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [11.  7.]
第5次运行的Accuracy: 0.72
训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [27. 15.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [12.  6.]
第6次运行的Accuracy: 0.56
训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [28. 14.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [11.  7.]
第7次运行的Accuracy: 0.67
训练集：
实例数据： (42, 7129) 标签 (42,)
每种类别的数量： [25. 17.]
测试集：
测试数据： (18, 7129) 标签 (18,)
每种类别的数量： [14.  4.]
第8次运行的Accuracy: 0.72
训练集：
实例数据： (42, 7129) 标签 (42,)
每

### 模型训练与评估

In [3]:
# 初始化和训练
# 初始化 SVM 分类器
# 通过管道将标准化操作和模型相连接
clf = make_pipeline(StandardScaler(), SVC(kernel='linear',cache_size=600))  # 'linear' 是线性核，也可以选择 'rbf', 'poly' 等核函数
# 训练模型
clf.fit(X_train, y_train)

# 用测试数据集进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# 打印分类报告
print("Classification Report:")
print(classification_report(y_test, y_pred))

# 打印混淆矩阵
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.84
Classification Report:
              precision    recall  f1-score   support

           0       0.94      0.76      0.84       119
           1       0.75      0.93      0.83        88

    accuracy                           0.84       207
   macro avg       0.84      0.85      0.84       207
weighted avg       0.86      0.84      0.84       207

Confusion Matrix:
[[91 28]
 [ 6 82]]
