In [11]:
from sklearn import datasets,svm
from sklearn.metrics import accuracy_score, precision_score,recall_score,f1_score
from sklearn.metrics import mean_squared_error, r2_score


In [7]:
### 1.3.1 svm分类

# 加载digits手写数字数据集
X_digits, y_digits = datasets.load_digits(return_X_y=True)
#X_digits = X_digits / X_digits.max()

n_samples = len(X_digits)

#训练集和测试集划分
X_train = X_digits[: int(0.9 * n_samples)]  #取前90%的数据作为训练集，其余作为测试集
y_train = y_digits[: int(0.9 * n_samples)]
X_test = X_digits[int(0.9 * n_samples) :]
y_test = y_digits[int(0.9 * n_samples) :]

#创建模型，svm.SVC 是用于支持向量分类（SVC）的类
clf = svm.SVC(decision_function_shape='ovo')  ##可通过kernel参数设置核函数，例如'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'
                                       ##vO（One-vs-One）和OvR（One-vs-Rest）是处理多类别分类问题

#模型训练
clf.fit(X_train, y_train)
dec = clf.decision_function(X_train) #decision_values 将返回一个数组，其中包含每个样本点到分隔超平面的有符号距离。
                                     #从而可以根据这些距离来进行分类或者其他后续处理。
dec.shape 


(1617, 45)

In [9]:

#模型预测
y_pred = clf.predict(X_test)

##评价指标
# accuracy
print("accuracy_score: \n", accuracy_score(y_test,y_pred)) #不平衡类别分布的情况下可能会失效

# precision指标
print("precision_score: %.2f" % precision_score(y_test,y_pred,average='macro')) #多分类，需要加average参数

# recall_score指标
print("recall_score: %.2f" % recall_score(y_test,y_pred,average='macro'))

#f1指标
print("f1_score: %.2f" % f1_score(y_test,y_pred,average='macro'))


accuracy_score: 
 0.95
precision_score: 0.96
recall_score: 0.95
f1_score: 0.95


In [12]:
### 1.3.2 svm回归

# 加载diabetes数据集
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# 特征数据划分训练集和测试集
diabetes_X_train = diabetes_X[:-20] #后20个样本作为测试集，其余作为训练集
diabetes_X_test = diabetes_X[-20:]

# 标签（类别）数据划分训练集和测试集
diabetes_y_train = diabetes_y[:-20] #后20个样本作为测试集，其余作为训练集
diabetes_y_test = diabetes_y[-20:]

#创建模型，svm.SVR 是用于支持向量回归（SVR）的类
clf = svm.SVR() #可通过kernel参数设置核函数，例如'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'

#模型训练
clf.fit(diabetes_X_train, diabetes_y_train)                             

#模型预测
y_pred = clf.predict(diabetes_X_test)      

# 模型评估MSE指标
print("Mean squared error: %.2f" % mean_squared_error(diabetes_y_test, y_pred))

# 模型评估R2指标
print("Coefficient of determination: %.2f" % r2_score(diabetes_y_test, y_pred))


Mean squared error: 3767.77
Coefficient of determination: 0.22
