# 使用 `scikit-learn` 构建模型

## 实训3　构建基于 `wine` 数据集的 `SVM` 分类模型

1. 训练要点

    1. 掌握 `sklearn` 估计器的用法。
    2. 掌握分类模型的构建方法。
    3. 掌握分类模型的评价方法。

2. 需求说明

    &emsp;&emsp;`wine` 数据集种的葡萄酒类别为3种，通过 `wine` 数据集划分为训练集和测试集，使用训练集训练 `SVM` 分类模型，并使用训练王城的模型预测测试集的葡萄酒类别归属。

3. 实现思路及步骤

    1. 读取 `wine` 数据集，区分标签和数据。
    2. 将 `wine` 数据集划分为训练集和测试集。
    3. 使用离差标准化方法标准化 `wine` 数据集。
    4. 构建 `SVM` 模型，并预测测试集结果。
    5. 打印出分类报告，评价分类模型性能。

In [1]:
# 读取数据
import pandas
wine = pandas.read_csv('data/wine.csv', sep=',', encoding='gbk')
print('读入的数据集对象为：%s at %s' % (type(wine), hex(id(wine))))

读入的数据集对象为：<class 'pandas.core.frame.DataFrame'> at 0x13592e7fbc8


In [2]:
# 区分标签与数据
data = wine.iloc[:, 1:]
print('数据集规模为：', data.shape)
tags = wine.iloc[:, 0]
print('标签集规模为：', tags.shape)

数据集规模为： (178, 13)
标签集规模为： (178,)


In [3]:
# 划分数据集与测试集
from sklearn.model_selection import train_test_split
(data_train, data_test, tags_train, tags_test) = train_test_split(
    data, tags, test_size=0.2, random_state=0x6A24261B
)
print('训练集数据规模为：', data_train.shape)
print('训练集标签规模为：', tags_train.shape)
print('测试集数据规模为：', data_test.shape)
print('测试集标签规模为：', tags_test.shape)

训练集数据规模为： (142, 13)
训练集标签规模为： (142,)
测试集数据规模为： (36, 13)
测试集标签规模为： (36,)


In [4]:
# 离差标准化
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler().fit(data)
data_train_scaled = scaler.transform(data_train)
data_test_scaled= scaler.transform(data_test)

In [5]:
# 构建SVM模型
from sklearn.svm import SVC
svm = SVC(gamma='scale').fit(data_train_scaled, tags_train)
print('构建的SVM模型为：', svm, sep='\n')

构建的SVM模型为：
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)




In [6]:
# 预测测试集结果
tags_pred = svm.predict(data_test_scaled)
print('前10个预测结果为：', tags_pred[:10], sep='\n')

前10个预测结果为：
[3 1 3 1 1 3 3 2 3 2]


In [7]:
# 打印分类报告
from sklearn.metrics import classification_report
print('数据分类报告为：', classification_report(tags_test, tags_pred), sep='\n')

数据分类报告为：
              precision    recall  f1-score   support

           1       1.00      1.00      1.00        11
           2       1.00      0.94      0.97        16
           3       0.90      1.00      0.95         9

    accuracy                           0.97        36
   macro avg       0.97      0.98      0.97        36
weighted avg       0.98      0.97      0.97        36

