# 监督学习专题 —— 分类

## 监督学习简介

监督学习的目标与特点：

利用一组带有标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或回归的目的。

**分类：当输出是离散的，学习任务为分类任务。**

**回归：当输出是连续的，学习任务为回归任务。**

### In/Output

输入：一组有标签的训练数据(也称观察和评估)，标签表明了这些数
据（观察）的所署类别。

输出：分类模型根据这些训练数据，训练自己的模型参数，
学习出一个适合这组数据的分类器，
当有新数据（非训练数据）需要进行类别判断，
就可以将这组新数据作为输入送给学好的分类器进行判断。

### 评价

训练集和测试集的设定

训练集(training set):顾名思义用来训练模型的已标注数据，
用来建立模型，发现规律。

测试集(testing set):也是已标注数据，通常做法是将标注隐藏，
输送给训练好的模型，通过结果与真实标注进行对比，评估模型的学习能力。

训练集/测试集的划分方法：根据已有标注数据，随机选出一部分数据（70%）数据作为训练数据，余下的作为测试数据，

此外还有交叉验证法，自助法用来评估分类模型。

#### 评价标准

**精确率：**

精确率是针对我们预测结果而言的，
（以二分类为例）它表示的是预测为正的样本中有多少是真正的正样本。
那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，
另一种就是把负类预测为正类(FP)，
也就是
![](Pic/accurency.JPG)

**召回率：**

是针对我们原来的样本而言的，
它表示的是样本中的正例有多少被预测正确了。
那也有两种可能，一种是把原来的正类预测成正类(TP)，
另一种就是把原来的正类预测为负类(FN)，也就是
![](Pic/back.JPG)

假设我们手上有60个正样本，40个负样本，
我们要找出所有的正样本，
分类算法查找出50个，
其中只有40个是真正的正样本，

TP: 将正类预测为正类数 40；

FN: 将正类预测为负类数 20；

FP: 将负类预测为正类数 10；

TN: 将负类预测为负类数 30

准确率（accuracy）=预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%

### sklearn 中的分类

与聚类算法被统一封装在sklearn.cluster模块不同，

sklearn库中的分类算法并未被统一封装在一个子模块中，

因此对分类算法的import方式各有不同。

Sklearn提供的分类函数包括：

    • k近邻（knn）
    • 朴素贝叶斯（naivebayes），
    • 支持向量机（svm），
    • 决策树 （decision tree）
    • 神经网络模型（Neural networks）等
    • 这其中有线性分类器，也有非线性分类器。

大致的图像（线性和非线性）的对比

![](Pic/classDif.JPG)

#### 分类算法应用

金融：贷款是否批准进行评估

 医疗诊断：判断一个肿瘤是恶性还是良性

 欺诈检测：判断一笔银行的交易是否涉嫌欺诈

 网页分类：判断网页的所属类别，财经或者是娱乐

## 实验数据

### Heart Attack Analysis & Prediction Dataset

A dataset for heart attack classification

心脏病发作分析和预测数据集

#### 数据集介绍

数据来源： kaggle

url: [https://www.kaggle.com/rashikrahmanpritom/heart-attack-analysis-prediction-dataset](https://www.kaggle.com/rashikrahmanpritom/heart-attack-analysis-prediction-dataset)

数据条目：302条

年龄：病人的年龄    Age : Age of the patient

性别：患者的性别    Sex : Sex of the patient

exang：运动引起的心绞痛（1=是；0=否）    exang: exercise induced angina (1 = yes; 0 = no)

ca：主要血管数量（0-3） ca: number of major vessels (0-3)

cp：胸痛型胸痛型 cp : Chest Pain type chest pain type

Value 1：典型的心绞痛   Value 1: typical angina

Value 2：非典型心绞痛   Value 2: atypical angina

Value 3：非心绞痛      Value 3: non-anginal pain

Value 4：无症状    Value 4: asymptomatic

trtbps：静息血压（以mm Hg为单位）    trtbps : resting blood pressure (in mm Hg)

chol：通过BMI传感器获取的mg/dl胆固醇  chol : cholestoral in mg/dl fetched via BMI sensor

fbs：（空腹血糖>120 mg/dl）（1=真；0=假） fbs : (fasting blood sugar > 120 mg/dl) (1 = true; 0 = false)

rest_ecg：静息心电图结果
rest_ecg : resting electrocardiographic results

值0：正常    Value 0: normal

值1:ST-T波异常（T波倒置和/或ST抬高或降低>0.05 mV）    Value 1: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV)

值2：根据Estes的标准显示可能或确定的左心室肥大    Value 2: showing probable or definite left ventricular hypertrophy by Estes' criteria

thalach：达到最大心率    thalach : maximum heart rate achieved

目标：0=心脏病发作的机会减少1=心脏病发作的机会增加

Slp:坡度

target :(output 维度)

0= less chance of heart attack

1= more chance of heart attack

##### 实验预达到目的

需求：假设现在出现了一个新用户，但我们只有传感器采集的数据，如何预测他心脏病发作可能性机会增加还是减少呢？

在明确这是一个分类问题的情况下，
我们可以选定某种分类模型（或者说是算法），通过使用训练数据进行模型学习，然后对每个测试样本给出对应的分类结果。

机器学习的分类算法众多，

在接下来的学习中我们将会详细介绍经典的分类算法，

如K近邻、决策树和朴素贝叶斯的原理和实现，在此之前，我们先尝试对数据进行预处理

### 实验基本流程

需要从特征文件和标签文件中将所有数据加载到内存
中，如果存在缺失值，此步骤还需要进行简单的数据预处理。

 创建对应的分类器，并使用训练数据进行训练。

 利用测试集预测，通过使用真实值和预测值的比对，计算模型整体的准确率和召回率，来评测模型。

In [319]:
import pandas as pd
dataSet = pd.read_csv('heart.csv')
dataSet.head(10)


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
5,57,1,0,140,192,0,1,148,0,0.4,1,0,1,1
6,56,0,1,140,294,0,0,153,0,1.3,1,0,2,1
7,44,1,1,120,263,0,1,173,0,0.0,2,0,3,1
8,52,1,2,172,199,1,1,162,0,0.5,2,0,3,1
9,57,1,2,150,168,0,1,174,0,1.6,2,0,2,1


In [320]:
# 缺失值判断
dataSet.isnull().any()

age         False
sex         False
cp          False
trtbps      False
chol        False
fbs         False
restecg     False
thalachh    False
exng        False
oldpeak     False
slp         False
caa         False
thall       False
output      False
dtype: bool

In [321]:
for i in dataSet.columns:
    print(i)
    print(dataSet[i].to_frame().describe())

age
              age
count  303.000000
mean    54.366337
std      9.082101
min     29.000000
25%     47.500000
50%     55.000000
75%     61.000000
max     77.000000
sex
              sex
count  303.000000
mean     0.683168
std      0.466011
min      0.000000
25%      0.000000
50%      1.000000
75%      1.000000
max      1.000000
cp
               cp
count  303.000000
mean     0.966997
std      1.032052
min      0.000000
25%      0.000000
50%      1.000000
75%      2.000000
max      3.000000
trtbps
           trtbps
count  303.000000
mean   131.623762
std     17.538143
min     94.000000
25%    120.000000
50%    130.000000
75%    140.000000
max    200.000000
chol
             chol
count  303.000000
mean   246.264026
std     51.830751
min    126.000000
25%    211.000000
50%    240.000000
75%    274.500000
max    564.000000
fbs
              fbs
count  303.000000
mean     0.148515
std      0.356198
min      0.000000
25%      0.000000
50%      0.000000
75%      0.000000
max      1.000000
r

注意，做测试的情况要处理顺序问题，即，要打乱顺序.原始数据在target的结果集上是有顺序的，先1后0，需要打乱

In [322]:
from sklearn.utils import shuffle
dataSet = shuffle(dataSet)
dataSet



Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
187,54,1,0,124,266,0,0,109,1,2.2,1,1,3,0
89,58,0,0,100,248,0,0,122,0,1.0,1,0,2,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
190,51,0,0,130,305,0,1,142,1,1.2,1,0,3,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
267,49,1,2,118,149,0,0,126,0,0.8,2,3,2,0
103,42,1,2,120,240,1,1,194,0,0.8,0,0,3,1
24,40,1,3,140,199,0,1,178,1,1.4,2,0,3,1
164,38,1,2,138,175,0,1,173,0,0.0,2,4,2,1


数据总体完善，无异常值，可以进行直接选择处理,先分割成训练集和测试集,总共300多条数据，我们选择260条作为训练集，最后40条作为测试集

In [323]:
dataSet_train = dataSet[:260]
dataSet_test =  dataSet[260:]

# 训练集
y_data_train = dataSet_train['output']
# print(y_data)
x_data_train = dataSet_train.iloc[:,:-1]

# 测试集
y_data_test = dataSet_test['output']

x_data_test = dataSet_test.iloc[:,:-1]

## 1 KNN

KNN：通过计算待分类数据点，与已有数据集中的所有数据点的距离。

取距离最小的前K个点，根据“少数服从多数“的原则，将这个数据点划分为出现次数最多的那个类别。

### sklearn 的 KNN

**sklearn中的K近邻分类器**

在sklearn库中，可以使用sklearn.neighbors.KNeighborsClassifier

创建一个K近邻分类器，主要参数有：

    • n_neighbors：用于指定分类器中K的大小(默认值为5，注意与kmeans的区别)

    • weights：设置选中的K个点对分类结果影响的权重（默认值为平均权重“uniform”，可以选择“distance”代表越近的点权重越高，或者传入自己编写的以距离为参数的权重计算函数）

    • algorithm：设置用于计算临近点的方法，因为当数据量很大的情况下计算当前点和所有点的距离再选出最近的k各点，这个计算量是很费时的，所以（选项中有ball_tree、kd_tree和brute，分别代表不同的寻找邻居的优化算法，默认值为auto，根据训练数据自动选择）

#### K近邻分类器的使用

例子：
I 创建一组数据 X 和它对应的标签 y：

x = [[0], [1], [2], [3]]

y = [0, 0, 1, 1]

II 使用 import 语句导入 K 近邻分类器

III 参数 n_neighbors 设置为 3，即使用最近的3个邻居作为分类的依据，其他参
数保持默认值，并将创建好的实例赋给变量 neigh。

neigh = KNeighborsClassifier(n_neighbors=3)

IV 调用 fit() 函数，将训练数据 X 和 标签 y 送入分类器进行学习。

neigh.fit(X, y)

V 调用 predict() 函数，对未知分类样本 [1.1] 分类，可以直接并将需要分类
的数据构造为数组形式作为参数传入，得到分类标签作为返回值。

**print(neigh.predict([[1.1]]))**

样例输出值是 0，表示K近邻分类器通过计算样本 [1.1] 与训练数据的距离，
取 0,1,2 这 3 个邻居作为依据，根据“投票法”最终将样本分为类别 0。

#### KNN 选择经验

在实际使用时，我们可以使用所有训练数据构成特征 X 和标签 y，
使用fit() 函数进行训练。在正式分类时，
通过一次性构造测试集或者一个一个输入样本的方式，得到样本对应的分类结果。

有关K的取值：

    • 如果较大，相当于使用较大邻域中的训练实例进行预测，可以减小估计误差，但是距离较远的样本也会对预测起作用，导致预测错误。
    • 相反地，如果 K 较小，相当于使用较小的邻域进行预测，如果邻居恰好是噪声点，会导致过拟合。
    • 一般情况下，K 会倾向选取较小的值，并使用交叉验证法选取最优 K 值
下面我们进行实战操作

In [324]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report # 结果预测评估模块

knn = KNeighborsClassifier()

knn = knn.fit(x_data_train, y_data_train)

answer_knn = knn.predict(x_data_test)
print("Prediction All Done!")

print('\n\nThe classification report for knn:')
print(classification_report(y_data_test, answer_knn))

Prediction All Done!


The classification report for knn:
              precision    recall  f1-score   support

           0       0.50      0.53      0.51        17
           1       0.68      0.65      0.67        26

    accuracy                           0.60        43
   macro avg       0.59      0.59      0.59        43
weighted avg       0.61      0.60      0.61        43



我们现在再来尝试一下标准化参考看一下效果.

标准化的目的与归一化一样，都是为了避免某个特征的重要程度过大或过小。

标准化的优点：受异常点的影响较小。 适用于繁杂大数据。

这里用到了
**from sklearn.preprocessing import StandardScaler**方法实现

In [325]:
# 数据标准化
from sklearn.preprocessing import StandardScaler#用于对数据进行标准化操作
dataSet_xtrain_std = StandardScaler().fit_transform(x_data_train)
dataSet_xtest_std = StandardScaler().fit_transform(x_data_test)

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report # 结果预测评估模块

knn = KNeighborsClassifier()

knn = knn.fit(dataSet_xtrain_std, y_data_train)

answer_knn = knn.predict(dataSet_xtest_std)
print("Prediction All Done!")

print('\n\nThe classification report for knn:')
print(classification_report(y_data_test, answer_knn))

Prediction All Done!


The classification report for knn:
              precision    recall  f1-score   support

           0       0.73      0.65      0.69        17
           1       0.79      0.85      0.81        26

    accuracy                           0.77        43
   macro avg       0.76      0.75      0.75        43
weighted avg       0.77      0.77      0.76        43



很明显，得到的测试集成功率比之前的更高了，当然每次训练得到的数据结果不尽相同，

这是因为：

初试位置选择不同算法收敛到不同结果。

我们尝试使用knn参数 n_neighbors，即用于指定分类器中K的大小调整再查看结果

In [326]:
knn = KNeighborsClassifier(6)

knn = knn.fit(dataSet_xtrain_std, y_data_train)

answer_knn = knn.predict(dataSet_xtest_std)
print("Prediction All Done!")

print('\n\nThe classification report for knn:')
print(classification_report(y_data_test, answer_knn))


Prediction All Done!


The classification report for knn:
              precision    recall  f1-score   support

           0       0.68      0.76      0.72        17
           1       0.83      0.77      0.80        26

    accuracy                           0.77        43
   macro avg       0.76      0.77      0.76        43
weighted avg       0.77      0.77      0.77        43



### KNN 优缺点：

优点：

    ① 简单，易于理解，易于实现，无需参数估计，无需训练;
    ② 对异常值不敏感（个别噪音数据对结果的影响不是很大）;
    ③ 适合对稀有事件进行分类;
    ④ 适合于多分类问题(multi-modal,对象具有多个类别标签)，KNN要比SVM表现要好;

缺点：

    ① 对测试样本分类时的计算量大，内存开销大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本; 
    ② 可解释性差，无法告诉你哪个变量更重要，无法给出决策树那样的规则；
    ③ K值的选择：最大的缺点是当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进; 
    ④ KNN是一种消极学习方法、懒惰算法。

## 2 决策树

决策树是一种树形结构的分类器，
通过顺序询问分类点的属性决定分类点最终的类别。

通常根据特征的信息增益或其他指标，构建一颗决策树。

在分类时，只需要按照决策树中的结点依次进行判断，即可得到样本所属类别。

例如，根据下图这个构造好的分类决策树，
一个无房产，单身，年收入55K的人的会被归入无法偿还信用卡这个类别。

![](Pic/Dis.JPG)

### sklearn 中的决策树

在sklearn库中，可以使用**sklearn.tree.DecisionTreeClassifier**创建一个决策树用于分类，其主要参数有：

    criterion ：用于选择属性的准则，可以传入“gini”代表基尼系数，或者“entropy”代表信息增益。
    max_features ：表示在决策树结点进行分裂时，从多少个特征中选择最优特征。可以设定固定数目、百分比或其他标准。它的默认值是使用所有特征个数。

下面使用简单示例（鸢尾花数据）展现相关决策树的分类状态，并尝试交叉验证技术

In [327]:
from sklearn.datasets import load_iris # 鸢尾花数据集
from sklearn.tree import DecisionTreeClassifier # 决策树分类器
from sklearn.model_selection import cross_val_score # 交叉验证数据集的技术

下面进行决策树的使用.

这里我们将决策树分类器做为待评估的模型，
iris.data鸢尾花数据做为特征，

iris.target鸢尾花分类标签做为目标结果，通过设定cv为10，使用10折交叉验证。得到最终的交叉验证得分。

In [328]:
clf = DecisionTreeClassifier()
irs = load_iris()
k = cross_val_score(clf, irs.data, irs.target, cv=10)
# clf.fit()
k

array([1.        , 0.93333333, 1.        , 0.93333333, 0.93333333,
       0.86666667, 0.93333333, 1.        , 1.        , 1.        ])

以仿照之前 K近邻分类器的使用方法，利用 fit() 函数训练模型并使用predict() 函数预测：

决策树本质上是寻找一种对特征空间上的划分，旨在构建一个训练数据拟合的好，并且复杂度小的决策树。

• 在实际使用中，需要根据数据情况，调整DecisionTreeClassifier类中传入的参数，比如选择合适的criterion，设置随机变量等。

下面我们尝试对上述的心脏病数据进行决策树分类挖掘，同上，我们对标准化和非标准化进行分开分析

In [329]:
# 非标准化
from sklearn.tree import DecisionTreeClassifier # 决策树分类器
dtree = DecisionTreeClassifier()

dtree = dtree.fit(x_data_train, y_data_train)

answer_dtree = dtree.predict(x_data_test)
print("Prediction All Done!")

print('\n\nThe classification report for DecisionTree:')
print(classification_report(y_data_test, answer_dtree))


Prediction All Done!


The classification report for DecisionTree:
              precision    recall  f1-score   support

           0       0.85      0.65      0.73        17
           1       0.80      0.92      0.86        26

    accuracy                           0.81        43
   macro avg       0.82      0.79      0.80        43
weighted avg       0.82      0.81      0.81        43



同上，进行标准化：

In [330]:
# 标准化后的结果
dtree = dtree.fit(dataSet_xtrain_std, y_data_train)

answer_dtree = dtree.predict(dataSet_xtest_std)
print("Prediction All Done!")

print('\n\nThe classification report for DecisionTree:')
print(classification_report(y_data_test, answer_dtree))

Prediction All Done!


The classification report for DecisionTree:
              precision    recall  f1-score   support

           0       0.73      0.65      0.69        17
           1       0.79      0.85      0.81        26

    accuracy                           0.77        43
   macro avg       0.76      0.75      0.75        43
weighted avg       0.77      0.77      0.76        43



决策树是一种典型的分类方法

    1.首先对数据进行处理，利用归纳算法生成可读的规则和决策树
    2.然后使用决策对新数据进行分析
本质上决策树是通过一系列规则对数据进行分类的过程

### 决策树算法的优点
1、推理过程容易理解，决策推理过程可以表示为If — Then 形式；
2、推理过程完全依赖于属性变量的取值特点；
3、可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数据提供参考

## 3 朴素贝叶斯

朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。

对于给定数据，首先基于特征的条件独立性假设，学习输入输出的联合概率分布，

然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

![](Pic/bays.JPG)

### sklearn 中的朴素贝叶斯

在sklearn库中，实现了三个朴素贝叶斯分类器，如下表所示

![](Pic/baysTB.JPG)

在sklearn库中，可以使用sklearn.naive_bayes.GaussianNB创建一个高斯朴素贝叶斯分类器，

其参数有：

• priors ：给定各个类别的先验概率。如果为空，则按训练数据的实际情况进行统计；如果给定先验概率，则在训练过程中不能更改

In [331]:
from sklearn.naive_bayes import GaussianNB  # 高斯朴素贝叶斯分类器
import numpy as np
X =  np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
Y =  np.array([1, 1, 1, 2, 2, 2])

使用默认参数，创建一个高斯朴素贝叶斯分类器，并将该分类器赋给变量clf。

In [332]:
clf = GaussianNB(priors=None)

类似的，使用 fit() 函数进行训练，并使用 predict() 函数进行预测，得到
预测结果为 1。（测试时可以构造二维数组达到同时预测多个样本的目的）

In [333]:
clf.fit(X,Y)
print(clf.predict([[-0.8, -1]]))

[1]


### 总结：
朴素贝叶斯是典型的生成学习方法，由训练数据学习联合概率分布，并求得后验概率分布。

朴素贝叶斯一般在小规模数据上的表现很好，适合进行多分类任务

下面我们尝试对上述的心脏病数据进行朴素贝叶斯分类挖掘

In [334]:
from sklearn.naive_bayes import GaussianNB  # 高斯朴素贝叶斯分类器
gNB = GaussianNB()

gNB = gNB.fit(x_data_train, y_data_train)

answer_gNB = dtree.predict(x_data_test)
print("Prediction All Done!")

print('\n\nThe classification report for GaussianNB:')
print(classification_report(y_data_test, answer_gNB))

Prediction All Done!


The classification report for GaussianNB:
              precision    recall  f1-score   support

           0       0.31      0.65      0.42        17
           1       0.14      0.04      0.06        26

    accuracy                           0.28        43
   macro avg       0.22      0.34      0.24        43
weighted avg       0.21      0.28      0.20        43



In [335]:
from sklearn.naive_bayes import BernoulliNB  # 高斯朴素贝叶斯分类器
gNB = BernoulliNB()

gNB = gNB.fit(x_data_train, y_data_train)

answer_gNB = dtree.predict(x_data_test)
print("Prediction All Done!")

print('\n\nThe classification report for GaussianNB:')
print(classification_report(y_data_test, answer_gNB))

Prediction All Done!


The classification report for GaussianNB:
              precision    recall  f1-score   support

           0       0.31      0.65      0.42        17
           1       0.14      0.04      0.06        26

    accuracy                           0.28        43
   macro avg       0.22      0.34      0.24        43
weighted avg       0.21      0.28      0.20        43



同样，我们尝试对文本进行先标准化再去做机器学习，查看相关的数据模式

In [336]:
gNB = gNB.fit(dataSet_xtrain_std, y_data_train)

answer_gNB = gNB.predict(dataSet_xtest_std)
print("Prediction All Done!")

print('\n\nThe classification report for DecisionTree:')
print(classification_report(y_data_test, answer_gNB))

Prediction All Done!


The classification report for DecisionTree:
              precision    recall  f1-score   support

           0       0.76      0.76      0.76        17
           1       0.85      0.85      0.85        26

    accuracy                           0.81        43
   macro avg       0.81      0.81      0.81        43
weighted avg       0.81      0.81      0.81        43



接下来我们尝试对数据集进行交叉验证技术再进行操作,分别做KNN、决策树、贝叶斯

In [337]:
from sklearn.preprocessing import StandardScaler # 用于对数据进行标准化操作
from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=8,shuffle=True, random_state=2021)
y = dataSet['output']
# print(y_data)
x = dataSet.iloc[:,:-1]

for train_index, test_index in skf.split(x, y):
    print('TRAIN:', train_index, "\nTEST:", test_index)
#     .iloc[train_index,:]
    X_train, X_test = x.iloc[train_index,:], x.iloc[test_index,:]
    y_train, y_test = y[train_index], y[test_index]
    X_train = StandardScaler().fit_transform(X_train)
    X_test = StandardScaler().fit_transform(X_test)



print('Start training knn')
knn = KNeighborsClassifier().fit(X_train, y_train)
print('Training done')
answer_knn = knn.predict(X_test)
print('Prediction done')

print('Start training DT')
dt = DecisionTreeClassifier().fit(X_train, y_train)
print('Training done')
answer_dt = dt.predict(X_test)
print('Prediction done')

print('Start training Bayes')
gnb = GaussianNB().fit(X_train, y_train)
print('Training done')
answer_gnb = gnb.predict(X_test)
print('Prediction done')

print('\n\nThe classification report for knn:')
print(classification_report(y_test, answer_knn))
print('\n\nThe classification report for DT:')
print(classification_report(y_test, answer_dt))
print('\n\nThe classification report for Bayes:')
print(classification_report(y_test, answer_gnb))

KNNscore = knn.score(X_test, y_test)

print("KNN精确度：",KNNscore)
Tscore = dt.score(X_test, y_test)

print("决策树精确度：",Tscore)
GSscore = gnb.score(X_test, y_test)
print("高斯贝叶斯精确度：",GSscore)

TRAIN: [  0   1   2   3   4   5   6   7   8   9  10  11  13  14  15  16  17  18
  19  20  21  22  23  24  25  26  27  28  29  31  32  33  35  36  37  39
  40  41  42  43  44  47  49  51  52  53  54  55  58  59  60  61  62  63
  64  65  68  69  70  71  72  74  75  77  78  79  80  81  82  83  84  85
  86  87  88  89  90  91  92  93  94  95  96  97  99 100 101 102 103 104
 105 106 107 108 109 110 111 112 113 114 116 117 118 119 122 125 126 127
 128 129 130 131 132 133 134 135 137 138 139 140 141 142 143 144 145 146
 147 148 149 151 152 153 154 155 156 157 158 159 160 161 162 164 166 167
 168 170 171 172 173 174 175 176 178 179 180 181 182 183 184 185 186 187
 188 189 190 191 193 194 195 196 197 198 199 200 201 202 204 205 206 207
 208 210 211 212 213 214 215 216 218 219 220 221 222 223 224 225 226 227
 229 230 231 232 233 234 236 237 238 239 241 242 243 244 245 246 247 248
 249 250 251 252 253 254 255 256 257 258 260 261 262 263 264 265 266 267
 268 269 270 271 274 275 276 277 278 279 280

Start training knn
Training done
Prediction done
Start training DT
Training done
Prediction done
Start training Bayes
Training done
Prediction done


The classification report for knn:
              precision    recall  f1-score   support

           0       0.25      0.24      0.24        17
           1       0.38      0.40      0.39        20

    accuracy                           0.32        37
   macro avg       0.32      0.32      0.32        37
weighted avg       0.32      0.32      0.32        37



The classification report for DT:
              precision    recall  f1-score   support

           0       0.29      0.24      0.26        17
           1       0.43      0.50      0.47        20

    accuracy                           0.38        37
   macro avg       0.36      0.37      0.36        37
weighted avg       0.37      0.38      0.37        37



The classification report for Bayes:
              precision    recall  f1-score   support

           0       0.35      0.

本次的数据是两类的划分相关，主要还是不适合贝叶斯分析的分类技术，总体相对分类的结果也是不确定，
可能准确度会低于前两种。

## SVM 支持向量机
支持向量机（support vector machines）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。由简至繁的模型包括：

    当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；
    当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；
    当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；

线性可分支持向量机

间隔最大化和支持向量

如果一个线性函数能够将样本分开，称这些数据样本是线性可分的。那么什么是线性函数呢？
其实很简单，在二维空间中就是一条直线，在三维空间中就是一个平面，
以此类推，如果不考虑空间维数，这样的线性函数统称为超平面。
O代表正类，X代表负类，样本是线性可分的，但是很显然不只有这一条直线可以将样本分开，
而是有无数条，我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。

![](Pic/SVM.JPG)

### sklearn 中的SVM

**sklearn.svm.SVC(C=1.0,kernel='rbf', degree=3, gamma='auto',coef0=0.0,shrinking=True,probability=False,tol=0.001,cache_size=200, class_weight=None,verbose=False,max_iter=-1,decision_function_shape=None,random_state=None)**

    C：C-SVC的惩罚参数，默认值是1.0。C越大，相当于惩罚松弛变量，希望松弛变量接近0，即对误分类的惩罚增大，趋向于对训练集全分对的情况，这样对训练集测试时准确率很高，但泛化能力弱。C值小，对误分类的惩罚减小，允许容错，将他们当成噪声点，泛化能力较强。
    kernel:核函数，默认是rbf，可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’

        0– 线性：u’v1– 多项式：(gamma*u’*v + coef0)^degree
        2– RBF函数：exp(-gamma|u-v|^2)
        3–sigmoid：tanh(gamma*u'*v + coef0)
    degree ：多项式poly函数的维度，默认是3，选择其他核函数时会被忽略。
    gamma:'rbf','poly' 和‘sigmoid’的核函数参数。默认是'auto'，则会选择1/n_features
    coef0:核函数的常数项。对于'poly'和 'sigmoid'有用。
    probability ：是否采用概率估计？.默认为False
    shrinking ：是否采用shrinking heuristic方法，默认为true

注：

    kernel='linear'时，为线性核，C越大分类效果越好，但有可能会过拟合（defaul C=1）。
    kernel='rbf'时（default），为高斯核，gamma值越小，分类界面越连续；gamma值越大，分类界面越“散”，分类效果越好，但有可能会过拟合。
    decision_function_shape='ovr'时，为one v rest，即一个类别与其他类别进行划分，
    decision_function_shape='ovo'时，为one v one，即将类别两两之间进行划分，用二分类的方法模拟多分类的结果。

In [338]:
from sklearn import svm
clf = svm.SVC(C=0.8, kernel='rbf', gamma=20, decision_function_shape='ovr')
# clf.fit(x_train, y_train.ravel())

print('Start training SVM')

clf = clf.fit(dataSet_xtrain_std, y_data_train)

SVMresult = clf.predict(dataSet_xtest_std)
print("Prediction All Done!")

print('\n\nThe classification report for DecisionTree:')
print(classification_report(y_data_test, answer_gNB))

SVMscore = clf.score(dataSet_xtest_std, y_data_test)
print("SVM精确度：",SVMscore)

Start training SVM
Prediction All Done!


The classification report for DecisionTree:
              precision    recall  f1-score   support

           0       0.76      0.76      0.76        17
           1       0.85      0.85      0.85        26

    accuracy                           0.81        43
   macro avg       0.81      0.81      0.81        43
weighted avg       0.81      0.81      0.81        43

SVM精确度： 0.6046511627906976
