## 审查分类算法

- 如何审查机器学习的分类算法
- 如何审查两个线性分类算法
- 如何审查四个非线性分类算法

### 算法审查

审查算法前没有办法判断哪个算法对数据集最有效、能够生成最优模型，此时需要通过实验来判断。    
换一种思路：不是针对数据应该采用哪种算法，而是用数据来审查算法。先猜测什么算法可能最好，建议对于统一数据集使用不同算法，来审查算法有效性，也可以让我们有一个更感性的认识。以下是几点建议：    
- 尝试多种代表性算法
- 尝试多种机器学习的算法
- 尝试多种模型

### 算法概述
在分类算法中，有很多类型的分类器：线性分类器、贝叶斯分类器、基于距离的分类器等。    
两种线性算法：
- 逻辑回归
- 线性判别分析
四种非线性算法：
- K近邻
- 贝叶斯分类器
- 分类与回归树
- 支持向量机    
    
后面使用Pima Indians数据集审查，10折交叉验证评估准确度，使用评价准确度标准化算法得分

In [7]:
# 线性算法：；逻辑回归和线性判别分析都是假定输入的数据符合高斯分布

# 逻辑回归
import pandas as pd
from sklearn.model_selection import KFold,cross_val_score
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings('ignore')
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', ',ass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed)
model = LogisticRegression()
result = cross_val_score(model, X, Y, cv=kfold)
result.mean()

0.7695146958304853

In [8]:
# 线性判别分析=LDA=Fisher线性判别 FLD =模式识别经典算法
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

seed = 7
num_folds = 10
kfold = KFold(n_splits=num_folds, random_state=seed)
model = LinearDiscriminantAnalysis()
result = cross_val_score(model, X, Y, cv=kfold)
result.mean()

0.773462064251538

In [9]:
# 非线性算法
from sklearn.neighbors import KNeighborsClassifier

# K近邻算法
model = KNeighborsClassifier()
result = cross_val_score(model, X, Y,cv=kfold)
result.mean()

0.7265550239234451

In [10]:
# 贝叶斯分类器：通过先验概率，利用贝叶斯公式计算后验概率

from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
result = cross_val_score(model, X, Y, cv=kfold)
result.mean()

0.7551777170198223

In [20]:
# 分类与回归树 CART，包含两步
# 树的生成，基于训练数据集生成决策树，要尽量大
# 树的剪枝，用于验证数据集对已生成的树进行剪枝，并选择最优子树，以损失函数最小作为剪枝标准

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
result = cross_val_score(model, X, Y, cv=kfold)
result.mean()

0.6939336978810663

In [21]:
# 支持向量机 SVM ：解决小样本、非线性及高维模式识别中有很多优势

from sklearn.svm import SVC

model = SVC()
result = cross_val_score(model, X, Y, cv=kfold)
result.mean()

0.6510252904989747