案例一：鸢尾花种类预测——流程实现

    1.再识k-近邻算法API
        sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm='auto')
        参数解释：
            （1）n_neighbors:
                    int类型，可选，默认为5
                    k_neighbors查询默认使用的邻居数
            （2）algorithm('auto', 'ball_tree', 'ke_tree', 'brute')
                    （a）快速k近邻搜索算法，默认参数auto，可以理解为算法自己决定合
                        适的搜索算法。除此之外，用户也可以自己制定搜索算法
                        ball_tree,kd_tree, brute方法进行搜索
                    （b）解释：
                        brute:蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时
                        kd_tree:构造kd树存储数据以便对其进行快速检索的树形数据结
                            构，kd树也就是数据结构中的二叉树。以中值切分构造的树，
                            每个节点是一个超矩形，在维数小于20时效率高。
                        ball_tree:为了克服kd树高纬度失效而发明的，其构造过程是以
                            质心C和半径r分割样本空间，每个节点是一个超球体。

    2 案例：鸢尾花种类预测

        2.1 数据集介绍
            iris数据集是常用的分类实验数据集，由Fisher，1936年收集整理
            iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。
            （1）实例数量：150（三类各有50个）
            （2）属性数量：4（数值类型，数值类型，帮助预测的属性和类）
            Attribute Information：
                sepal length：萼片长度（厘米）
                sepal width：萼片宽度（厘米）
                petal length：花瓣长度（厘米）
                petal width：花瓣宽度（厘米）
                
                class：Iris-Setosa 山鸢尾
                       Iris-Versicolour 变色鸢尾
                       Iris-Virginica 维吉尼亚鸢尾

        2.2 步骤分析
            1.获取数据集
            2.数据基本处理
            3.特征工程
            4.机器学习（模型训练）
            5.模型评估

In [5]:
# 0.导入模块
from sklearn.datasets import load_iris          #导入鸢尾花数据集
from sklearn.model_selection import train_test_split    #数据集分割
from sklearn.preprocessing import StandardScaler        #数据标准化处理
from sklearn.neighbors import KNeighborsClassifier      #k近邻算法

# 1.从sklearn中获取数据集
iris = load_iris()

# 2.对数据集进行分割
"""
x_train:
x_test:
y_train:
y_test:
"""
x_train, x_test, y_train, y_test = train_test_split(
    iris.data,      #特征值
    iris.target,    #目标值
    test_size=0.2,  
    random_state=20
)

# 3.特征工程——数据标准化
# 3.1实例化一个标准化对象
transfer = StandardScaler()     
# 3.2数据标准化
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

# 4.机器学习--KNN
# 4.1实例化一个估计器
estimator = KNeighborsClassifier(n_neighbors=5)
# 4.2模型训练
estimator.fit(x_train, y_train) 

# 5.模型评估
# 方法1：对比真实值和预测值
y_pred = estimator.predict(x_test)
print("预测结果为：\n",y_pred)
print("对比真实值和预测值：\n",y_pred == y_test)
# 方法2：直接计算准确率
score = estimator.score(x_test, y_test)
print("准确率为：", score)

预测结果为：
 [0 1 1 2 1 1 2 0 2 0 2 1 1 0 0 2 0 1 2 1 1 2 2 0 2 1 1 0 2 1]
对比真实值和预测值：
 [ True  True  True  True  True  True  True  True  True  True  True  True
 False  True  True  True  True  True  True  True  True  True  True  True
 False  True  True  True  True False]
准确率为： 0.9
