In [17]:
# 导入相关依赖包

from sklearn.datasets import load_iris # 导入鸢尾花数据集

import seaborn as sns # 导入seaborn绘图库
import pandas as pd # 导入数据处理依赖库
import matplotlib.pyplot as plt # 导入绘图库

from sklearn.model_selection import train_test_split # 分割数据集
from sklearn.preprocessing import StandardScaler # 数据标准化
from sklearn.neighbors import KNeighborsClassifier # KNN算法的分类器
from sklearn.metrics import accuracy_score # 模型评估，计算模型准确率

In [18]:
# 1. 加载数据集，并查看数据集
iris = load_iris()

In [19]:
# 2. 划分数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=66)

In [20]:
# 3. 数据标准化
transformer = StandardScaler()
# 仅对特征列进行标准化，即：对x_train和x_test进行标准化
x_train = transformer.fit_transform(x_train) # fit_transform表示先拟合数据，再进行转换，是对训练集进行标准化，仅在第一次标准化时使用，一般用于处理训练集
x_test = transformer.transform(x_test) # transform表示直接转换，在重新进行标准化的时候使用，一般用于处理测试集

In [21]:
# 5. 构建KNN分类器
knn_class = KNeighborsClassifier()
print(knn_class)

KNeighborsClassifier()


# 交叉验证法验证结果
![img](images/image.png)

# 网格搜索法选择超参数

- 将所有的设定好的超参数进行交叉验证，选择出最优的超参数组合，进而获取超参数

In [22]:
# 6. 使用校验验证网格搜素，选择超参数
param_grid = {'n_neighbors': [i for i in range(1, 31)]} # 定义超参数搜索范围


# 其中n_splits表示交叉验证的折数，shuffle表示是否在每次分折前进行洗牌，random_state表示随机种子，用于复现结果
from sklearn.model_selection import GridSearchCV # 导入网格搜索包

# 使用网格搜索法进行超参数选择
# 先传入需要调参的模型
# 再传入超参数搜索范围
# 最后传入交叉验证的折数
knn_class = GridSearchCV(knn_class, param_grid, cv=10) # cv表示交叉验证的折数，这里设置为5折交叉验证
# 这里一共运行了10个超参数，每个超参数进行了5折交叉验证，一共运行了50次模型训练和验证

# 7. 模型训练
knn_class = knn_class.fit(x_train, y_train)

# 打印超参数选择结果
print("最佳超参数：", knn_class.best_params_)
print("最佳评分：", knn_class.best_score_)
print("最优估计器对象：", knn_class.best_estimator_)
print("所有结果：", knn_class.cv_results_)

最佳超参数： {'n_neighbors': 7}
最佳评分： 0.975
最优估计器对象： KNeighborsClassifier(n_neighbors=7)
所有结果： {'mean_fit_time': array([0.00020039, 0.00020018, 0.0005223 , 0.0002001 , 0.00021844,
       0.00050328, 0.00040042, 0.00035036, 0.00020187, 0.00019896,
       0.00029824, 0.00060248, 0.00029852, 0.00039976, 0.00035074,
       0.00041976, 0.00019982, 0.00056059, 0.00039928, 0.00030065,
       0.00044968, 0.00040183, 0.00030327, 0.00029917, 0.00045323,
       0.0004195 , 0.0003958 , 0.00032623, 0.00040221, 0.00065401]), 'std_fit_time': array([0.00040079, 0.00040035, 0.00045317, 0.00040021, 0.00035216,
       0.00050332, 0.00049045, 0.00055065, 0.00040379, 0.00039793,
       0.00045559, 0.0006277 , 0.000456  , 0.0004896 , 0.00045057,
       0.00051697, 0.00039964, 0.00058512, 0.00048902, 0.00045925,
       0.00056789, 0.00049215, 0.00046326, 0.00045699, 0.00047263,
       0.00051577, 0.00048513, 0.00050217, 0.00049265, 0.00071379]), 'mean_score_time': array([0.00136507, 0.0012517 , 0.00112214, 0.00115

In [23]:
# 8. 模型评估

knn_class = knn_class.best_estimator_
print(knn_class)
# 模型训练
knn_class.fit(x_train, y_train)

# 模型预测
y_pred = knn_class.predict(x_test)

# 模型评估
print("模型准确率：", accuracy_score(y_test, y_pred))

KNeighborsClassifier(n_neighbors=7)
模型准确率： 0.9333333333333333
