In [1]:
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

In [2]:
# 1.获取数据  load_iris()

# 2.数据基本处理  数据集的划分

# 3.特征工程  标准化

# 4.机器学习  k近邻算法建模
# 4.1 建立模型
# 4.2 训练模型

# 5.模型评估 分类模型  准确率

In [3]:
# 1.获取数据  load_iris()
iris = load_iris()

In [4]:
# 2.数据基本处理  数据集的划分
# 第一个参数特征值，第二个参数是目标值，test_size测试集的比例
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)  

In [5]:
# 3.特征工程  标准化
# 3.1 初始化转化器
transfer = StandardScaler()

In [6]:
# 3.2 转换数据
x_train = transfer.fit_transform(x_train)  # 这一步之后transfer保存有mean, std
x_test = transfer.transform(x_test)

In [7]:
# 4.机器学习  k近邻算法建模
# 4.1 建立模型 估计器
estimator = KNeighborsClassifier(n_neighbors=3, algorithm='kd_tree') # n_neighbors K值， algorithm算法，可以指定优化计算的方法

In [8]:
# 4.2 训练模型
estimator.fit(x_train, y_train)  # 第一个参数训练的特征值，第二个参数训练的目标值

KNeighborsClassifier(algorithm='kd_tree', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')

In [9]:
# 5.模型评估 分类模型  准确率
estimator.score(x_test, y_test) # 第一个参数测试数据的特征值，第二个参数是测试数据的目标（真实值）

0.9333333333333333

In [10]:
# 获取预测值
y_pred = estimator.predict(x_test) # 参数：测试数据的特征值

In [11]:
y_pred == y_test

array([ True, False, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True])

# 交叉验证, 网格搜索

In [12]:
# 1.获取数据  load_iris()
iris = load_iris()

In [13]:
# 2.数据基本处理  数据集的划分
# 第一个参数特征值，第二个参数是目标值，test_size测试集的比例
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)  

In [14]:
# 3.特征工程  标准化
# 3.1 初始化转化器
transfer = StandardScaler()
# 3.2 转换数据
x_train = transfer.fit_transform(x_train)  # 这一步之后transfer保存有mean, std
x_test = transfer.transform(x_test)

In [15]:
# 4.机器学习  k近邻算法建模
# 4.1 建立模型 估计器
# estimator = KNeighborsClassifier(n_neighbors=3, algorithm='kd_tree') # n_neighbors K值， algorithm算法，可以指定优化计算的方法
estimator = KNeighborsClassifier()

In [16]:
# 交叉验证和网格搜索

In [17]:
# 1.构建参数字典
param_dict = {'n_neighbors':[1,3,5,7,9]}

In [18]:
# 2.实例化GSCV  估计器
# 参数：estimator 估计器， param_grid:参数字典， cv 几折交叉验证
estimator_gscv = GridSearchCV(estimator=estimator, param_grid=param_dict, cv=2)

In [19]:
# 4.2 训练模型
estimator_gscv.fit(x_train, y_train)  # 第一个参数训练的特征值，第二个参数训练的目标值

GridSearchCV(cv=2, error_score='raise',
       estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform'),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'n_neighbors': [1, 3, 5, 7, 9]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

In [20]:
# 5.模型评估 分类模型  最优模型准确率
estimator_gscv.score(x_test, y_test) # 第一个参数测试数据的特征值，第二个参数是测试数据的目标（真实值）

0.8666666666666667

In [21]:
# 获取预测值  最优模型的预测
y_pred = estimator_gscv.predict(x_test) # 参数：测试数据的特征值

In [22]:
y_pred

array([2, 2, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 2, 2, 2, 1, 1, 0, 0, 1,
       1, 0, 2, 0, 2, 1, 2, 2])

In [23]:
# 获取最优模型
estimator_gscv.best_estimator_

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=9, p=2,
           weights='uniform')

In [24]:
# 获取最优超参数
estimator_gscv.best_params_

{'n_neighbors': 9}

In [25]:
# 获取网格搜索结果
estimator_gscv.cv_results_



{'mean_fit_time': array([0.0003252 , 0.0005517 , 0.00056875, 0.00022924, 0.00047433]),
 'std_fit_time': array([9.84668732e-05, 3.35454941e-04, 3.46541405e-04, 1.34706497e-05,
        2.43544579e-04]),
 'mean_score_time': array([0.00136852, 0.00164819, 0.00154805, 0.00139928, 0.00139046]),
 'std_score_time': array([1.18017197e-04, 3.67641449e-04, 1.00135803e-04, 1.04665756e-04,
        3.31401825e-05]),
 'param_n_neighbors': masked_array(data=[1, 3, 5, 7, 9],
              mask=[False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'n_neighbors': 1},
  {'n_neighbors': 3},
  {'n_neighbors': 5},
  {'n_neighbors': 7},
  {'n_neighbors': 9}],
 'split0_test_score': array([0.95081967, 0.95081967, 0.96721311, 0.93442623, 0.95081967]),
 'split1_test_score': array([0.91525424, 0.91525424, 0.91525424, 0.94915254, 0.96610169]),
 'mean_test_score': array([0.93333333, 0.93333333, 0.94166667, 0.94166667, 0.95833333]),
 'std_test_score': array([0.01778025,