In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris

In [2]:
iris=load_iris()
data = iris.data
target=iris.target

In [3]:
from sklearn.model_selection import train_test_split

In [4]:
X_train,X_test,y_train,y_test = train_test_split(data,target,test_size=0.2)

In [5]:
from sklearn.neighbors import KNeighborsClassifier

In [6]:
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
knn.score(X_test,y_test)

0.9666666666666667

In [7]:
# 数据切割产生的影响, 造成模型评估不能客观的反应模型的性能. 
# 0.9 ,0.93,  0.9666, 1

In [8]:
# 要想办法消除因为数据切割对算法性能的评估产生的不良影响. 

In [9]:
#核心是将数据集分割为训练集和验证集
from sklearn.model_selection import KFold,StratifiedKFold

In [10]:
kfold=KFold(n_splits=5,shuffle=True)

In [11]:
scores=[]
for train,test in kfold.split(data,target):
    X_train=data[train]
    y_train=target[train]
    X_test=data[test]
    y_test=target[test]
    knn=KNeighborsClassifier()
    knn.fit(X_train,y_train)
    score=knn.score(X_test,y_test)
    scores.append(score)
    print(score)

0.9666666666666667
0.9333333333333333
0.9333333333333333
1.0
0.9333333333333333


In [12]:
print(np.array(scores).mean())

0.9533333333333334


In [13]:
skf=StratifiedKFold(n_splits=5,shuffle=True)

In [14]:
scores=[]
for train,test in skf.split(data,target):
    X_train=data[train]
    y_train=target[train]
    X_test=data[test]
    y_test=target[test]
    knn=KNeighborsClassifier()
    knn.fit(X_train,y_train)
    score=knn.score(X_test,y_test)
    scores.append(score)
    print(score)

1.0
0.9666666666666667
0.9666666666666667
0.9666666666666667
0.9333333333333333


In [15]:
print(np.array(scores).mean())

0.9666666666666668


In [16]:
from sklearn.model_selection import GridSearchCV

In [18]:
knn = KNeighborsClassifier()
param_grid={
    'n_neighbors':range(2,20),
    'p':[1,2]  #p：距离度量参数，1 表示曼哈顿距离（L1），2 表示欧氏距离（L2）
}
#n_jobs=-1:表示使用CPU进行并行计算
gv = GridSearchCV(estimator=knn,param_grid=param_grid,n_jobs=-1,cv=5,verbose=3)

In [19]:
gv.fit(data,target)

Fitting 5 folds for each of 36 candidates, totalling 180 fits


In [20]:
gv.best_params_

{'n_neighbors': 6, 'p': 2}

In [21]:
gv.best_estimator_

In [22]:
type(gv)

sklearn.model_selection._search.GridSearchCV

In [23]:
gv.score(data,target)

0.9733333333333334

In [24]:
gv.best_estimator_.score(data,target)

0.9733333333333334