# 超参数
## 运行机器学习算法之前所需要准备的参数。与之对应的是模型参数，是指算法过程中学习到的参数
- kNN算法是没有模型参数的
- kNN中的k就是一个典型的超参数
## 寻找超参数
- 领域知识
- 经验数值
- 实验搜索

## (一) 导入数据并将测试数据、训练数据分类

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split


digits = load_digits()

In [2]:
X = digits.data
y = digits.target

In [3]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=.2,random_state=666)

In [4]:
from sklearn.neighbors import KNeighborsClassifier

best_k = 0
best_score = 0

for k in range(1,11):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train,y_train)
    cur_score = knn.score(X_test,y_test)
    if cur_score > best_score:
        best_k = k
        best_score = cur_score
    print("第",k,"近邻时的得分：",cur_score)
print(best_k)
print(best_score)

第 1 近邻时的得分： 0.9833333333333333
第 2 近邻时的得分： 0.9888888888888889
第 3 近邻时的得分： 0.9888888888888889
第 4 近邻时的得分： 0.9916666666666667
第 5 近邻时的得分： 0.9888888888888889
第 6 近邻时的得分： 0.9888888888888889
第 7 近邻时的得分： 0.9861111111111112
第 8 近邻时的得分： 0.9861111111111112
第 9 近邻时的得分： 0.9833333333333333
第 10 近邻时的得分： 0.9833333333333333
4
0.9916666666666667


## (二) 寻找超参数

**但是，我们的kNN算法除了k这个参数之外，还有其他参数，比如我们这里定义的距离是欧拉距离，但是并不仅限于欧拉距离，我们希望的距离是更具有普遍性的，所以我们选用明可夫斯基距离进行描述**</br>
按照以下步骤进行寻找最优：
1. 在uniform和distance中寻找超参，如果是distance，就需要对p进行判断
2. 对p进行判断，证明了这个训练模型用kNN和距离权重的相关性更大

In [5]:
best_k = 0
best_score = .0
best_method = ""

In [6]:
for method in ["uniform", "distance"]:
    for k in range(1,11):
        knn = KNeighborsClassifier(n_neighbors=k,weights=method)
        knn.fit(X_train,y_train)
        score = knn.score(X_test,y_test)
        if score > best_score:
            best_score = score
            best_k = k
            best_method = method
print("best_k:",best_k)
print("best_score:",best_score)
print("best_method:",best_method)

best_k: 4
best_score: 0.9916666666666667
best_method: uniform


这里，我们证明了这个训练模型kNN和距离的相关性不大，但是为了验证一下我们的p值，我还是做以下试验以证明明可夫斯基距离的存在性

In [7]:
best_k = 0
best_score = .0
best_method = ""

In [None]:
%run
for k in range(1,10):
    for p in range(1,5):
        knn = KNeighborsClassifier(n_neighbors=k,weights="distance",p=p,n_jobs=-1)
        knn.fit(X_train,y_train)
        score=knn.score(X_test,y_test)
        if score > best_score:
            best_score = score
            best_k = k
            best_method = method
print("weights=distance")
print("best_k:",best_k)
print("best_score:",best_score)    