# Выбор числа соседей

###### Импорт необходимых библиотек

In [64]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import scale
from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier

###### Загрузка датасета

In [19]:
df = pd.read_csv('wine.data', header=None)
df.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


###### Разбиение датасета на классы $y$ и признаки $X$

In [33]:
y = df[0]
X = df.drop(0, axis=1)
X.describe()

Unnamed: 0,1,2,3,4,5,6,7,8,9,10,11,12,13
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


###### Использование метода k ближайших соседей при кросс-валидации на 5 блоков и различных k

In [37]:
# Стратегия кросс-валидации
cv = KFold(n_splits=5, shuffle=True, random_state=42)

In [52]:
# Оценки кросс-валидации при различных от 1 до 50
scores = np.empty(0)
for k in range(1, 51):
    score = cross_val_score(KNeighborsClassifier(n_neighbors=k), X, y, scoring='accuracy', cv=cv).mean()
    scores = np.append(scores, score)

In [63]:
optim_k = int(np.where(scores == np.amax(scores))[0] + 1)
print('Оптимальное значение k -', optim_k)
print('Оптимальное качество -', round(np.amax(scores), 2))

Оптимальное значение k - 1
Оптимальное качество - 0.73


###### Использование метода k ближайших соседей при нормировке признаков

In [66]:
# Нормирование признаков
X_norm = scale(X)

In [67]:
# Оценки кросс-валидации при различных от 1 до 50
scores_norm = np.empty(0)
for k in range(1, 51):
    score = cross_val_score(KNeighborsClassifier(n_neighbors=k), X_norm, y, scoring='accuracy', cv=cv).mean()
    scores_norm = np.append(scores_norm, score)

In [69]:
optim_k = int(np.where(scores_norm == np.amax(scores_norm))[0] + 1)
print('Оптимальное значение k после нормировки признаков -', optim_k)
print('Оптимальное качество после нормировки признаков -', round(np.amax(scores_norm), 2))

Оптимальное значение k после нормировки признаков - 29
Оптимальное качество после нормировки признаков - 0.98
