Метрические методы основаны на гипотезе компактности, суть которой состоит в том, что объекты с похожими признаковыми описаниями имеют похожие значения целевой переменной. Если эта гипотеза верна, то строить прогноз для нового объекта можно на основе близких к нему объектов из обучающей выборки — например, путем усреднения их ответов (для регрессии) или путем выбора наиболее популярного среди них класса (для классификации). Методы такого типа и называются метрическими. Они имеют несколько особенностей:


Процедура обучения, по сути, отсутствует — достаточно лишь запомнить все объекты обучающей выборки
Можно использовать метрику, учитывающую особенности конкретного набора данных — например, наличие категориальных (номинальных) признаков
При правильном выборе метрики и достаточном размере обучающей выборки метрические алгоритмы показывают качество, близкое к оптимальному

Метрические методы чувствительны к масштабу признаков — так, если масштаб одного из признаков существенно превосходит масштабы остальных признаков, то их значения практически не будут влиять на ответы алгоритма.

Поэтому важно производить масштабирование признаков. Обычно это делается путем вычитания среднего значения признака и деления на стандартное отклонение.

Датасет взят отсюда: https://archive.ics.uci.edu/ml/datasets/Wine

In [79]:
import pandas as pd
import numpy as np

In [135]:
data = pd.read_csv("../HSE_course/wine.data.txt", header = None)

In [84]:
print type(data)
data.head()
print len(data)

<class 'pandas.core.frame.DataFrame'>
178


In [149]:
result = data[[0]]
result = np.array(result)
result = result.reshape((1,178))
result = result[0]

In [136]:
data = data[range(1,14)]
data.head()

Unnamed: 0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [158]:
data = np.array(data)
data.shape

(178, 13)

In [159]:
data[[1,3,14]]

array([[  1.32000000e+01,   1.78000000e+00,   2.14000000e+00,
          1.12000000e+01,   1.00000000e+02,   2.65000000e+00,
          2.76000000e+00,   2.60000000e-01,   1.28000000e+00,
          4.38000000e+00,   1.05000000e+00,   3.40000000e+00,
          1.05000000e+03],
       [  1.43700000e+01,   1.95000000e+00,   2.50000000e+00,
          1.68000000e+01,   1.13000000e+02,   3.85000000e+00,
          3.49000000e+00,   2.40000000e-01,   2.18000000e+00,
          7.80000000e+00,   8.60000000e-01,   3.45000000e+00,
          1.48000000e+03],
       [  1.43800000e+01,   1.87000000e+00,   2.38000000e+00,
          1.20000000e+01,   1.02000000e+02,   3.30000000e+00,
          3.64000000e+00,   2.90000000e-01,   2.96000000e+00,
          7.50000000e+00,   1.20000000e+00,   3.00000000e+00,
          1.54700000e+03]])

In [93]:
from sklearn.cross_validation import KFold

kf = KFold(n = 178 ,n_folds = 5, random_state = 42, shuffle = True)
print kf
for train, test in kf:
    print "train", train
    print "test", test

sklearn.cross_validation.KFold(n=178, n_folds=5, shuffle=True, random_state=42)
train [  0   1   2   3   4   5   6   7   8  10  11  13  14  17  20  21  22  23
  25  26  27  28  32  33  34  35  36  37  38  39  40  43  44  46  47  48
  49  50  51  52  53  54  56  57  58  59  61  62  63  64  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  83  84  85  86  87  88  89  91
  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107 108 110
 112 115 116 120 121 122 123 124 125 126 127 129 130 131 132 133 134 135
 136 137 138 139 142 143 144 146 147 148 149 151 152 153 154 155 156 157
 158 159 160 161 162 163 165 166 167 168 170 172 173 175 176 177]
test [  9  12  15  16  18  19  24  29  30  31  41  42  45  55  60  65  66  67
  82  90 109 111 113 114 117 118 119 128 140 141 145 150 164 169 171 174]
train [  0   1   3   5   7   8   9  10  12  13  14  15  16  17  18  19  20  21
  23  24  25  28  29  30  31  33  34  35  37  39  40  41  42  43  44  45
  46  47  48  49  50  52  53  54 

In [110]:
data = np.array(data)
data[[1,100]]

array([[  1.32000000e+01,   1.78000000e+00,   2.14000000e+00,
          1.12000000e+01,   1.00000000e+02,   2.65000000e+00,
          2.76000000e+00,   2.60000000e-01,   1.28000000e+00,
          4.38000000e+00,   1.05000000e+00,   3.40000000e+00,
          1.05000000e+03],
       [  1.20800000e+01,   2.08000000e+00,   1.70000000e+00,
          1.75000000e+01,   9.70000000e+01,   2.23000000e+00,
          2.17000000e+00,   2.60000000e-01,   1.40000000e+00,
          3.30000000e+00,   1.27000000e+00,   2.96000000e+00,
          7.10000000e+02]])

In [168]:
from sklearn.neighbors import KNeighborsClassifier
kNN = KNeighborsClassifier(n_neighbors = 3)

# for train, test in kf:
#     kNN.fit(data[train], result[train])
#     z = kNN.predict(data[test])
#     print "z", z
#     print "result", result[test]
    
# kNN.fit(data[[12,13,14,15]], result[[12,13,14,15]])
# result = np.array(result)

z [1 1 1 1 1 3 3 1 1 1 1 1 1 1 3 3 2 2 2 2 1 2 2 2 2 2 2 2 3 1 3 3 3 3 2 3]
result [1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3]
z [1 3 1 1 1 1 1 1 2 1 1 1 3 3 2 1 2 2 1 2 3 3 2 2 2 3 2 3 1 2 1 3 3 3 2 2]
result [1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3]
z [1 1 1 3 1 1 2 1 1 1 2 3 2 1 2 2 3 3 2 2 3 2 3 2 2 2 3 2 3 2 3 3 3 2 1 3]
result [1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3]
z [1 1 1 1 1 1 1 1 2 1 1 1 2 1 2 3 2 2 3 2 2 3 3 2 2 3 3 2 2 2 2 3 2 3 1]
result [1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3]
z [1 1 1 3 1 1 1 1 1 1 1 2 2 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 2 1 1 3 3 1 3]
result [1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3]


In [169]:
from sklearn.cross_validation import cross_val_score
scores = cross_val_score(kNN, data, result, cv=kf)


In [170]:
scores

array([ 0.80555556,  0.61111111,  0.63888889,  0.65714286,  0.82857143])

In [179]:
RES = {i:i for i in range(1,51)}
for k in range(1, 51):
    kNN = KNeighborsClassifier(n_neighbors = k)
    scores = cross_val_score(kNN, data, result, cv=kf)
    RES[k] = np.mean(scores)

In [181]:
# sorted(dist.values())
from operator import itemgetter
sorted(RES.items(), key=itemgetter(1))

[(4, 0.65777777777777779),
 (2, 0.66253968253968254),
 (6, 0.67428571428571438),
 (5, 0.67460317460317465),
 (19, 0.67936507936507928),
 (14, 0.67936507936507939),
 (18, 0.67952380952380953),
 (16, 0.67952380952380964),
 (8, 0.67999999999999994),
 (7, 0.68000000000000005),
 (10, 0.68015873015873018),
 (13, 0.69095238095238087),
 (20, 0.69095238095238087),
 (31, 0.69095238095238098),
 (27, 0.69634920634920638),
 (22, 0.69650793650793641),
 (26, 0.69650793650793652),
 (12, 0.69666666666666666),
 (47, 0.69666666666666666),
 (49, 0.69666666666666666),
 (17, 0.70158730158730154),
 (21, 0.70190476190476192),
 (25, 0.70190476190476192),
 (15, 0.70190476190476203),
 (23, 0.70206349206349206),
 (9, 0.70238095238095233),
 (11, 0.70253968253968258),
 (24, 0.70761904761904759),
 (40, 0.70777777777777773),
 (42, 0.70777777777777773),
 (43, 0.70777777777777773),
 (44, 0.70777777777777773),
 (45, 0.70777777777777773),
 (46, 0.70777777777777773),
 (50, 0.70777777777777773),
 (28, 0.70793650793650786),

### That's mean k=34,35 is awesome^__^


### Let's try preprocessing!

In [182]:
from sklearn import preprocessing
data_proc = preprocessing.scale(data)

In [183]:
RES_2 = {i:i for i in range(1,51)}
for k in range(1, 51):
    kNN = KNeighborsClassifier(n_neighbors = k)
    scores = cross_val_score(kNN, data_proc, result, cv=kf)
    RES_2[k] = np.mean(scores)

In [184]:
sorted(RES_2.items(), key=itemgetter(1))

[(2, 0.93285714285714294),
 (4, 0.93825396825396834),
 (1, 0.94396825396825401),
 (5, 0.94936507936507941),
 (13, 0.94952380952380933),
 (6, 0.94952380952380955),
 (7, 0.94952380952380955),
 (46, 0.94952380952380955),
 (48, 0.94952380952380955),
 (3, 0.95507936507936508),
 (47, 0.95507936507936508),
 (49, 0.95507936507936508),
 (8, 0.95523809523809522),
 (12, 0.95523809523809522),
 (24, 0.95523809523809522),
 (25, 0.95523809523809522),
 (27, 0.95523809523809522),
 (31, 0.95523809523809522),
 (37, 0.95523809523809522),
 (19, 0.95539682539682536),
 (44, 0.96063492063492062),
 (50, 0.96063492063492062),
 (9, 0.96079365079365076),
 (10, 0.96079365079365076),
 (26, 0.96079365079365076),
 (30, 0.96079365079365076),
 (32, 0.96079365079365076),
 (35, 0.96079365079365076),
 (36, 0.96079365079365076),
 (38, 0.96079365079365076),
 (39, 0.96079365079365076),
 (40, 0.96079365079365076),
 (42, 0.96079365079365076),
 (11, 0.96095238095238089),
 (23, 0.96095238095238089),
 (21, 0.96095238095238111),
 

In [185]:
round(0.73047619,2)

0.73

In [186]:
round(0.9776190476190475,2)

0.98