# Глава 15 К ближайших соседей(МО Крис Элбон)

Классификатор к ближайших соседей (KNN) является одним из самых простых и наиболеее часто используемых классификатром в контролирум машинном самообучении. KNN часто считается ленивым учеником, он технически не тренерует модель делать предсказания.

Вместо этого предсказывается, что наблюдение будет классом наибольшей доли к ближайших наблюдений. Например, если наблюдение с неизвестным классом окружено наблюдением с классом 1, то это наблюдение классифицируется как класс 1. 

# Отыскание ближайших соседей наблюдения

Требуется найти к-ближайших наблюдений (соседей) некоторого наблюдения.

Использовать класс NearestNeighbors библиотеки scikit-learn.

In [10]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

In [11]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data

In [12]:
#создать стандартизатор
standardizer = StandardScaler()

In [13]:
#стандартизировать признаки
features_standardized = standardizer.fit_transform(features)

In [14]:
#два ближайших соседа
nearest_neighbors = NearestNeighbors(n_neighbors=2).fit(features_standardizer)

In [15]:
#создать наблюдение
new_observation = [1, 1, 1, 1]

In [16]:
#найтейи расстояния и индексы ближайших соседей наблюдения
distance, indices = nearest_neighbors.kneighbors([new_observation])

In [17]:
#взглянуть на ближайших соседей
features_standardized[indices]


array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502]]])

В нашем решении мы использовали набор данных цветков ириса. Мы создали наблюдение - new_observation, с некоторыми значениями, а затем нашли 2 наблюдения, которые ближе всего к нашему наблюдению.

Переменная indices содержит наиболее близкие местоположения наблюдений в нашем наборе данных, и X[indices] показывает значения этих наблюдений. Интуитивно расстояние можно рассматривать, как меру сходства, поэтому два ближайших наблюдения - это два цветка, наиболее похожих на цветок, который мы создади.

Как измерять растояние? Библиотека scikit-learn предлагает широкий выбор метрических показателей расстояния d, включая евклидово расстояние:

\begin{equation*} d_{евклидово} = \sqrt{{\sum_{i=1}^{n} (x_i-y_i)^2} } \end{equation*}

и матхэттенское расстояние:

\begin{equation*} d_{манхэттенское} = \sqrt{{\sum_{i=1}^{n} |x_i-y_i|} } \end{equation*}

По умолчанию класс NearestNeighbors использует расстояние Минковского:

\begin{equation*} d_{минковского} = ({{\sum_{i=1}^{n} |x_i-y_i|^p}} ) ^ {1/p} \end{equation*}

где x_i и  y_i - два наблюдения, между которыми мы вычисляем расстояние.

Расстояние Минковского включает гиперпараметр p, где p=1 это матхэтонское расстояние, p=2 евклидово расстояние. В библиотеке scikit-learn  по умолчанию p=2.

Метрический  показатель расстояния можно установить с помощью параметра metric:

In [18]:
#найти двух ближайших соседей на основе евклидова расстояния
nearestneighbors_euclidean = NearestNeighbors(n_neighbors=2, metric='euclidean').fit(features_standardized)

Созданная нами переменная distance содержит фактическое измерение расстояния до каждого из двух ближайших соседей.

In [19]:
#взглянуть на расстояния
distance

array([[0.49140089, 0.74294782]])

Кроме того, для создания матрицы, показывающей ближайших соседей каждого наблюдения, можно использовать метод kneighbors_graph

In [20]:
#найти трех ближайших соседей каждого наблюдения
#на основе евклидового расстояния (включая себя)
nearestneighbors_euclidean = NearestNeighbors(n_neighbors=3, metric='euclidean').fit(features_standardized)


In [21]:
#Список списков, показывающий 3-х ближайших соседей каждого наблюдения(включая себя)
nearest_neighbors_with_self = nearestneighbors_euclidean.kneighbors_graph(features_standardized).toarray()

In [22]:
nearest_neighbors_with_self.shape

(150, 150)

In [23]:
nearest_neighbors_with_self[0]

array([1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [26]:
#удалить единицы, отметив наблюдение, как ближайший сосед к себе
for i, x, in enumerate(nearest_neighbors_with_self):
    x[i] = 0

In [27]:
#взглянуть на ближайших соседей первого наблюдения
nearest_neighbors_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

Когда мы находим ближайших соседей или используем любой обучающий алгоритм, основанный на расстоянии, важно преобразовать признаки так, чтобы они были на одной шкале.

Причина в том, что метрики расстояния относятся ко всем признакам, как если бы они были на одной шкале, но если один признак находится в миллионах долларов, а второй - в процентах, то вычисленное расстояние будет смещено в сторону первого. В нашем решении мы решили эту потенциальную проблему путем стандартизации признаков с помощью класса StandardScaler.

# Создание классификационной модели k ближайших соседей.

Дано наблюдение неизвестного класса, и требуется предсказать его класс на основе класса его соседей.

Если набор данных не очень большой, то использовать класс KNeighborsClassifier.

In [1]:
#загрузить библиотеки
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
X = iris.data
y = iris.target

In [3]:
#создать стандартизатор
standardizer = StandardScaler()

In [4]:
#стандартизировать признаки
X_std = standardizer.fit_transform(X)

In [5]:
#натренировать классификатор KNN с пятью соседями
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1).fit(X_std, y)

In [6]:
#создать два наблюдения
new_observation = [[0.75, 0.75, 0.75, 0.75],
                  [1, 1, 1, 1]]

In [7]:
#предсказать класс двух наблюдений
knn.predict(new_observation)

array([1, 2])

В KNN, если дано наблюдение x_u с неизвестным целевым классом, то алгоритм сначала идентефицирует к-ближайших наблюдений (иногда называемых окрестностью x_u) на основе некоторого метрического показателя расстояния (например, евклидова расстояния), затем эти к-наблюдений "голосуют" на основе их класса, и класс, который побеждает в голосовании, является предсказанным классом для x_u.  

Более формально вероятность x_u некоторого класса j имеет вид:

\begin{equation*} 1/k {\sum_{i ∈ v} I(y_i=j)}  \end{equation*}

где v - k-е наблюдение в окресности x_u

y_i - класс i-го наблюдения

I - индикаторная функция ( т е 1- истинно, 0 -в противном случае).

В библиотеке scikit-learn эти вероятности можно увидеть с помощью метода predict_proba.

In [8]:
#взглянуть на вероятность, что каждое наблюдение является одним из трех классов
knn.predict_proba(new_observation)

array([[0. , 0.6, 0.4],
       [0. , 0. , 1. ]])

Класс с наибольшей вероятностью становится предсказанным классом.

Например, в приведенных выше результатах первое наблюдение должно быть классом 1 (Pr=0.6), в то время как второе наблюдение должно быть классом 2(Pr=1), и это именно то, что мы видим.

В библиотеке  scikit-learn класс KNeighborsClassifier содержит ряд важных параметров, которые следует рассмотреть.

Параметр metric задает используемый метрический показатель расстояния.

Параметр n_jobs определяет, сколько ядер компьютера использовать. Рекомендуется использовать несколько ядер, поскольку, предсказание требует вычисления расстояния от некоторой точки, до каждой отдельной точки данных.

Параметр algorithm задает метод расчета ближайших соседей. хотя существуют реальные различия в алгоритмах, по умолчанию класс KNeighborsClassifier пытается автоматически вабрать наилучший алгоритм.

Классификатор KNeighborsClassifier работает как описано ранее, при этом каждое наблюдение в окресности получает один голос, однако если мы зададим параметр веса weights равным значению distance, то голоса более близких наблюдений, будут весить больше, чем наблюдения расположенные дальше.

Интуитивно это имеет смысл, поскольку более похожие соседи могут рассказать нам больше о классе наблюдения, чем другие.

Важно перед использованием классификатора KNN стандартизировать признаки.

# Идентификация наилучшего размера окрестности

Требуется выбрать наилучшее значение для k в классификационной модели k-ближайших соседей.

Использовать методы отбора модели, такие как поиск в решетке параметров, реализованный в классе GridSearchCV.

In [1]:
#загрузить библиотеки 
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [3]:
#создать стандартизатор
standardizer = StandardScaler()

In [4]:
#стандартизировать признаки
features_standardized = standardizer.fit_transform(features)

In [5]:
#создать классификатор knn
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1)

In [6]:
#создать конвейер
pipe = Pipeline([("standardizer", standardizer),("knn", knn)])

In [7]:
#создать пространство вариантов значений
search_space = [{"knn__n_neighbors": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}]

In [8]:
#создать объект решеточного поиска
classifier = GridSearchCV(pipe, search_space, cv=5, verbose=0).fit(features_standardized, target)

В классификаторах KNN размер к имеет реальные последствия. В машинном самообучении мы пытаемся найти баланс между смещением и дисперсией, и не так уж много мест, где это проявляется также явно, как в значении к. 

Если к=n, где n - число наблюдений, то мы имеем высокое смещение, но низкую дисперсию. Если к=1, то мы будем иметь низкое смещение, но высокую дисперсию.

Лучшая модель будет получена из нахождения значения к, которое уравновешивает это компромисное соотношение смещение-дисперсии. 

В нашем решении мы использовали объект класса GridSearchCV для проведения пятиблочной перекрестной проверки на классификаторах KNN с различными значениями k. Когда она будет завершена, мы увидим k, которое производит наилучшую модель.

https://ru.wikipedia.org/wiki/%D0%94%D0%B8%D0%BB%D0%B5%D0%BC%D0%BC%D0%B0_%D1%81%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D1%8F%E2%80%93%D0%B4%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D0%B8

In [10]:
#наилучший размер окрестности к
classifier.best_estimator_.get_params()["knn__n_neighbors"]

6

# Создание радиусного классификатора ближайших соседий

Дано наблюдение неизвестного класса, и требуется предсказать его класc на основе класса всех наблюдений в пределах определенного расстояния.

Использовать класс RadiusNeighborsClassifier

In [1]:
#загрузить библиотеки
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [3]:
#создать стандартизатор
standardizer = StandardScaler()

In [4]:
#стандартизировать признаки
features_standardized = standardizer.fit_transform(features)

In [5]:
#натренировать радиусный классификатор соседей
rnn = RadiusNeighborsClassifier(radius=.5, n_jobs=-1).fit(features_standardized, target)

In [6]:
#создать наблюдение
new_observation = [[1, 1, 1, 1]]

In [7]:
#предсказать класс наблюдения
rnn.predict(new_observation)

array([2])

В классификации KNN класс наблюдений предсказывается из классов его к соседий.

Менее распространенным методом является классификация в радиусном классификаторе (RNN), где класс наблюдения предсказывается из классов всех наблюдений в пределах в пределах заданного радиуса r. В библиотеке skikit-learn радиусный классификатор RadiusNeighborsClassifier очень похож на классификатор к ближайших соседей KNeighborsClassifier, за исключением 2-х параметров.

В радиусном классификаторе RadiusNeighborsClassifier нужно с помощью параметра radius указать радиус фиксированной области, используемой для определения, является ли наблюдение соседом.

Если нет какой-либо существенной причины, для установки параметра radius в некоторое значение, лучше рассматривать его как любой другой гиперпараметр и настраивать его во время отбора модели.

Второй полезный параметр - outlier_label, указывающий на то, какую метку дать наблюдению, которое не имеет наблюдений в заданном радиусе, что само по себе часто может быть полезным инструментом для идентификации выбросов.