## Отыскание ближайших соседей наблюдения


In [1]:
# Требуется найти К ближайших наблюдений некоторого наблюдения
from sklearn import datasets
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

iris = datasets.load_iris()
features = iris.data

standardizer = StandardScaler()

features_standardized = standardizer.fit_transform(features)

nearest_neighbors = NearestNeighbors(n_neighbors=2).fit(features_standardized)

new_observation = [1, 1, 1, 1]

# Найти дистанцию и индексы ближайших соседей
distances, indices = nearest_neighbors.kneighbors([new_observation])

features_standardized[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502]]])

In [2]:
indices

array([[124, 110]])

In [3]:
# Найти двух ближайших соседей на основе еквлидова расстояния
nearest_neighbors_euclidean = NearestNeighbors(n_neighbors=2, metric='euclidean').fit(features_standardized)

distances

array([[0.49140089, 0.74294782]])

In [5]:
# Найти трех ближайших соседей каждого наблюдения
# на основе евклидова расстояния (включая себя)
nearestneighbors_euclidean = NearestNeighbors(n_neighbors=3, metric="euclidean").fit(features_standardized)

# Список списков, показывающий трех ближайших соседей
# каждого наблюдения (включая себя)
nearest_neighbors_with_self = nearestneighbors_euclidean.kneighbors_graph(features_standardized).toarray()

# Удалить единицы, отметив наблюдение, как ближайший сосед к себе
for i, x in enumerate(nearest_neighbors_with_self):
    x[i] = 0

nearest_neighbors_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

## Создание классификационной модели К ближайших соседей 

In [7]:
# Требуется определить класс наблюдения
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data
Y = iris.target

# Создать стандартизатор
standardizer  = StandardScaler()

# Стандартизировать признаки
X_std = standardizer.fit_transform(X)

# Натренировать классификатор KNN с 5 соседями
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1).fit(X_std, Y)

# Создать два наблюдения
new_observations = [[0.75, 0.75, 0.75, 0.75],
                  [1, 1, 1, 1]]

# Предсказать класс двух наблюдений
knn.predict(new_observations)

array([1, 2])

In [8]:
knn.predict_proba(new_observations)

array([[0. , 0.6, 0.4],
       [0. , 0. , 1. ]])

## Идентификация наилучшего размера окрестности 

In [9]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV

iris = datasets.load_iris()
features = iris.data
target = iris.target

standardizer = StandardScaler()

features_standardized = standardizer.fit_transform(features)

# Создать классификатор KNN
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1)

# Создать конвейер
pipe = Pipeline([('standardizer', standardizer), ("knn", knn)])

# Создать пространство вариантов значений
search_space = [{"knn__n_neighbors": [1,2,3,4,5,6,7,8,9,10]}]

# Создать объект решеточного поиска
classifier = GridSearchCV(pipe, search_space, cv=5, verbose=1).fit(features_standardized, target)

Fitting 5 folds for each of 10 candidates, totalling 50 fits


In [10]:
classifier.best_estimator_.get_params()["knn__n_neighbors"]

6

## Создание радиусного классификатора ближайших соседей

Дано наблюдение неизвестного класса, и требуется предсказать его класс на основе класса всех наблюдений в пределах определенного расстояния

In [3]:
# Используем RadiusNeighborsClassifier
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

iris = load_iris()
features = iris.data
target = iris.target

standardizer = StandardScaler()

features_standardized = standardizer.fit_transform(features)

# Натренировать радиусный классификатор соседей
rnn = RadiusNeighborsClassifier(radius=0.5, n_jobs=-1).fit(features_standardized, target)

new_observation = [[1,1,1,1]]

rnn.predict(new_observation)

array([2])