# 5 занятие: Реализация KNN

## Курс "Машинное обучение", программа Ozon Masters

## Бугаевский Владимир, Камиль Сафин

Этот ноутбук посвящён самостоятельной реализации метода K ближайших соседей.

In [1]:
import numpy as np

from scipy.spatial.distance import cdist

In [2]:
from itertools import chain, zip_longest


def print_as_columns(*args, sep='\t'):
    """
    print arrays as columns
    """
    args = map(repr, args)
    args = list(map(lambda s: s.split('\n'), args))
    width = max(map(len, chain.from_iterable(args)))
    
    fill = lambda s: '{:<{width}s}'.format(s, width=width)
    fillvalue = fill('')
    
    args = map(lambda e: map(fill, e), args)
    args = map(sep.join, zip_longest(*args, fillvalue=fillvalue))
    print(*args, sep='\n')

### Этап 1. Евклидова метрика

Напомним, что справделиво следующее равенство:

$$
\rho(x_i, z_j) = \sum_{s=1}^{d} (x_i^s - z_j^s) =
\sum_{s=1}^{d} (x_i^s)^2 + \sum_{s=1}^{d} (z_j^s)^2 - 2 \sum_{s=1}^{d} x_i^s z_j^s
$$

которое позволяет быстро вычислить попарные расстояния между объектами.

In [3]:
def euclidean_distance(x, y):
    raise NotImplemented()

In [4]:
seed = np.random.RandomState(42)

x = seed.random(size=(20, 7))
y = seed.random(size=(15, 7))

xx_true = cdist(x, y)
xx_pred = euclidean_distance(x, y)

assert np.allclose(xx_pred, xx_true)

TypeError: 'NotImplementedType' object is not callable

### Этап 2. Быстрый поиск ближайших точек

Задача `H` из контеста про `numpy` была подготовкой к этому заданию.

В данной реализации аргумент `return_ranks=True` функции  `get_best_ranks` позволяет получить и расстояния до точек.

Немного модифицировав функцию можно сделать так, чтобы она искала не наибольшие значения в `ranks`, а наименьшие.

In [7]:
# Вы можете взять Вашу реализации функции, это только приветствуется


def get_best_ranks(ranks: np.ndarray, top: int, axis: int = 1, return_ranks: bool = False):
    top_slice = (slice(None), ) * axis + (slice(-top, None), )
    inv_slice = (slice(None), ) * axis + (slice(None, None, -1), )

    if top < ranks.shape[axis]:
        indices = np.argpartition(ranks, -top, axis=axis)[top_slice]
        ranks_top = np.take_along_axis(ranks, indices, axis=axis)
        indices = np.take_along_axis(indices, ranks_top.argsort(axis=axis)[inv_slice], axis=axis)
    else:
        indices = np.argsort(ranks, axis=axis)[top_slice]
        indices = indices[inv_slice]

    result = (indices, )

    if return_ranks:
        ranks = np.take_along_axis(ranks, indices, axis=axis)
        result = (ranks, ) + result

    return result if len(result) > 1 else result[0]


def get_best_ranks(ranks: np.ndarray, top: int, axis: int = 1, return_ranks: bool = False):
    indices = np.take(np.argpartition(ranks, range(-top, 0), axis=axis),
                      range(-1, -top-1, -1), axis=axis)
    
    result = (indices, )

    if return_ranks:
        ranks = np.take_along_axis(ranks, indices, axis=axis)
        result = (ranks, ) + result

    return result if len(result) > 1 else result[0]

In [8]:
distances, indices = get_best_ranks(-xx_true, top=3, axis=1, return_ranks=True)
distances = -distances

print_as_columns(distances, indices)

array([[0.615395  , 0.65981278, 0.71830008], 	array([[ 5,  8, 11],                         
       [0.60899578, 0.76623092, 0.78143743], 	       [ 3, 10, 13],                         
       [0.58437416, 0.77153804, 0.78500144], 	       [ 1,  4,  7],                         
       [0.69384872, 0.7106162 , 0.73989068], 	       [ 4, 10, 13],                         
       [0.99114362, 1.06923208, 1.10230472], 	       [ 2, 12,  0],                         
       [0.78868909, 0.61449306, 0.53035389], 	       [ 9,  0,  1],                         
       [0.9110878 , 0.97356131, 0.63947254], 	       [ 4, 10,  5],                         
       [0.94229045, 1.03110216, 1.08199051], 	       [12,  6, 11],                         
       [1.04193237, 0.86027349, 0.83925103], 	       [ 0,  1,  4],                         
       [0.78311219, 0.67348467, 0.83472739], 	       [12,  4, 10],                         
       [0.82001752, 0.90361903, 0.93683643], 	       [ 6,  1,  2],              

### Этап 3. Класс для поиска ближайших соседей

Для поиска ближайших соседей реализуем собственныый класс `NearestNeighborsFinder`.

Метод `NearestNeighborsFinder.fit` обучает модель, просто сохраняя все объекты из обучающей выборки, до которых нужно посчитать расстояние.

Метод `NearestNeighborsFinder.kneighbors` выполняет поиск ближайших соседей для объектов из тестовой выборки. При реализации метода вам может пригодиться функция `get_best_ranks`.

In [7]:
class NearestNeighborsFinder:
    def __init__(self, n_neighbors, metric="euclidean"):
        self.n_neighbors = n_neighbors

        if metric == "euclidean":
            self._metric_func = euclidean_distance
        else:
            raise ValueError("Metric is not supported", metric)
        self.metric = metric

    def fit(self, X, y=None):
        self._X = X
        return self

    def kneighbors(self, X, return_distance=False):
        raise NotImplemented()

In [8]:
seed = np.random.RandomState(42)
X = seed.permutation(500).reshape(10, -1)
X_train, X_test = X[:4], X[6:]

nn = NearestNeighborsFinder(n_neighbors=3, metric='euclidean')
nn.fit(X_train)

distances_pred, indices_pred = nn.kneighbors(X_test, return_distance=True)

distances_true = cdist(X_test, X_train)
indices_true = np.argsort(distances_true, axis=1)[:, :nn.n_neighbors]
distances_true = np.take_along_axis(distances_true, indices_true, axis=1)

assert np.allclose(distances_true, distances_pred)
assert np.all(indices_true == indices_pred)