## tool: KNNFeatureAggregator (5 баллов)

Нужно написать класс, который будет справляться с задачей генерации новых фичей по ближайшим соседям.
Принцип его работы объясним на примере. Допустим, мы находимся в каком-то пайплайне генерации признаков. Разберем псевдокод ниже:
```python
# 1
'''
    Создаем объект нашего класса - он принимает на вход информацию о том, какой будет индекс для поиска ближ. соседей.
    Далее, "обучаем" индекс, если это нужно делать (строим граф, строим ivf-табличку) и т.п.).
    После этого блока, у нас есть обученный индекс, готовый искать ближайших соседей по train_data.
'''
knn_feature_aggregator = KNNFeatureAggregator(index_info)
knn_feature_aggregator.train(train_data, index_add_info)

# 2
'''
    Считаем индексы ближайших соседей. На данном этапе мы хотим получить признаки для обучающей выборки, поэтому
        подаем в качестве query_data нашу обучалку.
    Указывам is_train=True, чтобы вернуть k ближайших соседей без учета самих себя (считая k+1 соседей + выкидывая 1 столбик).
    k указываем __МАКСИМАЛЬНОЕ_ИЗ_ТРЕБУЮЩИХСЯ_НИЖЕ__ (пока не анализируем что это значит, просто имеем в виду).

    Возвращает np.array размера (query_data.shape[0], k) с айдишниками ближ. соседей
'''
train_neighbors = knn_feature_aggregator.kneighbors(
        query_data=train_data,
        k=100,
        is_train=True,
        index_add_info=index_add_info
)

# 4 (сначала см. пункт 3 ниже)
'''
    Информацию о признаках можно подавать, например, в виде такого словаря.
    Ключи - названия результирующих колонок с новыми признаками.
    Значения - таплы из:
        1. Название оригинальной колонки, по которой агрегируемся
        2. Аггрегирующая фукнция
        3. Список из количества ближайших соседей, по которым считаем агг. функцию.
            Здесь каждое число должно быть НЕ БОЛЬШЕ k из пункта 2 (вспоминаем "__МАКСИМАЛЬНОЕ_ИЗ_ТРЕБУЮЩИХСЯ_НИЖЕ__", понимаем :)

    Пример:
        Имеем из п. 2 айдишники соседей:
        train_neighbors = array([[1, 2, 3],
                                 [2, 0, 3],
                                 [3, 1, 4],
                                 [4, 2, 1],
                                 [3, 2, 1]], dtype=uint64)

        Тогда по записи {
            ...
            'new_neighbors_age_mean': ('age', 'mean', [2, 3]),
        }

        Создадутся две новых колонки - 'new_neighbors_age_mean_2nn', 'new_neighbors_age_mean_3nn'.
        В первой будет для каждого объекта лежать средний возраст его двух ближ. соседей,
            во второй - средний возраст трех ближ. соседей.

'''
feature_info =
{
                    #  название_колонки     агг.функция               список кол-ва соседей, по которым считать агг. функцию
    'new_col_name_1': ('original_col_name_1',     'sum',                                [10, 20, 100]),
    'new_col_name_2': ('original_col_name_2',     lambda x: x.min() % 3,                [50, 80, 100])
}

# 3
'''
    Суть этого класса - генерировать новые фичи на основе ближайших соседей. Здесь мы это и делаем.
    Для этого подаем на вход айдишники соседей из обучающей выборки и саму обучающую выборку.
    Далее, подаем на вход информацию о том, "какие" признаки нам нужны, см. выше.

    Возвращает датафрейм размера (neighbor_ids.shape[0], количество_новых_фичей_по_feature_info)
'''
train_new_feature_df = knn_feature_aggregator.make_features(
    neighbor_ids=train_neighbors,
    train_data=train_data,
    feature_info=feature_info
)
train_data_with_new_features = merge(train_data, train_new_feature_df)

# 5
'''
    Для тестовой выборки пайплайн будет выглядеть аналогично, за исключением того, что is_train теперь False
'''
test_neighbors = knn_feature_aggregator.kneighbors(
        query_data=test_data,
        k=100,
        is_train=False,
        index_add_info=index_add_info
)
test_new_feature_df = knn_feature_aggregator.make_features(
    neighbor_ids=test_neighbors,
    train_data=train_data,
    feature_info=feature_info
)
test_data_with_new_features = merge(test_data, test_new_feature_df)

```

### Задание:
Написать класс, который реализует все, что описано выше, в частности:

**\_\_init\_\_**
- вы сами решаете, какой будет индекс, будет ли он фиксирован и т.п.

**train**
- обучающую выборку не нужно сохранять в объект класса в целях экономии памяти
- если вам нужно разбить `train` на `train` и `add_items`,
      чтобы поддерживать обучение индекса на репрезентативном сабсэмпле, можете это сделать
- аргумент train_data - не обязательно выборка со всеми признаками.
      Вы хотите подавать сюда то подмножество признаков, по которому будете искать соседей
      (соответственно, нужно подавать уже приведенные к однородному виду данные)

**kneighbors**
- обязательна поддержка флажка is_train с описанным выше функционалом
- аргумент query_data - см. замечание к аргументу train_data из метода train выше

**make_features**
- обработайте отдельно случай, когда вы в качестве ближайших соседей подаете единственное число.
      Не нужно извне подавать список из одного числа, обработка должна быть внутри

**Эффективность**

Все должно быть реализовано эффективно. В том числе:
- без цикла for по всем объектам train_data/query_data
- без pd.DataFrame.apply
- можно использовать np.apply_along_axis (работает в ~5 раз быстрее, чем pandas)

**Пример**

Нужно привести пример работы вашего класса, запустив ячейки в блоке "Пример" ниже.
Не удаляйте авторский пример!

**Вопросы**

Нужно ответить на вопросы в блоке "Вопросы" ниже

**Note:** feature_info можете реализовать в любом виде, но описанный выше способ хорош тем,
      что его легко привести в удобный для дальнейшей работы вид:

In [None]:
import pandas as pd

feature_info = {
                    #  название_колонки     агг.функция               список кол-ва соседей, по которым считать агг. функцию
    'new_col_name_1': ('original_col_name_1',     lambda x: x.sum(),                                [10, 20, 100]),
    'new_col_name_2': ('original_col_name_1',     lambda x: x.mean(),                                [11, 21, 101]),
    'new_col_name_3': ('original_col_name_2',     lambda x: x.min() % 3,                [50, 80, 100])
}
pd.DataFrame(feature_info, index=['col_name', 'func', 'k']).T.explode('k').reset_index(names='new_col')

Unnamed: 0,new_col,col_name,func,k
0,new_col_name_1,original_col_name_1,<function <lambda> at 0x00000209414A3A60>,10
1,new_col_name_1,original_col_name_1,<function <lambda> at 0x00000209414A3A60>,20
2,new_col_name_1,original_col_name_1,<function <lambda> at 0x00000209414A3A60>,100
3,new_col_name_2,original_col_name_1,<function <lambda> at 0x00000209414A3420>,11
4,new_col_name_2,original_col_name_1,<function <lambda> at 0x00000209414A3420>,21
5,new_col_name_2,original_col_name_1,<function <lambda> at 0x00000209414A3420>,101
6,new_col_name_3,original_col_name_2,<function <lambda> at 0x00000209429A0360>,50
7,new_col_name_3,original_col_name_2,<function <lambda> at 0x00000209429A0360>,80
8,new_col_name_3,original_col_name_2,<function <lambda> at 0x00000209429A0360>,100


In [None]:
import numpy as np
from sklearn.neighbors import NearestNeighbors

In [None]:
class KNNFeatureAggregator:
    def __init__(self, n_neighbors_index=100, metric='euclidean'):
        '''
        - n_neighbors_index: максимальное количество соседей для поиска (не обязательно строго)
        - metric: метрика расстояния для поиска ближайших соседей
        '''
        self.n_neighbors_index = n_neighbors_index
        self.metric = metric
        self.nn_model = None
        self.train_data_columns = None

    def train(self, train_data, index_add_info=None):
        '''
        train_data: pd.DataFrame или np.ndarra обучающая выборка
        index_add_info: дополнительная информация для индекса, здесь можно не использовать.
        После этого вызова: self.nn_model будет содержать обученный индекс для поиска соседей.
        '''
        if isinstance(train_data, pd.DataFrame):
            self.train_data_columns = train_data.columns
            train_data_values = train_data.values
        else:
            train_data_values = train_data
        self.nn_model = NearestNeighbors(metric=self.metric)
        self.nn_model.fit(train_data_values)

    def kneighbors(self, query_data, k, is_train):
        '''
        Находит k ближайших соседей для query_data.
        query_data: pd.DataFrame или np.ndarray
        k: int - число соседей, которых нужно вернуть
        is_train: bool - если True, нужно исключить самих себя из соседей.
        Возвращает:
        neighbor_ids: np.array размера (query_data.shape[0], k).
        '''
        if isinstance(query_data, pd.DataFrame):
            if self.train_data_columns is not None:
                query_data = query_data[self.train_data_columns]
            query_values = query_data.values
        else:
            query_values = query_data

        actual_k = k + 1 if is_train else k

        distances, indices = self.nn_model.kneighbors(query_values, n_neighbors=actual_k)

        if is_train:
            indices = indices[:, 1:]
        return indices

    def make_features(self, neighbor_ids, train_data, feature_info):
        '''
        neighbor_ids: np.array (n_samples, k) с индексами соседей
        train_data: данные, по которым считать агрегаты.
          Должен содержать необходимые оригинальные колонки.
        feature_info: dict
            {
              'new_feature_name': (original_col_name, agg_function, list_of_ks)
            }
        Возвращает:
        pd.DataFrame с новыми фичами.
        '''
        train_values = train_data.values
        train_columns = train_data.columns
        col_to_idx = {c: i for i, c in enumerate(train_columns)}

        n_samples, k = neighbor_ids.shape
        result_cols = {}

        for new_col_name, (original_col_name, agg_func, list_of_ks) in feature_info.items():

            if not isinstance(list_of_ks, list):
                list_of_ks = [list_of_ks]

            col_idx = col_to_idx[original_col_name]
            col_values = train_values[:, col_idx]

            neighbor_values = col_values[neighbor_ids]

            for m in list_of_ks:
                subset = neighbor_values[:, :m]
                agg_result = np.apply_along_axis(agg_func, 1, subset)
                new_feature_col_name = f"{new_col_name}_{m}nn"
                result_cols[new_feature_col_name] = agg_result

        result_df = pd.DataFrame(result_cols)
        return result_df

### Пример

Ваш:

In [None]:
train_data = pd.DataFrame({
    'a': [1, 2, 3, 4, 5],
    'b': [10, 19, 27, 34, 40]
})
agg = KNNFeatureAggregator()
agg.train(train_data)
neighbor_ids = agg.kneighbors(train_data, k=3, is_train=True)
neighbor_ids # у вас индексы ближ. соседей могут отличаться

array([[1, 2, 3],
       [2, 0, 3],
       [3, 1, 4],
       [4, 2, 1],
       [3, 2, 1]], dtype=int64)

In [None]:
X = agg.make_features(neighbor_ids, train_data, feature_info={
    'a_sum': ('a', lambda x: x.sum(), [2, 3]),
    'b_whatever': ('b', lambda x: x.min(), 2),
})
X

Unnamed: 0,a_sum_2nn,a_sum_3nn,b_whatever_2nn
0,5,9,19
1,4,8,10
2,6,11,19
3,8,10,27
4,7,9,27


Авторский:

In [None]:
train_data = pd.DataFrame({
    'a': [1, 2, 3, 4, 5],
    'b': [10, 19, 27, 34, 40]
})
agg = KNNFeatureAgg(dim=2, metric='l2') # у автора: hnsw index
agg.train(train_data)
neighbor_ids = agg.kneighbors(train_data, is_train=True, k=3)
neighbor_ids # у вас индексы ближ. соседей могут отличаться

array([[1, 2, 3],
       [2, 0, 3],
       [3, 1, 4],
       [4, 2, 1],
       [3, 2, 1]], dtype=uint64)

In [None]:
X = agg.make_features(neighbor_ids, feature_info={
    'a_sum': ('a', lambda x: x.sum(), [2, 3]),
    'b_whatever': ('b', lambda x: x.min(), 2),
})
X

Unnamed: 0,a_sum_2nn,b_whatever_2nn,a_sum_3nn
0,5,19,9
1,4,10,8
2,6,19,11
3,8,27,10
4,7,27,9


### Вопросы

1) Какой / какие индекс[-ы] вы решили использовать для этой задачи и почему?
2) Какие недостатки / потенциальные зоны для улучшения у вашей текущей реализации?

1) Я использовал NearestNeighbors из sklearn с матриков евклида так как он самый простой и первый пришел в голову
2) Медленная и неэффективная работа на большом объеме данных
  не рассмотрены особенности категориальных признаков
  не рассмотрена нормировка данных перед поиском соседей
 можно было бы применить специальные библиотеки для поиска ближайших соседей которые позволяют строить высокопроизводительные индексы
 Нет проверки на пропуски данных