# Методы отбора признаков

Это процесс отбора подмножества значимых признаков для использования в построении модели. Методы отбора применяют в случаях когда нужно сократить количество признаков для:
- ускорения алгоритмов обучения
- уменьшения потребляемой памяти
- избавления от неинформативных признаков и выбросов

Прежде, чем описывать алгоритмы, подготовим среду *jupyter notebook*.

In [5]:
import os
import sys
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

И установим внешние зависимости:

In [6]:
import numpy as np
from itertools import combinations

Также понадобятся вспомогательные методы.

1. Получает на вход выборку `dataset`. Ожидается, что `dataset` будет взят из `sklearn/datasets`, но можно любую структуру данных с аналогичным интерфейсом.

In [7]:
def get_feature_count(dataset):
    return len(dataset.data[0])

2. Получает на вход выборку `dataset` и массив прикнаков `feature`. Выбирает из выборки только признаки из `feature`, проводит по ним обучение (взял *наивного Байеса*), проводит классификацию и возвращает количество допущенных ошибок.

In [9]:
from sklearn.naive_bayes import GaussianNB

def count_error(dataset, features):
    data = dataset.data[:, features]

    gnb = GaussianNB()
    gnb.fit(data, dataset.target)

    y_predict = gnb.predict(data)

    return (dataset.target != y_predict).sum()

## Полный перебор

Полный перебор даёт 100% гарантию наилучшего ответа. Очевидно, что сложность алгоритма *экспоненциальная* и при большом количестве признаков умноженном на скорость обучения ответа можно не дождаться.

Алгоритм перебирает всевозможные наборы прикнаков и из наилучшего берет с наименьшим количеством признаков.

Введём вспомогательную функцию, которая будет по количеству признаков возвращать генераторы комбинаций прикнаков:

In [10]:
def __feat_gen(count):
    for c in range(1, count + 1):
        arr = list(range(count))
        comb = combinations(arr, c)

        yield from comb

Функция полного перебора признаков на вход получает выборку `dataset`, возвращает словарь с интерфейсом:
- `features` – массив признаков, дающий наименьшую ошибку
- `error` – ошибка

**Все последующие функции отбора признаков имеют такой же тип ответа.**

In [11]:
def selection_full_search(dataset):
    feature_count = get_feature_count(dataset)
    result = {
        "error": 9999,
        "features": []
    }

    for feat_cur in __feat_gen(feature_count):
        error = count_error(dataset, feat_cur)

        if error < result["error"]:
            result = {
                "error": error,
                "features": feat_cur
            }

    return result

**Применение и сравнение результатов будет в конце**

## Алгоритм ADD

Является жадным алгоритмом. Начинает с набора признаков `= []`. Добавляет в набор признаков по одному наилучшему признаку до тех пор, пока 