# Отбор признаков

Необходимо ввести следующие обозначения:
- $x_{ij}$ — значение признака j на объекте i,
- $\bar{x}_j$ — среднее значение признака j по всей выборке,
- $y_i$ — значение целевой переменной или ответа на объекте i,
- $\bar{y}$ — среднее значение целевой переменной на всей выборке.

Задача — оценить предсказательную силу (информативность) каждого признака, то есть насколько хорошо по данному признаку можно предсказывать целевую переменную. Данные оцененной информативности
можно использовать, чтобы отобрать k лучших признаков или признаки, у которых значение информативности больше порога (например, некоторой квантили распределения информативности).

### Одномерный отбор признаков:

#### Отбор признаков с использованием корреляции
- По типу данных **(признак, ответы): (бинарный, бинарный)** -> корреляция Пирсона

#### Использование бинарного классификатора для отбора признаков
- построение классификатора по каждому признаку. Например, можно рассмотреть очень простой классификатор,
который берёт значение признака j на объекте, сравнивает его с порогом t, и если значение меньше этого
порога, то он относит объект к первому классу, если же меньше порога — то к другому, нулевому или
минус первому, в зависимости от того, как мы его обозначили. Далее, поскольку этот классификатор зависит
от порога t, то его качество можно измерить с помощью таких метрик как площадь под ROC-кривой или
Precision-Recall кривой, а затем по данной площади отсортировать все признаки и выбирать лучшие.

#### Использование метрик теории информации для отбора признаков
- взаимная информация, или mutual
information. Она рассчитана на случай, когда **и признак, и целевая переменная — дискретные**.
Пусть необходимо решить задачу многоклассовой классификации. В этом случае целевая переменная
принимает m различных значений:
1, 2, . . . , m,
а признак — n значений:
1, 2, ..., n.
Поскольку для метрики взаимной информации не важны конкретные значения признаков, можно обозначать
их с помощью натуральных чисел. Вероятностью некоторого события будем обозначать долю объектов, для
которых это событие выполнено. Например, вероятность того, что признак принимает значение v, а целевая
переменная — k, вычисляется следующим образом:
$$P(x_j=v, y=k)=\frac{1}{l}\sum_{i=1}^{l}[x_{ij} = v][y_i = k]$$
Или, например, вероятность того, что признак равен v:
$$P(x_j = v) =\sum_{i=1}^{n}[x_{ij}=v]$$
Взаимная информация между признаком j и целевой переменой вычисляется по следующей формуле:
$$MI_j =\sum_{v=1}^{n}\sum_{k=1}^{m}P(x_j = v,y=k)log\frac {P (x_j = v, y = k)}{P (x_j = v)P (y = k)}$$
Главная особенность взаимной информации состоит в следующем: она равна нулю, если признак и целевая
переменная независимы. Если же между ними есть какая-то связь, то взаимная информация будет отличаться от нуля, причём она может быть как больше, так и меньше нуля. Это означает, что информативность
признаков нужно оценивать по модулю взаимной информации.

### Жадные методы отбора признаков

Жадные методы отбора признаков, по сути своей, являются надстройками над методами обучения моделей.
Они перебирают различные подмножества признаков и выбирают то из них, которое дает наилучшее качество
определённой модели машинного обучения.
Данный процесс устроен следующим образом. Обучение модели считается черным ящиком, который на
вход принимает информацию о том, какие из его признаков можно использовать при обучении модели, обучает модель, и дальше каким-то методом оценивается качество такой модели, например, по отложенной выборке
или кросс-валидации. Таким образом, задача, которую необходимо решить, — это оптимизация функционала
качества модели по подмножеству признаков

#### Переборные методы
Это подход очень хороший,он найдет оптимальное подмножество признаков, но при этом очень сложный, поскольку всего таких подмножеств $2^d$ , где d — число признаков

#### Метод жадного добавления

Жадная стратегия используется всегда, когда полный перебор не подходит для решения задачи. Например, может оказаться неплохой стратегия жадного наращивания (жадного добавления). Сначала находится
один признак, который дает наилучшее качество модели (наименьшую ошибку Q):
$$i_1 = argmin Q(i)$$.
Тогда множество, состоящее из этого признака:
$$J_1 = \{i_1\}$$
Дальше к этому множеству добавляется еще один признак так, чтобы как можно сильнее уменьшить ошибку
модели:
$$i_2 = argmin Q(i_1 ,i), J_2 = \{i_1 , i_2\}.$$
Далее каждый раз добавляется по одному признаку, образуются множества $J_3$ , $J_4$ , ... Если в какой-то момент
невозможно добавить новый признак так, чтобы уменьшить ошибку, процедура останавливается. Жадность
процедуры заключается в том, что как только какой-то признак попадает в оптимальное множество, его
нельзя оттуда удалить.

#### Алгоритм ADD-DEL
Алгоритм начинается с процедуры жадного добавления. Множество признаков
наращивается до тех пор, пока получается уменьшить ошибку, затем признаки жадно удаляются из подмно-
жества, то есть перебираются все возможные варианты удаления признака, оценивается ошибка и удаляется
тот признак, который приводит к наибольшему уменьшению ошибки на выборке. Эта процедура повторяет
добавление и удаление признаков до тех пор, пока уменьшается ошибка. Алгоритм ADD-DEL всё еще жадный, но при этом он менее жадный, чем предыдущий, поскольку может исправлять ошибки, сделанные в
начале перебора: если вначале был добавлен неинформативный признак, то на этапе удаления от него можно
избавиться.

### Отбор признаков на основе моделей

#### Использование линейных моделей для отбора признаков

Линейная модель вычисляет взвешенную сумму значений признаков на объекте:
$$a(x) =\sum_{j=1}^{d}w_jx^j$$
При этом возвращается сама взвешенная сумма, если это задача регрессии, и знак этой суммы, если это
задача классификации. Если признаки масштабированы, то веса при признаках можно интерпретировать
как информативности: чем больше по модулю вес при признаке j, тем больший вклад этот признак вносит
в ответ модели.

Если необходимо обнулить как можно больше весов, чтобы линейная модель учитывала только те признаки, которые наиболее важны для нее, можно использовать L1-регуляризацию. Чем больше коэффициент
при L1-регуляризаторе, тем меньше признаков будет использовать линейная модель.

#### Применение решающих деревьев для отбора признаков

Еще один вид моделей, обсуждаемых в предыдущем курсе, — это решающие деревья. Решающие деревья
строятся «жадно»: они растут от корня к листьям, и на каждом этапе происходит попытка разбить вершину
на две. Чтобы разбить вершину, нужно выбрать признак, по которому будет происходить разбиение, и порог,
с которым будет сравниваться значение данного признака. Если значение признака меньше этого порога,
то объект отправляется в левое поддерево, если больше — в правое поддерево. Выбор признака и порога
осуществляется по следующему критерию:
$$Q(X_m , j, t) =\frac{|X_l|}{|X_m|}H(X_l)+\frac{|X_r|}{|X_m|}H(X_r) → min_{j,t}$$
где $H(X)$ — это критерий информативности. Ранее в курсе были рассмотрены различные критерии информативности. Например, в задаче регрессии используется функционал среднеквадратичной ошибки, а в классификации — критерий Джини или энтропийный критерий.

Критерий Q вычисляет взвешенную сумму критериев информативности H(X) в обеих дочерних вершинах
— левой и правой. Чем меньше данная взвешенная сумма, тем больше признак j и порог t подходят для
разбиения.

Если в данной вершине происходит разбиение по признаку j, то чем сильнее уменьшается значение кри-
терия информативности, тем важнее этот признак оказался при построении дерева. Таким образом, можно
оценивать важность признака на основе того, насколько сильно он смог уменьшить значение критерия инфор-
мативности. Пусть, в вершине m произведено разбиение по признаку j. Тогда можно вычислить уменьшение
критерия информативности в ней по следующей формуле:
$$H(X_m)−\frac{|X_l|}{|X_m|}H(X_l)−\frac{|X_r|}{|X_m|}H(X_r)$$
$R_j$ - сумма данного уменьшения по всем вершинам дерева, в которых происходило разбиение по признаку j.
Чем больше $R_j$ , тем важнее данный признак был при построении дерева.

#### Использование композиций алгоритмов для отбора признаков
Сами по себе решающие деревья не очень полезны, но они очень активно используются при построении ком-
позиций, в частности, в случайных лесах и в градиентном бустинге над деревьями. В данных композициях
измерить важность признака можно аналогичным образом: суммируется уменьшение критерия информатив-
ности $R_j$ по всем деревьям композиции, и чем больше данная сумма, тем важнее признак $j$ для композиции.
То есть признаки оцениваются с помощью того, насколько сильно они смогли уменьшить значение критерия
информативности в совокупности по всем деревьям композиции.
Для случайного леса можно предложить еще один интересный способ оценивания информативности при-
знаков. В этой композиции каждое базовое дерево $b_n$ обучается по подмножеству объектов обучающей вы-
борки. Таким образом, есть объекты, на которых дерево не обучалось, и набор этих объектов является вали-
дационной выборкой для дерева n. Такая выборка называется out-of-bag. Итак, метод заключается в следу-
ющем: ошибку $Q_n$ базового дерева $b_n$ оценивают по out-of-bag-выборке и запоминают. После этого признак
$j$ превращают в абсолютно бесполезный, шумовой: в матрицу «объекты-признаки» все значения в столбце
$j$ перемешивают. Затем то же самое дерево $b_n$ применяют к данной выборке с перемешанным признаком j
и оценивают качество дерева на out-of-bag-подвыборке. $Q_{n}^{'}$ — ошибка out-of-bag-подвыборке, она будет тем
больше, чем сильнее дерево использует признак j. Если он активно используется в дереве, то ошибка сильно
уменьшится, поскольку значение данного признака испорчено. Если же данный признак совершенно не важен
для дерева и не используется в нем, то ошибка практически не изменится. Таким образом, информативность
признака j оценивают как разность
$$Q_{n}^{'}−Q_n.$$
Далее эти информативности усредняют по всем деревьям случайного леса, и чем больше будет среднее значе-
ние, тем важнее признак. На практике оказывается, что информативности, вычисленные описанным образом,
и информативности, вычисленные как сумма уменьшения критерия информативности, оказываются очень
связаны между собой.

# Понижение размерности

Создаются новые признаки на основе начальных. Общее количество признаков уменьшается.