# Нелинейные границы при добавлении признаков

При обучении бинарного классификатора мы использовали следующее выражение для определения "уверенности" предсказания:
$$\vec{\omega}\cdot\vec{x}$$

Рассмотрим случай,  когда каждый обект описывался  двумя переменными: $\vec{x}=(x_1, x_2)$. Для удобства обозначим их $x$ и $y$. Тогда выражение для уверенности классивфикатора можно записать следующим образом (не учитываем свободный член для краткости):
$$\vec{\omega}\cdot\vec{x}=\omega_1\cdot x+\omega_2\cdot y$$

Если это выражение оказывалось положительным, то мы считали что объект принадлежит к классу "I", если отрицателным, то к классу "II". 

Границей между классами является множество точек для которого выполняется соотношение:
$$\omega_1\cdot x+\omega_2\cdot y=0$$

Это уравнение задает прямую, то есть линейную границу.

Как получить в качестве границы какую-то кривую? Надо изменить уравнение границы.

Для этого мы можем добавить новые признаки к описанию каждого объекта. Откуда их взять? Сгенерировать из старых, например

$$x_3 = x^2$$

Тогда вектор описания каждого объекта будет иметь следующий вид:
$$\vec{x}=(x_1, \;x_2)=(x,\; y)\;\; \rightarrow\;\; \vec{x}'=(x_1,\; x_2,\;x_3)=(x,\;y,\;x^2)$$

Теперь вектор $\vec{\omega}'$ тоже будет содержать 3 компоненты и уверенность нашего классификатора будет описываться следующим выражением:

$$\vec{\omega}'\cdot\vec{x}'=\omega_1\cdot x+\omega_2\cdot y+\omega_3\cdot x^2$$

А уравнение границы будет иметь следующи вид:
$$\omega_1\cdot x+\omega_2\cdot y+\omega_3\cdot x^2=0$$

Переносим $y$ в другую часть, делим на $\omega_2$ и получаем в привычном виде уравнение параболы.

Теперь если при обучении мы получим, что $\omega_3$ оказалось близко к 0, значит граница останется линейной, то есть модель получила дополнительные возможности, но не потеряла старые.

Заметим, что хотя теперь каждый объекты описывается тремя параметрами, но они зависят друг от друга, и  граница все еще будет лежать в  плоскости.

В случае более сложных границ мы можем еще больше расширить "емкость" нашей модели добавляя дополнительные слагаемые, например:
$$x_4=y^2$$
$$x_5=x\cdot y$$
$$x_6=x^2\cdot y$$
$$\ldots$$

Чем больше параметров, тем более разнообразным разделительным поверхностям можно обучить модель. 
Почему тогда сразу не добавить как можно больше различных слагаемых?

1. Упадет скорость обучения
2. Модель может переобучится и показывать плохие результаты на новых данных

Обычно в качестве параметра при добавлении новых признаков используют максимальное количество множителей в слагаемом: $x_3$,  $x_4$ и  $x_5$ содержат по 2 множителя,  а  $x_6$ уже три.

Значит мы можем варьируя этот параметр обучить несколько моделей и выбрать из них лучшую.


# Метрики качества

Как сравнивать разные модели? 
Для обучения моделелей мы вводили функцию потерь, которая показывала насколько предсказания модели были близки к известным. Однако рассмотрени только функции потерь не всегда достаточно.

Рассмотрим пример бинарной классификации. Введем обозначения традиционные называния для классов: Positive и Negative. Тогда все предсказания мы можем разделить на 4 типа:
1. True Positive (TP) - правильно предсказанные объекты из Positive класса.
1. False Positive (FP) - объекты из Negative класса, которые модель ошибочно отнесла к Positive классу
1. True Negative (TN) - правильно предсказанные объекты из Negative класса.
1. False Negative (FN) - объекты из Positive класса, которые модель ошибочно отнесла к Negative классу

![Confusion matrix](https://raw.githubusercontent.com/mlforschool/lessons/master/5_Logistic_Regression/images/Matrix.PNG)
![Типы предсказаний](https://raw.githubusercontent.com/mlforschool/lessons/master/5_Logistic_Regression/images/PredictionTypes.png)

Интуитивным параметром описывающим качество предсказаний можно считать долю правильных ответов, среди всех:
$$accuracy=\frac{TP+TN}{TP+FP+TN+FN}$$

Стоит ли доверять предсказаниям модели с долей правильных ответов, например, более 97%?

Рассмотрим случай дисбаланса классов  -  значительное отличие представителей разных классов.

Пусть мы хотим узнать вероятность сильного урагана, которых за год бывает ровно 10.
Тогда если наши модель выдаст для всех дней ответ Negativ, то точность будет:
$$accuracy=\frac{355}{365}\approx 0.972$$
Очень высокая точность, но про ураганы мы не узнали абсолютно ничего нового) То есть для нас эта модель бесполезна.

Нужны другие критерии.
1. Точность (Presicion):
$$presicion = \frac{TP}{TP+FP}$$
 показывает, какая доля объектов, выделенных классификатором как поло-
жительные, действительно является положительными. 

2. Полнота (Recall):
$$recall = \frac{TP}{TP+FN}$$
показывает, какая
часть положительных объектов была выделена классификатором.

В нашем случае:
$$presicion = \frac{TP}{TP+FP}=\frac{0}{0+0} - не определена$$
$$recall = \frac{TP}{TP+FN}  = \frac{0}{0+10}=0$$

Лучшие значения для каждой из метрик - 1.

Для одновременного учета метрик вводят величину $F_1$:

$$F_1 = 2\cdot\frac{presicion\cdot recall}{presicion+recall}$$
 

##Пример из лекций [Евгения Соколова](https://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem05_metrics.pdf)

Рассмотрим задачу бинарной классификации с миллионом объектов (N = 1.000.000), где доля объектов первого класса составляет 1% (P = 10.000). Мы знаем, что доля правильных ответов будет вести себя не вполне интуитивно на данной несбалансированной выборке, и поэтому выберем точность и полноту для измерения качества классификаторов. Поскольку мы хотим решить задачу хорошо, то введём требования, что и точность, и полнота должны быть не менее 90%. Эти требо-
вания кажутся вполне разумными, если забыть о соотношении классов. Попробуем теперь оценить, какая доля правильных ответов должна быть у классификатора, удовлетворяющего нашим требованиям.

Всего в выборке 10.000 положительных объектов, и для достижения полноты 90% мы должны отнести как минимум 9.000 к положительному классу. Получаем TP = 9000, FN = 1000. Так как точность тоже должна быть не меньше 90%, получаем FP = 1000. Отсюда получаем, что доля правильных ответов должна быть равна 2.000/1.000.000 = 99.8%! Это крайне высокий показатель, и его редко удаётся достичь на таких выборках во многих предметных областях.

Существуют и другие метрики. Одна из часто используемых - ROC AUC. В ее основе лежит идея, что мы имее предсказания вероятностей для классов, и далее можем менять порог. Например можем отнести к классу "I" все объекты для которых вероятность больше чем 0.75. Рассматривая  значения порога как переменную можно получить зависимость того насколько хороша наша модель, от порога. Площадь под этим графиком и будет итоговой характеристикой: чем ближе к 1 тем лучше. 