### <center>Логистическая регрессия</center>

#### Линейный классификатор

Перед тем, как непосредственно перейти к логистической регрессии, рассмотрим задачу линейной классификации в целом. И начнем с самого простого ее варианта - бинарной классификации. В этом случае мы будем определять к какому из двух классов можно отнести объект.  
  
Мы уже знакомы с линейной регрессией и линейный классификатор устроен очень похоже. В линейной регрессии, чтобы получить отклик "$y$" мы складывали все признаки с весами (добавив еще вес для свободного коэффициента):

$y = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n$

В случае регрессии нас все устраивало. Мы получали в "$y$" какое-либо вещественное значение, а в задаче классификации нам нужно получить метку класса - "+" или "-" ("+1" или "-1", "0" или "1"). Для этого можно взять знак от выражения для регрессии:

$y(x) = sign(w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n)$ - это и есть формула линейного классификатора.

В математике функция $sign(x)$ (знак числа) определена так:   
$sign(x) = 1$, если $x > 0,$   
$sign(x) = -1$, если $x < 0$,   
$sign(x) = 0$, если $x = 0$.

Теперь давайте разберемся, какой геометрический смысл у линейного классификатора. 

$w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n$ - это уравнение гиперплоскости, причем эта плоскость расположена перпендикулярно вектору весов этой модели. Таким образом, эта плоскость делить пространство на два класса и все объекты, которые находятся с одной стороны относит к классу "+1", а те которые с другой стороны - к классу "-1" (см. левую часть рисунка).

<img src="linearNonlinear.png">  


Если это можно сделать без ошибок, то обучающая выборка называется *линейно разделимой*. А в случае, если поверхность разделяющая классы уже не является  плоскостью, говорят о нелинейном классификаторе (см. правую часть рисунка).  

Если посмотреть на данное разделение в двумерном пространстве, то разделяющая плоскость превратится в линию. Если объект располагается над ней, то алгоритм относит его к классу "+", а если под ней, то к классу "-". Очевидно, что изображенный на рисунке классификатор ошибается довольно часто.  

<img src="logreg2.png" width=60%> 

#### Логистическая регрессия

Логистическая регрессия это частный случай линейного классификатора, она относится к методам обучения с учителем. И здесь так же, как и в линейной регрессии, по признаковому описанию объекта (по вектору признаков) предказывается значение отклика (целевой переменной). А именно, вероятность принадлежности объекта к классу. 

Известно, что все регрессионные модели имеют следующий вид:

$y = F(x_1,x_2,...,x_n)$

И, теоретически, ничто нам не мешает ее использовать в задаче классификации. Мы можем воспользоваться градиентным спуском и подобрать веса модели в зависимости от признаков и ответа на объектах выборки.
Допустим, мы ее применили для классификации в задаче "Пойдет ли завтра дождь?": класс "+" будет означать, что пойдет, а "-", что не пойдет. И линейная регрессия даст ответ, который может быть любым вещественным числом, в диапазоне от $-\infty$ до $+\infty$. Получается, что нам нужна функция, которая позволит преобразовать пространство всех вещественных чисел в диапазон от $[0,1]$.

Такая функция есть, она принадлежит семейству обобщенных линейных моделей, и называется она "сигмоида":

$$\sigma(z) = \frac{1}{1 + \exp^{-z}}$$

$$z = F(x_1,x_2,...,x_n)$$

Для одномерного случая: $w_1x + w_0$
- значение $w_0$ (свободный коэффициент) определяет положение центра сигмоиды на числовой оси;
- а вес при единственном признаке $w_1$ определяет форму сигмоиды.

Если $w_1$ положительный, то сигмоида возрастающая, а если отрицательный, то убывающая.

<img src="sigm.png"> <img src="sigm2.png"> 

Чем больше значение $w_1$ по модулю, тем больше будет наклон сигмоиды к области ее середины: <img src="sigm3.png"> 

Таким образом, логистическая регрессия прогнозирует вероятность отнесения примера к классу "+" (при условии, что мы знаем его признаки и веса модели) как сигмоид-преобразование линейной комбинации вектора весов модели "$w$" и вектора признаков "$x$":

$$y = \frac{1}{1 + \exp^{-(w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n)}}$$

В результате, мы получаем значение "$y$" в диапазоне от $[0,1]$ - и это будет вероятность того, что данный объект принадлежит к классу "+". А итоговую метку класса мы сможем назначить, сравнивая эту вероятность с 0.5 (центр сигмоиды). Соответственно, класс "+" будет при y > 0.5, а класс "-" при y <= 0.5

Получается, что самое главное в классификации логистической регрессией - подобрать веса $w$ при признаках в показателе степени $e$. Эту задачу можно решить при помощи метода максимального правдоподобия.

#### Метод максимального правдоподобия

Метод максимального правдоподобия (англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.

Это метод поиска модели, наилучшим образом описывающей обучающую выборку, полученную с некоторым неизвестным распределением. С его помощью можно подобрать такую оценку, при которой вероятность получить имеющиеся данные максимальна. Давайте разберем его на примере.

Допустим, по пути из школы домой мы задали один и тот же вопрос 10 случайным людям.  
<center><b>"Нравится ли вам погода сегодня?"</b></center>

\begin{array}{rr} \hline
Респондент &{Ответ } \\ \hline
1 &нравится \\ 
2 &нет \\ 
3 &нравится \\ 
4 &нет \\ 
5 &нравится \\ 
6 &нравится \\ 
7 &нравится \\ 
8 &нравится \\
9 &нет \\ 
10 &нравится \\ 
\end{array}

Теперь у нас есть обучающающая выборка из 10 людей. И мы предполагаем, что вероятность того, что погода сегодня нравится случайному человеку равно некоему значению "$p$".

\begin{array}{rr} \hline
Респондент &{Ответ } \\ \hline
1 &p \\ 
2 &(1-p) \\ 
3 &p \\ 
4 &(1-p) \\ 
5 &p \\ 
6 &p \\ 
7 &p \\ 
8 &p \\
9 &(1-p) \\ 
10 &p \\ 
\end{array}

Тогда вероятность получить такую же картину как в таблице будет равна произведению вероятностей, так как мы считаем эти события независимыми:  
$$p\cdot (1-p)\cdot p\cdot(1-p)\cdot p\cdot p\cdot p\cdot p\cdot (1-p)\cdot p  $$

Упростив, мы получим функцию:  
$$p^7*(1-p)^3$$

И теперь подберем такое значение "$p$" при котором эта вероятность максимальна.

Визуально это означает найти точку на оси $x$, которой соответствует вершина этого графика: <img src="p.png">

Как вы знаете, чтобы максимизировать функцию, придется брать ее производную. Производную от суммы брать проще, чем от произведения, поэтому чтобы облегчить себе жизнь, математики решили сначала логарифмировать эту функцию, а потом брать производную.

$$L = \log({p^7(1-p)^3})$$

<img src="logp.png">

Функцию $p^7*(1-p)^3$ называют <b>функцией правдоподобия</b>, а $\log({p^7(1-p)^3})$ - <b>логарифмической функцией правдоподобия</b>. Само же значение $p$, при котором и функция правдоподобия, и логарифмическая функция правдоподобия принимают максимальные значения, называют <b>оценкой максимального правдоподобия</b>. 

Итак, найдем оценку максимального правдоподобия для нашего примера.

<b>Шаг 1:</b>   
По выборке выводим функцию правдоподобия = $p\cdot (1-p)\cdot p\cdot(1-p)\cdot p\cdot p\cdot p\cdot p\cdot (1-p)\cdot p$  

<b>Шаг 2:</b>   
Берем логарифм от этой функции и упрощаем ее.  
$L = \log({p^7(1-p)^3}) = \log{p^7} + \log{(1-p)^3} = 7\log{p} + 3log{(1-p)}$  

<b>Шаг 3:</b>   
Дифференцируем (берем производную по $p$) логарифмическую функцию правдоподобия $L$ и приравниваем к нулю  
$7 \cdot \frac{1}{p} - 3 \cdot \frac{1}{1-p} = 0$

Домножаем обе части на $p(1-p)$:

$(7\cdot \frac{1}{p} - 3 \cdot\frac{1}{1-p})\cdot p(1-p) = 0\cdot p(1-p)$  
$7(1-p) - 3p = 0$  
$7-10p = 0$  
$p = 0.7$ - и вот она, максимальная оценка правдоподобия!

### <center>Домашняя работа</center>
Представьте, что на следующий день вы шли из школы в два раза дольше и успели опросить больше, но совсем других случайных людей. И вот какие ответы получили.
<center><b>"Нравится ли вам погода сегодня?"</b></center>

\begin{array}{rr} \hline
Респондент &{Ответ } \\ \hline
1 &да \\ 
2 &нет \\ 
3 &нет \\ 
4 &нет \\ 
5 &да \\ 
6 &нет \\ 
7 &да \\ 
8 &да \\
9 &нет \\ 
10 &да \\ 
11 &да \\ 
12 &да \\ 
13 &нет \\ 
14 &да \\ 
15 &да \\ 
\end{array}

Рассчитайте максимальную оценку правдоподобия для этого случая.