### Logistic regression

Рассмотрим задачу бинарной классификации: $\{X_i, Y_i\}$, где $y_i$ могут принимать только значения из множества {0, 1}. Хотим предсказывать, с какой вероятностью ($p_i$) объект $x_i$ принадлежит тому или иному классу.

Рассмотрим отношение шансов: 
$$ odds_i = \frac{p_i}{1-p_i}$$

Давайте прологарифмируем, получим величину от $-inf$ до $+inf$
$$logit(p_i) = \eta_i = ln(\frac{p_i}{1-p_i})$$
А полученную функцию будем называть логистическим преобразорванием.
Тогда:
$$ln(\frac{p_i}{1-p_i}) = x_i*{\theta}$$ 

Преобразуя, получим:
$$\Large p_i = \frac{1.}{(1+e^{-x_i*{\theta}})} = \sigma(x_i*{\theta}) = sigmoid(x_i*{\theta})$$

Тогда вероятности: \
$p_{+} = \sigma(x*\theta)$

$p_{-} = 1 - \sigma(x*\theta) = \sigma(-x*\theta)$

$P(y=y_{i}|x_{i}, \theta) = \sigma(M)$

Здесь $M$ - отступ:
$$\Large M(x_i) = M_i = y_i * (<w, x_i> - b)$$


Метод максимального правдоподобия (максимизируем вероятность получить $\vec{y}$ на выборке $X$):
$$P\left(\vec{y} \mid X, \vec{w}\right) = \prod_{i=1}^{\ell} P\left(y = y_i \mid \vec{x_i}, \vec{w}\right)$$

$\ell$ - длина выборки

Взяв log:
$$\Large \log P\left(\vec{y} \mid X, \vec{w}\right) = \dots =  - \sum_{i=1}^{\ell} \log (1 + \exp^{-y_i\vec{w}^T\vec{x_i}})$$

=> необходимо минимизировать:
$$ \mathcal{L_{log}} = \sum_{i=1}^{\ell} \log (1 + \exp^{-y_i\vec{w}^T\vec{x_i}}) $$

$L_2$ reg:
$$\large L_2(X, \vec{y}, \vec{w}) = \mathcal{L_{log}} (X, \vec{y}, \vec{w}) + \lambda |\vec{w}|^2$$

Тогда, введя $C=\frac{1}{\lambda}$:
$$\large \hat{w} = \arg \min_{\vec{w}} L_2(X, \vec{y}, \vec{w}) = \arg \min_{\vec{w}}\ (C\sum_{i=1}^{\ell} \log (1 + \exp^{-y_i\vec{w}^T\vec{x_i}})+ |\vec{w}|^2)$$

!
<!-- <img src="BCE.png"> -->

---

### SVM

В бинарном линейно разделимом случае ищем разделяющую гиперплоскость, расстояние от которой до каждого класса минимально.
Предсказания:
$$\Large\alpha(x, \theta, \theta_0) = sign(<x, \theta> - \theta_0)$$


Введем отступ:
$$\Large M(x_i) = M_i = y_i * (<w, x_i> - b)$$


Функционал эмпирического риска:
$$\Large Q(w, b, X) = \sum_{i = 1}^{N}[M_i < 0]$$
$$\Large Q\rightarrow min$$

Сведем к задаче минимизации эмпирического риска:

$$\Large [M_i < 0]\leq L(M_i)$$


где $L:\R\rightarrow\R_+$ - непрерывная неубывающая функция.

Тогда:
$$\Large \sum_{i = 1}^{N}L(M_i)\rightarrow min$$

Взяв $L = (1 - M)_+$ - получим метод опорных векторов(Support Vector Machine) \
Взяв $L = log(1 + e^{-M})$ получим лог. регрессию

<img src="SVM.png">

Полоса: \
$-1\leq(<x_i, \theta>+b)\leq 1$

Возьмем 2 объекта на границе полосы (опорные вектора):
$$b - 1 + <x_+, \theta> = 0$$
$$b + 1 + <x_-, \theta> = 0$$

<img src="SVMpm.png">

$$<(x_+-x_-), \frac{\theta}{\lVert{\theta}\rVert}> = \frac{2}{\lVert{\theta}\rVert}$$ 

Тогда:

$\begin{equation}
 \begin{cases}
  0.5<\theta, \theta>\rightarrow min
  \\
  y_i(<x_i, \theta>+b)\geq 1
 \end{cases}
\end{equation}$


Теорема Куна-Такера =>

$\begin{equation}
 \begin{cases}
   L(\theta, b) = 0.5<\theta, \theta> - \sum_i \lambda_i({y_i(<x_i, \theta>+b)-1})\rightarrow min_{\theta, b}, max_{\lambda_i}
   \\
   \lambda_i \geq 0
   \\
   \lambda_i (y_i(<x_i, \theta>+b)-1) = 0
 \end{cases}
\end{equation}$

Ищем производные 
$$\frac{\partial{L}}{\partial\theta_j} = 0 = \theta_j - \sum_i \lambda_iy_ix_{ij}$$
$$\frac{\partial{L}}{\partial{b}} = 0 = \sum_i \lambda_iy_i$$

Подставляем:
$$L = \sum_i \lambda_i - 0.5<\sum_i \lambda_iy_ix_{i}, \sum_j \lambda_jy_jx_{j}>$$

Оптимизируем градиентным спуском.

Добавим ошибку для линейно неразделимого случая:

<img src="sgd.png">

---

### Decision tree

Делим выборку используя предикаты. \
Рассмотрим энтропию:
$$S = -\sum_{i = 1}^{C}p_i log_2 p_i$$
Это математическое ожидание количества бит, которым необходимо закодировать сообщение/мера порядка (чем выше, тем менее упорядочена выборка).

Делим выборку и пытаемся сделать энтропию ниже в выборках после разделения.

Прирост информации (information gain):
$$IG(P) = S_0 - \sum_{i = 1}^{2}\frac{N_i}{N}S_i$$


Выбираем предикат так, что $IG\rightarrow max$:
$$argmax_P(IG(\phi))$$


Функционал качества:
$$Q(N) = H(N) - \frac{N_{1}}{N}*H(N_1) - \frac{N_{2}}{N}*H(N_2)$$

Другой критерий качества разбиения - неопределенность Джини (Gini impurity):
$$ G = \sum_{k=1}^{C} p_k*(1 - p_k) $$ 

(вероятность проклассифицировать неправильным образом случайно взятую точку из нашего датасета)

Останавливаемся при достижении определенной точности/глубины/количества элементов в листе.

---

### Random forest

Для {n = 1, ..., N} генерируем выборку $\tilde X_n$ с помощью бутстрэпа. Строим над ней дерево $b_n$ (разбиения в вершинах - по подмножеству признаков). \
Предсказание: возвращааем результат голосования/среднее значение 

---

### Naive Bayes

По т. Байеса:

$$P(y|x_1, x_2, ...x_M) = \frac{P(y)P(x_1, x_2, ...x_M|c)}{P(x_1, x_2, ...x_n)}$$

Предполагая независимость признаков:
$$P(y)P(x_1, x_2, ...x_M|y) = P(y)P(x_1|y)P(x_2|y)...P(x_M|y) = P(y)\prod_{i = 1}^{M}P(x_i|y)$$

Тогда:
$$P(y \mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)}
                                 {P(x_1, \dots, x_n)}$$

Так как $P(x_1, \dots, x_n) = const$, то:
$$P(y \mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$$

Тогда алгоритм:
$$\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y)$$

---

### Logistic regression

Идея линейного классификатора: признаковое пространство может быть разделено гиперплоскостью на два полупространства, в каждом из которых прогнозируется одно из двух значений целевого класса.


Линейная регресия - модель вида 
$$\Large \^y = <w, x> + w_0$$


Используем метрики: <br>
$MAE = \frac{1}{N}\sum_{i=1}^{N}\big|a(x_i) - y_i\big|$ - абсолютная ошибка.<br>
$𝑀𝑆𝐸 = \frac{1}{N}\sum_{i=1}^{N}\big(a(x_i) - y_i\big)^2$ - квадратичная ошибка.<br>



Точное значение для w в MSE:
$$\Large w = (X^TX)^{-1}X^TY$$



!
<!-- <img src="grad.png"> -->


Но линейная регрессия дает значения $(-\inf; \inf)$. Хотим вероятность предсказания класса 1.
=> используем формула лог. регрессии:
$$ \Large P_{+} = \frac{1}{1 + e^{-\^y}}$$


При этом:
$$\Large P_+(x_i) = P(y_i = +1 | x_i, w) = \sigma(<w, x>)$$
$$\Large P_-(x_i) = P(y_i = -1 | x_i, w) = \sigma(-<w, x>)$$


Объединяя:
$$\Large P(y=y_i|x_i, w) = \sigma(y_i<w,x_i>)=\sigma(M)$$


Правдоподобие:
$$\large P\left(\vec{y} \mid X, \vec{w}\right) = \prod_{i=1}^{\ell} P\left(y = y_i \mid \vec{x_i}, \vec{w}\right)$$


Берем log для перехода к сумме:
$$\large \begin{array}{rcl} \log P\left(\vec{y} \mid X, \vec{w}\right) =\dots= - \sum_{i=1}^{\ell} \log (1 + \exp^{-y_i\vec{w}\vec{x_i}}) \end{array}$$


Максимизация правдоподобия дает минимизацию выражения:
$$\large \mathcal{L} (X, \vec{y}, \vec{w}) = \sum_{i=1}^{\ell} \log (1 + \exp^{-y_i\vec{w}^T\vec{x_i}}).$$

---

Для M классов:
$$\Large\^{\overrightarrow{y}} = softmax(W*\overrightarrow{x})$$
$$\Large softmax(\overrightarrow{z}) = {\frac{e^{z_i}}{\sum_{i=1}^{M}e^{z_i}}}$$


Вероятности:
$$\Large\^{\overrightarrow{y}} \in \R^M,\ \sum_{i = 1}^{M}\^{y}_i = 1 $$
$$\Large\^y = argmax(\^{\overrightarrow{y}})$$