In [1]:
import matplotlib.pyplot as plt
import numpy as np
from scipy.misc import derivative
plt.style.use("dark_background")

### Обучение с учителем

- $\mathbb{X}-$ простарнство объектов
- $\mathbb{Y}-$ пространство ответов
- $x=(x^1, ..., x^d)-$ признаковое описание
- $X=(x_i, y_i)_{i=1}^l-$ обучающая выборка
- $a(x)-$ алгоритм, модель
- $Q(a,X)-$ функционал ошибки алкоритма $a$ на выборке $X$
- Обучение: $a(x) = \underset{a \in A}{argmin} Q(a, X)$

- Функционал ошибки?
- Семейство алгоритмов?
- Метод обучения ?


## Линейные модели

### Регрессия: $\mathbb{Y} =\mathbb{R}$
$$\notag
    a(x)=w_0+\sum\limits_{j=1}^d w_jx^j=\sum\limits_{j=1}^{d+1} w_jx^j=<w,x> 
$$

***Функционал ошибки***
- $a(x)-y$ - отклонение прогноза;
- $|a(x)-y|$ - модуль отклонения;
- $(a(x)-y)^2$ - квадрат отклонения.

***Среднеквадратичная ошибка***

$
Q(a,X)=\frac{1}{l}\sum\limits_{i=1}^l(a(x_i)-y_i)^2 \notag \Rightarrow$
$$\notag    
    Q(w,X)=\frac{1}{l}\sum\limits_{i=1}^l(<w_j,x_i>-y_i)^2, 
$$
где     $j=\overline{0, d}$

#### Обучение линейной регрессии
$$Q(w,X) = \frac{1}{l}||Xw-y||^2 \to \underset{w}{min} \notag$$
***Градиентный спуск***
- $w^0=0$
- $w^t=w^{t-1}-\eta_t \nabla Q(w^{t-1}, X)$, где $t=\overline{1,n}$

- Если $||w^t-w^{t-1}||<\varepsilon$, то завершить

*Спр**
- $\nabla_w Q(w,X)=\frac{2}{l}X^T(Xw-y)$
- $\frac{\partial Q}{\partial w_j}=\frac{2}{l}\sum\limits_{i=1}^{l}x_i^j
    (<w_jx_i^j> - y_i)    
  $
***Стохастический градиентный спуск***
- $w^0=0$
- $w^t=w^{t-1}-\eta_t \nabla Q(w^{t-1}, x_i)$, где $t=\overline{1,n}$ и $x_i$ - случайный объект из $X$
- Если $||w^t-w^{t-1}||<\varepsilon$, то завершить

#### Резюме
- Градиентный спуск требует вычисления полного градиента
- Стохастический градиентный спуск использует лишь один объект
- SGD позволяет обучать алгоритм на больших выборках

### Линейная классификация
#### Бинарная классификация: $\mathbb{Y} = \{-1, +1\}$

***Семейство алгоритмов***

- $a(x)=sign(w_0+\sum\limits_{j=1}^d w_jx^j)$

***Расстояние*** от точки до гиперплоскости $<w,x>=0$:
$\frac{|<w, x>|}{||w||}$

***Отступ***
- $M_i=y_i<w, x_i>$
- $M_i>0 - $ классификатор дает верный ответ
- $M_i<0 - $ классификатор дает неверный ответ
- чем больше отступ от нуля, тем больше уверенности

***Функционал ошибки:***
- $Q(a, X) = \frac{1}{l}\sum\limits_{i=1}^{l}[a(x_i) \neq y_i]-$ доля неправильных ответов;
- $Q(a, X) = \frac{1}{l}\sum\limits_{i=1}^{l}[M_i < 0]-$  доля неправильных овтетов (через отступы);
- $[M<0] \leq \overset{\sim}{L}(M) 
    \Rightarrow Q(a, X) \leq \overset{\sim}{Q}(a, X) 
        = \frac{1}{l}\sum\limits_{i=1}^{l}\overset{\sim}{L}(M_i) \to \underset{a}{min}$ 
    - логистическая функция потерь:
    $$\overset{\sim}{L}(M) = ln(1+exp(-M)) \notag$$
    - экспоненциальная:
    $$\overset{\sim}{L}(M) = exp(-M) \notag$$
    - кусочно-линейная:
    $$\overset{\sim}{L}(M)=max(0, 1-M) \notag$$