[Статья](https://habrahabr.ru/company/ods/blog/323890/)
Линейные модели классификации и регрессии

План:
* Линейная регрессия
 * Метод наименьших квадратов
 * Метод максимального правдоподобия
 * Разложение ошибки на смещение и разброс (Bias-variance decomposition)
 * Регуляризация линейной регрессии
* Логистическая регрессия
 * Линейный классификатор
 * Логистическая регрессия как линейный классификатор
 * Принцип максимального правдоподобия и логистическая регрессия
 * L2-регуляризация логистической функции потерь
* Наглядный пример регуляризации логистической регрессии
* Где логистическая регрессия хороша и где не очень
 * Анализ отзывов IMDB к фильмам
 * XOR-проблема
* Кривые валидации и обучения
* Плюсы и минусы линейных моделей в задачах машинного обучения

# Линейная регрессия

### Модель:
$y_i = \sum_{j=0}^m w_j X_{ij} + \epsilon_i$

Ограничения: м.о. случаных ошибок = 0, дисперсия одинакова и конечна, случайные ошибки не скоррелированы

### Метод наименьших квадратов
$\vec{w} = \left(X^T X\right)^{-1} X^T \vec{y}$

МНК даёт лучшую (с наименьшей дисперсией) оценку среди линейных и не смещенных

### Метод наибольшего правдоподобия
в предположении, что ошибки берутся из нормального центрированного распределения, записываем правдоподобие
$\begin{array}{rcl} p\left(y_i \mid X, \vec{w}\right) &=& \sum_{j=1}^m w_j X_{ij} + \mathcal{N}\left(0, \sigma^2\right) \\ &=& \mathcal{N}\left(\sum_{j=1}^m w_j X_{ij}, \sigma^2\right) \end{array}$

Максимизируя логарифм правдоподобия получим то же оптимальное $\vec{w}$

### Bias-variance decomposition
$ \begin{array}{rcl} \text{Err}\left(\vec{x}\right) &=& \mathbb{E}\left[\left(y - \hat{f}\left(\vec{x}\right)\right)^2\right] \\ &=& \sigma^2 + f^2 + \text{Var}\left(\hat{f}\right) + \mathbb{E}\left[\hat{f}\right]^2 - 2f\mathbb{E}\left[\hat{f}\right] \\ &=& \left(f - \mathbb{E}\left[\hat{f}\right]\right)^2 + \text{Var}\left(\hat{f}\right) + \sigma^2 \\ &=& \text{Bias}\left(\hat{f}\right)^2 + \text{Var}\left(\hat{f}\right) + \sigma^2 \end{array}$

Ошибка прогноза любой модели вида $y = f\left(\vec{x}\right) + \epsilon$ складывается из:
* квадрата смещения: $\text{Bias}\left(\hat{f}\right)^2 $ – средняя ошибка по всевозможным наборам данных;
* дисперсии: $\text{Var}\left(\hat{f}\right)$ – вариативность ошибки, то, на сколько ошибка будет отличаться, если обучать модель на разных наборах данных;
* неустранимой ошибки: $\sigma^2$.

![](img/biasvariance.png)

### Регуляризация
Приведение матрицы X к полному столбцовому рангу

Пример: регуляризация Тихонова -- добавление к минимизации $L^2$ -- нормы от вектора весов. Имеет точное решение, называется гребневой регрессией (ridge regression)


# Логистическая регрессия
Идея: линейный классификатор -- делим пространство гиперплоскостью.

Логистическая регрессия -- частный случай с удобной особенностью -- предсказывает вероятность

$p_+(x_i) = P\left(y_i = 1 \mid \vec{x_i}, \vec{w}\right) = \sigma(\vec{w}^T\vec{x_i})$


Обучается с помощью метода максимального правдоподобия. Запишем:

$P\left(y = y_i \mid \vec{x_i}, \vec{w}\right) = \sigma(y_i\vec{w}^T\vec{x_i})$

Выражение $M(\vec{x_i}) = y_i\vec{w}^T\vec{x_i}$ называется отступом. Он положителен в случае верной классификации. Чем он больше по модулю, тем объек дальше от разделяющей гиперплоскости.

## Разбор для дз
[отличная статья про softmax и его производную](https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/)

Софтмакс оптимален с точки зрения максимального правдоподобия для логистической регрессии. Мы будем вычислять его от результатов векторного умножения X и w (w -- матрица размерности (число классов) x (число признаков))