## Вероятностные основы модели линейной регрессии
Панасик Александра, Б03-004

**Постановка задачи и формулировка предположений** <br />
Сформулируем задачу регрессии и введем некоторые обозначения. <br />
Имеется выборка $ \tau: \{\vec x_i, y_i\} $ из N объектов (результатов измерений). Индекс i везде будет указываеть на порядковый номер объекта, $ i \in \{1, N\}$.  <br /> 
$ x_i \in X $ -  множество признаков объектов, $ \vec x_i $ - признаковое описание i-ого объекта, вектор действительных чисел. <br />
$ y_i \in Y $ - множество ответов (целевой переменной), действительные числа. <br />
Задача - найти зависимость между признакакми объекта и целевой переменной: $ F : X \rightarrow Y$ - искомая закономерность.  <br />

Для решения поставленной задачи сделаем несколько предположений относительно характера искомой зависимости и целевой переменной. Предположим, что в обучающей выборке каждому $x_i$ соответствует множество независимых одинаково распределенных случайных величин $y_i$, т.е. мы считаем, что целевая переменная порождается из некоторого вероятностного распределения, причем параметры этого распределения одинаковы для всех объектов. Пусть это распределение - распределение Лапласа с плотностью вероятности $\rho(\mu, b) = \frac{1}{2b} e^{-\frac{|y_i-\mu|}{b}}$, где $\mu$ - среднее значение (матожидание), $b$ -  разброс значений.
Также предполагается, что связь между признаками объекта $x_i$ и соответсвтующей целевой переменной $y_i$ имеет линейный характер. Таким образом, задача сводится к нахождению параметров распределения целевой переменной. <br />

Итак, при решении поставленной задачи мы используем следующие 4 предположения: <br />
- **Linear:** предполагаем, что целевая переменная линейно зависит от признаков объекта: $ \mu_i = \theta^T \cdot \vec x_i $. Здесь $\mu_i$  -  ответ модели, значение целевой переменной для i-ого объекта (т.е. среднее значение распределения $y_i$), $\vec x_i$ - признаки i-ого объекта, $\theta$ - вектор параметров модели;
- **Independent identical distributed:** предполагаем, что объекты независимы и однаково распределены, т.е. порождены одним процессом;
- **Распределение:** считаем, что целевая переменная порождается из распределения Лапласа: $ y \sim \frac{1}{2b} exp(-\frac{|y_i-\mu|}{b})$;
- **Equivalence:** разброс целевой переменной одинаков для всех объектов выборки: $b_i ^2 = b^2 $;

**Метод максимизации правдоподобия** <br />
Для решения поставленной задачи используем метод максимизации правдоподобия. <br />
Правдоподобие i-ого объекта обучающей выборки $P(x_i, y_i, \theta)$ - это вероятность получить для объекта с признаками $\vec x_i$ ответ $y_i$ при заданных параметрах модели $\theta$. Поскольку $y_i$, согласно нашим предположениям, имеет распределение Лапласа, то:
$$
P(x_i, y_i, \theta) = \frac{1}{2b} exp(-\frac{|y_i-\mu_i|}{b}),
$$
где $\mu_i = \theta^T \cdot \vec x_i$ - ответ модели.

Правдоподобие всей обучающей выборки $L(\tau, \theta)$, или $P(\tau|\theta)$ - это вероятность получить выборку $\tau$ при заданных параметрах $\theta$. Поскольку все объекты независимы, вероятность для выборки целиком равна произведению вероятностей для каждого объекта:
$$
L(\tau, \theta) = P(\tau|\theta) = \prod_{i=1}^{N} \frac{1}{2b} exp(-\frac{|y_i-\theta^T  \vec x_i|}{b})
$$
Для решения задачи линейной регрессии нужно подобрать такие параметры модели $\theta$, чтобы ответ модели $\mu_i = \theta^T \vec x_i$ на обучающей выборке был как можно ближе к референтному (измеренному) значению $y_i$. Другими словами, нужно за счет $\theta$ максимизировать значение правдоподобия выборки. Решением является значение параметров модели $\theta^*$, при котором достигается максимальное значение правдоподобия выборки:
$$ 
\theta^* = \underset{\theta}{\operatorname{argmax}} \left[L(\tau, \theta)\right]  = \underset{\theta}{\operatorname{argmax}} \left[ln (L(\tau, \theta))\right]
$$
Последнее равенство верно, так как функция логарифма строго возрастает и потому не меняет положение максимума.
Далее, поскольку логарифм произведения равен сумме логарифмов, получаем:
$$
ln(L(\tau, \theta)) = ln \left( \prod_{i=1}^{N} \frac{1}{2b} e^{-\frac{|y_i-\theta^T \vec x_i|}{b}}\right) = \sum_{i = 1}^{N} ln \left(\frac{1}{2b} e^{-\frac{|y_i-\theta^T \vec x_i|}{b}}\right) = \sum_{i = 1}^{N} \left[ ln(1/2b) -\frac{|y_i-\theta^T \vec x_i|}{b} \right]
$$
Разброс $b$ одинаков для всех N объектов, поэтому:
$$
ln(L(\tau, \theta)) = N \cdot ln(1/2b) - \sum_{i = 1}^{N} \left[ \frac{|y_i-\theta^T \vec x_i|}{b} \right]
$$
При максимизации полученного значения по параметру $\theta$ первое слагаемое и знаменатель второго слагаемого - константы, не зависящие от параметра. Поэтому искомое значение
$$
\theta^* =  \underset{\theta}{\operatorname{argmax}} \left[ln (L(\tau, \theta))\right] = \underset{\theta}{\operatorname{argmin}} \left[\sum_{i = 1}^{N} |y_i-\theta^T \vec x_i| \right]
$$
Таким образом, функция потерь (т.е. функция, которая должна быть минимизирована в процессе обучения модели), имеет вид:
$$
\mathcal{L} = \sum_{i = 1}^{N} |y_i-\theta^T \vec x_i|
$$
