#Линейные модели

* Постановка задачи регрессии 
* Линейные модели
* Метод наименьших квадратов
* Метод максимального правдоподобия

## Постановка задачи регрессии

В математической статистике рассматриваются различные задачи - от оценивания некоторого параметра распределения и проверки гипотез до предсказания результатов будущего измерения. Для решения задач предсказания используется регрессионный анализ.

Регрессионный анализ - класс статистических методов исследования влияния независимых переменных (регрессоры, предикторы) на зависимую переменную (критериальные).

Регрессия занимается:
*   Предсказанием значения зависимой переменной с помощью независимых
*   Определение вклада отдельных независимых переменных в вариацию

Пусть задан набор случайных величин $Y, X_1, ..., X_n$.  Если для каждого набора значений определено условное математическое ожидание $y(x_1, ..., x_n) = E(Y|X_1 = x_1, ..., X_n = x_n)$, то функция $y$ - регрессия величины $Y$ по величинам $X_1, ..., X_n$, а её график - линия регрессии. 

Существуют различные методы регрессионного анализа. Вот некоторые из них:
* Линейная регрессия 
* Гауссова регрессия 
* Полиномиальная регрессия 
* Гребневая регрессия
* Регрессия лассо
* Логистическия регрессия

## Линейные модели

Линейная регрессия - регрессионная модель зависимости одной переменной от набора других переменных с линейной функцией зависимости.

Линейная регрессионная модель - $y = f(x, b) + \varepsilon$, где $f(x, b)$ - некоторая линейная функция $f(x, b) = b_0 + b_1x_1 + ... + b_nx_n$, а $\varepsilon$ - случайная ошибка, математическое ожидание которой равно $ E(\varepsilon) = 0$, а дисперсия случайных ошибок одинакова и конечна. 

Коэффициенты $b_i$ - коэффициенты регрессии, $x_i$ - регрессоры, $n$ - количество факторов модели.

$b_i = \frac{\partial f}{\partial x_i} = const$

Часто параметр $b_0$ называют биас(bias, в переводе смещение или предвзятость) или константой. Удобно считать, что это коэффициент при факторе $x_0 = 1$. Тогда $f(x, b) = b_0x_0 + b_1x_1 + ... + b_nx_n = \sum\limits_{i = 0}^{n}b_ix_i = x^{\top}b$.

Когда фактор единственный (без учета константы), то это парная (простейшая) регрессия. В ином случае говорят о многофакторной регрессии. 

Рассмотрим её представление. 

Пусть дана выборка объема $n$ наблюдений величин $X, Y$. Номер измерения обозначим за $t$, тогда $y_t - $ значение величины $Y$ в выбранном измерении, а $x_t^{\top} = [x_{t1}, x_{t2}, ..., x_{tk}]$ - вектор регрессоров в выбранном наблюдении. Тогда в каждом наблюдении $y_t = x_t^\top b + \varepsilon_t = b_1x_{t1} + b_2x_{t2} + ... +  b_kx_{tk} + \varepsilon_t; E(\varepsilon_t) = 0$.

Если вводить обозначения $y^\top = [y_1, y_2, ..., y_n], x = \begin{bmatrix} x_{11} & x_{12} & ... & x_{1k} \\ x_{21} & x_{22} & ... & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & ... & x_{nk} \\\end{bmatrix}, \varepsilon^\top = [\varepsilon_1, ..., \varepsilon_n]$, то можно записать в виде: $ y = xb + \varepsilon$.

В линейной регрессии предполагается:
*   $D(\varepsilon_t) = \sigma^2 = const$
*   $\forall i,j, i\neq j \rightarrow cov(\varepsilon_i, \varepsilon_j) = 0$

Основные методы:
*   Метод наименьших квадратов
*   Метод инструментальных переменных
*   Метод максимального правдоподобия
*   Метод моментов

## Метод наименьших квадратов

Метод наименьших квадратов (МНК) - математический метод, основанный на минимазации суммы квадратов отклонений некоторых функций от искомых переменных. 

Пусть $x$ - набор неизвестных параметров, $f_i(x)$ - набор функций от этого набора переменных. Задача состоит в подборе таких параметров $x$, чтобы значение функций было как можно ближе к значениям переменных $y_i$. Задачу можно записать как нахождение решения системы уравнений $f_i(x) = y_i$. 

$\sum\limits_{i}e_i^2 = \sum\limits_{i}(f_i(x) - y_i)^2 \rightarrow \min\limits_{x}$.

Данная система уравнений не всегда имеет точное решение, в таком случае под решением понимается некоторый вектор $x$, при котором минимизируется расстояние между векторами $y$ и $f(x)$.

Рассмотрим МНК в регрессионном анализе. 

Имеется $n$ значений величины $Y$ и соответвующих ей переменных $x$. Задача состоит в поиске взаимосвязи между переменными $x$ и $y$. На практике ставится задача апросксимации переменной $y$ некоторой функцией $f(x, b)$. 

$y_t = f(x_t, b) + \varepsilon_t$

$RSS(b) = \sum\limits_{t = 1}^{n}(y_t - f(x_t, b))^2 = e^\top e $, где $RSS$ - сумма квадратов разностей(residual sum of squares).

Надо найти $b_{OLS} = arg\min\limits_{b}RSS(b)$, где $OLS$ - обычный метод наименьших квадратов(ordinary least squares).

Часто можно получить аналитическое решение. Для этого надо найти стационарные точки $RSS(b)$. Для этого надо решить уравнение $\sum\limits_{t = 1}^{n}(y_t - f(x_t, b))\frac{\partial f(x_t, b)}{\partial b} = 0$.

Рассмотрим МНК в линейной регрессии. 

$y_t = x_t^\top b + \varepsilon_t$

$y = Xb + \varepsilon$, тогда вектор оценок объясняемой переменной $\hat y = Xb$. А вектор остатков регрессии $e = y - \hat y = y - Xb$. Тогда $RSS = e^\top e = (y - Xb)^\top(y - Xb)$. Продифференцируем по переменной $b$.

$(X^\top X)b = X^\top y$

Решая данную систему уравнений приходим к формуле для МНК-оценок для линейной модели:

$b_{OLS} = (X^\top X)^{-1}X^\top y = (\frac{1}{n}X^\top X)^{-1}\frac{X^\top y}{n} = (D(X))^{-1}\frac{X^\top y}{n}$

Данные оценки обладают наименьшей дисперсией среди линейных несмещенных оценок.

## Метод максимального правдоподобия

Пусть дана выборка объема $n$ наблюдения величины $X$. Введем случайную величину $f_{\theta}(x_1, x_2, ..., x_n) = p_{\theta}(x_1)p_{\theta}(x_2)...p_{\theta}(x_n)$, где $p_{\theta}(x_i)$ - вероятность получения результата $x_i$ при параметрах $\theta$ (можно записать $p(x_i|\theta)$). Эта функция называется функцией правдоподобия. При рассмотрении выборки подразумевается, что различные измерения независимы, что в общем случае не является верным. В общем случае функция правдоподобия - совместное распределение выборки из параметрического распределения.  

Введем величину $L_{\theta}(x_1, ..., x_n) = ln(f_{\theta}(x_1, x_2, ..., x_n))$. Такая функция называется логарифмической функцией правдоподобия. 

Оценка $\hat\theta(x_1, x_2, ..., x_n) = \arg \max\limits_{\theta\in\Theta} f_{\theta}(x_1, x_2, ..., x_n)$ называется оценкой максимального правдоподобия. 

Рассмотрим теперь метод максимального правдоподобия в линейной регрессии. Модель выглядит так же: 

$y = xb + \varepsilon$

Предположим, что $\varepsilon_i \sim N(0, \sigma^2)$. Теперь можем записать модель в новом виде :

$p(y_i|x, b) = \sum\limits_{j = 1}^{m}b_jx_{i j} + N(0, \sigma^2) = N(\sum\limits_{j = 1}^{m}b_jx_{i j}, \sigma^2)$

Рассмотрим логарифмическую функцию правдоподобия:

$log(p(y|x, b)) = \sum\limits_{i = 1}^{n} log (N(\sum\limits_{j = 1}^{m}b_jx_{i j}, \sigma^2))$

Нормальное распределение имеет вид :

$f(x) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(x - \mu)^2}{2\sigma^2})$

Тогда можно записать:

$L_b = -\frac{n}{2}log2\pi\sigma^2 - \frac{1}{2\sigma^2}\sum\limits_{i = 1}^{n}(y_i - x^\top b)^2$

Осталось найти максимум данной функции и аргумент при котором он достигается. Аргументы при которых функция правдоподобия и логарифмическая функция правдоподобия достигают максимума равны. 

$\hat b = arg max_b L_b$, так как первое слагаемое логарифмической функции правдоподобия не зависит от параметра $b$, то можно записать :

$\hat b = arg max_b - \frac{1}{2\sigma^2}\sum\limits_{i = 1}^{n}(y_i - x^\top b)^2$

Можно заметить, что максимум функции правдоподобия будет достигатся при минимуме среднеквадратичной ошибки.

