# 1. Регрессионные модели

**План занятия**

* [Теоретическая часть](#theory)
    * [Основные понятия](#0)
    * [Линейная парная регрессия](#1) 
    * [Линейная множественная регрессия](#2)
    * [Элементы матричного анализа](#3)

## <center>Теоретическая часть<a class="anchor" id="theory"></a><center>

## Основные понятия<a class="anchor" id="0">

### Определения

* <b>Регрессией</b> в теории вероятностей и математической статистике принято называть зависимость среднего значения какой-либо величины ($y$) от некоторой другой величины или от нескольких величин ($х_{i}$).

* C точки зрения информатики, <b>регрессионная модель </b> - это функция, которая принимает на вход значения атрибутов какого-то конкретного объекта и выдает на выходе предполагаемое значение целевой переменной.

* Уравнение корреляционной связи между фактором х и результативом y, выраженное в виде математической зависимости, называется <b>уравнением регрессии</b>.

### Задача регрессии

Задачи регрессии на практике встречаются довольно часто.

<b>Примеры</b>:
1. Предсказание цены объекта недвижимости по характеристикам квартир/домов;
2. Предсказание цены акций или других финансовых активов по историческим данным;
3. Предсказание температуры по метерологическим данным;


### Классификация регрессии

<b>1. По количеству факторов</b>:
   1. <i>Простой (парной) </i>  
   $\hat{y} = f(x)$
   2. <i>Множественной (многофакторной) </i>  
   $\hat{y} = f(x_{1},x_{2}, \dots,x_{n})$

<b>2. По виду модели</b>:

   1. <i>Линейной</i>   -- $\hat{y} = w_{0} + w_{1}x$   
   2. <i>Нелинейной</i>   
     1. <i>Параболическая</i> -- $\hat{y} = w_{0} + w_{1}x + w_{2}x^2$
     2. <i>Гиперболическая</i> -- $\hat{y} = w_{0} + \frac{w_{1}}{x}$      
     3. <i>Логарифмическая</i> -- $\hat{y} = w_{0} + w_{1}ln(x)$     
     4. <i>Степенная</i> -- $\hat{y} = w_{0} + x^w_{1}$     
     5. <i>Показательная</i> -- $\hat{y} = w_{0} + w_{1}^x$
  


__Замечание:__

Любые реальные собранные данные всегда содержат в себе какую-то долю ошибки (погрешность измерения, шумовые данные ...), поэтому в уравнение регрессии принято указывать эту случайную ошибку $\epsilon$, отвечающую за непредсказуемые/непредвиденные факторы влияния:

Парная регрессия - $\hat{y} = f(x) + \epsilon$, множественная -  $\hat{y} = f(x_{1},x_{2}, \dots,x_{n}) + \epsilon$

### Постановка задачи

По имеющимся n наблюдениям найти зависимость ŷ = f(x), наилучшим образом описывающую данные наблюдений.

<b> Табличное представление данные </b>

In [20]:
import pandas as pd
df = pd.read_csv('states.csv')
df.head(10)

Unnamed: 0,Средний балл ЕГЭ,Уровень бедности
0,79.9,14.6
1,90.6,8.3
2,83.8,13.3
3,80.9,18.0
4,81.1,12.8
5,88.7,9.4
6,87.5,7.8
7,88.7,8.1
8,86.0,16.8
9,84.7,12.1


<b> Данные на координатной плоскости XoY </b> 

<img src="images/егэ.бедность.png">

## Общие сведения о линейной регрессии <a class="anchor" id="1">

----

Построение линейной регрессии сводится к оценке ее параметров $w_{0}, w_{1},...w_{n}$. Для этого вводят _функционал ошибки_ - $Q(f(x), y)$, который оценивает, как хорошо работает модель. 


В качестве меры ошибки можно взять: 
* Абсолютное отклонение истинного значения от прогноза $Q(f(x),y)=f(x)-y$
* Модуль отклонения $Q(f(x),y)=|f(x)-y|$. (mean absolute error, MAE):

$$Q(f(x),x) = \frac{1}{l}\sum^{l}_{i=1}|f(x_{i})-y_{i}|.$$

* Квадрат разности $Q(f(x),y)=(f(x)-y)^{2}$. (mean squared error, MSE):

$$Q(f,x) = \frac{1}{l}\sum^{l}_{i=1}(f(x_{i})-y_{i})^{2}.$$

## Линейная парная регрессия<a class="anchor" id="1">

Условия применения:
1. Линейная взаимосвязь x и y 
2. Гомоскедастичность (дисперсия случайных ошибок одинакова и конечна) : $\forall i: \text{Var}\left(\epsilon_i\right) = \sigma^2 < \infty$;
3. Нормальное распределение остатков

https://gallery.shinyapps.io/slr_diag/

Линейная парная регрессия описывается уравнением $\hat{y} = w_{0} + w_{1}x + \epsilon$ 

Классический подход к определению параметров линейной регрессии основан на <strong> методе наименьших квадратов (МНК)</strong>.

Тогда 
$$Q(f(x),y) = \frac{1}{l}\sum^{l}_{i=1}(y_{i} - f(x))^{2} \rightarrow \underset{w}{\text{min}}$$

$$Q(f(x),y) = \frac{1}{l}\sum^{l}_{i=1}(y_{i} - w_{0} - w_{1}x_{i})^{2} \rightarrow \underset{w}{\text{min}}$$

$$\nabla_{w}Q(w,x,y) = 0 $$ 


$$\nabla_{w}Q(w,x,y) = \begin{cases}
    \frac{\partial Q}{\partial w_{0}} = 0\\
    \frac{\partial Q}{\partial w_{1}} = 0
  \end{cases} = 
  \begin{cases}
    \frac{2}{l}\sum^{l}_{i=1}( y_{i} - w_{0} - w_{1}x_{i})(-1) = 0\\
    \frac{2}{l}\sum^{l}_{i=1}( y_{i} - w_{0} - w_{1}x_{i})(-x_{i}) = 0
  \end{cases}$$  
   $$\begin{cases}
    -\sum^{l}_{i=1} y_{i} + \sum^{l}_{i=1} w_{0} + \sum^{l}_{i=1}  w_{1}x_{i} = 0\\
    -\sum^{l}_{i=1} y_{i}x_{i} + \sum^{l}_{i=1} w_{0}x_{i} + \sum^{l}_{i=1}  w_{1}x_{i}^2 = 0
  \end{cases} = 
  \begin{cases}
    l*w_{0} + \sum^{l}_{i=1}  w_{1}x_{i} = \sum^{l}_{i=1} y_{i}\\
    \sum^{l}_{i=1} w_{0}x_{i} + \sum^{l}_{i=1}  w_{1}x_{i}^2 = \sum^{l}_{i=1} y_{i}x_{i}
  \end{cases}$$

Найти коэффициенты можно методом Крамера:

$w_{0} = \frac{\Delta_{w_{0}}}{\Delta}, w_{1} = \frac{\Delta_{w_{1}}}{\Delta}$

$\Delta = \begin{vmatrix}
     l & \sum^{l}_{i=1} x_{i}\\ 
     \sum^{l}_{i=1} x_{i} & \sum^{l}_{i=1} x_{i}^2 
\end{vmatrix}$, 
$\Delta_{w_{0}} = \begin{vmatrix}
     \sum^{l}_{i=1} y_{i} & \sum^{l}_{i=1} x_{i}\\ 
     \sum^{l}_{i=1} x_{i}y_{i} & \sum^{l}_{i=1} x_{i}^2 
\end{vmatrix}$, 
$\Delta_{w_{1}} = \begin{vmatrix}
     l & \sum^{l}_{i=1} y_{i}\\ 
     \sum^{l}_{i=1} x_{i} & \sum^{l}_{i=1} x_{i}y_{i} 
\end{vmatrix}$

Заметим, что $w_{1} = \frac{\Delta_{w_{1}}}{\Delta} = \frac{\begin{vmatrix}
     l & \sum^{l}_{i=1} y_{i}\\ 
     \sum^{l}_{i=1} x_{i} & \sum^{l}_{i=1} x_{i}y_{i} 
\end{vmatrix}}{\begin{vmatrix}
     l & \sum^{l}_{i=1} x_{i}\\ 
     \sum^{l}_{i=1} x_{i} & \sum^{l}_{i=1} x_{i}^2 
\end{vmatrix}} = \frac{l*\sum^{l}_{i=1} x_{i}y_{i} - \sum^{l}_{i=1} x_{i}\sum^{l}_{i=1} y_{i}}{l*\sum^{l}_{i=1} x_{i}^2 - \sum^{l}_{i=1} x_{i}\sum^{l}_{i=1} x_{i}} = \frac{\frac{\sum^{l}_{i=1} x_{i}y_{i}}{l} - \frac{\sum^{l}_{i=1} x_{i}\sum^{l}_{i=1} y_{i}}{2l}}{\frac{\sum^{l}_{i=1} x_{i}^2}{l} - \frac{\sum^{l}_{i=1} x_{i}\sum^{l}_{i=1} x_{i}}{2l}} = \frac{\bar{xy}-\bar{x}\bar{y}}{\bar{x^2} - \bar{x}^2}$

$$w_{1} = \frac{\bar{xy}-\bar{x}\bar{y}}{\bar{x^2} - \bar{x}^2} = \frac{\text{Cov}\left(x, y\right)}{\text{Var}\left(x\right)} = r_{xy} \frac{\sigma_{y}}{\sigma_{x}}$$

Значит решением будет 
$$\begin{cases}
    w_{1} = r_{xy} \frac{\sigma_{y}}{\sigma_{x}}\\
    w_{0} = \bar{y} - w_{1}\bar{x}
  \end{cases}$$  

### Метод наименьших квадратов

Напомним,что мы ищем коэффициенты $w_{i}$, при которых функционал ошибки будет минимален. 

Пусть $Q(f(x),y) = \frac{1}{l}\sum^{l}_{i=1}(f(x) -y_{i})^{2}$, тогда наша цель  $Q(f(x),y)\rightarrow \underset{w}{\text{min}}.$

Способ вычисления коэффициентов путем минимизации среднеквадратичного отклонения называется **методом наименьших квадратов**.

#### Теорема Гауса-Маркова

Если данные обладают следующими свойствами:

1. Модель данных правильно специфицирована;
2. Все $\displaystyle x_{i}$ детерминированы и не все равны между собой; 
3. Мат.ожидание случайных ошибок равно нулю: $\forall i: \mathbb{E}\left[\epsilon_i\right] = 0$;
4. Гомоскедастичность (дисперсия случайных ошибок одинакова и конечна) : $\forall i: \text{Var}\left(\epsilon_i\right) = \sigma^2 < \infty$;
5. Случайные ошибки не скоррелированы: $\forall i \neq j: \text{Cov}\left(\epsilon_i, \epsilon_j\right) = 0$.

Тогда оценки, полученные <b> МНК</b> являются лучшими в классе линейных несмещённых оценок (Best Linear Unbiased Estimators, BLUE).

## Линейная множественная регрессия<a class="anchor" id="2">

Условия применения:
1. Линейная взаимосвязь X и Y 
2. Гомоскедастичность (дисперсия случайных ошибок одинакова и конечна) : $\forall i: \text{Var}\left(\epsilon_i\right) = \sigma^2 < \infty$;
3. Нормальное распределение остатков

https://gallery.shinyapps.io/slr_diag/

Линейная множественная регрессия описывается уравнением $\hat{y} = w_{0} + w_{1}x_{1} + w_{2}x_{2} + \dots + w_{l}x_{l} + \epsilon$ 

Воспользуемся МНК, чтобы узнать коэффициенты

$$Q(f(x),y) = \frac{1}{l}\sum^{l}_{i=1}(y_{i} - w_{0} - w_{1}x_{1i} - \dots - w_{l}x_{li})^{2} \rightarrow \underset{w_{i}}{\text{min}}$$

$$\nabla_{w}Q(w,x,y) = 0 $$ 


$$\nabla_{w}Q(w,x,y) = \begin{cases}
    \frac{\partial Q}{\partial w_{0}} = 0\\
    \frac{\partial Q}{\partial w_{1}} = 0\\
    \dots \\
    \frac{\partial Q}{\partial w_{l}} = 0
  \end{cases} = 
  \begin{cases}
    \frac{2}{l}\sum^{l}_{i=1}( y_{i} - w_{0} - w_{1}x_{1i} - \dots - w_{l}x_{li})(-1) = 0\\
    \frac{2}{l}\sum^{l}_{i=1}( y_{i} - w_{0} - w_{1}x_{1i} - \dots - w_{l}x_{li})(-x_{1i}) = 0\\
    \dots\\
    \frac{2}{l}\sum^{l}_{i=1}( y_{i} - w_{0} - w_{1}x_{1i} - \dots - w_{l}x_{li})(-x_{li}) = 0
  \end{cases}$$  
   $$\begin{cases}
    -\sum^{l}_{i=1} y_{i} + \sum^{l}_{i=1} w_{0} + \sum^{l}_{i=1}  w_{1}x_{1i} + \dots + \sum^{l}_{i=1}w_{l}x_{li}= 0\\
    -\sum^{l}_{i=1} y_{i}x_{1i} + \sum^{l}_{i=1} w_{0}x_{1i} + \sum^{l}_{i=1}  w_{1}x_{1i}^2 + \dots + \sum^{l}_{i=1}w_{l}x_{li}x_{1i}= 0\\
    \dots\\
    -\sum^{l}_{i=1} y_{i}x_{li} + \sum^{l}_{i=1} w_{0}x_{li} + \sum^{l}_{i=1}  w_{1}x_{1i}x_{li} + \dots + \sum^{l}_{i=1}w_{l}x_{li}^2 = 0
  \end{cases} = 
  \begin{cases}
    l*w_{0} + \sum^{l}_{i=1}  w_{1}x_{1i} + \dots + \sum^{l}_{i=1}w_{l}x_{li}= \sum^{l}_{i=1} y_{i}\\
    \sum^{l}_{i=1} w_{0}x_{1i} + \sum^{l}_{i=1}  w_{1}x_{1i}^2 + \dots + \sum^{l}_{i=1}w_{l}x_{li}x_{1i} = \sum^{l}_{i=1} y_{i}x_{1i} \\
    \dots\\
    \sum^{l}_{i=1} w_{0}x_{li} + \sum^{l}_{i=1}  w_{1}x_{1i}x_{li} + \dots + \sum^{l}_{i=1}w_{l}x_{li}^2 = \sum^{l}_{i=1} y_{i}x_{li}
  \end{cases}$$

По аналогии с парной регрессией находим коэффициенты методом Крамера

## Элементы матричного анализа<a class="anchor" id="2">

In [34]:
import pandas as pd
df = pd.read_csv('states1.csv')
df.head(10)

Unnamed: 0,state,metro_res,white,hs_grad,poverty,female_house
0,Alabama,55.4,71.3,79.9,14.6,14.2
1,Alaska,65.6,70.8,90.6,8.3,10.8
2,Arizona,88.2,87.7,83.8,13.3,11.1
3,Arkansas,52.5,81.0,80.9,18.0,12.1
4,California,94.4,77.5,81.1,12.8,12.6
5,Colorado,84.5,90.2,88.7,9.4,9.6
6,Connecticut,87.7,85.4,87.5,7.8,12.1
7,Delaware,80.1,76.3,88.7,8.1,13.1
8,District of Columbia,100.0,36.2,86.0,16.8,18.9
9,Florida,89.3,80.6,84.7,12.1,12.0


Регрессионную модель можно представить в виде 
$\hat{y} = w_{0} + \displaystyle\sum_{i=1}^{n} w_{i}x_{i} + \epsilon$ 

Теперь давайте фиктивно добавим ещё один признак, при котором $\forall i: x_{i}=1$, тогда $\hat{y} = \displaystyle\sum_{i=0}^{n} w_{i}x_{i} + \epsilon$

Имеет смысл переписать имеющиеся соотношения в матричном виде. В матрицу "объекты-признаки" впишем по строкам $d$ признаков для всех $l$ объектов из обучающей выборки: 

$$X = \begin{pmatrix}
x_{11} & ... & x_{1d}\\ 
... & ... & ...\\ 
x_{l1} & ... & x_{ld}
\end{pmatrix},$$
коэффициенты запишем в $w$: $$w = \begin{pmatrix}
w_{0}\\ 
...\\ 
w_{l}
\end{pmatrix},$$
и составим вектор ответов $y$ из истинных ответов для данной выборки:

$$y = \begin{pmatrix}
y_{1}\\ 
...\\ 
y_{l}
\end{pmatrix}.$$

Переписанная в матричном виде задача будет выглядеть следующим образом:

$$Q(w, X) = \frac{1}{l}||Xw-y||^{2}\rightarrow \underset{w}{\text{min}}$$

$\nabla_{w}Q(w,X) = \frac{2}{l}X^{T}(Xw-y).$

$\frac{2}{l}X^{T}(Xw-y) = 0$

$X^{T}(Xw-y) = 0$

$X^{T}Xw-X^{T}y = 0$

$w = \frac{X^{T}y}{X^{T}X}$

$w = (X^{T}X)^{-1}X^{T}y $


__Заметка__ 

Теперь видно, почему надо избавляться от мультиколлинеарности в регрессионных моделях

_________

Продифференцировав данную функцию по вектору $w$ и приравняв к нулю, можно получить явную анатилическую формулу для решения задачи минимизации:

$$w = (X^{T}X)^{-1}X^{T}y.$$

Это решение называется _нормальным уравнением_ линейной регрессии. Наличие аналитического решения кажется положительным фактором, однако, у него есть некоторые минусы, среди которых вычислительная сложность операции (обращение матрицы $X^{T}X$ будет иметь кубическую сложность от количества признаков $d^{3}$), а также тот факт, что матрица $X^{T}X$ может быть вырожденной и поэтому необратимой. Тогда найти решение будет невозможно.


Более удобным подходом будет разработка решения либо с помощью численных методов оптимизации, одним из которых является _градиентный спуск_, либо с регуляризацией.