In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

import matplotlib.pyplot as plt
plt.style.use('seaborn')

%matplotlib inline

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Терминология

$y_{i}$ - зависимая переменная

$x_{i}$ - регрессор, объясняющая переменная

$\varepsilon_{i}$ - ошибка модели, случайная состовляющая (нет в модели)

$\hat{y}_{i}$ - прогнозное значение

$\hat{\varepsilon}_{i}$ - ошибка прогноза $y_{i} - \hat{y}_{i}$ 

# Модель без объясняющих переменных (Регрессоров)

##### Реальная зависимость (Вес не зависит от роста, какая то константа среднего веса + случайная составляющая)
$y_{i} = \beta + \varepsilon_{i}$

Необходимо получить:
$\hat{\beta}$

Для этого минимизруем RSS _(residual sum squares) (~сумма наименьших квадратов)_ ($RSS = \sum{(y_{i}-\hat{y_{i}})^{2}}$)

$\sum{(y_{i}-\hat{y_{i}})^{2}} \Rightarrow min$

###### Модель

Итак, наша модель: $\hat{y_{i}} = \hat{\beta}$, (*случайная ошибка не прогнозируема, её не пишем в модель*)

$RSS=\sum_{i=1}^{N}{(y_{i}-\hat{y_{i}})^{2}}$ = $\sum_{i=1}^{N}{(y_{i}-\hat{\beta_{i}})^{2}}$, так как $\hat{y_{i}} = \hat{\beta}$

Раскроем скобки _(формула сокращённого умножения)_ :
$\sum_{i=1}^{N}{(
y_{i}^{2} - 2\hat{\beta}y_{i} + \hat{\beta}^{2}
)}$

И припишем сумму к каждому члену:
$\sum_{i=1}^{N}{y_{i}^{2}} - \sum_{i=1}^{N}{2\hat{\beta}y_{i}} + \sum_{i=1}^{N}{\hat{\beta}^{2}}$

Заметим, что не везде складываются слогаемые по **i**
Например что из себя представляет последний член $\sum_{i=1}^{N}{\hat{\beta}^{2}}$, это соответсвенно $\hat{\beta}^{2} + \hat{\beta}^{2} + ...$ и так далее. Иначе говоря $\sum_{i=1}^{N}{\hat{\beta}^{2}} = N \cdot \hat{\beta}^{2}$

Далее, в $\sum_{i=1}^{N}{2\hat{\beta}y_{i}}$ величина $2\hat{\beta}$, не зависит от слогаемого, её можно вынести за скобку $\sum_{i=1}^{N}{2\hat{\beta}y_{i}} = 2\hat{\beta}\cdot\sum_{i=1}^{N}{y_{i}}$

Итак получается функциая которую нужно минимизировать $Q(\hat{\beta}) = \sum_{i=1}^{N}{y_{i}^{2}} - 2\hat{\beta}\cdot\sum_{i=1}^{N}{y_{i}} + N \cdot \hat{\beta}^{2}$

Берём производную _(Здесь и далее опустим параметры при знаке суммы)_ ${Q}'(\hat{\beta}) = -2\sum{y_{i}} + 2N\hat{\beta}$

**Обратим внимание, что наша функция является параболой, соответсвенно приравняв значение производной нулю, получим единственный минимум**

${Q}'(\hat{\beta}) = 0$

$-2\sum{y_{i}} + 2N\hat{\beta} = 0$

$\hat{\beta} = \frac{\sum{y_{i}}}{N} $

Так как $\frac{\sum{y_{i}}}{N} = \bar{y}$

$\hat{\beta} = \bar{y}$, (*Что интуитивно, возьмите в качестве неизвестной общей константы среднее по выборке*)

# Модель c одним регрессором

##### Реальная зависимость (Линейная зависимость веса по росту($\beta$)  + индивидальная случайная составляющая)
$y_{i} = \beta_{1} + \beta_{2}x_{i} + \varepsilon_{i}$

Необходимо получить:
$\hat{\beta_{1}}, \hat{\beta_{2}}$

Для этого минимизруем **RSS**, $RSS = \sum{(y_{i}-\hat{y_{i}})^{2}}$

$\sum{(y_{i}-\hat{y_{i}})^{2}} \Rightarrow min$

###### Модель

Итак, наша модель: $\hat{y_{i}} = \hat{\beta_{1}} + \hat{\beta_{2}}x_{i}$, (*случайная ошибка не прогнозируема, её не пишем в модель*)

$RSS=\sum_{i=1}^{N}{(y_{i}-\hat{y_{i}})^{2}} = 
\sum{(y_{i} - \hat{\beta_{1}} - \hat{\beta_{2}}x_{i})^{2}}$

Соответсвенно это наша функция для минимизации $RSS = Q(\hat{\beta_{1}}, \hat{\beta_{2}})$

Берём производные, приравниваем к нулю **(Условие первого порядка)**:

_(правила производных: производная внешней ф-ции умножить на производную внутренней ф-ции)_

$\frac{\partial Q}{\partial \hat{\beta}_{1}} = 
\sum{2(y_{i} - \hat{\beta_{1}} - \hat{\beta_{2}}x_{i})}(-1)$

$\frac{\partial Q}{\partial \hat{\beta}_{2}} = 
\sum{2(y_{i} - \hat{\beta_{1}} - \hat{\beta_{2}}x_{i})}(-x_{i})$

y-ки даны, x-ы даны, неизвестными являются только $\hat{\beta}_{1}$, $\hat{\beta}_{2}$ т.е. два уравнения, две неизвестных

Обратим внимание, что $y_{i} - \hat{\beta_{1}} - \hat{\beta_{2}}x_{i}$ - **ошибка прогноза** - $\hat{\varepsilon}$

Сократим на **-2** в системе уравнений и запишем в новом виде:

$\frac{\partial Q}{\partial \hat{\beta}_{1}} = 
\sum{\hat{\varepsilon}}$

$\frac{\partial Q}{\partial \hat{\beta}_{2}} = 
\sum{\hat{\varepsilon}x_{i}}$

Решаем систему уравнений:

$\begin{cases}
& \sum{\hat{\varepsilon}} = 0 \\
& \sum{\hat{\varepsilon}x_{i}} = 0
\end{cases}$

Так как **ошибка прогноза** $\hat{\varepsilon} = y_{i} - \hat{\beta_{1}} - \hat{\beta_{2}}x_{i}$

$\begin{cases}
& \sum{y_{i}} - \sum{\hat{\beta_{1}}} - \sum{\hat{\beta_{2}}x_{i}} = 0 \\
& \sum{y_{i}x_{i}} - \sum{\hat{\beta_{1}}x_{i}} - \sum{\hat{\beta_{2}}x_{i}^{2}} = 0
\end{cases}$

# А далее алгебра что бы получить красивый результат:

$\begin{cases}
& \sum{y_{i}} - \sum{\hat{\beta_{1}}} - \sum{\hat{\beta_{2}x_{i}}} = 0 \\
& \sum{y_{i}x_{i}} - \sum{\hat{\beta_{1}}x_{i}} - \sum{\hat{\beta_{2}x_{i}}x_{i}^{2}} = 0
\end{cases}$

Вынесем константы за знак суммы:

$\begin{cases}
& \sum{y_{i}} - N\hat{\beta_{1}} - \hat{\beta_{2}\sum{x_{i}}} = 0 \\
& \sum{y_{i}x_{i}} - \hat{\beta_{1}}\sum{x_{i}} - \sum{\hat{\beta_{2}}x_{i}^{2}} = 0
\end{cases}$

Поделим первое уравнение на N:

$\bar{y} - \hat{\beta_{1}} - \hat{\beta_{2}}\bar{x} = 0$

Выразим второе уравнение через первое ($\hat{\beta_{1}} = \bar{y} - \hat{\beta_{2}}\bar{x}$):

$\sum{y_{i}x_{i}} - (\bar{y} - \hat{\beta_{2}}\bar{x})\sum{x_{i}} - \sum{\hat{\beta_{2}}x_{i}^{2}} = 0$

Приводим подобные слагаемые, разнесем по стороны:

$\hat{\beta_{2}} (\bar{x} \sum{x_{i}} - \sum{x_{i}^{2}}) = \bar{y} \sum{x_{i}} - \sum{y_{i}x_{i}}$

Отсюда

$\hat{\beta_{2}} = \frac
{\bar{y} \sum{x_{i}} - \sum{y_{i}x_{i}}}
{\bar{x} \sum{x_{i}} - \sum{x_{i}^{2}}}$

# И как в учебнике

внесём средние под знак суммы, поменяем знаки

$\hat{\beta_{2}} = \frac
{\bar{y} \sum{x_{i}} - \sum{y_{i}x_{i}}}
{\bar{x} \sum{x_{i}} - \sum{x_{i}^{2}}}$
=
$\frac
{\sum{y_{i}x_{i}} - \sum{\bar{y}x_{i}}}
{\sum{x_{i}^{2}} - \sum{\bar{x}x_{i}}}$
=
$\frac
{\sum{(y_{i} - \bar{y})}x_{i}}
{\sum{(x_{i} - \bar{x})}x_{i}}$

Так как $\sum{(x_{i} - \bar{x})}$ равна нулю, если её домножить на любой показатель, то всё равно будет нуль ($\bar{x}\sum{(x_{i} - \bar{x})} = 0$)

Возьмём

$\frac
{\sum{(y_{i} - \bar{y})}x_{i}}
{\sum{(x_{i} - \bar{x})}x_{i}}$

и вычтим ноль в знаменателе и числителе *(В разных формах, но всё же, см. пояснение парой строк выше)*, вынесем за скобки.

$\frac
{\sum{(y_{i} - \bar{y})}x_{i} - \sum{\bar{x}(y_{i} - \bar{y})}}
{\sum{(x_{i} - \bar{x})}x_{i} - \sum{\bar{x}(x_{i} - \bar{x})}}$
=
$\frac
{\sum{(y_{i} - \bar{y})(x_{i} - \bar{x})}}
{\sum{(x_{i} - \bar{x})^{2}}}$

# Примечание

Заметим, что $\frac{\sum_{i=1}^{N}{x_{i}}}{N} = \bar{x}$ т.е сумму поделить на количетво средних получается "среднее"

Из этого следует, что $\sum{x_{i}} = N\bar{x} = \sum{\bar{x}}$

# Matrix

Вспомним, что (*ошибка прогноза*) $\hat{\varepsilon}$ = $y_{i} - \hat{y}$ = $y_{i} - \hat{\beta_{1}} - \hat{\beta_{2}}x_{i}$

Мы сокащали **-2**:

$\frac{\partial Q}{\partial \hat{\beta}_{1}} = 
\sum{\hat{\varepsilon}}$

$\frac{\partial Q}{\partial \hat{\beta}_{2}} = 
\sum{\hat{\varepsilon}x_{i}}$


Таким образом в случае множества переменных

$\frac{\partial Q}{\partial \hat{\beta}_{1}} = 
\sum{\hat{\varepsilon}}$

$\frac{\partial Q}{\partial \hat{\beta}_{2}} = 
\sum{\hat{\varepsilon}x_{i}}$

$\frac{\partial Q}{\partial \hat{\beta}_{3}} = 
\sum{\hat{\varepsilon}z_{i}}$