# Степень подгонки модели регрессии

Модель линейной регрессии

\begin{equation*}
	y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+u
\end{equation*}

В матричной записи

\begin{align*}
	y&=x^\top\beta+u & \beta&=\begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} &
	x &=\begin{pmatrix} 1 \\ x_1 \\ \vdots \\ x_k \end{pmatrix}
\end{align*}

## Прогнозы и остатки

Модель подгоняется (OLS) по серии из $n$ наблюдений (обучающая выборка)

$$
	\{y_i, x_{i1},\ldots,x_{ik}\}_{i=1}^n
$$

Коэффициенты подогнанной модели $\hat{\beta}=\begin{pmatrix} \hat{\beta}_0 & \hat{\beta}_1 & \cdots & \hat{\beta}_k \end{pmatrix}^\top$

Для каждого наблюдения имеем

* $y_i$ – фактическое наблюдение
* $\hat{y}_i$ – прогноз по подогнанной модели ($\hat{y}_i=x_i^\top\hat{\beta}$), подогнанные значения
* $e_i=(y_i-\hat{y}_i)$ – остаток/ошибка прогноза

__Замечание__: т.к. модель включает $\beta_0$, то $\sum_{i=1}^n e_i=0$

__Замечание__: для регрессии $\log y=x^\top\beta+u$ прогноз $\widehat{\log y_i}=x_i^\top\hat{\beta}$ и остаток $e_i=\log y_i-\widehat{\log y_i}$

## Разложение дисперсии

Определим следующие величины

* $TSS=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2$ – общая сумма квадратов зависимой переменной
* $ESS=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2$ – объяснённая сумма квадратов зависимой переменной
* $RSS=\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2=\sum_{i=1}^n e^2_i$ – остаточная сумма квадратов зависимой переменной

Тогда

* $Var(y)=TSS/n$ – выборочная дисперсия $y$
* $Var(\hat{y})=ESS/n$ – дисперсия прогнозов $\hat{y}$
* $MSE=Var(e)=RSS/n$ – <span style="color: purple">средняя квадратическая ошибка прогноза</span> (на обучающей выборке)/дисперсия остатков

Стандартная ошибка регрессии

$$
	s=\sqrt{\frac{RSS}{n-k-1}}
$$

<div style="background-color:Bisque; color:DarkBlue; padding:30px;">

<i><b><span style="color: purple"> Разложение дисперсии </span> </b><br>

Для линейной регрессии с $\beta_0$ выполнено равенство

$$
	Var(y)=Var(\hat{y})+Var(e)\Longleftrightarrow  \frac{1}{n}TSS=\frac{1}{n}ESS+\frac{1}{n}RSS
$$

</div>

## Коэффициент $R^2$

Для линейной регрессии на выборочных данных определим

<div style="background-color:Bisque; color:DarkBlue; padding:30px;">

<i><b><span style="color: purple"> Коэффициент </span> $\color{purple}R^2$ </b><br> 

Для линейной регрессии с $\beta_0$ коэффициент $R^2$ или детерминации определяется как

$$
	R^2=1-\frac{Var(e)}{Var(y)}=1-\frac{RSS}{TSS}=\frac{ESS}{TSS}=\frac{Var(\hat{y})}{Var(y)}
$$

</i></div>

Базовые свойства

* $0\leq R^2\leq 1$
* $R^2=0\Leftrightarrow \hat{y}_i=\bar{y}\Leftrightarrow \hat{\beta}_1=\cdots=\hat{\beta}_k=0$
* $R^2=1\Leftrightarrow e_i=0\Leftrightarrow y_i=\hat{y}_i$
* При добавлении новых регрессоров из того же датасета может только увеличиться

<div style="background-color:Bisque; color:DarkBlue; padding:30px;">

<i><b><span style="color: purple"> Интерпретация </span> $\color{purple}R^2$ <span style="color: purple"> как показателя "качества подгонки" модели </span> </b><br> 

Какая доля зависимой переменной объясняется моделью на выборочных данных

</i></div>

## Коэффициент $R^2_{adj}$

Обозначим
* $s^2_e=RSS/(n-k-1)$
* $s^2_y=TSS/(n-1)$

(это "исправленные" дисперсии)

<div style="background-color:Bisque; color:DarkBlue; padding:30px;">

<i><b><span style="color: purple"> Коэффициент </span> $\color{purple}R^2_{adj}$ </b><br> 

Для линейной регрессии с $\beta_0$ коэффициент скорректированный $R^2_{adj}$ определяется как

$$
	R^2_{adj}=1-\frac{s^2_e}{s^2_y}=1-\frac{RSS/(n-k-1)}{TSS/(n-1)}=1-(1-R^2)\frac{n-1}{n-k-1}
$$

</i></div>

Базовые свойства

* $R^2_{adj}\leq R^2$
* м.б. отрицательным
* неинтерптетируем
* используется для сравнения нескольких регрессий

In [None]:
# подключение библиотек
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf

In [None]:
# импорт данных из файла как DataFrame
df = pd.read_csv('sleep75.csv')

## Спецификация и подгонка

In [None]:
# спецификация модели через формулу
mod = smf.ols(formula='sleep~1+totwrk+age+smsa', data=df)
# подгонка модели
res = mod.fit()

In [None]:
# параметры подогнанной модели регрессии
res.params

## Суммы квадратов

In [None]:
# TSS
res.centered_tss

In [None]:
# ESS
res.ess

In [None]:
# RSS
res.ssr

## Коэффициенты $R^2$ и $adj.R^2$

In [None]:
# R^2
res.rsquared

In [None]:
# adj R^2
res.rsquared_adj

In [None]:
# стандартная ошибка регрессии
res.scale

## Фактические значение зависимой переменной, предсказанные значения и остатки

Рассмотрим наблюдения 1, 4, 6, 508 и 700 

Зададим индексы (индексация в Python начинается с 0!)

In [None]:
# задаем индексы уменьшив их на единицу
ind = np.array([1, 4, 6, 508, 700])-1

In [None]:
# Фактические значения
df['sleep'].iloc[ind]

In [None]:
# Предсказанные значения
res.fittedvalues[ind]

In [None]:
# Остатки
res.resid[ind]

## Как отфильтровать определенные строки из DataFrame?

Выбор строк датасета по условию

<div style="background-color:Bisque; color:DarkBlue; padding:30px;">


</div>

Нас интересуют наблюдения только жителей мегаполиса, т.е жители, для которых `smsa=1`  

Чтобы выбрать строки на основе условия, поместите условие в скобки выбора `[]`

In [None]:
df[df['smsa']==1]

Условие `df['smsa']==1` внутри скобок выбора проверяет, для каких строк столбец `smsa` имеет значение равное 1

Возможны и другие условные операторы

| Оператор | Название |
|:-------------:|:---------------:|
| `<` | Меньше |
| `>` | Больше |
| `<=` | Меньше или равно |
| `>=` | Больше или равно |
| `==` | Равно |
| `!=` | Не равно |


При объединении нескольких условных операторов каждое условие должно быть заключено в круглые скобки `()`. 

Более того, вы не можете использовать `or` или `and`, а должны использовать `|` в качестве оператора `или` и `&` в качестве оператора `и`.