# Прогнозирование (out-of-sample)

Рассмотрим модель регрессии

$$
	(\log) y=\beta_0+\beta_1 (\log)x_1+\cdots+\beta_k (\log) x_k+u
$$

В матричной записи

\begin{align*}
	(\log)y&=x^\top\beta+u & \beta&=\begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} &
	x &=\begin{pmatrix} 1 \\ (\log)x_1 \\ \vdots \\ (\log) x_k \end{pmatrix}
\end{align*}

Пусть $\hat{\beta}$ – оценки коэффициентов (результат подгонки модели на обучающей выборке)

Прогноз по подогнанной (обученной модели) на новом наборе данных (регрессорах)

$$
	\hat{y}=(\exp) x^\top \hat{\beta}
$$

In [None]:
import numpy as np
import pandas as pd

from statsmodels.formula.api import ols

# Не показывать FutureWarnings
import warnings
warnings.simplefilter(action='ignore', category=Warning)

In [None]:
# импорт данных
df = pd.read_csv('sleep75.csv')

## Спецификация и подгонка

In [None]:
# спецификация модели через формулу
mod = ols(formula='sleep~1+totwrk+age+smsa', data=df)
# подгонка модели
res = mod.fit()

In [None]:
# параметры подогнанной модели регрессии с округлением
res.params.round(2)

## Прогнозирование

In [None]:
# Создадим датафрейм с новыми данными регрессоров для прогноза
new_data = pd.DataFrame({'totwrk': [2150, 1950, 2240], 'age': [37, 26, 28], 'smsa': [1, 0, 1] })
new_data

In [None]:
# Прогноз
res.predict(exog=new_data, transform=True).round(2)