# Прогнозирование для модели регрессии
Рассморим модель регрессии 
\begin{align*}
    (\log)y&=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+u=x'\beta+u & 
    x&=\begin{pmatrix}1 & x_1 & \cdots & x_k \end{pmatrix}^\top &
    \beta &= \begin{pmatrix} \beta_0 & \beta_1 & \cdots & \beta_k \end{pmatrix}^\top
\end{align*}
Оценки коэффициентов на данных $\hat{\beta}=\begin{pmatrix} \hat{\beta}_0 & \hat{\beta}_1 & \cdots & \hat{\beta}_k \end{pmatrix}^\top$.

Пусть заданы значения предикторов $x=\begin{pmatrix}1 & x_1 & \cdots & x_k \end{pmatrix}^\top$. Тогда **оптимальный линейной прогноз**
$$ \hat{y}=(\exp)x'\hat{\beta}=(\exp)(\hat{\beta}_0+\hat{\beta}_1x_1+\cdots+\hat{\beta}_kx_k) $$

In [None]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm

## Sleep equation
Для набора данных `sleep75` рассмотрим линейную регрессию
**sleep на totwrk, age, south, male, smsa, yngkid, marr**

Результаты подгонки (коэффициенты)

In [None]:
sleep_df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/sleep75.csv')
mod1 = smf.ols(formula='sleep~totwrk+age+south+male+smsa+yngkid+marr', data=sleep_df).fit()
mod1.params

Рассморим трёх людей с характеристиками

In [None]:
new_df = pd.DataFrame( {'totwrk': [2150, 1950, 2240], 'age': [37, 28, 26], 'south': [0, 1, 0], 
                        'male': [1, 1, 0], 'smsa': [1, 0, 1], 'yngkid': [0, 1, 0], 'marr': [1, 0, 0] } )
new_df

Построим прогноз используя .predict()

In [None]:
mod1.predict(exog=new_df, transform=True)

Непосредственное вычисление $\hat{\beta}_0+\hat{\beta}_1x_1+\cdots+\hat{\beta}_kx_k$ для каждого наблюдения.

В матричном виде $X\hat{\beta}$, где $X$ состоит из значений переменных по столбцам + первый столбец из единиц для учёта $\beta_0$

In [None]:
X = sm.add_constant(new_df)
np.dot(X, mod1.params)

## Output equation
Для набора данных `Labour` рассмотрим линейную регрессию **log(output) на log(capital), log(labour)**.

Результаты подгонки (коэффициенты)

In [None]:
labour_df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/Labour.csv')
mod2 = smf.ols(formula='np.log(output)~np.log(capital)+np.log(labour)', data=labour_df).fit()
mod2.params

Рассмотрим три фирмы с характеристиками

In [None]:
new_df = pd.DataFrame( {'capital': [2.97, 10.45, 3.85], 'labour': [85, 60, 105]} )
new_df

In [None]:
np.exp( mod2.predict(exog=new_df, transform=True) )

In [None]:
# Непосредственное вычисление без преодразования: transform=False
np.exp( mod2.predict(exog=sm.add_constant(np.log(new_df)), transform=False) )