# Прогнозирование для LPM-модели регрессии

In [2]:
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.tools import add_constant
from statsmodels.iolib.summary2 import summary_col, summary_params

## labour force equation

Для датасета [mroz_Greene](http://www.stern.nyu.edu/~wgreene/Text/Edition7/TableF5-1.csv)
рассморим регрессию **LFP на WA, WA^2, CIT, UN, log(FAMINC)**

In [8]:
# подключим датасет mroz_Greene по ссылке 
mroz_Greene = pd.read_csv('https://raw.githubusercontent.com/artamonoff/econometrica/main/econometrica2/data-csv/TableF5-1.csv', na_values=(' ', '', '  '))
mroz_Greene.shape

(753, 19)

In [10]:
# Создаем спецификацию модели через формулу и подгоняем модель с поправкой на гетероскедастичность
res_lpm_hc = smf.ols(formula='LFP~WA+I(WA**2)+CIT+UN+np.log(FAMINC)', data=mroz_Greene).fit(cov_type='HC3')
#print(res_lpm_hc.summary(slim=True))
res_lpm_hc.params.round(3)

Intercept        -1.525
WA                0.042
I(WA ** 2)       -0.001
CIT              -0.039
UN               -0.004
np.log(FAMINC)    0.140
dtype: float64

Рассморим трёх людей с характеристиками

In [6]:
new_df = pd.DataFrame( {'WA': [34, 36, 42], 
                      'CIT': [1, 0, 0], 
                     'UN': [3, 5, 7.5], 
                     'FAMINC': [35000, 48500, 67800]} )
new_df 

Unnamed: 0,WA,CIT,UN,FAMINC
0,34,1,3.0,35000
1,36,0,5.0,48500
2,42,0,7.5,67800


### Построим прогноз для каждого человека по подогнанной модели используя .predict()

In [12]:
res_lpm_hc.predict(exog=new_df, transform=True).round(3)

0    0.686
1    0.771
2    0.804
dtype: float64