# probit-регрессия: Сравнение моделей

In [1]:
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
from statsmodels.iolib.summary2 import summary_col # вывод результатов нескольких регрессий

# Не показывать FutureWarnings
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [2]:
# подключим датасет mroz_Greene по ссылке 
df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/econometrica/main/econometrica2/data-csv/TableF5-1.csv')
#подключим датасет mroz_Greene из локального файла
#df = pd.read_csv('TableF5-1.csv')
df.head()

Unnamed: 0,LFP,WHRS,KL6,K618,WA,WE,WW,RPWG,HHRS,HA,HE,HW,FAMINC,MTR,WMED,WFED,UN,CIT,AX
0,1,1610,1,0,32,12,3.354,2.65,2708,34,12,4.0288,16310,0.7215,12,7,5.0,0,14
1,1,1656,0,2,30,12,1.3889,2.65,2310,30,9,8.4416,21800,0.6615,7,7,11.0,1,5
2,1,1980,1,3,35,12,4.5455,4.04,3072,40,12,3.5807,21040,0.6915,12,7,5.0,0,15
3,1,456,0,3,34,12,1.0965,3.25,1920,53,10,3.5417,7300,0.7815,7,7,5.0,0,6
4,1,1568,1,2,31,14,4.5918,3.6,2000,32,12,10.0,27300,0.6215,12,14,9.5,1,7


## Спецификация и подгонка нескольких моделей

In [3]:
# model 1
mod_1 = smf.probit(formula = 'LFP~WA+I(WA**2)+WE+KL6+K618+CIT+UN+np.log(FAMINC)', data = df)
res_1 = mod_1.fit()

Optimization terminated successfully.
         Current function value: 0.613998
         Iterations 5


In [4]:
# model 2
mod_2 = smf.probit(formula = 'LFP~WE+KL6+K618+CIT+UN+np.log(FAMINC)', data = df)
res_2 = mod_2.fit()

Optimization terminated successfully.
         Current function value: 0.631739
         Iterations 5


In [5]:
# model 3
mod_3 = smf.probit(formula = 'LFP~WA+I(WA**2)+WE+KL6+np.log(FAMINC)', data = df)
res_3 = mod_3.fit()

Optimization terminated successfully.
         Current function value: 0.617126
         Iterations 5


In [6]:
# model 4
mod_4 = smf.probit(formula = 'LFP~WA+I(WA**2)+WE+KL6', data = df)
res_4 = mod_4.fit()

Optimization terminated successfully.
         Current function value: 0.618845
         Iterations 5


In [7]:
# Сравнение моделей
# Имена моделей
mod_names = ['Модель 1', 'Модель 2', 'Модель 3', 'Модель 4']
# порядок регрессоров в таблице
reg_order = ['Intercept', 'WA', 'I(WA ** 2)', 'WE', 'KL6', 'K618', 'CIT','UN', 'np.log(FAMINC)']
# Зависимая переменная LFP
summary_col([res_1, res_2, res_3, res_4], model_names=mod_names, stars=True, regressor_order=reg_order, float_format='%.3f')

0,1,2,3,4
,Модель 1,Модель 2,Модель 3,Модель 4
Intercept,-2.005,-2.673***,-1.435,-0.281
,(1.705),(0.957),(1.667),(1.503)
WA,0.008,,-0.018,-0.006
,(0.070),,(0.069),(0.068)
I(WA ** 2),-0.001,,-0.000,-0.000
,(0.001),,(0.001),(0.001)
WE,0.109***,0.124***,0.109***,0.123***
,(0.024),(0.024),(0.024),(0.022)
KL6,-0.851***,-0.621***,-0.847***,-0.855***


## Вывод нескольких моделей на в одной таблице с включением показателей AIC, BIC, pseudo-$R^2_{adj}$

In [13]:
# Имена моделей
mod_names = ['Модель 1', 'Модель 2', 'Модель 3', 'Модель 4']
# порядок регрессоров в таблице
reg_order = ['Intercept', 'WA', 'I(WA ** 2)', 'WE', 'KL6', 'K618', 'CIT','UN', 'np.log(FAMINC)']
# словарь с тем, что добавим 
info_to_add = {'AIC': lambda x: '%.3f' % x.aic, 'BIC': lambda x: '%.3f' % x.bic, 'R2_adj': lambda x: '%.3f' % (1-(x.llf-x.df_model)/x.llnull) }
# параметр '%.3f' % отвечает за округление до 3-х знаков после запятой

# Зависимая переменная LFP
summary_col(results=[res_1, res_2, res_3, res_4], model_names=mod_names, stars=True, float_format='%.3f', regressor_order=reg_order, info_dict=info_to_add)

0,1,2,3,4
,Модель 1,Модель 2,Модель 3,Модель 4
Intercept,-2.005,-2.673***,-1.435,-0.281
,(1.705),(0.957),(1.667),(1.503)
WA,0.008,,-0.018,-0.006
,(0.070),,(0.069),(0.068)
I(WA ** 2),-0.001,,-0.000,-0.000
,(0.001),,(0.001),(0.001)
WE,0.109***,0.124***,0.109***,0.123***
,(0.024),(0.024),(0.024),(0.022)
KL6,-0.851***,-0.621***,-0.847***,-0.855***
