In [None]:
'''
Introdução à Econometria - Uma abordagem moderna (Tradução da 6 edição norte-americana)
Autor: WOOLDRIDGE, J. M.
Editora: CENGAGE LEARNING

Cap. 6: Análise de regressão múltipla: problemas adicionais (Multiple Regression Analysis: Further Issues)
Tabela 6.1: Efeitos da dimensão dos dados
             (EFFECTS OF Data Scaling)
             
Arquivo com os dados: bwght.xls

Arquivo com dados em:
http://students.cengage.com.br/dashboard/private/livroView.jsf;jsessionid=95E9AD889A4A4B7ABBD2A5251F1E14BE?id=104577

Em caso de dúvidas ou problemas, solicitamos, por gentileza, entrar em contato pelo e-mail:
python.economia@gmail.com
'''

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.iolib.summary2 as sis

In [2]:
df = pd.read_excel('bwght.xls',
                   header=None,
                   usecols=[0, 3, 9],
                   names=['faminc', 'bwght', 'cigs'])

In [3]:
df.head()

Unnamed: 0,faminc,bwght,cigs
0,13.5,109,0
1,7.5,133,0
2,0.5,129,0
3,15.5,126,0
4,27.5,134,0


In [4]:
df['bwghtlbs'] = df['bwght'] / 16   # bwght: peso dos recém-nascidos em onças; bwghtlbs: peso em libras
df['packs'] = df['cigs'] / 20  # cigs: núm. médio de cigarros que a mãe fumou por dia na gravidez; 1 pack contém 20 gicarros

In [5]:
df.head()

Unnamed: 0,faminc,bwght,cigs,bwghtlbs,packs
0,13.5,109,0,6.8125,0.0
1,7.5,133,0,8.3125,0.0
2,0.5,129,0,8.0625,0.0
3,15.5,126,0,7.875,0.0
4,27.5,134,0,8.375,0.0


### Comandos sugeridos

In [6]:
# Regressão pelo Método de Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)
modelo_1 = smf.ols(formula='bwght ~ cigs + faminc', data=df)
reg_1 = modelo_1.fit()

modelo_2 = smf.ols(formula='bwghtlbs ~ cigs + faminc', data=df)
reg_2 = modelo_2.fit()

modelo_3 = smf.ols(formula='bwght ~ packs + faminc', data=df)
reg_3 = modelo_3.fit()

In [7]:
results_table = sis.summary_col(results=[reg_1, reg_2, reg_3],
                            float_format='%0.4f',
                            stars = False,
                            model_names=['(1) bwght',
                                         '(2) bwghtlbs',
                                         '(3) bwght'],
                            regressor_order=['cigs', 'packs', 'faminc', 'Intercept'],
                            info_dict={'Observacoes':  lambda x: '%d' %x.nobs,
                                       'SQR': lambda x: '%.2f' %x.ssr, 
                                       'EPR': lambda x: '%.3f' %x.mse_resid**0.5,})

results_table.add_title('Tabela 6.1 Efeitos da dimensão dos dados')
print(results_table)

   Tabela 6.1 Efeitos da dimensão dos dados
               (1) bwght (2) bwghtlbs (3) bwght
-----------------------------------------------
cigs           -0.4634   -0.0290               
               (0.0916)  (0.0057)              
packs                                 -9.2682  
                                      (1.8315) 
faminc         0.0928    0.0058       0.0928   
               (0.0292)  (0.0018)     (0.0292) 
Intercept      116.9741  7.3109       116.9741 
               (1.0490)  (0.0656)     (1.0490) 
R-squared      0.0298    0.0298       0.0298   
R-squared Adj. 0.0284    0.0284       0.0284   
Observacoes    1388      1388         1388     
SQR            557485.51 2177.68      557485.51
EPR            20.063    1.254        20.063   
Standard errors in parentheses.


In [None]:
'''
SQR: soma dos quadrados dos resíduos
(sigla inglês do SQR: ssr, sum of squared residuals)

EPR: Erro Padrão da Regressão, também chamado de raiz do erro quadrado médio 
(sigla inglês do EPR: SER, standard error of the regression, também chamado de root mean squared error (root mse))
'''

In [None]:
# Nota: no livro, a estimativa de MQO do parâmetro de "cigs" na coluna 2 consta como 0.0289, quando deveria estar -0,0289.

### Comparações entre reg_1 (bwght em onças) e reg_2 (bwght em libras)

In [None]:
# Comparação entre os coeficientes estimados

In [8]:
reg_1.params

Intercept    116.974130
cigs          -0.463408
faminc         0.092765
dtype: float64

In [9]:
reg_2.params

Intercept    7.310883
cigs        -0.028963
faminc       0.005798
dtype: float64

In [10]:
# reg_2.params = reg_1.params / 16
reg_1.params / 16

Intercept    7.310883
cigs        -0.028963
faminc       0.005798
dtype: float64

In [None]:
# Comparação entre os erros padrão

In [11]:
reg_1.bse

Intercept    1.048984
cigs         0.091577
faminc       0.029188
dtype: float64

In [12]:
reg_2.bse

Intercept    0.065562
cigs         0.005724
faminc       0.001824
dtype: float64

In [13]:
# reg_2.bse = reg_1.bse / 16
reg_1.bse / 16

Intercept    0.065562
cigs         0.005724
faminc       0.001824
dtype: float64

In [None]:
# Comparação entre os valores das estatísticas t (para H0: Bi=0; H1: Bi!=0)

In [14]:
reg_1.tvalues

Intercept    111.511821
cigs          -5.060315
faminc         3.178195
dtype: float64

In [15]:
reg_2.tvalues

Intercept    111.511821
cigs          -5.060315
faminc         3.178195
dtype: float64

In [None]:
# Comparação entre os intervalos de confiança de 95%

In [16]:
reg_1.conf_int(alpha=0.05)

Unnamed: 0,0,1
Intercept,114.916361,119.0319
cigs,-0.643052,-0.283763
faminc,0.035508,0.150022


In [17]:
reg_2.conf_int(alpha=0.05)

Unnamed: 0,0,1
Intercept,7.182273,7.439494
cigs,-0.040191,-0.017735
faminc,0.002219,0.009376


In [18]:
# reg_2.conf_int(alpha=0.05) = reg_1.conf_int(alpha=0.05) / 16
reg_1.conf_int(alpha=0.05) / 16

Unnamed: 0,0,1
Intercept,7.182273,7.439494
cigs,-0.040191,-0.017735
faminc,0.002219,0.009376


In [None]:
# Comparação entre a SQR

In [19]:
reg_1.ssr

557485.5109072427

In [20]:
reg_2.ssr

2177.6777769814166

In [21]:
# SQR de reg_2 = SQR de reg_1 / 256
reg_1.ssr / 256

2177.6777769814166

In [None]:
# Comparação entre o EPR

In [22]:
reg_1.mse_resid**0.5

20.062816710857437

In [23]:
reg_2.mse_resid**0.5

1.2539260444285898

In [24]:
# EPR de reg_2 = EPR de reg_1 / 16
reg_1.mse_resid**0.5 / 16

1.2539260444285898

### Comparações entre reg_1 (variável cigs) e reg_3 (variável packs no lugar de cigs)

In [None]:
# Comparações entre os coeficientes MQO

In [25]:
reg_1.params['Intercept']

116.97413047527954

In [26]:
reg_3.params['Intercept']

116.97413047527951

In [27]:
reg_1.params['faminc']

0.09276473837218335

In [28]:
reg_3.params['faminc']

0.09276473837218827

In [29]:
reg_1.params['cigs']

-0.4634075402018808

In [30]:
reg_3.params['packs']

-9.268150804037788

In [31]:
# b_packs = b_cigs * 20
reg_1.params['cigs'] * 20 

-9.268150804037615

In [None]:
# Comparação entre os erros padrão

In [32]:
reg_1.bse['cigs']

0.09157682326692307

In [33]:
reg_3.bse['packs']

1.8315364653384516

In [34]:
# erro padrão de packs = (erro padrão de cigs) * 20 
reg_1.bse['cigs'] * 20

1.8315364653384614

In [None]:
# Comparação entre os valores das estatísticas t de cigs e packs (para H0: Bi=0; H1: Bi!=0)

In [35]:
reg_1.tvalues['cigs']

-5.060314648076032

In [36]:
reg_3.tvalues['packs']

-5.060314648076153

### Comparação entre reg_1 e reg_2 (variável dependente na forma logarítmica)

In [37]:
modelo_oncas = smf.ols(formula='np.log(bwght) ~ cigs + faminc', data=df)
reg_oncas = modelo_oncas.fit()

modelo_libras = smf.ols(formula='np.log(bwghtlbs) ~ cigs + faminc', data=df)
reg_libras = modelo_libras.fit()

In [39]:
results_table = sis.summary_col(results=[reg_oncas, reg_libras],
                            float_format='%0.4f',
                            stars = False,
                            model_names=['(1) log_bwght',
                                         '(2) log_bwghtlbs'],
                            regressor_order=['cigs', 'faminc', 'Intercept'],
                            info_dict={'SQR': lambda x: '%.2f' %x.ssr, 'EPR': lambda x: '%.3f' %x.mse_resid**0.5,})

results_table.add_title('Comparação: log_bwght em onças e em libras')
print(results_table)

 Comparação: log_bwght em onças e em libras
               (1) log_bwght (2) log_bwghtlbs
---------------------------------------------
cigs           -0.0040       -0.0040         
               (0.0009)      (0.0009)        
faminc         0.0008        0.0008          
               (0.0003)      (0.0003)        
Intercept      4.7440        1.9714          
               (0.0098)      (0.0098)        
R-squared      0.0265        0.0265          
R-squared Adj. 0.0251        0.0251          
SQR            49.09         49.09           
EPR            0.188         0.188           
Standard errors in parentheses.


In [None]:
# Os coeficientes de cigs e faminc são iguais nas duas regressões. Apenas o intercepto difere.

### Parâmetro "info_dict" d a função "sis.summary_col()"

In [None]:
'''
info_dict={'SQR': lambda x: x.ssr}
O comando acima irá criar uma linha chamada 'SQR' e fará: 
reg_1.ssr
reg_2.ssr
reg_3.ssr

(reg_1, reg_2 e reg_3 os três elementos da lista passada para o parâmetro "results")
'''

In [40]:
# Para mais sobre o código desta célula, pesquise por "marcador de posição em python"
n = 5.
s = '%.2f' %n #compõe a string com a variável n. %.2f indica que "colocaremos" na string um número com duas casas decimais.
s

'5.00'

In [None]:
'''
info_dict={'SQR': lambda x: '%.2f' %x.ssr}
O comando acima irá criar uma linha chamada 'SQR' e fará: 
'%.2f' %reg_1.ssr  -> compõe a string com reg_1.ssr; %.2f indica que colocaremos um número com duas casas decimais.
'%.2f' %reg_2.ssr
'%.2f' %reg_3.ssr

(reg_1, reg_2 e reg_3 os três elementos da lista passada para o parâmetro "results")

Obs:
(%d indicaria que colocaríamos um número inteiro)
(%s indicaria que colocaríamos uma string)
'''