In [None]:
'''
Introdução à Econometria - Uma abordagem moderna (Tradução da 6 edição norte-americana)
Autor: WOOLDRIDGE, J. M.
Editora: CENGAGE LEARNING

Cap. 6: Análise de regressão múltipla: problemas adicionais (Multiple Regression Analysis: Further Issues)
Exemplo 6.4: Remuneração de diretores-executivos (CEO) e desempenho de empresas
             (CEO COMPENSATION AND FIRM PERFORMANCE)
             
Arquivo com os dados: ceosal1.xls

Arquivo com dados em:
http://students.cengage.com.br/dashboard/private/livroView.jsf;jsessionid=95E9AD889A4A4B7ABBD2A5251F1E14BE?id=104577

Em caso de dúvidas ou problemas, solicitamos, por gentileza, entrar em contato pelo e-mail:
python.economia@gmail.com
'''

In [1]:
import pandas as pd
import statsmodels.formula.api as smf

In [2]:
df = pd.read_excel('ceosal1.xls',
                   header=None,
                   usecols=[0, 2, 3, 10, 11],
                   names=['salary', 'sales', 'roe', 'lsalary', 'lsales' ])

In [3]:
df.head()

Unnamed: 0,salary,sales,roe,lsalary,lsales
0,1095,27595.0,14.1,6.998509,10.22539
1,1001,9958.0,10.9,6.908755,9.206132
2,1122,6125.9,23.5,7.022868,8.720281
3,578,16246.0,5.9,6.359574,9.695602
4,1368,21783.2,13.8,7.221105,9.988894


### Comando sugeridos

#### Regressão por Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)

In [4]:
modelo_1 = smf.ols(formula='salary ~ sales + roe', data=df)
reg_1 = modelo_1.fit()

modelo_2 = smf.ols(formula='lsalary ~ lsales + roe', data=df)
reg_2 = modelo_2.fit()

In [5]:
# Regressão modelo 1
resultados_1 = pd.DataFrame()
resultados_1['coef'] = reg_1.params
resultados_1['std err'] = reg_1.bse

print(f'Variável dependente: salary\n')
print(resultados_1)
print(f'\nn = {int(reg_1.nobs)}, R2 = {round(reg_1.rsquared, 3)}, R2 ajustado: {round(reg_1.rsquared_adj, 3)}' )

Variável dependente: salary

                 coef     std err
Intercept  830.631289  223.904895
sales        0.016342    0.008874
roe         19.630969   11.076552

n = 209, R2 = 0.029, R2 ajustado: 0.02


In [6]:
'''
Valores p para o teste:
H0: Bk = 0
H1: Bk != 0
'''
round(reg_1.pvalues, 5)

Intercept    0.00027
sales        0.06697
roe          0.07782
dtype: float64

In [7]:
# Soma dos quadrados total (Total Sum of Squares for salary)
reg_1.centered_tss

391732982.00956935

In [8]:
# Regressão modelo 2
resultados_2 = pd.DataFrame()
resultados_2['coef'] = reg_2.params
resultados_2['std err'] = reg_2.bse

print(f'Variável dependente: lsalary\n')
print(resultados_2)
print(f'\nn = {int(reg_2.nobs)}, R2 = {round(reg_2.rsquared, 3)}, R2 ajustado: {round(reg_2.rsquared_adj, 3)}' )

Variável dependente: lsalary

               coef   std err
Intercept  4.362167  0.293878
lsales     0.275087  0.033254
roe        0.017872  0.003955

n = 209, R2 = 0.282, R2 ajustado: 0.275


In [10]:
'''
Valores p para o teste:
H0: Bk = 0
H1: Bk != 0
'''
round(reg_2.pvalues, 5)

Intercept    0.00000
lsales       0.00000
roe          0.00001
dtype: float64

In [9]:
# Soma dos quadrados total de log(salary) [Total Sum of Squares for lsalary]
reg_2.centered_tss

66.72217292310248

### Calculando a Soma dos Quadrados Total (SQT) manualmente
#### Em inglês: Total Sum of Squares (SST na abreviatura constante em Wooldridge, capítulo 3, item Goodness-of-Fit )

In [11]:
# Total Sum of Squares for lsalary
# Obtido anteriormente pelo comando: reg_2.centered_tss
desvio_media = df['lsalary'] - df['lsalary'].mean()
desvio_media_quadrado = desvio_media**2
soma_desvio_media_quadrado = desvio_media_quadrado.sum()

soma_desvio_media_quadrado

66.72217292310248