In [None]:
'''
Introdução à Econometria - Uma abordagem moderna (Tradução da 6 edição norte-americana)
Autor: WOOLDRIDGE, J. M.
Editora: CENGAGE LEARNING

Cap. 6: Análise de regressão múltipla: problemas adicionais (Multiple Regression Analysis: Further Issues)
Exemplo 6.6: Intervalo de confiança de notas médias futuras
             (CONFIDENCE INTERVAL FOR FUTURE COLLEGE GPA)
             
Arquivo com os dados: gpa2.xls

Arquivo com dados em:
http://students.cengage.com.br/dashboard/private/livroView.jsf;jsessionid=95E9AD889A4A4B7ABBD2A5251F1E14BE?id=104577

Em caso de dúvidas ou problemas, solicitamos, por gentileza, entrar em contato pelo e-mail:
python.economia@gmail.com
'''

In [1]:
import pandas as pd
import statsmodels.formula.api as smf

In [2]:
df = pd.read_excel('gpa2.xls',
                   header=None,
                   usecols=[0, 2, 5, 7, 11],
                   names=['sat', 'colgpa', 'hsize', 'hsperc', 'hsizesq'])

In [3]:
df.head()

Unnamed: 0,sat,colgpa,hsize,hsperc,hsizesq
0,920,2.04,0.1,40.0,0.01
1,1170,4.0,9.4,20.31915,88.36
2,810,1.78,1.19,35.29412,1.4161
3,940,2.42,5.71,44.1331,32.6041
4,1180,2.61,2.14,40.18692,4.5796


### Comando sugeridos

#### Regressão por Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)

In [4]:
modelo = smf.ols(formula='colgpa ~ sat + hsperc + hsize + hsizesq', data=df)
reg = modelo.fit()

In [5]:
# Intervalo de confiança de 95% para o colgpa futuro
exog = {'sat': 1200, 'hsperc': 30, 'hsize': 5, 'hsizesq': 25}

intervalo_confianca_colgpa = reg.get_prediction(exog)
intervalo_confianca_colgpa.conf_int(obs=True, alpha=0.05)    # Para obter o IC de 95% no exemplo 6.5, usamos "obs=False"

array([[1.60174938, 3.79840159]])

#### Intervalo de Confiança de 95% para o colgpa futuro calculado pelo procedimento sugerido no livro

In [6]:
sat = 1200
hsperc = 30
hsize = 5

df['sat0'] = df['sat'] - sat
df['hsperc0'] = df['hsperc'] - hsperc
df['hsize0'] = df['hsize'] - hsize
df['hsizesq0'] = df['hsizesq'] - hsize ** 2

modelo_predict = smf.ols('colgpa ~ sat0 + hsperc0 + hsize0 + hsizesq0', data=df)
reg_predict = modelo_predict.fit()

In [7]:
sigma_chapeu_predict = reg_predict.mse_resid ** 0.5
round(sigma_chapeu_predict, 2)

0.56

In [8]:
# Intervalo de confiança de 95% para o colgpa futuro
ep_e_chapeu = (reg_predict.bse['Intercept']**2  + sigma_chapeu_predict**2)**0.5
inferior = reg_predict.params['Intercept'] - 1.96 * ep_e_chapeu
superior = reg_predict.params['Intercept'] + 1.96 * ep_e_chapeu

intervalo_confianca_95 = (inferior, superior)

intervalo_confianca_95

(1.602050928009031, 3.798100045733057)