In [None]:
'''
Introdução à Econometria - Uma abordagem moderna (Tradução da 6 edição norte-americana)
Autor: WOOLDRIDGE, J. M.
Editora: CENGAGE LEARNING

Cap. 2: Modelo de regressão simples (The Simple Regression Model)
Exemplo 2.10: Uma equação do logaritmo dos salários-hora
             (A LOG WAGE EQUATION)
             
Arquivo com os dados: wage1.xls

Arquivo com dados em:
http://students.cengage.com.br/dashboard/private/livroView.jsf;jsessionid=95E9AD889A4A4B7ABBD2A5251F1E14BE?id=104577

Em caso de dúvidas ou problemas, solicitamos, por gentileza, entrar em contato pelo e-mail:
python.economia@gmail.com
'''

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

In [2]:
df = pd.read_excel('wage1.xls',
                   header=None,
                   usecols=[0, 1, 21],
                   names=['wage', 'educ', 'lwage'])   # lwage = log(wage) ; em que log é o logaritmo natural

In [3]:
df.head()

Unnamed: 0,wage,educ,lwage
0,3.1,11,1.131402
1,3.24,12,1.175573
2,3.0,11,1.098612
3,6.0,8,1.791759
4,5.3,12,1.667707


### Comandos sugeridos

#### Regressão por Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)

In [4]:
modelo = smf.ols('lwage ~ educ', data=df)    # lwage já está na forma logarítmica
reg = modelo.fit()
reg.summary()

0,1,2,3
Dep. Variable:,lwage,R-squared:,0.186
Model:,OLS,Adj. R-squared:,0.184
Method:,Least Squares,F-statistic:,119.6
Date:,"Sat, 30 Jul 2022",Prob (F-statistic):,3.27e-25
Time:,09:28:26,Log-Likelihood:,-359.38
No. Observations:,526,AIC:,722.8
Df Residuals:,524,BIC:,731.3
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0.5838,0.097,5.998,0.000,0.393,0.775
educ,0.0827,0.008,10.935,0.000,0.068,0.098

0,1,2,3
Omnibus:,11.804,Durbin-Watson:,1.801
Prob(Omnibus):,0.003,Jarque-Bera (JB):,13.811
Skew:,0.268,Prob(JB):,0.001
Kurtosis:,3.586,Cond. No.,60.2


In [None]:
'''
Para cada ano adicional de educação formal, estimamos que wage aumenta 8,3% (100 * coeficiente estimado de educ)

Note que:
- NÃO é correto dizer "estimamos que um ano adicional de educação formal aumenta log(wage) em 8,3%", mas sim wage.
- O R-quadrado mostra que educ explica cerca de 18,6% da variação em log(wage), não em wage.
'''

In [5]:
# Se não tivéssemos lwage, poderíamos rodar a regressão acima utilizando a função log do numpy (log é o logaritmo natural)

modelo_2 = smf.ols('np.log(wage) ~ educ', data=df)  # note que passamos wage para a função log do numpy pois, por suposição, não teríamos a variável lwage
reg_2 = modelo_2.fit()
reg_2.summary()

0,1,2,3
Dep. Variable:,np.log(wage),R-squared:,0.186
Model:,OLS,Adj. R-squared:,0.184
Method:,Least Squares,F-statistic:,119.6
Date:,"Sat, 30 Jul 2022",Prob (F-statistic):,3.27e-25
Time:,09:29:01,Log-Likelihood:,-359.38
No. Observations:,526,AIC:,722.8
Df Residuals:,524,BIC:,731.3
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0.5838,0.097,5.998,0.000,0.393,0.775
educ,0.0827,0.008,10.935,0.000,0.068,0.098

0,1,2,3
Omnibus:,11.804,Durbin-Watson:,1.801
Prob(Omnibus):,0.003,Jarque-Bera (JB):,13.811
Skew:,0.268,Prob(JB):,0.001
Kurtosis:,3.586,Cond. No.,60.2
