In [None]:
'''
Introdução à Econometria - Uma abordagem moderna (Tradução da 6 edição norte-americana)
Autor: WOOLDRIDGE, J. M.
Editora: CENGAGE LEARNING

Cap. 2: Modelo de regressão simples (The Simple Regression Model)
Exemplo 2.4: Salário e educação
             (WAGE AND EDUCATION)
             
Arquivo com os dados: wage1.xls

Arquivo com dados em:
http://students.cengage.com.br/dashboard/private/livroView.jsf;jsessionid=95E9AD889A4A4B7ABBD2A5251F1E14BE?id=104577

Em caso de dúvidas ou problemas, solicitamos, por gentileza, entrar em contato pelo e-mail:
python.economia@gmail.com
'''

In [1]:
import pandas as pd
import statsmodels.formula.api as smf

In [2]:
df = pd.read_excel('wage1.xls',
                   header=None,
                   usecols=[0, 1],
                   names=['wage', 'educ'])

In [3]:
df.head()

Unnamed: 0,wage,educ
0,3.1,11
1,3.24,12
2,3.0,11
3,6.0,8
4,5.3,12


### Comandos sugeridos

#### Descrição básica dos dados

In [4]:
# Salário médio na amostra
df['wage'].mean()

5.896102661596966

In [5]:
# Número de pessoas na amostra com menos de 8 anos de educação formal
filtro = (df['educ'] < 8)
df.loc[filtro, 'educ'].count()

18

#### Regressão por Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)

In [None]:
'''
Para rodar a regressão por MQO seguimos dois passos:
Passo 1) Com a função "smf.ols()" geramos um objeto do tipo "OLS". O retorno atribuímos para uma variável.
Passo 2) Com a variável criada no passo 1, utilizamos o método "fit()". O retorno, atribuímos à uma outra variável. 
         É neste Passo 2 que os cálculos para rodar a regressão são executados. 
'''

In [6]:
# Regressão pelo Método de Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)
modelo = smf.ols('wage ~ educ', data=df) # Passo 1
reg = modelo.fit()                       # Passo 2 

In [None]:
# Abaixo, utilizamos a variável criada no Passo 2 (reg) para acessar os resultados da regressão

In [7]:
# Com o método summary() obtemos uma tabela com os principais resultados da regressão 
reg.summary()

0,1,2,3
Dep. Variable:,wage,R-squared:,0.165
Model:,OLS,Adj. R-squared:,0.163
Method:,Least Squares,F-statistic:,103.4
Date:,"Tue, 05 Jul 2022",Prob (F-statistic):,2.78e-22
Time:,17:56:33,Log-Likelihood:,-1385.7
No. Observations:,526,AIC:,2775.0
Df Residuals:,524,BIC:,2784.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-0.9049,0.685,-1.321,0.187,-2.250,0.441
educ,0.5414,0.053,10.167,0.000,0.437,0.646

0,1,2,3
Omnibus:,212.554,Durbin-Watson:,1.824
Prob(Omnibus):,0.0,Jarque-Bera (JB):,807.843
Skew:,1.861,Prob(JB):,3.79e-176
Kurtosis:,7.797,Cond. No.,60.2


In [8]:
# Com o atributo params, podemos acessar as estimativas dos parâmetros populacionais.
reg.params

Intercept   -0.904852
educ         0.541359
dtype: float64

In [9]:
# Com o método predict(), obtemos os valores ajustados (y_chapeu) para diferentes valores das variáveis explicativas.
reg.predict({'educ': 8})       # Obteremos o valor ajustado (salário-hora previsto em dólares de 1976) para educ = 8

0    3.426022
dtype: float64