In [None]:
'''
Introdução à Econometria - Uma abordagem moderna (Tradução da 6 edição norte-americana)
Autor: WOOLDRIDGE, J. M.
Editora: CENGAGE LEARNING

Cap. 2: Modelo de regressão simples (The Simple Regression Model)
Exemplo 2.3: Salários de diretores-executivos e retornos sobre o patrimônio
             (CEO SALARY AND RETURN ON EQUITY)
             
Arquivo com os dados: ceosal1.xls

Arquivo com dados em:
http://students.cengage.com.br/dashboard/private/livroView.jsf;jsessionid=95E9AD889A4A4B7ABBD2A5251F1E14BE?id=104577

Em caso de dúvidas ou problemas, solicitamos, por gentileza, entrar em contato pelo e-mail:
python.economia@gmail.com
'''

In [1]:
import pandas as pd
import statsmodels.formula.api as smf

In [2]:
df = pd.read_excel('ceosal1.xls',
                   header=None,
                   usecols=[0, 3],
                   names=['salary', 'roe'])

In [3]:
df.head()

Unnamed: 0,salary,roe
0,1095,14.1
1,1001,10.9
2,1122,23.5
3,578,5.9
4,1368,13.8


### Comandos sugeridos

#### Descrição básica dos dados

In [4]:
# Resumo dos dados com o método "describe()"
df.describe()

Unnamed: 0,salary,roe
count,209.0,209.0
mean,1281.119617,17.184211
std,1372.345308,8.518509
min,223.0,0.5
25%,736.0,12.4
50%,1039.0,15.5
75%,1407.0,20.0
max,14822.0,56.3


In [5]:
# Obtenção da média da coluna 'salary' com o método mean()
df['salary'].mean()

1281.1196172248804

In [6]:
# Obtenção do valor mínimo da coluna 'salary' com o método min()
df['salary'].min()

223

In [7]:
# Obtenção do valor máximo da coluna 'salary' com o método max()
df['salary'].max()

14822

#### Regressão por Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)

In [None]:
'''
Para rodar a regressão por MQO seguimos dois passos:
Passo 1) Com a função "smf.ols()" geramos um objeto do tipo "OLS". O retorno atribuímos para uma variável.
Passo 2) Com a variável criada no passo 1, utilizamos o método "fit()". O retorno, atribuímos à uma outra variável. 
         É neste Passo 2 que os cálculos para rodar a regressão são executados. 
'''

In [8]:
# Regressão pelo Método de Mínimos Quadrados Ordinários (MQO ou OLS na sigla em inglês)

modelo = smf.ols(formula='salary ~ roe', data=df) # Passo 1
reg = modelo.fit()                                # Passo 2 

In [None]:
# Abaixo, utilizamos a variável criada no Passo 2 (reg) para acessar os resultados da regressão

In [9]:
# Com o método summary() obtemos uma tabela com os principais resultados da regressão 
reg.summary()

0,1,2,3
Dep. Variable:,salary,R-squared:,0.013
Model:,OLS,Adj. R-squared:,0.008
Method:,Least Squares,F-statistic:,2.767
Date:,"Wed, 29 Jun 2022",Prob (F-statistic):,0.0978
Time:,21:35:12,Log-Likelihood:,-1804.5
No. Observations:,209,AIC:,3613.0
Df Residuals:,207,BIC:,3620.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,963.1913,213.240,4.517,0.000,542.790,1383.592
roe,18.5012,11.123,1.663,0.098,-3.428,40.431

0,1,2,3
Omnibus:,311.096,Durbin-Watson:,2.105
Prob(Omnibus):,0.0,Jarque-Bera (JB):,31120.901
Skew:,6.915,Prob(JB):,0.0
Kurtosis:,61.158,Cond. No.,43.3


In [10]:
# Com o atributo params, podemos acessar as estimativas dos parâmetros populacionais.
reg.params

Intercept    963.191327
roe           18.501187
dtype: float64

In [11]:
# Com o atributo nobs, podemos acessar o número de observações utilizadas na regressão (tamanho da amostra).
reg.nobs

209.0

In [12]:
# Com o método predict(), obtemos os valores ajustados (y_chapeu) para diferentes valores das variáveis explicativas.
reg.predict({'roe': [0, 30,]})       # Obteremos os valores ajustados (y_chapeu) para roe = 0 e roe = 30

0     963.191327
1    1518.226933
dtype: float64

In [13]:
'''Com o atributo fittedvalues, obtemos os valores ajustados (y_chapeu) para todos os valores das variáveis explicativas de
nossa amostra.'''
reg.fittedvalues

0      1224.058062
1      1164.854264
2      1397.969218
3      1072.348330
4      1218.507706
          ...     
204    1129.702009
205    1249.959724
206    1187.055688
207    1216.657587
208    1229.608418
Length: 209, dtype: float64

In [None]:
'''
Em "modelo = smf.ols(formula='salary ~ roe', data=df)" (Passo 1):
 - No primeiro argumento passado para a função, podemos omitir "formula=" e escrever apenas 'salary ~ roe'.
   Ou seja, poderíamos escrever apenas:
   modelo = smf.ols('salary ~ roe', data=df)
 
 - A variável dependente fica à esquerda do símbolo "~";
 
 - As variávels devem ser escritas conforme os nomes das colunas do DataFrame em que estão os dados;

 - Para acrescentar variáveis independentes, utilize "+". 
   Por exemplo, se tivéssemos uma outra variável "x2", poderíamos acrescentá-la à nossa regressão utilizando
   'salary ~ roe + x2'
    
 - Para executar uma regressão sem a constante, devemos acrescentar -1 à formula passada para smf.ols(). Assim, teríamos:
   modelo = smf.ols(formula='salary ~ roe - 1', data=df)    --> Regressão sem intercepto
 
 - Veja como escrever a "formula" em smf.ols() para diferentes modelos no arquivo "Exemplos de regressão"
 
'''