# Econometria Aplicada

## Aula 2 - Regressão linear múltipla e formas funcionais



João Ricardo Costa Filho \\
[joaocostafilho.com](https://)

## A regressão linear múltipla

**Motivação**: \\

Qual é o efeito da educação nos salários dos trabalhadores??

Vamos utilizar os dados do livro do Wooldrige e a aplicação em R do livro do Heiss. \\

* Heiss, F. (2020). Using R for introductory econometrics (pp. 216-217). Düsseldorf, Germany, 2nd edition.

### Pacotes

In [None]:
install.packages("wooldridge")           # pacote para obter os dados do livro Introductory Econometrics: A Modern Approach, 7e by Jeffrey M. Wooldridge

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
library(wooldridge)

### Dados

In [None]:
data(wage1) # base de dados

In [None]:
?wage1

Obternha as primeiras 10 linhas da base de dados 'wage1':

Obtenha a estrutura dos dados da base 'wage1':

## Visualização dos dados

In [None]:
library(ggplot2)

Faça um histograma do salário (wage):

In [None]:

  )

Faça um histograma da educação (educ):

Faça uma dispersão entre o salário e a educação:

Estatísticas descritivas

"Anexe" a base de dados:

In [None]:
attach( wage1 )

Faça uma tabela com estatísticas descritivas  do salário e da educação que contenha (i) a média, (ii) a vraiância, (iii) o desvio padrão e (iv) o coeficiente de variação, com base no código da aula passada (por ora, vamos criar essa tabela "à mão", apenas para fins pedagógicos):

Calcule a covarância entre os salários e a educação:

Calcule a correlação entre os salários e a educação:

### Regressão

Estima a seguinte regressão: \\
\
$salario_i = \beta_0 + \beta_1 Educ_i + ɛ_i$


Faça um gráfico da dispersão entre o salário e a educação que contenha a reta da regressão estimada:

Qual é o resultado da estimativa? (Ou seja, como é a equação com os valores estimados?)

Sendo assim, qual é o valor do salário **esperado** de um trabalhador com 5 anos de educação? E de um trabalhador com 10 anos? E com 20 anos?

### Resíduos

Vamos olhar para as estatísticas referentes aos resíduos agora.

In [None]:
wage_hat = fitted( reg )

e_hat = resid( reg )

Por hipótese, temos que $E[\varepsilon] = 0$

In [None]:
round( mean( e_hat ), 10 )

Por hipótese, temos que $Cov[ \varepsilon_i, X_i ] = 0 \implies \rho( \varepsilon_i,  X_i) = 0$

In [None]:
round(cor( educ, e_hat ), 10 )

In [None]:
resid = data.frame( e_hat )

ggplot( resid ) +
  geom_histogram(aes(x = e_hat, y = ..density..), color = "black", fill = "darkred", alpha = 0.8) +
    labs(title = "Histograma dos resíduos da regressão", x = NULL, y = "Densidade") +
  theme_classic() +
  theme(
    plot.title = element_text(size = 18, face = "bold"),
    axis.title = element_text(size = 14, face = "bold"),
    axis.text = element_text(size = 12),
    strip.text = element_text(size = 12, face = "bold")
  )

## Inferência

A relação entre salários e educação é estatísticamente significativa?

Para $\hat{ \beta}_1$:

$\mathcal{H}_0: \beta_1 = 0$ \\
$\mathcal{H}_a: \beta_1 \neq 0$ \\

E a significância conjunta?

\begin{equation*}
\begin{aligned}
& \mathcal{H}_0: \beta_0 = \beta_1 = 0  \\
& \mathcal{H}_a: \beta_j \neq 0, \text{ para } j = [0,1]
\end{aligned}
\end{equation*}

### Regressão linear múltipla

Faça uma dispersão entre os salários e a experiência:

Estime a seguinte equação:

$salario_i = \beta_0 + \beta_1 Educ_i + \beta_2 Exper_i + ɛ_i$

## Formas funcionais e não-linearidades

* Termo quadrático

In [None]:
reg = lm( wage ~ educ + exper + expersq, data = wage1)

summary( reg )

Qual é o valor esperado dado que educ = 10 e exper = 10?

Qual é o valor esperado dado que educ = 10 e exper = 11?

Qual é o valor esperado dado que educ = 10 e exper = 12?

* (Semi-)Elasticidade

In [None]:
reg = lm( log( wage ) ~ educ + log( exper ), data = wage1)

summary( reg )

* Dummy

In [None]:
reg = lm( log( wage ) ~ educ + log( exper ) + married, data = wage1)

summary( reg )

# Heterocedasticidade

In [None]:
reg = lm( wage ~ educ + exper, data = wage1)

e_hat = resid( reg )

Crie um dataframe que contenha três variáveis: 'educ', 'exper' (que estão no dataframe 'wage1') e 'e_hat':

Faça uma dispersão entre 'educ' (eixo x) e os resíduos da regressão:  

Faça uma dispersão entre 'exper' (eixo x) e os resíduos da regressão:  

Teste de Breusch-Pagan:

Podemos definir a variância de $y$ como uma função das variáveis explicativas ($x_i)$:

\begin{equation}
\sigma_i^2=E\left(e_i^2\right) = h\left( \alpha_0 + \alpha_1 x_{i 1}+ \alpha_2 x_{i 2}+\ldots+\alpha_s x_{i s}\right)
\end{equation}

\begin{equation}
\begin{aligned}
& \mathcal{H}_0: \alpha_1=\alpha_2=\ldots=\alpha_s=0 \\
& \mathcal{H}_1: \text{ pelo menos um } \alpha_i \neq 0
\end{aligned}
\end{equation}

Este é um teste cuja estatística segue uma distribuição de $\chi^2$.

In [None]:
install.packages("lmtest")

In [None]:
library(lmtest)

In [None]:
bptest( reg )

O que podemos concluir?

## Como "resolver" o problema

In [None]:
install.packages("sandwich")

In [None]:
library(sandwich)

In [None]:
summary( reg )

In [None]:
coeftest( reg,
          vcov = vcovHC( reg, "HC1") )   # HC1: White standard errors