# Econometria Aplicada

## Formas funcionais



João Ricardo Costa Filho \\
[joaocostafilho.com](https://)

## A regressão linear múltipla

**Motivação**: \\

Qual é a relação entre capital humano e o desenvolvimento econômico?

*Institutions, Human Capital and Development de Acemoglu* de [Gallego and Robinson (2014)](https://economics.mit.edu/sites/default/files/inline-files/Institutions%2C%20Human%20Capital%20and%20Development.pdf) \\

Daron Acemoglu, Francisco A. Gallego and  James A. Robinson
Annual Reviews of Economics, January 2014, 6, 875–912.

### Dados

In [None]:
url      <- "https://economics.mit.edu/sites/default/files/inline-files/human%20capital%20and%20institutions.zip"

In [None]:
destfile <- "human_capital_institutions.zip"

In [None]:
download.file( url, destfile, mode = "wb")

In [None]:
unzip( destfile )

Como os dados estão no formato do Stata, precisamos utilizar um pacote para convertê-los para um formato que o R entenda:

In [None]:
library(haven)

Façamos o upload da base de dados:

In [None]:
dat <- haven::read_dta( "xregion_data.dta" )

Obternha as primeiras 10 linhas da base de dados:

## Visualização dos dados

Faça uma dispersão entre o log do PIB per capita (ajustado pela 'PPP') em 2005 e os anos de escolaridade da população acima de 15 anos:

### Regressões

Estime a seguinte regressão: \\
\
$$
\log(\text{GDP}_i) = \beta_0 + \beta_1 \text{yearsed}_i + \sum_j \gamma_j \text{Region}_{ij} + \varepsilon_i.
$$

Para conseguir controlar pelos efeitos fixos da região, $\sum_j \gamma_j \text{Region}_{ij}$, utilize a função 'factor' na variável 'bbb':


Adicione a linha da regressão na disperão anterior:

Estime a seguinte regressão: \\

$$
\log(\text{GDP}_i) = \beta_0 + \beta_1 \text{yearsed}_i + \beta_2 \text{capital_old}_i + \sum_j \gamma_j \text{Region}_{ij} + \varepsilon_i.
$$

Estime a seguinte regressão: \\

$$
\log(\text{GDP}_i) = \beta_0 + \beta_1 \text{yearsed}_i + \beta_2 \text{capital_old}_i + \beta_3 \text{invdistcoast}_i + \beta_4 \text{invdis2}_i + \beta_5 \text{landlocked}_i + \sum_j \gamma_j \text{Region}_{ij} + \varepsilon_i.
$$

Estime a seguinte regressão: \\

$$
\log(\text{GDP}_i) = \beta_0 + \beta_1 \text{yearsed}_i + \beta_2 \text{capital_old}_i + \beta_3 \text{invdistcoast}_i + \beta_4 \text{invdis2}_i + \beta_5 \text{landlocked}_i + \beta_6 \text{temp_avg}_i + \beta_7 \text{temp}^2_i + \sum_j \gamma_j \text{Region}_{ij} + \varepsilon_i.
$$

Estime a seguinte regressão: \\

$$
\log(\text{GDP}_i) = \beta_0 + \beta_1 \text{yearsed}_i + \beta_2 \text{capital_old}_i + \beta_3 \text{invdistcoast}_i + \beta_4 \text{invdis2}_i + \beta_5 \text{landlocked}_i + \beta_6 \text{temp_avg}_i + \beta_7 \text{temp}^2_i + \beta_8 \text{lpopd_i}_i + \sum_j \gamma_j \text{Region}_{ij} + \varepsilon_i
$$

Calculemos os erros padrões robustos (trabalharemos isso em outro notebook) para cada regressão:

In [None]:
install.packages("sandwich")

In [None]:
robust_se <- function(model) {
  sqrt(diag( sandwich::vcovHC(model, type = "HC1")))
}

In [None]:
se_m1 <- robust_se(m1)
se_m3 <- robust_se(m3)
se_m4 <- robust_se(m4)
se_m5 <- robust_se(m5)
se_m6 <- robust_se(m6)

Reproduza parcialmente a Tabela 9 do artigo:

In [None]:
install.packages("stargazer")

In [None]:
stargazer::stargazer(m1, m3, m4, m5, m6,
          type = "text",
          se = list(se_m1, se_m3, se_m4, se_m5, se_m6),
          title = "OLS regressions of lgdp on predictors",
          dep.var.labels = "Log GDP",
          keep = c("years", "capital_old", "invdistc", "invdis2", "landlocked", "temp_", "temp2", "lpopd_i"),
          digits = 3)

## Modelos restritos (aninhados; *nested*)

Consideremos o modelo com todas as variáveis. Na coluna (5) da tabela anterior, percebemos que existem variáveis cuja contrbuição individual não é estatisticamente significativa. Mas será que podemos removê-las da regressão?

Para verificarmos isso, precisamos de um teste. Primeiro, estime a regressão do modelo restrito:

Realizemos o seguinte teste:

$\mathcal{H}_0: \beta_{r1} = \beta_{r2} = \dots + \beta_{rq} = 0$ \\
$\mathcal{H}_a: \text{pelo menos um } \beta_{ri} \neq 0, i \in [1, q]$ \\

Agora, defina 'n' como o número de observações utilizadas para estimar o modelo restrito:

Define 'k' como o número de variáveis do modelo irrestrito:

Defina 'q' como o número de restrições impostas no modelo:

Precisamos calcular uma estatística $F$ tal que:

$$F = \frac{ ( SQR_{\text{restrito}} - SQR_{\text{irrestrito}} ) / q }{ SQR_{\text{irrestrito}} / ( n - k - 1 ) }.$$

Calculemos primeiro o numerador:

In [None]:
numerador   <- ( sum( mrest$residuals^2 ) - sum( m6$residuals^2 ) ) / q

E agora, o denominador:

In [None]:
denominador <- sum( m6$residuals^2 ) / ( n - k - 1 )

Finalmente, a estatística $F$ é dada por:

In [None]:
F <- numerador / denominador

cujos graus de liberdade são

In [None]:
df1 <- q
df2 <- n - k - 1

e que geram um valor-p igual a:

In [None]:
p_value <- pf( F, df1, df2, lower.tail = FALSE)

p_value

Alternativamente, podemos utilizar a função 'anova':

Qual é a conclusão do teste?

## Formas funcionais

* Termo quadrático

Consideremos o modelo completo. Qual é o efeito percentual no PIB per capita do aumento de 1 grau na temperatura média?

* Semi-Elasticidade (Log-linear)

Consideremos o modelo completo. Qual é o efeito percentual no PIB per capita do aumento de um ano nos anos de escolaridade da população acima de 15 anos em 2005?

* Elasticidade (Log-log)

Consideremos o modelo completo. Qual é o efeito percentual no PIB per capita do aumento de 1% na densidade populacional antes da colonização nos anos de escolaridade da população acima de 15 anos em 2005?

* Dummy

Consideremos o modelo completo. Qual é o efeito percentual no PIB per capita de a região ter sido uma capital?

O que as dummies construídas com a função 'factor' representam?