# Econometria Aplicada

## Aula 3 - Modelos de probabilidade (Probit e Logit)



João Ricardo Costa Filho \\
[joaocostafilho.com](https://)

## Modelos de probabilidade

**Motivação**: \\

 Jim O’Neill levanta uma hipótese no seu texto ["A Better Year for the Stock Market?"](https://github.com/costafilhojoao/Teaching/raw/main/Econometria%20Aplicada/Papers/A%20Better%20Year%20for%20Stock%20Markets_%20by%20Jim%20O'Neill%20-%20Project%20Syndicate.pdf): Se a bolsa dos EUA subir nos primeiros cinco pregões do ano, é provável que será um ano de alta. Será que isso é verdade? E será que vale para o Brasil? E para a Argentina?

### Pacotes

In [None]:
install.packages("tidyquant") # pacote para obter os dados dos índices de ações

In [None]:
library(tidyquant)

In [None]:
install.packages("tidyverse") # para manipulação de dados

In [None]:
library(tidyverse)

### Dados

Vamos baixar os índices de três bolsas:

In [None]:
indexes <- tibble(
  symbol = c(               # códigos dos índices
    "^BVSP",
    "^DJI",
    "^MERV"
  ),
  exchange = c(             # nome dos índices
    "Ibovespa",
    "Dow Jones",
    "Merval"
)
)

In [None]:
ind_quotes <- tq_get(
  indexes$symbol, get  = "stock.prices",
  from = "1995-01-01",
    to = "2022-02-01" )

Veja as 10 primeiras observações do dataframe 'ind_quotes':

Agora, veja as 10 últimas observações do mesmo dataframe:

In [None]:
tail( ind_quotes, 10 )

Veja a estrutura dos dados:

# Ibovespa

Vamos selecionar apenas os dados referentes ao Ibovespa:

In [None]:
ibov <- ind_quotes %>% filter(symbol == "^BVSP") %>%
  filter( complete.cases( open ) )

Veja os 10 últimos elementos do objeto 'ibov':

Vamos criar as variáveis:

In [None]:
base <- ibov %>%
  mutate(ano = lubridate::year(date),
         var_pos_5d = if_else( lag( close, 4 ) < close, 1, 0) ) %>%
  group_by(ano) %>%
  mutate( var_ano = if_else( ( last(close) - first(close) ) / first(close) * 100 > 0, 1, 0 ) ) %>%
  group_by(ano) %>%
    slice(5) %>%
      select( ano, var_ano, var_pos_5d )

Veja os 10 primeiros elementos do objeto 'base':

### Visualização dos dados

Faz sentido fazer um gráfico de dispersão?

In [None]:
library(ggplot2)

Faça um gráfico de dispersão entre as variáveis 'var_pos_5d' e 'var_ano' presentes no objeto 'base':

### Modelos

### [0] Modelo de probabilidade linear

Estime uma regressão linear simples entre 'var_ano' e 'var_pos_5d':

Calcule a probabilidade de variação positiva no ano, dada uma variação positiva nos primeiros cinco dias:

### [1] Probit

Vamos estimar um probit:

In [None]:
library(stats)
library(broom)

In [None]:
probit <- glm( var_ano ~ var_pos_5d, data = base, family = binomial(link = "probit"))

In [None]:
results <- tidy( probit )

In [None]:
print( results )

Qual é a probabilidade estimada quando há variação positiva nos primeiros 5 dias?

In [None]:
prob <- predict( probit, newdata = data.frame(var_pos_5d = 1), type = "response")
round( prob, 4 )

### [2] Logit

Vamos estimar um logit:

In [None]:
logit <- glm( var_ano ~ var_pos_5d, data = base, family = binomial(link = "logit"))

In [None]:
results <- tidy( logit )

In [None]:
print( results )

Qual é a probabilidade estimada quando há variação positiva nos primeiros 5 dias?

### P-seudo R²

In [None]:
install.packages("DescTools") # pacote para estatísticas descritivas, como o pseudo R²

In [None]:
library(DescTools)

Calcule o pseudo R² para o probit:

In [None]:
round( PseudoR2( probit, which = "McKelveyZavoina" ) * 100, 2 )

Calcule o pseudo R² para o logit:

In [None]:
round( PseudoR2( logit, which = "McKelveyZavoina" ) * 100, 2 )

# Dow Jones

Vamos selecionar apenas os dados referentes ao Dow Jones:

In [None]:
dji <- ind_quotes %>% filter(symbol == "^DJI") %>%
  filter( complete.cases( open ) )

Vamos criar as variáveis:

In [None]:
base <- dji %>%
  mutate(ano = lubridate::year(date),
         var_pos_5d = if_else( lag( close, 4 ) < close, 1, 0) ) %>%
  group_by(ano) %>%
  mutate( var_ano = if_else( ( last(close) - first(close) ) / first(close) * 100 > 0, 1, 0 ) ) %>%
  group_by(ano) %>%
    slice(5) %>%
      select( ano, var_ano, var_pos_5d )

### Modelos

### [1] Probit

Vamos estimar um probit:

Qual é a probabilidade estimada quando há variação positiva nos primeiros 5 dias?

### [2] Logit

Vamos estimar um logit:

Qual é a probabilidade estimada quando há variação positiva nos primeiros 5 dias?

### P-seudo R²

Calcule o pseudo R² para o probit:

Calcule o pseudo R² para o logit:

# Merval

Vamos selecionar apenas os dados referentes ao Merval:

In [None]:
merv <- ind_quotes %>% filter(symbol == "^MERV") %>%
  filter( complete.cases( open ) )

Vamos criar as variáveis:

In [None]:
base <- merv %>%
  mutate(ano = lubridate::year(date),
         var_pos_5d = if_else( lag( close, 4 ) < close, 1, 0) ) %>%
  group_by(ano) %>%
  mutate( var_ano = if_else( ( last(close) - first(close) ) / first(close) * 100 > 0, 1, 0 ) ) %>%
  group_by(ano) %>%
    slice(5) %>%
      select( ano, var_ano, var_pos_5d )

### Modelos

### [1] Probit

Vamos estimar um probit:

Qual é a probabilidade estimada quando há variação positiva nos primeiros 5 dias?

### [2] Logit

Vamos estimar um logit:

Qual é a probabilidade estimada quando há variação positiva nos primeiros 5 dias?

### P-seudo R²

Calcule o pseudo R² para o probit:

Calcule o pseudo R² para o logit: