# Bayesian Model Averaging

Jennifer A. Hoeting, David Madigan, Adrian E. Raftery and Chris T. Volinsky

## Introdução

- Uma pesquisadora coletou dados sobre o câncer do esôfago e decidiu usar um modelo M* de regressão de perigo proporcionais para analisar os dados;

- Suponha que existe um modelo alternativo M**, que também fornece um bom ajuste aos dados, mas leva a conclusões diferentes;

- Basear as inferências apenas em M* é arriscado;

- O cálculo da (BMA) fornece uma forma de contornar este problema;

<img src="inferencia.png" width="400">


\begin{equation}
    pr(\Delta|D) = \sum_{k=1}^{K} pr(\Delta|M_{k},D)pr(M_{k}|D)
\end{equation}

onde,

- $\Delta$ é a quantidade de interesse;

- $M_k$ são os modelos considerados;

- $pr(\Delta|D)$ é a distribuição posteriori dos dados $D$;

- $pr(M_{k}|D)$ é a probabilidade posteriori para os modelos $M_k$

- $pr(\Delta|M_{k},D)$ é a distribuição posteriori para os modelos $M_k$

Esta é uma **média das distribuições posteriori** sob cada um dos modelos considerados, **ponderada pela probabilidade** do modelo posterior;

A probabilidade posteriori para o modelo $M_k$ é dada por

\begin{equation}
    pr(M_{k}|D) = \frac{pr(D|M_{k})pr(M_{k})}{\sum_{l=1}^{K} pr(D|M_{l})pr(M_{l})}
\end{equation}

onde,

- $pr(D|M_{k})$ é a probabilidade intregrada do modelo  $𝑀_𝑘$;

- $pr(M_{k})$ é a probabilidade a priori de que $M_{k}$ seja o modelo verdadeiro;

\begin{equation}
    pr(D|M_{k}) = \int pr(D|\theta_{k}, M_{k})pr(\theta_{k}|M_{k})d\theta_{k}
\end{equation}

onde, 

- $\theta_k$ é o vetor de parâmentro para o modelo $M_k$;

- $pr(\theta_k|M_k)$ é a densidade a priori sob o modelo $M_{k}$ de $\theta_{k}$ sob o modelo $M_{k}$;

- $pr(D|\theta_{k}, M_{k})$ é a probabilidade

Todas as probabilidade são implicitamente condicionada pelo conjunto de todos os modelos a serem considerados.

A média posteriori e a variância de $\Delta$ são as seguintes:
\begin{equation}
    E[\Delta|D] = \sum_{k=0}^{K} \hat{\Delta}_k pr(M_{k},D)
\end{equation}

\begin{equation}
    Var[\Delta|D] = \sum_{k=0}^{K} (Var[\Delta|D, M_{k}] + \hat{\Delta}_k^{2})pr(M_{k}|D)E[\Delta|D]^{2},
\end{equation}

\begin{equation}
    \hat{\Delta}_k = E[\Delta|D, M_k] 
\end{equation}

O cálculo da média sobre todos os modelos proporciona uma melhor capacidade de previsão da média do que usar um único modelo;

## Combinação de Modelos

- Barnard (1963): A primeira menção de combinação de modelos; 

    - Aplicando aos dados de passageiros aéreos;


- Bates e Granger (1969): Estimulou várias aplicações na economia dos anos 70;
    
    - Previsão seminal;

- Roberts (1965): Primeira aparição na literatura estatística;
    
    - Trabalho inicial relacionado com o cálculo da média (Distribuição que combina dois modelos);

- Leamer (1978): Expande esta ideia e apresenta o paradigma básico para BMA;
    
    - BMA é resposável pelas incertezas envolvendo a escolha do modelo.

- As desvantagens de descosiderar as incertezas dos modelos foram reconhecido por muitos autores;

-  George (1999): Selecionando e discutindo BMA no contexto da teoria da decisão;

- Draper (1995), Chatfield (1995), e Kass e Raftery (1995): Todos revisaram BMA e os custos de ignorar as incertezas;

## Implementação do BMA

Uma discursão geral para implemetação de BMA;

### Gerenciando Somatório

A quantidade de modelos interessantes torna impraticável o somatório;

Abordagens para este problema:

- A primeira abordagem é calcular a média sobre uma subconjunto de **modelos que são suportado** pelos dados; (Método Occam's window)

    - Eum modelo prediz o dado distante menos bem do que modelos que providência as melhores predições, então foi efetivamente desacreditado e não deve mais ser considerado;
    
    - Excluir modelos complexos que recebem menos suporte a partir dos dados que os seus homólogos mais simples;
    
\begin{equation}
    A' = \{ M_{k}: \frac{max_{l}\{pr(M_{l}|D)\}}{pr(M_{k}|D}) \leq C \}
\end{equation}


\begin{equation}
    B = \{ M_{k}: \exists M_{l} \in  A', M_{l} \subset M_{k}, \frac{pr(M_{l}|D)}{pr(M_{k}|D} > 1 \}
\end{equation}

e (1) é substituído por:

\begin{equation}
    pr(\Delta|D) = \sum_{M_{k} \in A} pr(\Delta|M_{k},D)pr(M_{k},D),
\end{equation}

onde $A = A'/B$ e todas as probabilidade são implicitamente condicional sobre o conjunde de modelos em $A$.

- Identificar os modelos em $𝐴$;


Os modelos são reduzido para menos de 100 modelos e frequentemente para menos de 10;

A segunda abordagem, a composição do modelo da cadeia de Markov Monte Carlo ( 𝑀𝐶3 ), usa o método de cadeia de Markov Monte Carlo para aproximar (1);

- O  $𝑀𝐶^3$  oferece uma flexibilidade considerável;

- As questões de convergência podem ser problemáticas;


### Calculando integrais para BMA

Outra **dificuldade na implementação do BMA** é que os **integrais** formulada em (3) e  implícita em (1) podem ser **difíceis de calcular**;

- O método de Laplace (Tierney e Kadane, 1986) pode fornecer uma excelente aproximação para  $𝑝𝑟(𝐷|𝑀𝑘)$;

- As Integrais de formulação fechada para a probabilidade marginal são avaliadas para os seguintes modelos:
    
    - Gráficos discretos (e.g., Madigan e York, 1995);
    
    - Regressão linear (e.g., Raftery, Madigan e Hoeting, 1997);

- Taplin (1993) sugeriu a aproximação  𝑝𝑟(𝐴|𝐷)  por  𝑝𝑟(𝐴|𝑀𝑘,0,𝐷)  onde 0 é a estimativa de máxima verossimilhança parâmetro vector 0; referimo-nos a isto como a "aproximação da MLE";

## Detalhes de implementação para modelos de classes específicos

### Regressão Linear: Preditores, Outiliers e Transformações

Modelo de regressão linear:

\begin{equation}
    Y = \beta_{0} + \sum_{j=1}^{p} \beta_{ij}X_{ij} + \varepsilon
\end{equation}

onde,
- $X_{i1}, \ ..., X_{ip}$ é um subconjunto de $X_{1}, \ ..., X_{k}$;


BMA procura calcular a média de todos os conjuntos possíveis de preditores

HRM99 usou a classe Box-Cox para transformações de potência para as respostas

\begin{equation}
    Y^{(\rho)} = \left\{\begin{matrix}
        \frac{y^{\rho} + 1}{\rho}, \rho \neq 0, & \\ 
        log(y), \rho = 0. & 
    \end{matrix}\right.
\end{equation}

HRM96 calcula a média sobre conjuntos de preditores e possíveis outliers

\begin{equation}
    \varepsilon \sim \left\{\begin{matrix}
        N \ (0, \sigma^{2}), \ \ \ \ w.p.(1 \ \pi ), & \\ 
        N \ (0, K^{2} \sigma^{2}), \ \ \  w.p. \pi & 
     \end{matrix}\right.
\end{equation}

- $\pi$ é a probabilidade de um outlier;

- $K^{2}$ é o parâmetro variância-inflação.