# O Teorema de Bayes

Pense Bayes, Segunda Edição

Copyright 2020 Allen B. Downey

Licença: [Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)](https://creativecommons.org/licenses/by-nc-sa/4.0/)

No capítulo anterior, derivámos o Teorema de Bayes:




Foi suficientemente fácil calcular directamente o lado esquerdo da equação, e não foi mais fácil calcular o lado direito.

Mas muitas vezes não temos um conjunto de dados completo, e nesse caso o Teorema de Bayes é mais útil.   Neste capítulo, vamos usá-lo para resolver vários problemas mais desafiantes relacionados com a probabilidade condicional.



> Suponha que existem duas tigelas de biscoitos.

>

> Taça 1 contém 30 biscoitos de baunilha e 10 biscoitos de chocolate. 

>


>

> Agora suponha que escolhe uma das taças ao acaso e, sem olhar, escolhe uma bolacha ao acaso. Se a bolacha for de baunilha, qual é a probabilidade de ter vindo da Taça 1?


Mas o que obtemos com a declaração do problema é:


* A probabilidade condicional de obter um biscoito de baunilha, dado que escolhemos de Bowl 2, $P(V | B_2)$.



O Teorema de Bayes diz-nos como eles estão relacionados:


O termo à esquerda é o que queremos. Os termos da direita são:

- $P(B_1)$, a probabilidade de termos escolhido a Taça 1,

    não condicionado pelo tipo de bolacha que temos. 

    Uma vez que o problema diz que escolhemos uma tigela ao acaso, 

    assumimos $P(B_1) = 1/2$.

- $P(V|B_1)$, a probabilidade de obter um biscoito de baunilha

    da Taça 1, que é 3/4.

- $P(V)$, a probabilidade de desenhar um biscoito de baunilha a partir de

    qualquer uma das tigelas. 

Para calcular $P(V)$, podemos utilizar a lei da probabilidade total:

$$P(V) = P(B_1)~P(V|B_1) ~+~ P(B_2)~P(V|B_2)$$

Ligando os números da declaração do problema, temos


Podemos também calcular este resultado directamente, desta forma: 

* Uma vez que tivemos as mesmas hipóteses de escolher qualquer uma das taças e as taças contêm o mesmo número de biscoitos, tivemos as mesmas hipóteses de escolher qualquer biscoito. 

* Entre as duas taças há 50 baunilhas e 30 bolachas de chocolate, portanto $P(V) = 5/8$.

Finalmente, podemos aplicar o Teorema de Bayes para calcular a probabilidade posterior da Taça 1:



forma de obter de $P(B|A)$ a $P(A|B)$. 

Esta estratégia é útil em casos como este em que é mais fácil calcular os termos do lado direito do que o termo do lado esquerdo.


Há outra forma de pensar no teorema de Bayes: dá-nos uma forma de

actualizar a probabilidade de uma hipótese, $H$, dado algum corpo de dados, $D$.

Esta interpretação é "diacrónica", o que significa "relacionada com a mudança ao longo do tempo"; neste caso, a probabilidade das hipóteses muda à medida que vemos novos dados.

Reescrever o teorema de Bayes com rendimentos de $H$ e $D$:

$$P(H|D) = \frac{P(H)~P(D|H)}{P(D)}$$

Nesta interpretação, cada termo tem um nome:

- $P(H)$ é a probabilidade da hipótese antes de vermos os dados, chamada a probabilidade anterior, ou apenas **prior***.

- $P(H|D)$ é a probabilidade da hipótese depois de vermos os dados, chamada de **posterior***.

- $P(D|H)$ é a probabilidade dos dados sob a hipótese, chamada a **probabilidade***.

- $P(D)$ é a **probabilidade total dos dados**, sob qualquer hipótese.

Por vezes, podemos calcular o anterior com base em informação de base. Por exemplo, o problema do cookie especifica que escolhemos uma tigela ao acaso com a mesma probabilidade.

Noutros casos o anterior é subjectivo; ou seja, pessoas razoáveis podem discordar, ou porque utilizam informações de base diferentes ou porque interpretam a mesma informação de forma diferente.

A probabilidade é geralmente a parte mais fácil de calcular. No cookie

problema, é-nos dado o número de cookies em cada tigela, para que possamos calcular a probabilidade dos dados sob cada hipótese.

A computação da probabilidade total dos dados pode ser complicada. 

É suposto ser a probabilidade de ver os dados sob qualquer hipótese, mas pode ser difícil perceber o que isso significa.

Na maioria das vezes simplificamos as coisas especificando um conjunto de hipóteses que

são:

* mutuamente exclusivas, o que significa que apenas uma delas pode ser verdadeira, e

* Colectivamente exaustiva, o que significa que uma delas deve ser verdadeira.

Quando estas condições se aplicam, podemos calcular $P(D)$ utilizando a lei da probabilidade total.  Por exemplo, com duas hipóteses, $H_1$ e $H_2$:



$$P(D) = \sum_i P(H_i)~P(D|H_i)$$



## Mesas Bayes

Uma ferramenta conveniente para fazer uma actualização Bayesiana é uma tabela Bayes.

Pode escrever uma tabela Bayes em papel ou utilizar uma folha de cálculo, mas nesta secção vou utilizar um Pandas `DataFrame`.

Primeiro vou fazer um "DataFrame" vazio com uma fila para cada hipótese:

In [1]:
import pandas as pd

table = pd.DataFrame(index=['Bowl 1', 'Bowl 2'])

Agora vou acrescentar uma coluna para representar os antecedentes:

In [2]:
table['prior'] = 1/2, 1/2
table

E uma coluna para as probabilidades:

In [3]:
table['likelihood'] = 3/4, 1/2
table

Aqui vemos uma diferença em relação ao método anterior: calculamos as probabilidades para ambas as hipóteses, não apenas para a Taça 1:

* A hipótese de obter um biscoito de baunilha da Taça 1 é de 3/4.

* A hipótese de obter um biscoito de baunilha do Bowl 2 é 1/2.

Pode reparar que as probabilidades não se somam a 1; cada uma delas é uma probabilidade condicionada a uma hipótese diferente.

Não há razão para que somem 1 e não há problema se não o fizerem.

O passo seguinte é semelhante ao que fizemos com o Teorema de Bayes; multiplicamos os antecedentes pelas probabilidades:

In [4]:
table['unnorm'] = table['prior'] * table['likelihood']
table



que é o numerador do Teorema de Bayes. 

Se os somarmos, temos

$$P(B_1)~P(D|B_1) + P(B_2)~P(D|B_2)$$

que é o denominador do Teorema de Bayes, $P(D)$.

Assim, podemos calcular a probabilidade total dos dados desta forma:

In [5]:
prob_data = table['unnorm'].sum()
prob_data

Note-se que obtemos 5/8, que é o que obtivemos ao computar $P(D)$ directamente.

E podemos calcular as probabilidades posteriores desta forma:

In [6]:
table['posterior'] = table['unnorm'] / prob_data
table

A probabilidade posterior para a Taça 1 é de 0,6, que é o que obtivemos utilizando explicitamente o Teorema de Bayes.

Como bónus, obtemos também a probabilidade posterior do Bowl 2, que é de 0,4.

Quando somamos os posteriors não normalizados e dividimos, forçamos os posteriors a somar até 1. Este processo chama-se "normalização", razão pela qual a probabilidade total dos dados é também chamada de "constante normalizadora".


Uma mesa Bayes também pode resolver problemas com mais de duas hipóteses.  Por exemplo:



probabilidades. Os dados são o meu relatório de que o resultado é um 1. 

Se eu escolher o dado de 6 lados, a probabilidade dos dados é

1/6. Se eu escolher o dado de 8 lados, a probabilidade é de 1/8, e se eu escolher o dado de 12 lados, é de 1/12.

Aqui está uma tabela Bayes que utiliza números inteiros para representar as hipóteses:

In [7]:
table2 = pd.DataFrame(index=[6, 8, 12])

Vou utilizar fracções para representar as probabilidades anteriores e as probabilidades.  Dessa forma, não são arredondadas para números de ponto flutuante.

In [8]:
from fractions import Fraction

table2['prior'] = Fraction(1, 3)
table2['likelihood'] = Fraction(1, 6), Fraction(1, 8), Fraction(1, 12)
table2

Uma vez que se tenha antecedentes e likelhoods, os restantes passos são sempre os mesmos, por isso vou colocá-los numa função:

In [9]:
def update(table):
    """Compute the posterior probabilities."""
    table['unnorm'] = table['prior'] * table['likelihood']
    prob_data = table['unnorm'].sum()
    table['posterior'] = table['unnorm'] / prob_data
    return prob_data

E chamem-lhe assim.

In [10]:
prob_data = update(table2)

Aqui está a mesa final de Bayes:

In [11]:
table2


Intuitivamente, o dado de 6 lados é o mais provável porque tinha a maior probabilidade de produzir o resultado a que assistimos.

## O problema do Monty Hall

A seguir utilizaremos uma mesa Bayes para resolver um dos problemas mais controversos em termos de probabilidade.

O problema do Monty Hall baseia-se numa feira de jogos chamada *Let's Make a Deal*. Se for um concorrente no espectáculo, eis como o jogo funciona:

* O anfitrião, Monty Hall, mostra-lhe três portas fechadas -- numeradas 1, 2, e 3 -- e diz-lhe que há um prémio atrás de cada porta.

* Um prémio é valioso (tradicionalmente um carro), os outros dois são menos valiosos (tradicionalmente cabras).

* O objectivo do jogo é adivinhar qual a porta que tem o carro. Se adivinhar bem, pode ficar com o carro.

Suponhamos que escolhe a Porta 1. Antes de abrir a porta que escolheu, Monty abre a Porta 3 e revela uma cabra. Depois Monty oferece-lhe a opção de ficar com a sua escolha original ou mudar para a porta restante por abrir.

Para maximizar as suas hipóteses de ganhar o carro, deve ficar com a Porta 1 ou mudar para a Porta 2?

Para responder a esta pergunta, temos de fazer algumas suposições sobre o comportamento do hospedeiro:

1.  Monty abre sempre uma porta e oferece-lhe a opção de trocar.

2.  Ele nunca abre a porta que escolheu ou a porta com o carro.

3.  Se escolher a porta com o carro, ele escolhe uma das outras

    portas ao acaso.

Sob estes pressupostos, é melhor desligar. 

Se ficar, ganha $1/3$ do tempo. Se trocar, ganha $2/3$ do tempo.

Se não encontrou este problema antes, poderá descobrir que

responder surpreendente. Não estaria sozinho; muitas pessoas têm o forte

intuição de que não importa se se cola ou se troca. Há dois

portas à esquerda, eles raciocinam, pelo que a hipótese de o carro estar atrás da Porta A é de 50%. Mas isso é errado.

Para ver porquê, pode ajudar a utilizar uma mesa Bayes. Começamos com três

hipóteses: o carro pode estar atrás da Porta 1, 2, ou 3. De acordo com a

declaração do problema, a probabilidade prévia para cada porta é de 1/3.

In [12]:
table3 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3'])
table3['prior'] = Fraction(1, 3)
table3

Os dados são que Monty abriu a Porta 3 e revelou uma cabra. Por isso, vamos

considerar a probabilidade dos dados sob cada hipótese:

* Se o carro estiver atrás da Porta 1, Monty escolhe a Porta 2 ou 3 ao acaso, portanto a probabilidade de ele abrir a Porta 3 é de $1/2$.

* Se o carro estiver atrás da Porta 2, Monty tem de abrir a Porta 3, pelo que a probabilidade dos dados sob esta hipótese é 1.

* Se o carro estiver atrás da Porta 3, Monty não o abre, pelo que a probabilidade dos dados sob esta hipótese é 0.

Aqui estão as probabilidades. 

In [13]:
table3['likelihood'] = Fraction(1, 2), 1, 0
table3

In [14]:
update(table3)
table3

Depois de Monty abrir a Porta 3, a probabilidade posterior da Porta 1 é de $1/3$;

a probabilidade posterior da Porta 2 é de $2/3$.

Portanto, é melhor passar da Porta 1 para a Porta 2.

Como este exemplo mostra, a nossa intuição para a probabilidade nem sempre é

fiável. 

O Teorema de Bayes pode ajudar, fornecendo uma estratégia de dividir e conquistar:

1.  Primeiro, anotar as hipóteses e os dados.

2.  A seguir, descubra as probabilidades anteriores.

3.  Finalmente, calcular a probabilidade dos dados sob cada hipótese.

A mesa Bayes faz o resto.

## Resumo

Neste capítulo resolvemos o Problema dos Biscoitos usando explicitamente o teorema de Bayes e utilizando uma mesa de Bayes.

Não há uma diferença real entre estes métodos, mas a tabela Bayes pode facilitar o cálculo da probabilidade total dos dados, especialmente para problemas com mais de duas hipóteses.

Depois resolvemos o Problema dos Dados, que voltaremos a ver no próximo capítulo, e o Problema do Monty Hall, que poderá esperar nunca mais voltar a ver.

Se o problema de Monty Hall lhe faz doer a cabeça, não está sozinho.  Mas penso que demonstra o poder do Teorema de Bayes como uma estratégia de dividir e conquistar para resolver problemas complicados.  E espero que forneça alguma visão sobre *porquê* a resposta é o que é.

Quando Monty abre uma porta, ele fornece informações que podemos utilizar para actualizar a nossa crença sobre a localização do carro.  Parte da informação é óbvia.  Se ele abrir a Porta 3, sabemos que o carro não está atrás da Porta 3.  Mas parte da informação é mais subtil.  A Porta de Abertura 3 é mais provável se o carro estiver atrás da Porta 2, e menos provável se estiver atrás da Porta 1.  Portanto, os dados são provas a favor da Porta 2.  Voltaremos a esta noção de prova em capítulos futuros.


Mas primeiro, talvez queira trabalhar nos exercícios.

## Exercícios

**Exercício:** Suponha que tem duas moedas numa caixa.


Qual é a probabilidade de ter escolhido a moeda com truque?

In [15]:
# Solution goes here

**Exercício:** Suponha que conhece alguém e aprende que ele tem dois filhos.

Pergunta-se se uma das crianças é uma menina e eles dizem que sim.

Qual é a probabilidade de que ambas as crianças sejam raparigas?

Dica: Comece com quatro hipóteses igualmente prováveis.

In [16]:
# Solution goes here

**Exercício:** Há muitas variações do [Monty Hall problem](https://en.wikipedia.org/wiki/Monty_Hall_problem).  

Por exemplo, suponha que Monty escolhe sempre a Porta 2 se puder, e

só escolhe a Porta 3 se for necessário (porque o carro está atrás da Porta 2).

Se escolher a Porta 1 e Monty abre a Porta 2, qual é a probabilidade de o carro estar atrás da Porta 3?

Se escolher a Porta 1 e Monty abre a Porta 3, qual é a probabilidade de o carro estar atrás da Porta 2?

In [17]:
# Solution goes here

In [18]:
# Solution goes here

**Exercício:** M&M's são pequenos chocolates revestidos a bombons que vêm numa variedade de cores.  

A Mars, Inc., que faz M&M's, muda a mistura de cores de tempos a tempos.

Em 1995, eles introduziram os M&M's azuis.  

* Em 1994, a mistura de cores num saco de M&M's simples era 30% castanho, 20% amarelo, 20% vermelho, 10% verde, 10% laranja, 10% bronzeado.  


Suponha que um amigo meu tem dois sacos de M&M's, e ele diz-me

que é de 1994 e um de 1996.  Ele não me vai dizer qual é

que, mas ele dá-me um M&M de cada saco.  Um é amarelo e

um é verde.  Qual é a probabilidade de o amarelo ter vindo

do saco de 1994?



In [19]:
# Solution goes here