# Teorema de Bayes

O *Teorema de Bayes* é uma fórmula famosa e útil para inverter a direção de uma probabilidade condicional. É importante para muitas aplicações em aprendizado de máquina, ciência de dados e estatística. Da descoberta da eficácia de um medicamento ao Bayes Naïf em aprendizado de máquina, o Teorema de Bayes será um encontro inevitável em sua jornada.

Aprenderemos sobre o Teorema de Bayes estudando a ligação (ou a ausência dela) entre videogames e comportamento homicida. Também aprenderemos como ele pode ser aplicado à matriz de confusão, uma ferramenta de validação crítica em aprendizado de máquina.

## Fórmula do Teorema de Bayes

A fórmula do Teorema de Bayes inverte fundamentalmente a direção de uma probabilidade condicional, como transformar $ P(B|A) $ em $ P(A|B) $.

$ \Large P(A|B) = \frac{P(B|A) \times P(A)}{P(B)} $ 

Existem algumas outras peças que você precisa para realizar essa inversão. Você precisa de $ P(A) $ e $ P(B) $. Como você verá em nosso exemplo, o Teorema de Bayes é um jogo de proporções.

## Compreendendo o Teorema de Bayes

Houve diversas alegações controversas sobre uma ligação entre violência e videogames, que surgiram e desapareceram ao longo das décadas. A questão [entra e sai ciclicamente do ciclo de notícias](https://youtu.be/0oPVxqCx1Lw?si=l3jaX_flri_9TJIa), aparentemente após um evento trágico envolvendo jovens violentos. Embora jogos de tiro em primeira pessoa e títulos "classificados como M para Adultos" possam de fato ser desconfortáveis ​​ou moralmente questionáveis, precisamos considerar as evidências empíricas de que esses videogames causam comportamento homicida.

img

Digamos que um grupo de interesse especial cite dados de que 85% dos criminosos homicidas jogaram videogames violentos nos Estados Unidos.

$ P(\text{gamer}|\text{homicida}) = .85 $ 

Embora isso possa deixar políticos e a mídia em polvorosa, nunca devemos aceitar qualquer afirmação como essa como verdadeira. Poderíamos examinar minuciosamente a amostragem tendenciosa ou suposições equivocadas no estudo. Talvez até isolássemos as faixas etárias e a exposição a videogames violentos em diferentes idades. Mas, mesmo assim, mostraremos o quão marginalizado esse número se torna no panorama geral.

Considere isto: a probabilidade de alguém ser *um jogador, dado que seja homicida*, é a mesma que a probabilidade de ser *homicida, dado que seja um jogador*? A resposta é um sonoro não! Essas duas probabilidades condicionais são muito diferentes, e precisamos levar em conta a última.

$  P(\text{gamer}|\text{homicida}) = .85 $ 

$ P(\text{homicida}|\text{gamer}) = \text{ ? } $ 


Vamos reunir mais algumas estatísticas. De acordo com o Departamento Federal de Investigação (FBI), havia 17.251 criminosos homicidas conhecidos nos Estados Unidos em 2017. Havia aproximadamente 324 milhões de pessoas nos Estados Unidos naquele ano também. De acordo com minhas estimativas aproximadas baseadas em pesquisas do setor, 19% da população joga videogames violentos.

Vamos anotar essas probabilidades com base nos dados.

$  P(\text{homicida}) = \frac{17,251}{324,000,000} = .00005 $ 

$ P(\text{gamer}) = \frac{61,560,000}{324,000,000} = .19 $ 

Antes de prosseguirmos, pergunte-se o seguinte: há algo de estranho nesses dois números acima, considerando as alegações de que videogames causam comportamento homicida? Pense por um momento e siga em frente.

Raciocine novamente que 19% da população joga videogames violentos e, no entanto, apenas 0,005% da população é homicida. Se os videogames estivessem tornando as pessoas homicidas, não deveríamos estar vendo MUITO mais pessoas sendo homicidas... digamos, 19% ou algo assim? Se esses dois números parecem exagerados para você, você estaria correto em pensar assim!

A maneira de formalizar isso é usar o Teorema de Bayes, que novamente inverte uma probabilidade condicional $ P(B|A) $ em $ P(A|B) $.

$ P(A|B) = \frac{P(B|A) \times P(A)}{P(B)} $ 

If $ P(B) $ is $ P(\text{gamer}) $ and $ P(A) $ is $ P(\text{homicida}) $, então podemos substituir

$ P(\text{gamer}|\text{homicida}) = .85 $ 

$  P(\text{homicida}) = .00005 $ 

$  P(\text{gamer}) = .19 $ 

$   P(\text{homicida}|\text{gamer}) = \frac{P(\text{gamer}|\text{homicida}) \times P(\text{homicida})}{P(\text{gamer})} = \frac{.85 \times .00005}{.19} = .0002 $ 

Também podemos fazer isso em Python usando operadores aritméticos simples.

In [None]:
p_gamer_sendo_homicida = .85
p_homicida = .00005
p_gamer = .19

p_homicida_sendo_gamer = p_gamer_sendo_homicida * p_homicida / p_gamer

print(p_homicida_sendo_gamer) # 0.0002236842105263158

Uau, vamos falar sobre o elefante na sala. Claro, alguém pode afirmar que 85% dos homicidas são gamers. No entanto, apenas 0,02% dos gamers são homicidas. Vamos dar uma olhada na animação abaixo para entender o porquê e ver por que somos enganados por porcentagens.


<video src="https://github.com/thomasnield/anaconda_probability_fundamentals/raw/main/media/02_VennDiagramBayes.mp4" controls="controls" style="max-width: 730px;">
</video>


Agora, é claro, a mídia pode distorcer isso e dizer que "jogadores têm 4 vezes mais probabilidade de serem homicidas", mas a realidade é que estamos comparando números minúsculos com números minúsculos. Isso é como dizer que pessoas homicidas têm 4 vezes mais probabilidade de usar chapéus e óculos. Na prática, estamos pegando atributos comuns e associando-os a incomuns, e isso é [uma [fonte comum para muitas falácias](https://en.wikipedia.org/wiki/Base_rate_fallacy). Isso também pode aparecer em aprendizado de máquina e validação de estudos, que discutiremos a seguir.

## Teorema de Bayes e Matrizes de Confusão

Vamos aplicar o Teorema de Bayes ao aprendizado de máquina. Digamos que temos um algoritmo sofisticado de regressão logística ou aprendizado profundo que foi treinado com alguns dados e prevê se alguém tem uma doença. Queremos avaliar os resultados usando uma ferramenta chamada **matriz de confusão**, que rastreia verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.

Abaixo, um código simplificado do Scikit-learn demonstra como usar uma matriz de confusão. O `y_pred` normalmente seria a saída de teste de um modelo de classificação (por exemplo, uma regressão logística, árvore de decisão ou rede neural) e o `y_true` seriam nossos valores reais.

In [None]:
import numpy as np 
from sklearn.metrics import confusion_matrix

y_pred = np.array([1,0,1,1,1,1,0,0,0,1,1,1,1,1,1,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,1,0,0,0,1,0])
y_true = np.array([1,0,1,1,1,1,0,0,0,1,1,1,1,0,1,0,0,0,1,0,0,1,0,1,1,0,0,0,0,0,0,0,0,0,1,0])

'''
[[truepositives falsenegatives]
 [falsepositives truenegatives]]
 '''
matrix = confusion_matrix(y_true=y_true, y_pred=y_pred, normalize=None)
print(matrix)
'''
[[18  3]
 [ 1 14]]
'''

Aqui está o resultado formatado.

|          | Doença  | Sem Doença |
|----------|---------|------------|
| Positivo | 18      | 3          |
| Negativo | 1       | 14         |

Podemos calcular facilmente a partir disso que, se alguém tiver a doença, essa pessoa tem 94,7% de probabilidade de testar positivo, o que parece promissor.

$ P(\text{positivo}|\text{doença}) = \frac{18}{18+3} = 0,947 $

Mas e se essa amostra for altamente enviesada para lidar com o desequilíbrio de classes, que é um problema em aberto no aprendizado de máquina? **Desequilíbrio de classes** é não ter dados suficientes equitativamente entre os casos *verdadeiro* e *falso*. Por exemplo, se apenas 1% da população tem uma doença, isso faria com que o algoritmo de aprendizado de máquina simplesmente previsse que *ninguém* tem a doença, o que resultaria em 99% de precisão. É por isso que não podemos confiar nas métricas de precisão pelo valor de face e usar matrizes de confusão e o Teorema de Bayes de acordo.

Digamos que encontramos essa estatística, que apenas 1% da população tem a doença.

$ P(\text{doença}|\text{positivo}) = \frac{P(\text{positivo}|\text{doença}) \times P(\text{doença})}{P(\text{positivo})} $

$ P(\text{doença}|\text{positivo}) = \frac{.947 \times .01}{.583} = \textbf{.016} $

Droga! Então você quer me dizer que, se considerarmos 1% da população realmente tendo a doença, a probabilidade de ter a doença com um teste positivo é de apenas 1,6%? Isso só mostra como o desempenho pode despencar rapidamente e a matriz de confusão não leva em conta toda a população, especialmente se a amostra foi deliberadamente enviesada!

> 3Blue1Brown tem um ótimo vídeo sobre o [paradoxo dos testes médicos e o Teorema de Bayes.](https://www.youtube.com/watch?v=lG4VkPoG3ko)

Sejam videogames violentos, validação de aprendizado de máquina ou testes médicos, o Teorema de Bayes nos mostra como podemos ser facilmente enganados por porcentagens e como devemos sempre nos avaliar adequadamente.

## Constante de Normalização## Normalizing Constant

Ao resolver problemas de probabilidade condicional e Teorema de Bayes, você pode ocasionalmente precisar trabalhar com probabilidades quando um evento NÃO acontece. Felizmente, existe uma fórmula útil de probabilidade condicional chamada **constante de normalização** que nos ajudará a identificar essas probabilidades de eventos negadas.

$ \Large P(A) = P(A|B) \times P(B) + P(A|'B) \times P('B) $ 

Digamos que haja 30% de chance de chover $ A $ hoje e 40% de chance de seu pedido de guarda-chuva chegar no horário. Mas se chover, há apenas 20% de chance de seu pedido chegar no horário. Para fazer compras, não precisa chover, caso contrário, seu guarda-chuva chegará.

Portanto, o seguinte é obtido imediatamente do problema acima.

$  P(\text{chuva}) = .3 $

$  P(\text{no horário}) = .4 $

$  P(\text{no horário}|\text{chuva}) = .2 $

But we need to find the probability of $ P(\text{no horário}|\text{sem chuva}) $. Thankfully we can use the normalizing constant formula to solve this.

$  P(A) = P(A|B) \times P(B) + P(A|'B) \times P('B) $ 

$  P(\text{no horário}) = P(\text{no horário}|\text{chuva}) \times P(\text{chuva}) + P(\text{no horário}|\text{sem chuva}) \times P(\text{sem chuva}) $ 


Substitute the values we do have and then solve algebraically for $  P(\text{on time}|\text{no rain}) $ from there. 

$  .4 = .2 \times .3 + P(\text{no horário}|\text{sem chuva}) \times (1 - .3) $ 

$  P(\text{no horário}|\text{sem chuva}) = \mathbf{.486} $

Agora temos tudo o que precisamos para calcular nossa probabilidade de união. Lembre-se, queríamos encontrar a probabilidade de não chover ou de o guarda-chuva chegar na hora certa.

$  P(\text{sem chuva} \cup \text{no horário}) = P(\text{sem chuva}) + P(\text{no horário}) - P(\text{sem chuva}) \times P(\text{no horário}|\text{sem chuva}) $ 

$  P(\text{sem chuva} \cup \text{no horário})  = 7 + .4 - .7 \times .486 = \mathbf{.7598} $ 

Portanto, há uma probabilidade de 75,98% de conseguirmos fazer nossas tarefas (se não chover *OU* o guarda-chuva chegar na hora certa).

## Exercício

Uma empresa de carros elétricos anunciou que possui um novo "sistema de IA" que detecta pneus desgastados com 95% de precisão e notifica o motorista para substituí-los.

No entanto, em um dado momento, apenas 5% dos pneus na estrada precisam ser substituídos, e o sistema sinaliza resultados positivos em 7% das vezes.

Qual é a probabilidade de um pneu estar realmente desgastado se o teste for positivo? Complete o código Python abaixo (substituindo os pontos de interrogação "?") para calcular sua resposta.

In [None]:
p_positivo_se_desgastado = .95
p_desgastado = .05
p_positivo = .07

p_desgastado_se_positivo = ? 

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

A resposta é uma probabilidade de 67,85% de que um teste positivo realmente resulte em um pneu gasto. Use o Teorema de Bayes para inverter essa probabilidade condicional, como mostrado abaixo.

In [None]:
p_positivo_se_desgastado = .95
p_desgastado = .05
p_positivo = .07


p_desgastado_se_positivo = = p_positivo_se_desgastado * p_desgastado / p_positivo
print(p_desgastado_se_positivo) # 0.6785714285714285